CN1169753A

CN1169753A - 诊断乳房癌和卵巢癌倾向性的方法

Info

Publication number: CN1169753A
Application number: CN 95195259
Authority: CN
Inventors: M·H·斯科尔尼克; D·E·戈德加; Y·米基; J·斯温森; A·坎巴; K·D·哈什曼; D·M·沙特克-艾登斯; S·V·塔武提金; R·W·怀斯曼; P·A·富特利尔
Original assignee: GOVERNMENT OF United States, RE; University of Utah Research Foundation UURF; Myriad Genetics Inc
Current assignee: GOVERNMENT OF United States, RE; University of Utah Research Foundation UURF; Myriad Genetics Inc
Priority date: 1994-08-12
Filing date: 1995-08-11
Publication date: 1998-01-07

Abstract

本发明一般涉及人类遗传学领域。具体地,本发明涉及用于分离和检测人乳房癌和卵巢癌倾向性基因(BRCA1)的方法和材料,该基因的某些突变型等位基因造成癌症尤其是乳房和卵巢癌的易患性。更具体地,本发明涉及BRCA1基因的种系突变及其在诊断乳房癌和卵巢癌倾向性方面的用途。本发明还涉及在人乳房癌和卵巢癌中BRCA1基因的体细胞突变及其在诊断和预后乳房癌和卵巢癌方面的用途。此外,本发明还涉及在其他的人癌肿中的BRCA1基因体细胞突变及其在人癌肿的诊断和预后方面的用途。本发明还涉及BRCA1基因发生突变的人癌肿的治疗,它包括基因治疗、蛋白质置换治疗和蛋白质模拟物。本发明还涉及筛选用于癌肿治疗的药物。最后,本发明涉及筛选BRCA1基因的突变,而这些突变可用于诊断乳房癌和卵巢癌的倾向性。

Description

诊断乳房癌和卵巢癌倾向性的方法

发明领域

本发明一般涉及人类遗传学领域。具体地，本发明涉及用于分离和检测人乳房癌和卵巢癌倾向性基因(BRCA1)的方法和材料，该基因的某些突变型等位基因造成癌症尤其是乳房和卵巢癌的易患性。更具体地，本发明涉及BRCA1基因的种系突变及其在诊断乳房癌和卵巢癌倾向性方面的用途。本发明还涉及在人乳房癌和卵巢癌中BRCA1基因的体细胞突变及其在诊断和预后乳房癌和卵巢癌倾向性方面的用途。此外，本发明还涉及在其他的人癌肿中的BRCA1基因体细胞突变及其在人癌肿的诊断和预后方面的用途。本发明还涉及BRCA1基因发生突变的人癌肿的治疗，它包括基因治疗、蛋白质置换治疗和蛋白质模拟物(mimetics)。本发明还涉及筛选用于癌肿治疗的药物。最后，本发明涉及筛选BRCA1基因的突变，而这些突变可用于诊断乳房癌和卵巢癌的倾向性。

此处用来说明本发明的背景、尤其用来对实施提供额外细节的出版物和其他材料，在本申请中结合引用作为参考，并且为了方便起见，在下文中按作者和日期进行引用而且分别归类在所附的参考文献清单中。

发明背景

癌肿遗传学非常复杂，涉及多个显性的、转化状态的正调节物(癌基因)以及多个隐性的、负调节物(肿瘤抑制基因)。已经确定了超过100种的癌基因。被鉴定的肿瘤抑制基因还不到12种，但是预计该数目会增加至超过50种(Knudson，1993)。

牵涉这么多基因强调了为了维持正常组织的完整性而在细胞中发挥作用的生长调控机制的复杂性。这种复杂性还通过另一种方式体现。迄今为止，还没有单个基因参与所有的、或者绝大多数的人癌肿的进程。最常见的癌基因突变是在H-ras基因中，在所有实体瘤的10-15％中有此种突变发现(Anderson等人，1992)。突变频率最高的肿瘤抑制基因是TP53基因(在约50％所有肿瘤中纯合缺失)和CDKN2(在46％检查的肿瘤细胞系中纯合缺失)(Kamb等人，1994)。没有一个共同的针对所有转化细胞的靶目标，就不可能寻找到能够摧毁或逆转癌细胞而又不损害正常细胞的“魔弹”。新一代特异性导向式抗肿瘤药物的希望便寄托在能够鉴定出在细胞分裂调控中起普遍作用的肿瘤抑制基因或癌基因。

已经克隆和确定的肿瘤抑制基因影响对下列癌肿的易患性：1)成视网膜细胞瘤(RB1)；2)Wilms瘤(WT1)；3)Li-Fraumeni(TP53)；4)家族性多发性腺癌(APC)；5)I型神经纤维瘤病(NF1)；6)II型神经纤维瘤(NF2)；7)von Hippel-Lindau综合征(VHL)；8)2A型多发性内分泌腺瘤病(MEN2A)和黑素瘤(CDKN2)。

已经确定遗传图谱但还没有被分离的肿瘤抑制基因的基因座包括下列基因：I型多发性内分泌腺瘤病(MEN1)；II型Lynch癌家族性综合征(LCFS2)；神经母细胞瘤(NB)；基底细胞痣综合征(BCNS)；Beckwith-Wiedemann综合征(BWS)；肾细胞癌(RCC)；I型结节性硬化(TSC1)和II型结节性硬化(TSC2)。目前已经定性的肿瘤抑制基因，它们编码与多种蛋白质类型具有相似性的产物，其中包括DNA结合蛋白(WT1)、辅助性转录调节蛋白(RB1)、GTP酶活化蛋白(又称为GAP)(NF1)、细胞骨架组份(NF2)、膜结合受体激酶(MEN2A)、细胞周期调控蛋白(CDKN2)，还编码其他的与已知的蛋白质没有明显相似性的产物(APC和VHL)。

在大多数情况下，最初通过遗传学研究而鉴别的肿瘤抑制基因已表明在某些偶发的肿瘤中是缺失的或突变的。该结果暗示，染色体异常的区域可用于表明在癌肿的遗传倾向和偶发癌肿中所涉及的重要的肿瘤抑制基因的位置。

迄今为止确定的数种肿瘤抑制基因的特征之一是，它们在某些肿瘤类型中高频率地缺失。缺失常常涉及失去一个等位基因，即所谓的杂合性丢失(loss ofheterozygosity，简称LOH)，但是也涉及两个等位基因的纯合缺失(homozygousdeletion)。对于LOH，余下的等位基因被认为不起作用，其原因或者是因为已有的遗传突变，或者是因为第二次的偶发突变。

乳房癌是影响妇女的最主要疾病中的一种。在目前水平，在95岁之前每8个美国妇女中有1个会得乳房癌(美国癌症协会，1992)。晚期乳房癌的治疗通常是徒劳的而且破坏形体，这使该病的早期检测在医疗中占优先地位。卵巢癌尽管比乳房癌的发病率低，但是通常快速致命而且是美国妇女中死亡率占第4位的肿瘤种类。由遗传因子造成的乳房癌发生比例还不清楚，估计为所有病例的约5％，但是占40岁前诊断病例的约25％(Claus等人，1991)。根据年龄特异性发病曲线在50岁左右的拐折，将乳房癌细分成两种类型：早发型和晚发型。一个基因即BRCA1的突变被认为造成约45％的家族性乳房癌，但是造成至少80％同时有乳房癌和卵巢癌的家族(Easton等人，1993)。

分离BRCA1基因的深入努力，从1990年其被首次定位后便已开始(Hall等人，1990；Narod等人，1991)。第2个基因座BRCA2已经被定位在染色体13q(Wooster等人，1994)，并且似乎造成比例与BRCA1大致相等的早发型乳房癌，但是造成的卵巢癌危险性较低。早发型乳房癌的其余易患性被分成两类：还未定位的家族性癌肿和更罕见的种系基因突变如TP53的突变(Malkin等人，1990)。还提出，缺陷型Ataxia-Telangectasia基因的杂合子携带者是高危乳房癌患者(Swift等人，1976；Swift等人，1991)。晚发型乳房癌经常也是家族性的，尽管在亲属中发病的风险没有早发型乳房癌中那么高(Cannon-Albright等人，1994；Mettlin等人)。但是，还不清楚由遗传易患性造成的该病例的百分比。

乳房癌长久以来被认为，部分是家族性疾病(Anderson，1972)。许多研究者已研究了基因遗传的证据并得出结论，数据与主易患性基因座的显性遗传完全一致(Bishop和Gardner，1980；Go等人，1983；Willams和Anderson，1984；Bishop等人，1988；Newman等人，1988；Claus等人，1991)。最近的结果显示，存在至少3个基因座携带乳房癌和其他癌肿的易患性。这些基因座是位于染色体17p上的TP53(Malkin等人，1990)、与17q连锁的易患性基因座BRCA1(Hall等人，1990)和一个或多个负责未定位地剩余部分的基因座。Hall等人(1990)指出，在亲缘族中早发型遗传性乳房癌的易患性与染色体17q21连锁；尽管该小组随后使用更合适的遗传模型进行的研究与局限于早发型乳房癌的结论有些出入(Margaritte等人，1992)。

克隆与17q连锁的乳房癌倾向性基因(BRCA1)的许多方案需要精确的基因定位研究。对于BRCA1功能作用的最简单模型认为，使人倾向于患癌肿的BRCA1等位基因相对野生型等位基因是隐性的；即含有至少一个野生型BRCA1等位基因的细胞不是癌肿性的。但是含有一个野生型BRCA1等位基因和一个倾向性等位基因的细胞偶尔会因随机突变或细胞分裂过程中染色体丢失(未分离)而丢失野生型等位基因。该突变细胞的所有子代缺乏BRCA1的野生型功能，并可能发展成肿瘤。根据这一模型，BRCA1倾向性等位基因是隐性的，因而肿瘤易患性以显性方式遗传：具有一个倾向性等位基因(和一个野生型等位基因)的妇女易患癌肿，因为她们的乳房上皮细胞可自发地丢失野生型BRCA1等位基因。该模型适用于一组癌肿易患性基因座即肿瘤抑制基因或抗癌基因，这一组基因包括成视网膜细胞瘤基因和神经纤维瘤基因。通过推理，该模型也可解释BRCA1功能，正如最近所揭示的那样(Smith等人，1992)。

第二种可能性是BRCA1倾向性等位基因是完全显性的；即BRCA1野生型等位基因不能阻止倾向性等位基因形成肿瘤的功能。因此，携带野生型和突变型等位基因的细胞在发展成恶性细胞之前不必丢失BRCA1的野生型拷贝。易患个体中的乳房细胞会发生某些其他的随机变化，从而导致癌肿。

如果BRCA1倾向性等位基因是隐性的，那么BRCA1基因预计会在正常的乳房组织中表达，但是不会在乳房肿瘤中功能性地表达。相反，如果BRCA1倾向性等位基因是显性的，那么野生型BRCA1基因在正常乳房组织中可能表达或可能不表达。但是，倾向性等位基因在乳房肿瘤细胞中应是表达的。

BRCA1与17q的连锁关系分别在5个患有乳房癌和卵巢癌两种癌肿的亲缘族中的3个中得到了证实(Narod等人，1991)。这些研究声称将基因定位在一个非常大的(15厘摩(centiMorgan，cM)或约15,000,000碱基对)、在连锁标记pCMM86(D17S74)侧翼的区域中。但是，使用pCMMS6周围的标记进一步通过遗传学研究确定区域的尝试证明是不成功的。随后的研究表明，基因是相当邻近的(Easton等人，1993)，而且最初的分析是有缺点的(Margaritte等人，1992)。Hall等人(1992)最近将BRCA1基因定位于约8cM(约8百万碱基对)的间距中，两侧为近端的Mfd15(D17S250)和远端的人GIP基因。根据公开的资料，稍为更窄的BRCA1基因座间距，在1992年3月的17号染色体研讨会(Fain，1992)上达成共识。这些区域的大小和与其相关的不确定性使人们难于设计和完成物理图谱和/或用于分离BRCA1基因的克隆方案。

鉴定乳房癌易患性基因座可以便于早期检测易患个体并大大增加我们了解导致癌肿的最初步骤。因为易患性基因座常常在肿瘤发展中改变，所以克隆这些基因在开发更佳的诊断和预后产品以及更好的癌肿疗法方面也是重要的。

发明概述

本发明一般涉及人类遗传学领域。具体地，本发明涉及用于分离和检测人乳房癌倾向性基因(BRCA1)的方法和材料，该基因的某些等位基因造成癌症尤其是乳房和卵巢癌的易患性。更具体地，本发明涉及BRCA1基因的种系突变及其在诊断乳房癌和卵巢癌倾向性方面的用途。本发明还涉及在人乳房癌中BRCA1基因的体细胞突变及其在诊断和预后乳房癌和卵巢癌倾向性方面的用途。此外，本发明还涉及在其他的人癌肿中的BRCA1基因体细胞突变及其在人癌肿的诊断和预后方面的用途。本发明还涉及治疗BRCA1基因发生突变的人癌肿的方法，它包括基因治疗、蛋白质置换治疗和蛋白质模拟物。本发明还涉及筛选用于癌肿治疗的药物。最后，本发明涉及筛选BRCA1基因的突变，而这些突变可用于诊断乳房癌和卵巢癌的倾向性。

附图简述

图1显示了17号染色体研讨会所确定的BRCA1周围的基因座次序。图1从Fain(1992)复制而来。

图2是界定Mfd15-Mfd188区域部分的YAC示意图。

图3是在BRCA1区域中的STS、P1和BAC的示意图。

图4是人17号染色体的示意图。含有BRCA1的有关区域被放大，以显示以前鉴定的2个基因CA125和RNU2的相对位置，BRCA1横跨标记D17S855。

图5显示了BRCA1锌指域(zinc-finger domain)与在Smith-Waterman排列中得分最高的3个其他的锌指域的排列图。RPT1编码的蛋白质似乎是鼠IL-2受体的负调控物。RIN1编码的DNA结合蛋白具有一个与锌指相关的RING-指基序(motif)。RFP1编码推断的转录因子，该因子是RET癌基因产物的N末端结构域。底线含有C3HC4共有锌指序列，显示了形成锌离子结合袋的半胱氨酸和组氨酸的位置。

图6是BRCA1 mRNA图，显示了内含子位置和通过不同剪接而形成的BRCA1mRNA变异形式。内含子位置用黑色三角形表示，外显子在表示cDNA的直线下方给出编号。顶部的cDNA是用于产生BRCA1肽序列的复合物。鉴别为cDNA克隆或杂交体选择克隆的其他形式显示在下方。

图7显示了BRCA1的组织表达格局。印迹从Clontech获得并含有来自所示组织的RNA。杂交条件如制造商所建议，并使用由BRCA1核苷酸3631位-3930位构成的探针。注意，乳房和卵巢是异源组织，而且相关上皮细胞的百分比是可变的。分子量标准为“千碱基”。

图8是5′不翻译区加上BRCA1翻译区开始部分的示意图，它显示了内含子的位置和通过不同剪接而形成的BRCA1 mRNA变异形式。内含子位置用虚线表示。显示了6种不同的剪接形式。

图9显示了亲缘族2082中的无义突变。P表示最初筛选到的人，b和c是单倍型携带者，a、d、e、f和g不携带BRCA1单倍型。C突变为T形成一个终止密码子并且形成一个限制酶AvrII位点。PCR扩增产物用该酶进行切割。携带者的位点是杂合的，所以显示3个条带。非携带者保持未切割状态。

图9B显示了在BRCA1亲缘族中的突变和共分离分析。携带者个体在谱系图中用实心圆圈和方块表示。在亲缘族1910中有移码突变。前3个泳道是对照用非携带者样本。标为1-3的泳道含有携带者个体的序列。泳道4含有的DNA来自不携带BRCA1突变的亲缘族成员。菱形表示妨碍了亲缘族的鉴别。由额外的C造成的移码突变在标为1、2和3的泳道中是明显的。

图9C显示了在BRCA1亲缘族中的突变和共分离分析。携带者个体在谱系图中用实心圆圈和方块表示。亲缘族2035中有推断的调控突变。显示了2种不同多态性(PM1和PM7)的携带者和非携带者的ASO分析，检查了他们种系的杂合性并与淋巴细胞mRNA的杂合性进行比较。图板中上方的2行含有从基因组DNA中扩增而得的PCR产物，下方2行含有从cDNA扩增而得的PCR产物。“A”和“G”是被ASO检测的2个等位基因。黑点表示在样本中存在特定的等位基因。PM7的前3列表示一般人群中的3种基因型。

图10A-10H显示了BRCA1的基因组序列。小写字母表示内含子序列，而大写字母表示外显子序列。在内含子中的不确定间隔部分用vvvvvvvvvvvvv表示。已知的多态性位点用下划线和粗体字型表示。

发明详述

本发明提供了一种分离的多聚核苷酸，它含有所有或部分的BRCA1基因座或突变的BRCA1基因座，长度较佳地为至少8个碱基和不超过约100kb。这种多聚核苷酸可以是反义多聚核苷酸。本发明还提供了含有这种分离的多聚核苷酸的重组构建物，例如适合在转化的宿主细胞中表达的重组构建物。

本发明还提供了在分析物中检测含有部分BRCA1基因座的多聚核苷酸或其表达产物的方法。这些方法还可含有扩增部分BRCA1基因座的步骤，并且还可含有提供一套多聚核苷酸(作为扩增该部分BRCA1基因座的引物)的步骤。该方法可用于诊断癌肿的倾向性，或用于诊断或预后癌肿。

本发明还提供了分离的抗体，较佳地是单克隆抗体，该抗体特异性地与分离的、含有至少5个由BRCA1基因座编码的氨基酸残基的多肽结合。

本发明还提供了用于在分析物中检测含有部分BRCA1基因座的多聚核苷酸的试剂盒，该试剂盒包括包装在适当容器中的、与部分BRCA1基因座互补的多聚核苷酸以及使用说明。

本发明还提供了制备一种多聚核苷酸的方法，它包括步骤：聚合核苷酸从而产生含有BRCA1基因座至少8个连续核苷酸的序列；还提供了制备多肽的方法，它包括步骤：聚合氨基酸从而产生含有至少5个由BRCA1基因座编码的氨基酸的序列。

本发明还提供了筛选BRCA1基因以鉴别突变的方法。这些方法还可包括扩增部分BRCA1基因座的步骤，并且还可含有提供一套多聚核苷酸(作为扩增该部分BRCA1基因座的引物)的步骤。该方法可用于诊断癌肿的倾向性，或用于诊断或预后癌肿。

本发明还提供了筛选可疑BRCA1突变型等位基因以鉴别BRCA1基因中突变的方法。

此外，本发明提供了筛选用于癌肿治疗的药物的方法，以便鉴别出合适的、能恢复BRCA1基因产物功能的药物。

最后，本发明提供了针对癌肿细胞的基因治疗所需的手段。这些治疗试剂可以利用含有全部或部分BRCA1基因座的多聚核苷酸，将其置于合适的载体或用更直接的方法将其送递入该靶细胞，从而恢复BRCA1蛋白质的功能。治疗试剂也可以利用基于部分或全部BRCA1蛋白质序列的多肽。这些多肽可在体内在功能上替代BRCA1的活性。

本发明发现，使个体倾向患乳房癌的BRCA1基因座是编码BRCA1蛋白的基因，已发现它与已知的蛋白质或DNA序列没有显著的同源性。该基因在此处被称为BRCA1。本发明发现，在种系中BRCA1基因座的突变表示存在患乳房癌和卵巢癌的倾向性。最后，本发明发现，BRCA1基因座的体细胞突变与乳房癌、卵巢癌和其他癌肿关联，因此是这些癌肿或癌肿预后的标记。BRCA1基因座的突变事件涉及编码序列和非编码序列中的缺失、插入和点突变。

从人基因组的17号人染色体的长臂上的某一区域17q(其大小估计约为8百万碱基对)开始，已鉴别出一个含有遗传基因座BRCA1的区域，它造成包括乳房和卵巢癌在内的癌肿易患性。

含有BRCA1基因座的区域用各种遗传技术进行鉴别。遗传图谱定位技术通过与各遗传标记的重组关系最早限定了BRCA1区域。根据对具有多个乳房癌病例的大的延伸家族(“亲缘族”)(在某些亲缘族中有卵巢癌病例)的研究，精确定位出一个染色体区域，它含有BRCA1基因以及在BRCA1基因座中其他假定的易患性等位基因。在BRCA1基因座的远端一侧发现了2个减数分裂断点，它们在遗传标记和疾病之间以重组体表现，而且一个重组体位于BRCA1基因座的近端一侧。因此，含有BRCA1基因座的区域被这些标记在物理上界定了边界。

使用本发明提供的遗传标记，可以从人的酵母人工染色体(YAC)或人的细菌人工染色体(BAC)文库中鉴别出覆盖该区域的克隆。还可以从该区域鉴别和制备操作更方便的粘粒、P1和BAC克隆，并且从一亚系列克隆中构建毗连群(contig)。这些粘粒、P1、YAC和BAC提供了克隆BRCA1基因座的基础，并提供了开发例如有效地诊断和治疗乳房癌和/或卵巢癌的试剂的基础。已经从该区域中分离出BRCA1基因和其他潜在的易患性基因。采用软件俘获(一种从连续的或非连续的基因组DNA序列中鉴别出可能含有编码外显子序列的计算机方法)、杂交体选择技术和直接筛选方法，用来自粘粒、P1和BAC区域中的整个或部分cDNA插入片段筛选cDNA从而进行分离。这些方法被用于获得在乳房和其他组织中表达的基因座序列。分析这些候选基因以鉴别赋予癌肿易患性的序列。我们发现，在亲缘族中BRCA1基因座的编码序列有突变，它们造成与17q连锁的癌肿易患性(即已知的BRCA1)。不知道该基因在此区域中。本发明不仅有助于某些癌肿的早期检测(这对病人的存活极为重要)，而且还可在患癌肿之前检测易患性个体。

群体来源

大量的、记录完整的Utah州亲缘族对于提供人类遗传学研究的良好资料是极为重要的。每个大亲缘族都独立地提供了检测该家族中BRCA1易患性等位基因是否分离的能力。对BRCA1基因座的定位和分离提供信息的重组体只能从大到足以证实存在易患性等位基因的亲缘族中获得。大的同胞关系(sibship)对于研究乳房癌尤其重要，因为BRCA1易患性等位基因的外显率会因年龄和性别而减弱，使有信息的同胞关系难以发现。此外，大的同胞关系对于通过近亲的单倍型推断建立已故个体的单倍型是至关重要的。

尽管其他群体也可提供有用的信息，但是这种研究一般需要更多努力，而且家族一般越小，提供的信息也越少。经年龄调整后，犹他州的乳房癌发病率比美国平均发病率低20％。犹他州的低发病率很可能是因为第一次怀孕时的年龄早，这增加了在犹他州亲缘族中的病例携带遗传倾向性的可能性。

遗传作图

对于一组有信息的家族，为了将某一疾病与染色体的某一区域连锁，需要有遗传标记。这样的标记包括限制性片段长度多态性(RFLP)(Botstein等人，1980)、具有不同数目的串联重复(variable number of tandem repeats，简称VNTR)的标记(Jeffreys等人，1985；Nakamura等人，1987)、和基于短串联重复(short tandem repeats，简称STR)尤其是CpA重复的高丰度的DNA多态性(Weber和May，1989；Litt等人，1989)。为了构建遗传图谱，人们选择潜在的遗传标记并用从被研究的亲缘族成员抽提的DNA进行测试。

用于搜寻与疾病关联的遗传基因座的遗传标记可以根据特定情况而加以选择，或者通过密集地覆盖特定的染色体，或者通过对染色体特定区域的仔细分析。一种选择与某一疾病连锁的遗传标记的较佳方法是，评估亲缘族提供的信息度以确定给定多态性程度下遗传标记之间的理想距离，然后从已知的遗传图(这些遗传图的间距适中以便使效率最高)上选择标记。亲缘族的信息度根据各标记在不相关个体中杂合的可能性而计算出。使用STR标记也是最有效的，这些STR标记可用PCR通过扩增靶核酸序列而检测出；这种标记富含信息，便于分析(Weber和May，1989)，而且可用多种方案同时分析(Skolnick和Wallace，1988)，这大大减少了所需的实验次数。

一旦建立了连锁关系，人们就需要找到位于疾病基因座两侧的标记，即一个或多个位于该疾病基因座近端的标记以及一个或多个位于该疾病基因座远端的标记。如果可能，候选标记可从已知的遗传图上选择。如果一个都不知道，那么可用STR技术鉴别出新的标记，如实施例中所示。

遗传作图通常是一个反复过程。在本发明中，起初是确定BRCA1基因座周围的侧翼遗传标记，然后用其他逐渐更靠近BRCA1基因座的标记置换这些侧翼标记。作为最初步骤，通过大的延伸亲缘族而确定的重组事件特别有助于将BRCA1基因座定位于某一特定遗传标记的远端或近端(Goldgar等人，1994)。

在本发明公开之前，在BRCA1周围的区域还没有被很好地作图，而且标记很少。因此，分析从YAC上亚克隆而来的粘粒上的短重复序列(已作物理图谱)以开发新的遗传标记。用这种方法，发现了本发明的一个标记42D6，它替换pCMM86作为BRCA1区域的远端一侧的标记。因为42D6距pCMM86约14cM，所以BRCA1区域被缩小了约14厘摩(Easton等人，1993)。这样，本发明便从发现BRCA1区域的连锁更紧密的远端一侧标记而开始。然后发现BRCA1在遗传标记Mfd15的远端。所以，显示BRCA1应在由Mfd15和42D6所界定的6-10百万碱基区域中。随后发现，标记Mfd191在Mfd15的远端并在BRCA1的近端。因此，用Mfd191替代Mfd15作为最近端的遗传标记。类似地，发现遗传标记Mfd188可替代遗传标记42D6，这将含有BRCA1基因座的区域缩小到约1.5百万碱基。然后使用本领域中已知的和此处描述的技术，用tdj1474替代标记Mfd191作为近端标记，并用U5R替代Mfd188作为远端标记，这进一步将BRCA1区域缩小到足够小区域，从而可以分离和定性研究BRCA1基因座(见图3)。

物理作图

采用3种不同方法对该区域进行物理作图。第一种方法是使用酵母人工染色体(YAC)克隆由UR5和tdj1474所界定的区域。第二种方法是构建一套覆盖含有BRCA1基因座的区域的P1、BAC和粘粒克隆。

酵母人工染色体(YAC)。一旦鉴别出足够小的、含有BRCA1基因座的区域，便可以通过鉴别一套覆盖该区域的重叠YAC而物理性分离该区域的DNA。有用的YAC可从已知的文库中分离，例如St.Louis和CEPH YAC文库，这些文库被广泛分发并且每个文库含有约50000个YAC。分离的YAC来自这些可公开获得的文库，并且可从包括Michigan Genome Center在内的各种地方获得。很明显，可获得这些YAC的其他人，如果没有本发明的公开内容，是不知道我们选择的特定YAC的价值的，因为他们不知道哪些YAC在含有BRCA1基因座的最小区域之内，哪些在该最小区域之外。

粘粒、P1和BAC克隆。在本发明中，通过获得粘粒、P1和BAC克隆来覆盖该区域是有利的。与YAC插入片段相比，这些尺寸更小的插入片段可以更有用地用作特异的杂交探针。此外，具有克隆于细菌细胞中而不是酵母细胞中的DNA，可以大大增加操作感兴趣DNA的方便程度，并改善杂交分析中信号-噪音比。对于YAC的粘粒亚克隆，用限制酶Sau3A部分消化DNA，然后克隆入pWE15粘粒载体(Stratagene，目录#1251201)的BamHI位点。含有人序列的粘粒的筛选如下进行：与人重复DNA(如Gibco/BRL，人C₀t-1DNA，目录5279SA)的杂交，然后用各种技术进行指纹分析，如实施例中详细所述。

通过筛选用人全基因组构建的、具有特定的来自YAC、粘粒或P1和BAC的序列标记位点(STS)，获得P1和BAC克隆，并如本文所述进行分离。

这些P1、BAC和粘粒克隆用散布重复序列(interspersed repetitive sequence，简称IRS)PCR和/或限制酶消化，随后进行凝胶电泳并比较形成的DNA片段(“指纹”)而加以比较(Maniatis等人，1982)。克隆还可用STS的存在与否进行定性。指纹用于确定一套重叠的毗连克隆，这套克隆覆盖该区域但又不过多，在本文中被称为“最少砖块道路”。这种最少砖块道路构成了随后鉴别起源于BRCA1基因座的cDNA的实验基础。

P1和BAC克隆对空隙的覆盖。为了用基因组克隆覆盖已鉴别的粘粒之间BRCA1毗连群(contig)中的任何空隙，使用在P1和BAC载体中的克隆(它们含有比P1的粘粒约大2倍的基因组DNA插入片段并且也比BAC的还大)(Sternberg，1990；Sternberg等人，1990；Pierce等人，1992；Shizuya等人，1992)。由Genome Sciences使用我们提供的用于筛选的PCR引物而分离P1克隆。BAC是在Mel Simon博士的实验室中通过杂交技术提供的。使用P1克隆的方案也允许用不来自YAC的一套独立克隆来覆盖基因组区域。这保留了在YAC中没有被检测到的其他缺失的可能性。这些来自P1克隆的新序列提供了进一步筛选候选基因的材料，如下所述。

分离基因

有许多技术可用于测试基因组克隆中是否存在可能是人们想要分离的基因座编码序列的候选序列，其中包括但并不限于：

a.动物印迹

b.鉴别HTF岛

c.外显子捕获

d.将cDNA与粘粒或YAC杂交

e.筛选cDNA文库

(a)动物印迹。第一种技术是将粘粒与Southern印迹杂交以鉴别那些进化上保守，从而会对来自与人亲缘关系不同的物种(如猴、牛、鸡、猪、小鼠和大鼠)的DNA给出阳性杂交信号的DNA序列。含有来自各种物种的这种DNA的Southern印迹是可购得的(Clonetech，目录7753-1)。

(b)鉴别HTF岛。第二种技术涉及找到富含核苷酸C和G的区域，这种区域常常在编码序列旁边或之中。这种序列被称为HTF(HpaI小片段，HpaI tinyfragment，简称HTF)或CpG岛，因为对含有CpG二聚体的位点特异的限制酶在该区域会频繁地切割(Lindsay等人，1987)。

(c)外显子捕获。第三种技术是外显子捕获，该方法鉴别基因组DNA中含有剪接部位从而可能含有基因编码序列的序列。外显子扩增(Buckler等人，1991)被用于从上述的DNA克隆中选择和扩增外显子。外显子的扩增基于选择出位于功能性5′和/或3′剪接位点两侧的RNA序列。外显子扩增产物被用于筛选乳房cDNA文库以鉴别一些可实际操作的候选基因供进一步研究。外显子捕获还可用计算机程序或软件捕获法在测序过的DNA小片段上进行。

(d)将cDNA与粘粒、P1、BAC或YAC杂交。第四种方法是选择性富集技术的改进技术，它采用cDNA与粘粒、P1、BAC或YAC的杂交，从而允许转录序列被鉴别出并且从克隆的基因组DNA中回收(Kandpal等人，1990)。出于本目的而改进的选择性富集技术，涉及将来自YAC中的BRCA1区域的DNA与柱基质结合，然后从相关文库中选择出与结合的DNA发生杂交的cDNA，随后通过扩增和纯化结合的DNA，从而大大富集由克隆基因组DNA所代表区域的cDNA。

(e)鉴别cDNA。第五种技术是鉴别对应于BRCA1基因座的cDNA。使用用上述任何技术选择的、含有假定编码序列的杂交探针，来筛选各种文库，包括乳房组织cDNA文库、卵巢cDNA文库和任何其他必要的文库。

直接选择cDNA主题中另一种变化形式也被用于发现BRCA1的候选基因(Lovett等人，1991；Futreal，1993)。该方法使用粘粒、P1或BAC的DNA作为探针。探针DNA用切成平末端的限制酶如HaeIII消化。再将双链衔接头(adapter)连于DNA并作为随后PCR扩增反应中引物的结合位置(PCR反应中使用生物素化的引物)。靶cDNA的产生是用组织样品如乳房组织的mRNA，通过随机引发或寡聚(dT)引发第一条链的合成然后再合成第二条链。使cDNA末端成平端，再连于双链衔接头。这些衔接头作为PCR的扩增位点。使靶序列和探针序列变性，然后与人C₀t-1DNA混合以封闭重复序列。在高C₀t-1/2值下进行溶液杂交，以保证稀少的靶cDNA分子发生杂交。退火后的材料再用抗生物素蛋白珠进行捕获，在高严紧条件下洗涤，保留的cDNA被洗涤并用PCR扩增。选择出的cDNA再进行进一步的富集处理，然后克隆入质粒载体以供分析。

测试cDNA的候选性

通过在从患病亲缘族成员中抽提出的DNA中发现一些序列，它们会形成异常BRCA1基因产物或异常水平的BRCA1基因产物，从而获得了cDNA是BRCA1基因座的证据。这种BRCA1易患性等位基因会在大亲缘族中与疾病一起分离。它们在患乳房癌和卵巢癌的非亲缘族个体中的存在频率远高于一般人群中的个体。最后，因为肿瘤经常在基因座发生体细胞突变(而在其他情况下是种系突变)，所以我们预计，正常的种系BRCA1等位基因突变成与从肿瘤组织中抽提DNA中BRCA1易患性等位基因相同或相似的序列。无论人们是将来自肿瘤组织的BRCA1序列与来自同一个体的种系BRCA1等位基因相比，还是人们将来自癌肿病例的种系BRCA1等位基因与那些没有患病个体的等位基因相比，关键是发现足够严重从而可导致基因产物正常功能发生明显崩溃的突变。这些突变可有多种形式。最严重的形式是移码突变或大的缺失，这样造成基因编码异常蛋白或者显著改变蛋白质表达的蛋白。稍不严重的破坏性突变包括小的框架内缺失和非保守碱基对置换，这对产生的蛋白质有显著影响如半胱氨酸残基的改变、从碱性氨基酸变为酸性氨基酸或相反的变化、从疏水性氨基酸变为亲水性氨基酸或相反的变化、或其他影响蛋白质二级、三级或四级结构的突变。沉默突变或其他造成保守氨基酸置换的突变一般预计不会完全破坏蛋白质功能。

根据本发明的诊断和预后方法，可检测野生型BRCA1基因座的改变。此外，该方法的操作可通过：检测野生型BRCA1基因座并证实在BRCA1基因座不具有癌肿的倾向性。“野生型基因的改变”包含所有形式的突变，包括在编码区域和非编码区域的缺失、插入和点突变。缺失可以是整个基因或只是部分基因的缺失。点突变可以造成终止密码子、移码突变或氨基酸置换。体细胞突变是仅发生在某些组织如肿瘤组织中的突变，不会在种系中遗传。种系突变可以在任一身体组织中找到而且是遗传的。若仅有一个单一等位基因呈体细胞突变，那么说明是处于早期瘤形成状态。然而，若两个等位基因都突变，那么说明是处于晚期瘤形成状态。因此，BRCA1突变的发现可以提供诊断和预后信息。可以对没有缺失的一个BRCA1等位基因(即在作为携带BRCA1缺失染色体的姐妹染色体上的BRCA1等位基因)进行筛选，以确定是否有其他的突变如插入、小缺失和点突变。据信，在肿瘤组织中发现的许多突变导致BRCA1基因产物表达下降。但是，导致无功能的基因产物的突变也会产生癌肿。点突变事件可以发生在调控区域如在基因的启动子中，从而导致mRNA表达的消失或下降。点突变还会破坏适当的RNA加工，从而导致BRCA1基因产物表达的消失或者导致mRNA稳定性或翻译效率的下降。

有用的诊断技术包括，但并不限于：荧光原位杂交(FISH)、直接DNA测序、脉冲电场凝胶电泳(PFGE)分析、Southern印迹分析、单链构象分析(SSCA)、核糖核酸酶(RNase)保护测定、等位基因特异的寡核苷酸(ASO)、点杂交分析和聚合酶链反应-单链构象多态性(PCR-SSCP)，下文将更详细地描述。

患癌肿如乳房癌和卵巢癌以及此处指出的其他癌肿的倾向性，可以通过测试任何人组织中BRCA1基因的突变而确定。例如，一个遗传有种系BRCA1突变的人将易患癌肿。这一点可以通过测试来自该个体的任何身体组织中的DNA而确定。最简单地，可以抽取血液并且从血细胞中抽提出DNA。此外，通过检测胎儿细胞、胎盘细胞或羊水细胞是否有BRCA1基因的突变可以进行产前诊断。野生型BRCA1等位基因的改变(例如由点突变或缺失而造成的)可以用此处所述的任一手段检测出。

有数种方法可用于检测DNA序列变化。直接DNA测序，无论手工测序还是自动荧光测序都能检测序列变化。对于象BRCA1那么大的基因，手工测序非常费力，但是在最佳条件下在基因编码序列中的突变很少被漏检。另一种方法是单链构象多态性分析(SSCA)(Orita等人，1989)。该方法不检测所有的序列变化，尤其当DNA片段大于200bp时，但是可优化以检测大多数DNA变化。检测灵敏度的下降是不利的，但是SSCA带来的更高的处理能力使它成为一种有吸引力的、有用的替代直接测序的方法，用于基础研究的检测突变。在SSCA凝胶上迁移率(泳动率)改变的片段再被测序以确定DNA序列改变的确切本质。其他基于检测两条互补DNA链之间的不匹配的方法，包括夹子变性凝胶电泳(clamped denaturing gel electrophoresis，简称CDGE)(Sheffield等人，1991)、异源双链分析(HA)(White等人，1992)和化学错配切割(chemical mismatchcleavage，简称CMC)(Grompe等人，1989)。上述方法中没有一种可检测大缺失、重复或插入，也不能检测影响蛋白质表达或转录的调控突变。其他可检测这些类型突变的方法如蛋白质截短分析或不对称分析，只能检测特殊类型的突变而不能检测错义突变。对于目前已有的检测DNA序列变化的方法回顾，可在最近Grompe(1993)的总结中找到。一旦知道了一个突变，那么便可用等位基因特异性检测方法如等位基因特异性寡核苷酸(ASO)杂交术来快速筛选大量的其他样品是否有同一突变。

为了在组织中检测野生型BRCA1基因的改变，须将该组织分离出而不含周围正常组织。富集含肿瘤细胞的组织制品的方法是本领域中公知的。例如，可以从石蜡或低温恒温器的切段中分离组织。还可以用流式细胞计量术将癌肿细胞与正常细胞分开。这些技术以及其他将肿瘤细胞和正常细胞分开的技术是本领域中公知的。如果肿瘤组织被正常细胞严重污染，那么突变的检测将变得更困难。

一种检测DNA序列多态性的快速的初步分析法是观察一系列用一个或多个限制酶、更佳地是用大量限制酶消化的DNA的Southern印迹。每张印迹片含有一系列的正常个体和一系列的癌肿病例、肿瘤、或两者。显示出杂交片段的Southern印迹(当用靠近或含有BRCA1基因座的序列作为探针杂交时，在长度上会与对照DNA有差别。)表明可能存在一个突变。如果使用会产生非常大的限制性片段的限制酶时，那么可以使用脉冲电场凝胶电泳(PFGE)。

点突变的检测，可以用本领域中公知的技术进行BRCA1等位基因的分子克隆并对该等位基因测序而实现。或者，可以用已有技术对来自肿瘤组织的基因组DNA制品直接扩增基因序列。然后再确定扩增序列的DNA序列。

有6种已知的、比较完整的但仍不是直接的测试方法可以确定易患性等位基因的存在：1)单链构象分析(SSCA)(Orita等人，1989)；2)变性梯度凝胶电泳(DGGE)(Wartell等人，1990；Sheffield等人，1989)；3)RNase保护测定(Finkelstein等人，1990；Kinszler等人，1991)；4)等位基因特异的寡核苷酸(ASO)(Conner等人，1983)；5)使用识别核苷酸错配的蛋白质如大肠杆菌mutS蛋白质(Modrich，1991)和6)等位基因特异的PCR(Rano&Kidd，1989)。对于等位基因特异性PCR，使用在其3′端会与特定的BRCA1突变杂交的引物。如果特定的BRCA1突变不存在，则观察不到扩增产物。还可以使用如在欧洲专利申请No.0332435和Newton等人(1989)的文章中公开的扩增不应突变的体系(Amplification Refractory Mutation System，ARMS)。基因的插入和缺失还可以通过克隆、测序和扩增而检测。此外，还可以使用针对该基因或周围标记基因的限制性片段长度多态性(RFLP)探针，以便以多态性片段形式评估等位基因的改变或插入。该方法对于筛选患病个体的亲属是否具有该个体中发现的BRCA1突变特别有用。也可以使用本领域中公知的检测插入和缺失的其他方法。

在前三种方法(即SSCA、DGGE和RNase保护测定)中，出现一条新的电泳条带。SSCA检测迁移有所不同的条带，因为序列变化造成单链分子内碱基配对的差别。RNase保护涉及将突变型多聚核苷酸切成两个或多个更小的片段。DGGE是用变性梯度凝胶，检测与野生型序列相比时突变型序列的迁移率。在等位基因特异的寡核苷酸测定中，设计出可以检测特异性序列的寡核苷酸，然后通过检测杂交信号的存在与否而进行分析。在mutS测定中，蛋白质只与由突变型和野生型序列形成的、含有核苷酸错配的异源双链序列结合。

根据本发明，错配物是杂合的核酸双链，其中双链之间不是100％互补。缺失、插入、倒位或置换可造成整体同源性的减小。错配检测可以用于检测基因或其mRNA产物中的点突变。虽然这些技术比测序的灵敏度低，但是对于大量的肿瘤样本而言，其操作更为简便。错配切割技术的一个例子是RNase保护法。在本发明的实践中，该方法涉及使用与人野生型BRCA1基因编码序列互补的标记核糖核酸探针。该核糖核酸探针和从肿瘤组织中分离出的mRNA或DNA一起退火(杂交)，随后用能够检测双链RNA结构中某些错配的酶核糖核酸酶A(RNase A)消化。如果RNase A检测到错配，它就在错配位置将其切割。因此，退火的RNA产物在电泳凝胶基质中分离时，如果错配被RNase A检测到并切断，那么会观察到一个RNA产物，它比全长的、由核糖核酸探针与mRNA或DNA形成的双链RNA更小。核糖核酸探针不必是全长的BRCA1 mRNA或基因，它可以是它们的一个片段。如果核糖核酸探针仅含有BRCA1 mRNA或基因的片段，那么需要用大量的这些探针来筛选整个mRNA序列是否存在错配。

按类似的方式，通过酶法或化学方法的切割，可以使用DNA探针来检测错配。如参见Cotton等人，1988；Shenk等人，1975；Novack等人，1986。或者，通过错配双链相对于正确配对双链的电泳迁移率(泳动率)的改变而检测错配。如参见Cariello，1988。用核糖核酸探针或DNA探针时，在杂交之前用PCR(见下文)扩增含有突变的细胞mRNA或DNA。用Southern杂交法也可检测BRCA1基因DNA的变化，尤其当变化是大的重排如缺失和插入时。

也可以用等位基因特异性探针筛选用PCR扩增的BRCA1基因DNA序列。这些探针是核酸寡聚体，每种含有一个携带已知突变的BRCA1基因序列的区域。例如，一个寡聚体可以长约30核苷酸，并且对应于一部分BRCA1基因序列。通过使用一组这种等位基因特异的探针，便可以筛选PCR扩增产物，从而确定在BRCA1基因中是否存在已确定的突变类型。例如可以在尼龙滤膜上用扩增的BRCA1序列和等位基因特异性探针进行杂交。在严紧杂交条件下与特定的探针发生杂交表示，在这种肿瘤组织中存在与等位基因特异性探针相同类型的突变。

对于候选基因座突变的最明确的测试方法是直接比较癌肿病人和对照人群的基因组BRCA1序列。或者，人们可以用PCR方法扩增后对信使RNA进行测序，从而不必确定候选基因的外显子结构。

癌肿病人在BRCA1编码区域之外的突变可以通过检测BRCA1基因附近或内部的非编码区域如内含子和调控序列而检测出。表明非编码区域的突变是至关重要的早期证明来自Northern印迹实验，该实验揭示出与对照个体相比，在癌肿病人中有大小异常或高丰度的信使RNA分子。

BRCA1 mRNA表达的改变可以用本领域中公知的技术进行检测。其中包括Northern印迹分析、PCR扩增和RNase保护法。mRNA表达的减少表明野生型BRCA1基因发生了改变。还可以通过筛选野生型BRCA1蛋白质的改变而检测野生型BRCA1基因的改变。例如，可以使用具有针对BRCA1的免疫反应性单克隆抗体来筛选组织。缺乏相应的抗原便表示有BRCA1突变。也可以使用对突变型等位基因产物特异的抗体来检测突变型BRCA1基因产物。这些免疫学测定可以以本领域中公知的方便方式进行。其中包括：Western印迹、免疫组织化学测定和酶联免疫吸附测定(ELISA)。任何检测BRCA1蛋白质改变的方法都可以用于检测野生型BRCA1基因的改变。可以使用功能测定法如蛋白质结合确定法。此外，可以使用检测BRCA1的生物化学功能的分析方法。寻找到突变型BRCA1基因产物就表示存在野生型BRCA1基因的改变。

还可以在其他的人体样品如血清、粪便、尿液和唾液中检测突变型BRCA1基因或基因产物。可以将上述的检测组织中突变型BRCA1基因或基因产物的相同技术应用于其他的人体样品。癌肿细胞会从肿瘤上脱落下来从而出现在这些人体样品中。此外，BRCA1基因产物本身会分泌人细胞外空间，从而甚至在没有癌肿细胞的这些人体样品中被找到。通过对这些人体样品进行筛选，可以对许多种癌肿进行早期诊断。另外，可以更容易地通过测试人体样品中是否存在突变型BRCA1基因或基因产物而监测化疗或放疗的进展。

本发明的诊断方法还适用于任何一种在肿瘤发生中BRCA1发挥作用的肿瘤。本发明的诊断方法对于医疗人员很有用，能使他们决定适当的治疗方案。

本发明的引物对可用于通过PCR确定某一特定BRCA1等位基因的核苷酸序列。单链DNA引物对可以与染色体17q21上的BRCA1基因内部或周围的序列进行退火，以便引发BRCA1基因本身的DNA合成扩增。整套的这些引物可以合成所有的BRCA1基因编码序列(即外显子)的核苷酸。更佳地，一套引物可以合成内含子和外显子序列。也可以使用等位基因特异的引物。这些引物只与特定的BRCA1突变型等位基因发生退火，从而只能扩增出以突变型等位基因作为模板的产物。

为了便于随后的扩增序列克隆，引物可以在其5′端含有限制酶切位点序列。因此除少数形成限制性酶切位点所需的核苷酸外，所有的引物核苷酸来自BRCA1序列或靠近BRCA1的序列。这些酶和酶切位点是本领域中公知的。引物本身可以用本领域中公知的技术合成。一般可以使用市售的寡核苷酸合成仪制备引物。根据SEQ ID NO：1所示的BRCA1开放阅阅读框架，设计特定的引物是本领域中的技术人员所能胜任的。

本发明提供的核酸探针能用于许多目的。如上所述，它们可以用于与基因组DNA的Southern杂交和用于RNase保护法以检测点突变。这些探针还可以用于检测PCR扩增产物。使用其他技术，它们还可以用于检测BRCA1基因或mRNA的错配。

已经发现，具有野生型BRCA1基因的个体没有由BRCA1等位基因导致的癌肿。但是，干扰BRCA1蛋白功能的突变与癌肿的形成有关。因此，改变的(或突变型)BRCA1基因(它产生功能丧失或功能改变的蛋白质)的存在，与癌肿的高风险之间直接相关。为了检测BRCA1基因突变，制备生物样品并分析被分析的BRCA1等位基因序列和野生型BRCA1等位基因序列之间的差别。用上述的任何一种技术可以先鉴别出突变型BRCA1等位基因。然后再对突变型等位基因进行测序以鉴别特定等位基因的具体突变类型。或者，突变型BRCA1等位基因可先通过用常规技术鉴别出突变型(改变的)BRCA1蛋白而鉴别出。突变型等位基因再测序以鉴别出各等位基因的具体突变类型。这些突变，尤其是那些导致BRCA1蛋白功能改变的突变，接着被用于本发明的诊断和预后方法。

定义

本发明使用下列定义：

“多聚核苷酸的扩增”采用诸如聚合酶链反应(PCR)、连接扩增(或称为连接酶链反应，LCR)和基于使用Q-beta复制酶的扩增方法。这些方法是公知的而且在本领域中被广泛使用。例如参见美国专利4,683,195和4,683,202以及Innis等人，1990(PCR)和Wu等人，1989a(LCR)。用于进行PCR的试剂和硬件已商品化。用于扩增BRCA1区域序列的引物最好互补于并且特异性地杂交于BRCA1区域中的序列或者界定靶区域的区域序列。用扩增方法产生的BRCA1序列可以直接测序。或者，扩增的序列可以在序列分析之前先被克隆，但该方法稍不可取。对用酶法扩增的基因组片段进行直接克隆和测序分析的方法已由Scharf(1986)描述过。

“被分析的多聚核苷酸”和“被分析的链”指单链或双链多聚核苷酸，它可能包含一段靶序列而且存在于各种不同类型的样品(包括生物样品)中。

“抗体”。本发明还提供了能够特异性地与BRCA1多肽或其片段结合、或者与BRCA1区域的多聚核苷酸序列(特别是BRCA1基因座或其部分)结合的多克隆和/或单克隆抗体、及其片段、以及其免疫结合等价物。术语“抗体”指均一的分子统一体或由多种不同的分子统一体组成的混合物如血清产物。多肽可以在肽合成仪上合成并偶联于载体分子(如匙孔血蓝蛋白)，然后注入兔子数月。测试兔血清对BRCA1多肽或片段的免疫反应性。可以通过将蛋白质多肽、融合蛋白质或其片段注入小鼠而制备单克隆抗体。用ELISA筛选单克隆抗体，然后测试其与BRCA1多肽或其片段的特异免疫反应性。参见Harlow&Lane，1988。这些抗体可以用于分析和作为药物。

一旦获得足够量的所需多肽，就可以将其用于各种用途。典型的用途是用于产生特异性结合的抗体。这些抗体可以为多克隆或单克隆抗体，而且可以用本领域中公知的技术在体外或体内产生。对于产生多克隆抗体，可以选择合适的靶免疫体系，一般是小鼠或兔。由适用于动物的方法以及免疫学家熟知的其他参数限定方式，然后按此方式将基本纯化的抗原供给免疫体系。典型的注射位置是爪垫、肌内注射、腹膜内注射或皮下注射。当然，也可以用其他动物替代小鼠或兔。然后用本领域中公知的技术纯化多克隆抗体，再调节所需的特异性。

免疫应答通常用免疫测定进行分析。一般地这些免疫测定涉及对一种抗原源进行某种程度的纯化，这种抗原源由相同的细胞产生并且处于相同的抗原形式。各种免疫测定方法是本领域中公知的。如参见Harlow&Lane，1988或Goding，1986。

典型地，用标准程序如Harlow&Lane(1988)或Goding(1986)所述的程序，可以制得亲和力为10^-8M^-1或更佳地为10^-9至10^-10M^-1或更高的单克隆抗体。简而言之，可以选用合适的动物，然后采用所需的免疫方案。经过适当的时间，取出动物的脾脏，然后在合适的选择条件下，将个体脾细胞与无限增殖化的骨髓瘤细胞融合。随后，通过克隆分离细胞，并且测试各克隆的上清液以确定是否产生适当的、特异性针对所需抗原区域的抗体。

其他合适的技术涉及在体外将淋巴细胞暴露于抗原性多肽，或者选择噬菌体或类似载体中的抗体库。参见Huse等人，1989。本发明的多肽和抗体可加以修饰或不加修饰地使用。多肽和抗体常常可以通过共价或非共价地连接一种提供可检测信号的物质而被标记。大量不同的标记物和连接技术是公知的，并且在科学和专利文献中被广泛地报道。合适的标记物包括放射性核素、酶、底物、辅助因子、抑制剂、荧光剂、化学发光剂、磁性颗粒等。讲授使用这些标记物的专利包括美国专利3,817,837；3,850,752；3,939,350；3,996,345；4,277,437；4,275,149和4,366,241。同样，还可以产生重组免疫球蛋白(参见美国专利4,816,567)。

“结合配偶体”指能够高特异性地与配体分子结合的分子，如抗原和抗原特异性抗体或者酶及其抑制剂。通常地，特异性结合配偶体必须以足够的亲和力进行结合从而在分离条件下固定被分析物拷贝/互补双链(在进行多聚核苷酸杂交时)。特异性的结合配偶体是本领域中熟知的，例如包括生物素和抗生物素蛋白或链球菌抗生物素蛋白(streptavidin)、IgG和蛋白质A、无数已知的受体-配体偶联物和互补的多聚核苷酸链。在互补的多聚核苷酸结合配偶体中，配偶体长度通常地至少约15碱基，而且长度至少可以为40碱基。多聚核苷酸可以由DNA、RNA或合成的核酸类似物构成。

“生物样品”指来自某个体的、可能含有被分析的多聚核苷酸或多肽的组织或体液样品，它包括但并不限于：例如血浆、血清、脊髓液、淋巴液、皮肤外表、呼吸道、肠道和生殖-泌尿道、眼泪、唾液、血细胞、肿瘤、器官、组织和体外细胞培养成分的样品。

如此处所用，术语“诊断”或“预后”，当用于有关肿瘤形成的上下文时，被用于表示1)对瘤形成损伤进行分类，2)确定瘤形成的严重性或3)在治疗之前、之中或之后监视疾病的进展。

“编码”。如果当某多聚核苷酸在其天然状态或用本领域中技术人员熟知的方法操作时，可以被转录和/或被翻译从而产生mRNA或多肽或其片段，那么则称该多聚核苷酸“编码”多肽。反义链是该核酸的互补物，可以从其推导出编码序列。

“分离的”或“基本纯的”。“分离的”或“基本纯的”核酸(如RNA、DNA或混合聚合物)是基本上与在自然状态下伴随天然的人序列或蛋白质的其他细胞组份(如核糖体、聚合酶、许多其他的人基因组序列及蛋白质)相分离的核酸。该术语包括从其自然存在的环境中取出的核酸序列或其蛋白质，并且包括重组的或克隆的DNA分离物以及化学合成的类似物或者通过异源体系而生物合成的类似物。

“BRCA1等位基因”指正常的BRCA1基因座的等位基因以及携带变异的等位基因，这些变异使得个体倾向在许多部位患癌肿，其中包括乳房癌、卵巢癌、结肠直肠癌和前列腺癌。这种倾向性等位基因还被称为“BRCA1易患性等位基因”。

“BRCA1基因座”、“BRCA1基因”、“BRCA1核酸”或“BRCA1多聚核苷酸”都指位于BRCA1区域的多聚核苷酸，它们会在正常的组织中表达，其中某些等位基因会使个体倾向患乳房癌、卵巢癌、结肠直肠癌和前列腺癌。BRCA1基因座的突变涉及到其他肿瘤的引发和/或进展。该基因座部分地由导致个体倾向患癌肿的突变所表示。这些突变位于本文下述的BRCA1区域中。BRCA1基因座包括编码序列、间插序列和控制转录和/或翻译的调控元件。BRCA1基因座包括所有的等位基因的DNA序列变异形式。

当这些术语用于核酸时，是指编码BRCA1多肽、片段、同系物或变异体(例如包括融合蛋白或缺失蛋白)的核酸。本发明的核酸具有或者衍生自或者类似于天然BRCA1编码基因的序列，或者具有基本上与天然BRCA1编码基因或其部分同源的序列。BRCA1多肽的编码序列显示于SEQ ID NO：1，而氨基酸序列显示于SEQ ID NO：2。

本发明的多聚核苷酸组合物包括RNA、cDNA、基因组DNA、合成形式和混合聚合物，可以是有义链或反义链，而且可以是用化学或生化方法修饰过的或者含有非天然的或衍生的核苷酸碱基，这些对本领域中的熟练技术人员而言是显而易见的。这些修饰包括例如，标记、甲基化、用类似物置换一个或多个天然核苷酸、核苷酸之间的修饰如不带电荷的键连接(如膦酸甲酯、磷酸三酯、磷酸酰胺化物、甲氨酸酯等)、带电荷的键连接(如硫代磷酸酯、二硫代磷酸酯等)、侧链部分(如多肽)、嵌入剂(intercalator)(如吖啶、补骨脂内酯等)、螯合剂、烷基化剂和修饰的键连接(如α正位异构化(anomeric)核酸等)。还包括合成的分子，该分子能通过氢键和其他化学相互作用模拟多聚核苷酸与指定序列结合。这类分子是本领域中熟知的，例如包括那些在分子骨架中用肽键替换磷酸键的分子。

本发明提供含有全部或部分BRCA1区域的重组核酸。重组构建物能在宿主细胞中自主复制。或者，重组构建物可整合入宿主细胞的染色体DNA中。这种重组的多聚核苷酸包括基因组的、cDNA的、半合成的或合成的多聚核苷酸，该多聚核苷酸因其来源或因操作而呈现：1)并不与全部或部分在天然状态下与其相连的多聚核苷酸相连；2)连接于在天然状态下并不与其相连的多聚核苷酸；或者3)自然界本不存在。

因此，本发明提供的重组核酸含有自然界原本不存在的序列。尽管可以使用野生型序列，但是野生型序列常常被加以改变，如通过缺失、置换或插入。

可以使用不同类型的cDNA或基因组文库作为本发明的天然核酸源进行筛选，也可以通过使用PCR等技术在基因组DNA或其他天然来源中扩增存在的序列而获得这些核酸。cDNA文库的选择通常对应于富含所需蛋白质的mRNA的组织源。一般噬菌体文库较佳，但是也可以使用其他文库。文库的克隆被涂布于平板上，转移至基膜上进行筛选，变性并利用探针检测是否存在所需的序列。

用于本发明的DNA序列通常含有至少5个密码子(15个核苷酸)，更通常地至少7-15个密码子，最佳地至少35个密码子。可以存在一个或多个内含子。核苷酸的数目通常是能够与BRCA1编码序列特异性地杂交的成功探针所需的最小长度左右。

有关核酸操作的技术例如在Sambrook等人，1989或Ausubel等人，1992中有广泛的描述。使用这些技术的试剂，如限制酶等是本领域中熟知的，而且可以从供应商如New England BioLabs、Boehringer Mannheim、Amersham、PromegaBiotec、U.S.Biochemicals、New England Nuclear和大量其他供应商处购得。用于产生本发明的融合蛋白的重组核酸序列可以从天然的或人工合成的序列中衍生而得。许多天然的基因序列可以用合适的探针从基因组文库中或者从不同的cDNA中获得。参见GenBank，National Institutes of Health。

“BRCA1区域”指由标记tdj1474和U5R所界定的人染色体17q21部分。该区域含有BRCA1基因座，包括BRCA1基因。

如本文所用，术语“BRCA1基因座”、“BRCA1等位基因”和“BRCA1区域”都指含有该基因座、等位基因或区域的双链DNA，以及含有该基因座、等位基因或区域的单链DNA。

如本文所用，“部分”BRCA1基因座或区域或等位基因被定义为最小大小至少约8个核苷酸，或较佳地约15个核苷酸或更佳地至少约25个核苷酸，并且最小大小可以是至少约40个核苷酸。

“BRCA1蛋白质”或“BRCA1多肽”指由BRCA1基因座编码的蛋白质或多肽、其变异蛋白或其片段。术语“多肽”指氨基酸的聚合物或其等价物，并不指具有特定长度的产物；因此，肽、寡肽和蛋白质都被包括在多肽这一定义中。该术语并不排除多肽的修饰作用如糖基化、乙酰基化、磷酰基化等。包括在该定义中的有：含有一个或多个氨基酸类似物(包括非天然氨基酸等)的多肽、具有取代键以及本领域中已知的其他天然或非天然修饰的多肽。一般地，这些多肽至少具有约50％、较佳地大于约90％、更佳地至少约95％与天然BRCA1序列的同源性。还包括由在高严紧或低严紧条件下与BRCA1编码核酸杂交的DNA所编码的蛋白质，以及用针对BRCA1蛋白质的抗血清而获得的密切相关的多肽或蛋白质。

用于比较同源性的多肽序列长度通常至少约16个氨基酸，常常至少约20个残基，更通常地至少约24个残基，典型地至少约28个残基，而且更佳地大于约35个残基。

“可操作(地)相连(于)”是指这样一种并列关系，其中所述组份所处的关系使得它们可以按预期的方式发挥功能。例如，如果启动子可以引起一段编码序列转录或表达的话，则该启动子是可操作地相连于编码序列的。

“探针”。导致易患某些癌肿或者与大多数癌肿关联的BRCA1等位基因的相关多聚核苷酸多态性，可以通过与某多聚核苷酸探针的杂交反应进行检测，该探针在严紧至中等严紧杂交和洗涤条件下能够与靶序列形成稳定的杂交体。如果预期探针完全与靶序列互补，那么可以使用严紧条件。如果预期存在某些错配，例如预期变异体与探针不是完全互补的时候，那么可以降低杂交的严紧性。选择的条件应消除非特异的/偶然的结合，即应降低背景。因为这种显示会确定出中性DNA多态性和突变，所以，还需要进一步分析以表明BRCA1易患性等位基因的检测结果。

用于BRCA1等位基因的探针可以从BRCA1区域或其cDNA序列获得。探针可以具有任何合适长度，它可以横跨BRCA1区域的全部或部分，而且可以特异性地与BRCA1区域杂交。如果靶序列含有与探针相同的序列，那么探针可以短一些，如约为8-30碱基对，因为即使在严紧条件下杂交体也是相对稳定的。如果预期与探针之间有某些程度的错配，即如果怀疑探针会与变异体区域杂交，那么可以采用较长的、与靶序列发生必要特异性杂交的探针。

探针包括连于标记物或报道分子的分离多聚核苷酸，而且可以使用标准方法用于分离其他的、具有序列相似性的多聚核苷酸序列。对于探针的制备和标记，请参见Sambrook等人，1989或Ausubel等人，1992。其他类似的多聚核苷酸可以通过使用同源的多聚核苷酸加以选择。或者，编码这些多肽或类似多肽的多聚核苷酸可以通过利用遗传密码子的丰余性加以合成或选择。可以引入不同的密码子置换，例如沉默变化(从而产生不同的限制性位点)或优化某特定体系的表达。可以引入突变以修饰多肽的性能，也许会改变配体结合的亲和力、链间的亲和力、多肽降解或转换率(turnover rate)。

本发明的探针含有合成寡核苷酸或其他多聚核苷酸，它们可以衍生自天然存在的或重组的单链或双链多聚核苷酸，或者通过化学方式合成。探针可以通过缺口平移、Klenow填入法或其他本领域中已知的方法进行标记。

最好选用编码BRCA1的多聚核苷酸序列作为探针，该探针具有至少约8个核苷酸，通常地至少约15个核苷酸而且小于约6千碱基对，通常地小于约1.0千碱基对的多聚核苷酸序列部分。探针还可以用于确定细胞或组织中是否存在编码BRCA1的mRNA。

对于BRCA1多肽或其片段，本发明还提供了“蛋白质修饰形式或片段”，它们一级结构序列基本同源，但是包括例如，在体内或体外的化学和生化的修饰形式，以及掺入非常见氨基酸的形式。这些修饰包括乙酰基化、羧基化、磷酰基化、糖基化、遍在蛋白化(ubiquitination)、如用放射性核素进行标记以及各种酶的修饰，这些都是本领域中的技术人员能轻易理解的。大量不同的标记多肽的方法以及大量不同的用于该用途的取代物或标记物是本领域中熟知的，其中包括放射性同位素如³²P、可与标记的抗配体(如抗体)结合的配体、荧光团、化学发光剂、酶和作为标记配体的特异性结合配对物的抗配体。标记物的选择取决于所需的灵敏度、与引物偶联的简便性、所要求的稳定性和所能得到的仪器设备。标记多肽的方法是本领域中熟知的。例如参见Sambrook等人，1989或Ausubel等人，1992。

除了基本上全长的多肽之外，本发明还提供了具有生物学活性的多肽片段。重要的生物学活性包括配体结合活性、免疫学活性和BRCA1多肽的其他生物学活性。免疫学活性包括靶免疫体系中的免疫原功能，以及具有供结合的免疫表位以作为BRCA1蛋白表位的竞争剂或取代抗原。如本文所用，“表位”(又称为“抗原决定簇”)指多肽的抗原决定簇。一个表位可以含有三个该表位独有的、处于空间构象中的氨基酸。一般地，一个表位由至少5个这样的氨基酸、更常见地由至少8-10个这样的氨基酸构成。确定这些氨基酸的空间构象的方法是本领域中熟知的。

对于免疫学的用途，可以使用串联重复的多肽片段作为抗原，从而产生高抗原性的蛋白质。或者，这种多肽可以作为特异性结合的极有效的竞争剂。下文描述特异地针对BRCA1多肽或其片段的抗体的产生过程。

本发明还提供了含有BRCA1多肽及其片段的融合多肽。同源多肽可以是在两个或多个BRCA1多肽序列之间的或者在BRCA1序列和相关蛋白质之间的融合物。同样可以构建异源的融合蛋白，它具有衍生蛋白质的复合性能或活性。例如，可以在不同的新融合多肽或片段之间“交换”配体结合域或其他的结构域。这种同源或异源的融合多肽可表现出例如不同的结合强度和特异性。融合配偶体包括免疫球蛋白、细菌β-半乳糖苷酶、trpE、蛋白质A、β-内酰胺酶、α-淀粉酶、乙醇脱氢酶和酵母α接合因子。例如参见Godowski等人，1988。

典型地，融合蛋白可以用重组核酸法(如下文所示)或者用化学合成法制得。用于合成多肽的技术在Merrifield，1963中有描述。

“蛋白质纯化”指从其他生物材料中如从用重组的编码BRCA1的核酸转化的细胞中，分离出BRCA1多肽的各种不同方法，这些方法是本领域中熟知的。例如，可以用如本发明中提供的抗体，使用免疫亲和色谱法来纯化多肽。各种不同的蛋白质的纯化方法是本领域中熟知的，其中包括在Deutscher，1990和Scopes，1982中所述的方法。

术语“分离的”、“基本纯的”、和“基本同质的”可以互换使用，都可用于描述已经与天然状态下伴随它的组份分离开的蛋白质或多肽。当约60-75％的样品具有单一的多肽序列时，该单体蛋白质便是基本纯的。基本纯的蛋白质典型地含有约60-90％(重量/重量)、更通常地约95％而且更佳地超过约99％的蛋白质样品。蛋白质的纯度或同质性可以用多种本领域中熟知的方法表示，如先进行蛋白质样品的聚丙烯酰胺凝胶电泳，然后在对凝胶进行染色之后观察蛋白质样品中的单一多肽条带。对于某些情况，可以用高效液相色谱(HPLC)或其他本领域中熟知的手段来提供更高的分辨率，它们可用于纯化。

当BRCA1蛋白质已经与天然状态下伴随它的天然污染物分离开时，则该BRCA1蛋白质就基本上不含与其天然相关的组份了。因此，用化学方法合成的多肽、或者在与天然产生该多肽的细胞不同的细胞体系中合成的多肽是基本上不含与其天然相关的组份。还可以使用本领域中熟知的蛋白质纯化技术，通过分离使蛋白质基本上不含与其天然相关的组份。

如本文所用，作为分离的和操作的基因序列的表达产物而产生的多肽是“分离的多肽”，即使是在同源的细胞类型中表达。人工合成形式或用异源细胞表达的分子本身就是分离的分子。

“重组核酸”是天然不存在的核酸，或者是将两个原本分开的序列片段通过人工组合而形成的核酸。该人工组合通常是通过化学合成手段，或者通过对分离的核酸片段进行人工操作(例如通过遗传工程技术)而实现。典型地，当需要引入或去除一个序列识别位点时，常常这样做以便用编码相同的或保守性的氨基酸的丰余密码子来置换某一密码子。或者，可以将具有所需功能的核酸片段合并起来产生所需的功能组合。

“调控序列”指那些通常位于某基因座编码区域的100kb之内(但是也可距编码区域更远)、影响基因表达(包括基因的转录和信使RNA的翻译、剪接、稳定性等)的序列。

“基本同源或类似”。如果与其他核酸(或其互补链)最佳地进行排列(具有适当的核苷酸插入或缺失)时，核苷酸序列的相同程度有至少约60％的核苷酸碱基，通常地至少约70％的核苷酸碱基，更通常地至少约80％，较佳地至少约90％，更佳地至少约95-98％的核苷酸碱基时，那么我们称该核酸或其片段与另一核酸“基本同源”(或“基本类似)。

或者，当核酸或其片段在选择性杂交条件下能够与另一核酸(或其互补链)或与某一链或其互补链杂交，那么就存在基本同源或类似性。当发生比特异性完全缺乏更具选择性的杂交时，存在着杂交的选择性。典型地，当在一段至少约14个核苷酸的区间中有至少约55％的同源性、较佳地至少约65％、更佳地至少约75％、最佳地至少约90％的同源性时，会发生选择性的杂交。参见Kanehisa，1984。如本文所述，比较同源性的长度可以在更长的区段进行。在某些实施例中经常是至少约9个核苷酸长度，通常地至少约20个核苷酸，更通常地至少约24个核苷酸，典型地至少约28个核苷酸，更典型地至少约32个核苷酸，并且更佳地至少约36个核苷酸或更多。

除了受到碱基组成、互补链长度和杂交核酸之间核苷酸碱基错配数目等因素影响之外，核酸杂交还受诸如盐浓度、温度或有机溶剂等因素的影响，这一点是本领域中的熟练技术人员所知晓的。严紧的温度条件通常包括超过30℃的温度，典型地超过37℃，更佳地超过45℃。严紧的盐浓度一般小于1000mM，典型地小于500mM，更佳地小于200mM。然而，这些参数的组合比任何单一参数更为重要。例如参见Wetmur&Davidson，1968。

探针序列还可以在特定的条件下与双链DNA特异性地杂交，从而形成三股或其他更高级的DNA复合物。这些探针的制备和合适的杂交条件是本领域中所熟知的。

当用于多肽时，术语“基本同源”或“基本相同”表示感兴趣的多肽或蛋白质与完整的天然存在的蛋白质或其部分相比，至少约30％相同，通常地至少约70％相同，更佳地至少约95％相同。

“基本相似的功能”指相对于野生型BRCA1核酸或野生型BRCA1多肽而言，修饰的核酸或修饰的蛋白质的功能。修饰的多肽基本上与野生型BRCA1多肽同源而且基本上具有相同的功能。修饰的多肽可以具有不同的氨基酸序列和/或含有修饰的氨基酸。除了功能相似性之外，修饰多肽还可以有其他有用的性能，比如更长的半衰期。修饰的多肽的功能(活性)的相似可以与野生型BRCA1多肽的活性相同。或者，修饰的多肽的功能(活性)的相似可比野生型BRCA1多肽的活性更高。修饰的多肽可用常规技术合成，或者用修饰的核酸编码并用常规技术产生。修饰的核酸可用常规技术制备。功能基本上类似于野生型BRCA1基因功能的核酸，可产生上述的修饰蛋白质。

典型地，多肽的同源性用序列分析软件确定。例如参见Genetics ComputerGroup(University of Wisconsin Biotechnology Center，910 University Avenue，Madison，Wisconsin 53705)的序列分析软件包(Sequence Analysis SoftwarePackage)。蛋白质分析软件通过指定给各种置换、缺失和其他修饰的同源性数值来匹配相似的序列。典型地保守性置换包括列于下组中的置换：甘氨酸、丙氨酸；缬氨酸、异亮氨酸、亮氨酸；天冬氨酸、谷氨酸；天冬酰胺、谷酰胺；丝氨酸、苏氨酸；赖氨酸、精氨酸；以及苯丙氨酸、酪氨酸。

多肽“片段”、“部分”是指至少约5-7个连续氨基酸、通常地至少约7-9个连续氨基酸、典型地至少约9-13个连续氨基酸、最佳地至少约20-30个或更多连续氨基酸的一段氨基酸残基。

本发明的多肽，如果是可溶的，可以偶联于固相载体，例如硝基纤维素、尼龙、柱填塞材料(如琼脂糖凝胶(Sepharose)珠)、磁性珠、玻璃棉、塑料、金属、聚合物凝胶、细胞或其他的基质。这些载体可以是珠、槽(well)、浸量尺或膜等形式。

“靶区域”指被扩增和/或被检测的核酸区域。术语“靶序列”所指的序列在所需条件下可与探针或引物形成稳定的杂交体。

除非另外注明，本发明的实施采用化学、分子生物学、微生物学、重组DNA、遗传学和免疫学的常规技术。例如参见Maniatis等人，1982；Sambrook等人，1989；Ausubel等人，1992；Glover，1985；Anand，1992；Guthrie&Fink，1991。用于人基因作图包括人染色体17q作图的技术和材料的一般性讨论，可参见White&Lalouel(1988)的文章。

制备重组的或化学合成的核酸；载体、转化、宿主细胞

本发明的大量多聚核苷酸可以通过在适当宿主细胞中的复制而产生。编码所需片段的天然或合成的多聚核苷酸片段可以整合入重组多聚核苷酸构建物中，通常为DNA构建物。该构建物可以引入原核或真核细胞中并在其中复制。一般地，多聚核苷酸构建物适合在单细胞宿主如酵母或细菌中复制，但是也可以将其引入培养的哺乳动物或植物或其他的真核细胞系中(整合或没有整合入基因组中)。对用本发明方法产生的核酸进行纯化的方法，在Sambrook等人，1989或Ausubel等人，1992中有描述。

本发明的多聚核苷酸还可以用化学合成的方法产生，例如Beaucage＆Carruthers，1981所述的亚磷酰胺法或者Matteucci和Caruthers，1981所述的三酯法，而且可以在商购的自动寡核苷酸合成仪上进行。从化学合成的单链产物基础上获得双链片段，可通过合成互补链然后在合适的条件下使两条链退火，或者通过使用DNA聚合酶和合适的引物序列添加互补链。

为了引入原核或真核宿主中而制备的多聚核苷酸构建物，可以含有一个能被宿主识别的复制系统，该系统包括编码所需多肽的多聚核苷酸片段，而且最好含有可操作地相连于多肽编码片段的转录和翻译起始调控序列。表达载体含有复制起始点或自主复制序列(autonomously replicating sequence，简称ARS)和表达控制序列、启动子、增强子和必要的加工信息位点如核糖体结合位点、RNA剪接位点、聚腺苷酸化位点、转录终止序列和mRNA稳定序列。合适的话，可以含有来自天然BRCA1蛋白质或者来自其他受体或者来自相同或相关物种的分泌型多肽的分泌信号，从而使蛋白质能够通过和/或留在细胞膜，并因此获得其功能性拓扑结构或者从细胞中分泌出去。这些载体可以用本领域中熟知的标准重组技术制备，例如可以参见Sambrook等人，1989或Ausubel等人，1992。

应选择合适的启动子和其他必要的载体序列以便其能在宿主中发挥作用，而且合适的话，可含有与BRCA1基因天然相关的序列。细胞系和表达载体的可操作的组合在Sambrook等人，1989或Ausubel等人，1992中有描述；还可以参见Metzger等人，1988。许多有用的载体是本领域中熟知的，而且可以从供应商如Stratagene、New England Biolabs、Promega Biotech等处获得。启动子如trp、lac和噬菌体启动子、tRNA启动子和糖酵解酶启动子可以用于原核宿主。有用的酵母启动子包括金属硫蛋白(metallothionein)、3-磷酸甘油酸激酶或其他糖酵解酶如烯醇化酶或甘油醛-3-磷酸脱氢酶、担负利用麦芽糖和半乳糖的酶等的启动子区域。适合用于酵母表达的载体和启动子还在Hitzeman等人，EP73,675A中有进一步描述。合适的非天然哺乳动物启动子包括来自SV40的早期和晚期启动子(Fiers等人，1978)或来自Moloney鼠白血病病毒、鼠肿瘤病毒、鸟肉瘤病毒、腺病毒II、牛乳头状瘤病毒或多瘤的启动子。另外，构建物可以连于可扩增的基因(如二氢叶酸还原酶(DHFR))从而可以产生多拷贝基因。至于合适的增强子和其他的表达控制序列，也可以参见“增强子和基因表达”(Enhancersand Eukaryotic Gene Expression)，Cold Spring Harbor Press，Cold Spring Harbor，New York(1983)。

尽管这些表达载体可以自主复制，但是它们也可以通过使用本领域中熟知的方法插入到宿主细胞的基因组中再复制。

表达和克隆载体可含有供选择的标记基因，该基因编码的蛋白质是用载体转化的宿主细胞存活或生长所必需的。该基因保证只有表达该插入片段的宿主细胞才能生长。典型的选择基因编码下列蛋白质：a)提供对抗生素或其他毒性物质如氨苄青霉素、新霉素、氨甲喋呤等的抗性的蛋白质；b)互补营养缺陷型蛋白质或c)提供复合培养基中没有的重要营养成分的蛋白质，例如杆菌D-丙氨酸消旋酶的基因。选择合适的供选择的标记基因取决于所用的宿主细胞，而各种不同宿主的合适标记基因是本领域中所熟知的。

含有感兴趣核酸的载体可以在体外转录，然后用熟知的方法例如通过注射(参见T.Kubo等人，1988)将得到的RNA引入宿主细胞，或者也可以用本领域中熟知的方法将载体直接引入宿主细胞，这取决于宿主细胞的类型。这些方法包括：电穿孔；采用氯化钙、氯化铷、磷酸钙、二乙氨乙基(DEAE)-葡聚糖或其他物质的转染；微粒轰击(microprojectile bombardment)；脂质转染(lipofection)；感染(当载体是感染物例如反转录病毒基因组时)和其他方法。一般地参见Sambrook等人，1989和Ausubel等人，1992。用本领域中任何已知的方法，特别是上述的方法，将多聚核苷酸引入宿主细胞的过程在本文中称为“转化”。已经引入上述核酸的细胞还包括该细胞的后代。

大量的本发明核酸和多肽，可以在相容的原核或真核宿主细胞中通过载体或其他表达载体表达而得以制备。最常用的原核宿主是大肠杆菌菌株，尽管其他的原核生物，如枯草杆菌或假单孢菌(属)也可使用。

哺乳动物或其他的真核宿主细胞，如酵母、丝状真菌、植物、昆虫或两栖动物或鸟类的宿主细胞，也可以用于产生本发明的蛋白质。哺乳动物细胞的培养增殖是本领域中每个人都熟知的。参见Jakoby和Pastan，1979。常用的哺乳动物宿主细胞系的例子是VERO和HeLa细胞、中国仓鼠卵巢(CHO)细胞和WI38、BHK和COS细胞系。但是熟练的技术人员知道，其他的细胞系也是合适的，可用于提供更高效的表达、所需的糖基化形式或其他特性。

根据载体构建的方式，通过使用标记基因而选择克隆。标记基因位于相同或不同的DNA分子上，较佳地在相同的DNA分子上。在原核宿主中，可以通过对诸如氨苄青霉素、四环素或其他抗生素的抗性而选择转化体。根据温度敏感性而产生的特定产物也可以用作合适的标记物。

用本发明的多聚核苷酸转化的原核或真核细胞不仅可以用于产生本发明的核酸和多肽，也可以用于研究BRCA1多肽的性质。

反义多聚核苷酸序列可用于防止或减弱BRCA1基因座的表达，这一点是本领域中的熟练技术人员所能理解的。例如，可以将含有全部或部分BRCA1基因座序列、或者来自BRCA1区域的其他序列(尤其是位于BRCA1基因座两侧的序列)的多聚核苷酸载体置于反义方向启动子的控制下，并引入细胞。在细胞中，这种反义构建物的表达会干扰BRCA1转录和/或翻译和/或复制。

本文所公开的BRCA1基因序列的探针和引物，可以用于在其他物种中鉴别同源的BRCA1基因序列和蛋白质。对于分离出这些物质的物种，可将这些BRCA1基因序列和蛋白质用于本文所述的诊断/预后、治疗和药物筛选方法。

使用方法：核酸诊断和诊断试剂盒

为了检测是否存在使个体易患癌肿的BRCA1等位基因，可以制备生物样品如血液，然后分析是否存在易患性BRCA1等位基因。为了检测是否存在瘤形成、或者先前损伤向恶性发展、或者预后的征兆，可以制备损伤的生物样品，然后分析是否存在BRCA1等位基因。这些测试的结果和解释信息可以提供给卫生保健机构，从而告诉受测试的个体。这些诊断可以由诊断实验室进行，或者可以制造诊断试剂盒并售给卫生保健机构或个人以供自我诊断。

起初，筛选方法涉及通过扩增有关的BRCA1序列。在另一本发明的优选例子中，筛选方法是一种不基于PCR的方案。该筛选方法包括本领域中熟知的两步标记扩增技术。PCR和不基于PCR的筛选方案都能以很高的灵敏度检测靶序列。

目前最常用的方法是靶序列的扩增。使用聚合酶扩增靶核酸序列。一种特别优选的、聚合酶驱动的扩增反应方法是聚合酶链反应(PCR)。通过聚合酶驱动的扩增循环，聚合酶链反应和其他聚合酶驱动的扩增分析方法可使拷贝数目增加一百万倍以上。一旦被扩增，得到的核酸可以用于测序或者用作DNA探针的底物。

当使用探针来检测靶序列的存在时(例如在筛选癌肿的易患性时)，可以处理待分析的生物样品(例如血液和血清)以抽提出核酸。样品核酸可以用不同的方法进行制备，以便于靶序列的检测；例如变性、限制性消化、电泳或点杂交。被分析核酸的靶区域通常必须至少部分呈单链状态，以便与探针的靶序列形成杂交体。如果序列本身是单链，那么不需要变性。但是，如果序列是双链，那么序列可能需要变性。可以用本领域中熟知的各种技术进行变性。

在会促使探针的靶序列和被分析物中假定的靶序列之间形成稳定杂交体的条件下，将被分析核酸和探针进行孵育。与被分析物结合的探针区域可以被制成与人染色体17q的靶区域完全互补。因此，为了防止假阳性，需要高严紧条件。只有当探针与基因组中单一的染色体区域互补时方使用高严紧条件。杂交的严紧性由杂交和洗涤过程中的众多因素所决定，其中包括温度、离子强度、碱基组成、探针长度和甲酰胺浓度。这些因素在Maniatis等人，1982和Sambrook等人，1989中有总结，在某些情况下，更高级杂交体如三聚体、四聚体等的形成也可以作为检测靶序列的方法。

如果存在杂交体，那么形成的杂交体的检测通常通过使用标记探针而实现。或者，探针可以是未标记的，但是可以与直接或间接标记的配体通过特异性地结合而检测出。合适的标记物以及用于标记探针和配体的方法是本领域中熟知的，其中包括可用已知方法(如缺口平移、随机引物法和磷酸根转移法(kinasing))掺入的放射性标记物、生物素、荧光基团、化学发光基团(如二氧杂环丁烷(dioxetane)，尤其是触发态二氧杂环丁烷)、酶、抗体等。在这一基本技术框架下的改动是本领域中熟知的，并且包括那些有助于将待检测的杂交体从外源材料中分离出来和/或放大来自标记部分的信号的改动。众多的改动形式总结于Matthews&Kricka，1988；Landegren等人，1988；Mittlin，1989；美国专利4,868,105和EPO出版物No.225,807中。

如上所述，非PCR筛选分析方法也在本发明的构思之中。在实施例11中提供了代表性的非PCR程序。在该程序中，将核酸探针(或类似物，例如用膦酸甲酯骨架替换普通的磷酸二酯)与低浓度的DNA靶目标杂交。该探针具有与其共价相连的酶，因而该共价连接不会干扰杂交反应的特异性。接着该酶-探针-偶联物-靶核酸复合物可以与游离的探针-酶偶联物分离，然后加入底物进行酶检测。可以通过显色变化或者灵敏度增高10³-10⁶倍的荧光输出量而观察酶活性。对于寡聚脱氧核苷酸-碱性磷酸酶偶联物的制备及其作为杂交探针的用途，可以参见Jablonski等人，1986。

两步标记放大技术是本领域中熟知的。这些分析方法基于这样的原理：将小配体(如地高辛配基(digoxigenin)、生物素等)连于能够特异性地与BRCA1结含的核酸探针上。代表性的探针列于本申请的表9中，并且还包括对应于SEQID NO：1中3631至3930位核苷酸的核酸探针。等位基因特异性探针也在该例子的构思范围之中，代表性的等位基因特异性探针包括含有总结于本申请表11和12中的倾向性突变的探针。

在一个例子中，连于核酸探针上的小配体被抗体-酶偶联物特异性识别。在该例子中，将地高辛配基连于核酸探针上。通过能够使化学发光底物发生转换的抗体-碱性磷酸酶偶联物检测杂交。用于标记该例子中核酸探针的方法，可以参见Martin等人，1990。在另一例子中，小配基被能够特异性地与第一配基复合的第二配基-酶偶联物所识别。这种情况下的一个众所周知的例子是生物素-抗生物素的相互作用。标记核酸探针的方法以及它们在基于生物素-抗生物素分析中的用途，参见Rigby，等人，1977和Nguyen，等人(1992)。

同样在本发明构思范围之中的是，本发明的核酸探针分析可以采用能够检测出BRCA1基因的核酸探针的混合物。因此，在一个从细胞样品中检测BRCA1是否存在的例子中，采用多种与BRCA1互补的探针，尤其是这组不同的探针可以为2、3或5种不同的核酸探针序列。在另一例子中，为了在病人中检测是否存在BRCA1基因序列的突变，可以使用一种以上与BRCA1互补的探针，其中该混合物含有能够与等位基因特异性突变结合的探针，而这些突变是在带有BRCA1突变的病人群体中鉴别出的。在该例子中，可以使用任何数目的探针，而且最好包括对应于使个体倾向于患乳房癌的主要的基因突变类型的探针。一些本发明范围之内的候选探针包括含有表11和12中列出的等位基因特异性突变的探针，以及含有对应于SEQ ID NO：1突变位点5′和3′的BRCA1区域的探针。

使用方法：肽诊断和诊断试剂盒

损伤的瘤形成状况可以根据野生型BRCA1多肽发生的改变而加以检测。这种改变可以用常规技术通过序列分析确定。更佳地，可使用抗体(多克隆或单克隆抗体)来检测BRCA1肽的差异或BRCA1肽的缺乏。抗体可以按上述标题为“抗体”中的方法进行制备，并且在实施例12和13中有进一步的显示。用于产生和纯化抗体的其他技术是本领域中公知的，而且任何一种这类技术都可用于实现本发明所述的制剂。在本发明的优选实施例中，抗体将BRCA1蛋白质从溶液中免疫沉淀出，并且在聚丙烯酰胺凝胶的Western印迹或免疫印迹中与BRCA1蛋白质反应。在另一优选实施例中，通过使用免疫细胞化学技术，抗体可以检测石蜡或冰冻组织切片中的BRCA1蛋白质。

检测BRCA1或其突变方法的优选例子包括酶联免疫吸附测定(enzyme linkedimmunosorbent assays，ELISA)、放射免疫测定(RIA)、免疫放射测定(IRMA)和免疫酶测定(IEMA)，包括使用单克隆和/或多克隆抗体的夹心测定。代表性的夹心测定例子在David等人的美国专利No.4,376,110和4,486,530中有描述(这些文献在此引用作为参考)，并且以实施例14为例。

使用方法：药物筛选

本发明对于筛选化合物特别有用，即在各种药物筛选技术中通过使用BRCA1多肽或其结合片段而筛选化合物。

在测试中使用的BRCA1多肽或其片段可以处于溶液中的游离状态，或者被固定于某固相载体，或者位于细胞表面。一种药物筛选方法最好是在竞争结合测定中，采用已经用表达多肽或其片段的重组多聚核苷酸稳定地转化了的原核或真核宿主细胞。这类细胞，或者处于游离状态或者处于固定形式，都可以用于标准结合分析中。例如人们可以测量在BRCA1多肽或其片段和被测试的试剂之间是否形成复合物，或者检测在BRCA1多肽或其片段和已知配体之间形成的复合物受所测试试剂干扰的程度。

因此，本发明提供了筛选药物的方法，它包括将某种试剂与BRCA1多肽或其片段接触，然后用本领域中熟知的方法测定：1)是否存在由该试剂和BRCA1多肽或其片段形成的复合物或2)是否存在由BRCA1多肽或其片段和配基形成的复合物。在这种竞争性结合测定中，BRCA1多肽或其片段通常是被标记的。将游离的BRCA1多肽或其片段从蛋白质：蛋白质复合物中分离，游离(即未复合的)标记物的量便分别是被测试的试剂结合于BRCA1的测量值，或者是其干扰BRCA1：配体结合的测量值。

另一种药物筛选的方法可以为与BRCA1多肽有适当结合亲和力的化合物提供高产率的筛选，该方法在Geysen的PCT出版的申请WO 84/03564中(1984年9月13日出版)有详细的描述。简而言之，在固相基质如塑料针或其他表面上合成大量不同的小肽测试化合物，然后将肽测试化合物与BRCA1多肽反应并洗涤。接着用本领域中熟知的方法检测结合的BRCA1多肽。

纯化的BRCA1可以直接涂在板上以便用于上述的药物筛选技术。但是，也可以使用针对多肽的非中和抗体来捕获抗体以便将BRCA1多肽固定于固相载体。

本发明还构思了竞争性药物筛选测定法的用途。其中能够特异性地结合BRCA1的中和抗体与测试化合物发生竞争，争夺与BRCA1多肽或其片段的结合。在这种方法中，可以使用抗体来检测具有一个或多个BRCA1多肽抗原决定簇的任何肽。

另一种药物筛选的技术涉及使用具有无功能BRCA1基因的真核宿主细胞或细胞系(例如上述的)。这些宿主细胞系或细胞在BRCA1多肽水平上存在缺陷。在药物化合物存在条件下，使这些宿主细胞系或细胞生长。测量宿主细胞的生长速率以确定化合物是否能够调节BRCA1缺陷型细胞的生长。

使用方法：合理的药物设计

合理的药物设计的目的是产生出感兴趣的、具有生物学活性的多肽结构类似物，或与其反应的小分子结构类似物(例如促效剂、拮抗剂、抑制剂)，以便设计出的药物是活性更高的或更稳定的多肽，或者该药物可以增强或干扰多肽在体内的功能。例如参见Hodgson，1991。在一种方法中，人们先要通过X-射线衍射晶体法、通过计算机模型设计或者最典型地通过多种手段的结合而确定感兴趣蛋白质(例如BRCA1多肽)或BRCA1受体或配体复合物的三维结构。通过基于同源蛋白质结构的模型设计，可以获得有关某肽结构的较不常见的有用信息。合理的药物设计的一个例子是人免疫缺陷病毒(HIV)蛋白酶抑制剂的开发(Erickson等人，1990)。此外，可以用丙氨酸扫描法(Wells，1991)来分析肽(如BRCA1多肽)。在该技术中，用Ala置换某氨基酸残基，然后确定该置换对肽活性的影响。肽的每一个氨基酸残基都用这种方式进行分析，以确定肽的重要区域。

通过功能测定的选择，还可以分离靶特异性抗体，然后解开其晶体结构。从理论上讲，这种方法会得到一个药物核心(pharmacore)，而随后的药物设计都可以以此为基础。通过产生针对有功能的、有药物学活性的抗体的抗特异型抗体(anti-id)，就有可能绕过蛋白质晶体分析。作为镜像的镜像，可以预计抗特异型抗体的结合位点是最初受体的类似物。然后，可用抗特异型抗体从化学或生物学方法产生的肽文库中鉴别和分离出所需的肽。此时，选出的肽可以作为药物核心。

因此，人们可以设计出BRCA1活性更高或更稳定的药物，或者可以设计出作为BRCA1活性抑制剂、促效剂、拮抗剂等的药物。因为已经有了克隆的BRCA1序列，所以可以产生出足够量的BRCA1多肽，以便进行X-射线衍射晶体等研究。另外，此处提供的BRCA1蛋白质序列的知识对那些采用计算机模型设计取代X-射线衍射晶体的人以及那些同时使用这两种方法的人可起指导作用。

使用方法：基因治疗

根据本发明，提供了向携带突变型BRCA1等位基因的细胞提供野生型BRCA1功能的方法。提供这样一种功能会抑制受体细胞的肿瘤生长。可以将位于载体中的野生型BRCA1基因或部分基因引入细胞，从而使引入的基因处于染色体外。在这种情况中，基因在细胞的染色体外进行表达。如果基因片段被引入并在携带突变型BRCA1等位基因的细胞中表达，则基因片段应能够编码使细胞进行非瘤形成生长所需的部分BRCA1蛋白质。更优选的是这样一种情况：野生型BRCA1基因或其部分被引入突变型细胞并且和细胞中存在的内源突变型BRCA1基因发生重组。这种重组需要发生双重组事件，从而导致BRCA1基因突变的校正。用于将基因引入从而进行重组或维持在染色体外的载体，是本领域中熟知的，而且可以使用任何合适的载体。将DNA引入细胞的方法，例如电穿孔、磷酸钙共沉淀和病毒转导都是本领域中熟知的，方法的选择是一般技术人员都能做到的。用野生型BRCA1基因转化的细胞可以用作研究癌肿消退以及研究促进这种消退的药物治疗的模型系统。

如上所述，可以在基因治疗方法中采用BRCA1基因或其片段(适用时)，以便增加癌肿细胞中该基因表达产物的数量。这种基因治疗特别适用于癌肿细胞和前癌肿(pre-cancerous)细胞，因为与正常细胞相比，这种细胞中BRCA1多肽的水平下降或缺乏。这种基因治疗还可以用于在另一些肿瘤细胞中增加给定的BRCA1基因的表达水平，在这些细胞中突变型基因按“正常的”水平进行表达，但是基因产物却没有全部功能。

基因治疗可以用普遍接受的方法进行，例如Friedman，1991中所描述的方法。来自病人的肿瘤细胞可以先用上述的诊断方法进行分析，以确定肿瘤细胞中产生BRCA1多肽。然后制备含有连于表达调控元件并且能够在肿瘤细胞中复制的BRCA1基因拷贝的病毒或质粒载体(细节如下)。适用的载体是本领域中熟知的，例如在美国专利5,252,479和PCT出版的申请WO 93/07282中所公开的。接着可以将载体注射入病人，或者是局部地在肿瘤位置进行，或者是全身性进行(为了到达可能转移至其他部位的肿瘤细胞)。如果转染的基因没有永久性地掺入各靶肿瘤细胞的基因组，那么需要定期地重复进行治疗。

本领域中已知的基因转移系统都可以用于实施本发明的基因治疗方法。这包括病毒和非病毒转移方法。大量的病毒已用作基因转移载体，其中包括乳多空病毒如SV40(Madzak等人，1992)、腺病毒(Berkner，1992；Berkner等人，1988；Gorziglia和Kapikian，1992；Quantin等人，1992；Rosenfeld等人，1992；Wilkinson等人，1992；Stratford-Perricaudet等人，1990)、牛痘病毒(Moss，1992)、腺伴随病毒(Muzyczka，1992；Ohi等人，1990)、包括单纯疱疹病毒(HSV)和EB病毒(EBV)在内的疱疹病毒(Margolskee，1992；Johnson等人，1992；Fink等人，1992；Breakfield和Geller，1987；Freese等人，1990)和来自鸟类(Brandyopadhyay和Temin，1984；Petropoulos等人，1992)、鼠(Miller，1992；Miller等人，1985；Sorge等人，1984；Mann和Baltimore，1985；Miller等人，1988)和人(Shimada等人，1991；Helseth等人，1990；Page等人1990；Buchschacher和Panganiban，1992)的反转录病毒。大多数的人类基因治疗方案以无毒的鼠反转录病毒为基础。

本领域中已知的非病毒基因转移方法包括化学方法，例如磷酸钙共沉淀(Graham和van der Eb，1973；Pellicer等人，1980)；机械方法，例如微注射(Anderson等人，1980；Gordon等人，1980；Brinster等人，1981；Constantini和Lacy，1981)；通过脂质体进行的膜融合介导转移(Felgner等人，1987；Wang和Huang，1989；Kaneda等人，1989；Stewart等人，1992；Nabel等人，1990；Lim等人，1992)和直接DNA摄入以及受体介导的DNA转移(Wolff等人，1990；Wu等人，1991；Zenke等人，1990；Wu等人，1989b；Wolff等人，1991；Wagner等人，1990；Wagner等人，1991；Cotten等人，1990；Curiel等人，1991a；Curiel等人，1991b)。病毒介导的基因转移可以与使用脂质体送递的直接的体内基因转移一起使用，使得人们可指导病毒载体进入肿瘤细胞而不进入周围的不分裂细胞。或者，可以将产生反转录病毒载体的细胞系注射入肿瘤(Culver等人，1992)，这种生产细胞的注入可以连续地提供载体颗粒来源。该技术已经被批准用于患有不可进行手术的脑肿瘤病人。

在一种结合生物学和物理学基因转移法的方法中，将任何大小的质粒DNA与对腺病毒六邻体蛋白特异的聚赖氨酸偶联抗体混合，形成的复合物被连于腺病毒载体。然后用这种三分子复合物感染细胞。在双链DNA破坏之前，腺病毒载体能够有效地结合、内化(internalization)和降解核内体(endosome)。

已表明，脂质体/DNA复合物能够介导直接的体内基因转移。尽管对于标准的脂质体制剂，基因转移过程是非特异性的，但是已经有报道，按照直接的原位施用方法(Nabel 1992)，在肿瘤病灶部位有局部体内摄入和表达。

优选的是将DNA直接导向乳房和卵巢组织例如乳房或卵巢的上皮细胞的基因转移技术。受体介导的基因转移，可例如通过聚赖氨酸将DNA(通常为共价闭合的超螺旋质粒)与蛋白质配体偶联起来而实现。根据在靶细胞/靶组织类型的细胞表面是否存在相应的配体受体，选择配体。一种合适的受体/配体对包括雌激素受体及其配体即雌激素(或雌激素类似物)。如果需要，这些配体-DNA偶联物可直接注入血液中并导向靶组织，在靶组织处发生受体结合和DNA-蛋白质复合物的内化。为了克服DNA在细胞内解体的问题，可用腺病毒一起共感染以破坏核内体。

治疗涉及两个步骤，它们可以单独或组合进行。在第一步骤中，用基因送递载体治疗携带BRCA1易患性等位基因的青春期前的女性，从而使部分或全部乳房管上皮前体细胞接受至少一个额外拷贝的功能性正常BRCA1等位基因。在该步骤中，接受治疗的个体减小了患乳房癌的风险，因为易患性等位基因的作用被存在的正常等位基因所抵消。在预防性治疗的第二步骤中，易患性年轻女性尤其是已接受所述基因治疗处理的女性，进行激素治疗以模拟全程怀孕对乳房的影响。

使用方法：肽治疗

可以将具有BRCA1活性的肽提供给携带突变型BRCA1等位基因或缺乏BRCA1等位基因的细胞。本文公开了BRCA1蛋白质的序列(SEQ ID NO：2)。可使用已知的表达载体，通过细菌中的cDNA序列的表达而产生蛋白质。或者，BRCA1多肽可以从产生BRCA1的哺乳动物细胞中抽提出。另外，可以使用化学合成技术来合成BRCA1蛋白质。其中任何一种技术都能够提供本发明的、含有BRCA1蛋白质的制剂。该制剂基本上不含其他种类的人蛋白质。通过在微生物内合成或体外合成，可以极方便地实现该目的。

可以通过微注射或使用脂质体将活性BRCA1分子引入细胞。或者，某些活性分子可以被细胞主动地或通过扩散摄入。在细胞外施用BRCA1基因产物可足以影响肿瘤的生长。提供具有BRCA1活性的分子可以部分地逆转瘤形成状态。也可以使用其他具有BRCA1活性的分子(例如肽、药物或有机化合物)来实现这种逆转。还可以使用功能基本类似的修饰多肽进行肽治疗。

使用方法：转化的宿主

同样地，携带突变型BRCA1等位基因的细胞和动物可以用作模型系统，以研究和测试可能成为治疗剂的物质。这些细胞通常是培养的上皮细胞。这些细胞可以从具有体细胞或种系突变的BRCA1突变个体中分离而得。或者如上所述，可以对细胞系进行工程改造，使之携带BRCA1等位基因的突变。将测试物质施用于细胞之后，测定细胞的瘤形成转化表型。对瘤形成转化细胞的任何性状都可以进行评估，其中包括不依赖于贴壁的生长(anchorage-independent growth)、在裸鼠中的致瘤性、对细胞的入侵性和对生长因子的依赖性。其中任何一种性状的测定是本领域中熟知的。

在对全体动物进行诱变或对种系细胞或合子进行处理之后，可以选择用于测试治疗剂的动物。这些处理包括插入突变型BRCA1等位基因(通常来自另一种动物)以及插入破坏的同源基因。或者，可以使用常规技术(Capecchi，1989；Valancius和Smithies，1991；Hasty等人，1991；Shinkai等人，1992；Mombaerts等人，1992；Philpott等人，1992；Snouwaert等人，1992；Donehower等人，1992)，通过插入或缺失突变或者其他的遗传改变而破坏动物的内源BRCA1基因。在将测试物质施用于动物之后，必须评估肿瘤的生长。如果测试物质防止或抑制肿瘤的生长，那么该测试物质是用于治疗本文所述癌肿的候选治疗剂。这些动物模型提供了潜在治疗剂极其重要的测试工具。

本发明结合下列实施例进行阐述。这些实施例仅用于阐述本发明，并不以任何方式限制本发明。采用的是本领域中熟知的标准技术或在下文中特别说明的技术。

实施例1

确定与研究可能具有与17q连锁的乳房癌易患性基因座的亲缘族

从具有多个乳房癌病例及具有许多可供研究亲属的一大组延伸亲缘族的群体中，确定了具有广泛性癌症倾向的亲缘族。在这些大的亲缘族中发生的大量减数分裂提供了检测BRCA1基因座是否分离的能力，而且增加了在被研究的这一微小区域内发生有信息的重组的机会。这大大增加了建立与BRCA1区域连锁的机会，从而极大地方便了缩小BRCA1区域至可操作的大小，这将能够鉴定出BRCA1基因座。

每一亲缘族延伸至所有可联系的亲属，并至每一先证者(proband)或癌症病人所有有信息的一级亲属(嫡堂(表)兄妹)。就这些亲缘族而言，还通过肿瘤记录连锁档案鉴定出此亲缘族中的其它乳房癌病例和在其它部位(例如卵巢)有癌肿的个体。对亲缘族中全部有记录的但未经Utah Cancer Registry确认的乳房癌进行了研究。收集医疗记录或死亡证明以确认全部癌肿病例。每一重要相关个体和所有可提供信息的个体均被邀请参与，要其提供血样供抽提DNA。我们还对已故病例的配偶和亲属进行了取样，由此可从其亲属的基因型获得已故病例的基因型。

由原先从连锁数据库(Skolnick等人，1990)中确定的29个用于研究乳腺增生疾病及乳房癌的亲缘族中，选择10个具有3个或3个以上具有可推断的基因型的癌肿病例的亲缘族，用于与17q上各标记的连锁研究。选择这些亲缘族的标准是有两姐妹或一个母亲及其女儿患有乳房癌。此外，还包括自1980起作为我们乳房癌连锁研究一部分的2个亲缘族(K1001、K9018)、由连锁数据库确定的有乳房癌和/或卵巢癌的6个亲缘族(K2019、K2073、K2079、K2080、K2039、K2082)和一个早发型乳房癌自荐(self-referred)亲缘族(K2035)。以上文所述的方法对这些亲缘族进行了临床调查和扩延。表1显示了这19个作为随后实施例对象的亲缘族的特征。在表1中，记录了我们数据库中每一亲缘族的个体总数，各型别个体的数量和诊断为乳房癌/卵巢癌时的最小、平均及最大年龄。亲缘族按在诊断为乳房癌时的平均年龄的递增顺序归类。4个同时诊断有卵巢癌和乳房癌的妇女在两类中同时被计数。

表1

对19个亲缘族的说明

乳房癌卵巢癌

个体数确诊年龄确诊年龄亲缘族总数样本数患者最小平均最大患者最小平均最大1910 15 10 4 27 34 49 - - - -1001 133 98 13 28 37 64 - - - -2035 42 25 8 28 37 45 1 - 60 -2027 21 11 4 34 38 41 - - - -9018 54 17 9 30 40 72 2 46 48 501925 50 27 4 39 42 53 - - - -1927 49 29 5 32 42 51 - - - -1911 28 21 7 28 42 76 - - - -1929 16 11 4 34 43 73 - - - -1901 35 19 10 31 44 76 - - - -2082 180 105 20 27 47 67 10 45 52 662019 42 19 10 42 53 79 - - - -1900 70 23 8 45 55 70 1 - 78 -2080 264 74 22+ 27 55 92 4 45 53 712073 57 29 9 35 57 80 - - - -1917 16 6 4 43 58 61 - - - -1920 22 14 3 62 63 68 - - - -2079 136 18 14 38 66 84 4 52 59 652039 87 40 14 44 68 88 4 41 51 75+包括一例男性乳房癌。

实施例2

与染色体17q连锁的亲缘族的选择和BRCA1在Mfd15-Mfd188间隔内的定位

对于收集自19个亲缘族中的每一个样本，用标准实验室方法从血液(在两个病例中从石蜡包埋组织块)中抽提DNA。在本研究中基因分型仅限于短串联重复(STR)标记，因为它们通常具有高度的杂合性，并且PCR使用很少量的DNA就能提供迅速的周转速度。为了有助于此，通过在染色体特异性粘粒文库中筛选针对CA阳性克隆，确定了位于染色体17上的4个这类STR标记。其中3个标记在长臂上：(46E6，Easton等人，1993)；(42D6，Easton等人，1993)；26C2(D17S514，Oliphant等人，1991)，另一个12G6(D17S513，Oliphant等人，1991)在短臂上并靠近p53肿瘤抑制基因基因座。其中两个，42D6和46E6被提交给乳房癌连锁协会(Breast Cancer Linkage Consortium)供世界各地的研究者进行乳房癌分类。从公开的报道，或作为乳房癌连锁协会的成员，或从其它研究者处，可获得不是由我们的实验室确定的标记的寡聚核苷酸序列。全部基因分型照片根据用于维持等位基因一致编号的标准泳道标记进行盲法评分。对此处4个亲缘族中的关键样本就全部相关标记进行重复分型。对全部19个亲缘族就两种多态性CA重复标记42D6(D17S588)(在我们的实验室中分离得到的CA重复标记)和Mfd15(D17S250)(由J.Weber(Weber等人，1990)提供的CA重复标记)进行了分型。使用了多种来源的探针以产生位于染色体17上的、尤其是由Los Alamos National Laboratories(Van Dilla等人，1986)从已分类的染色体产生的染色体17粘粒和λ噬菌体文库中的遗传标记。

就两种重组值0.001和0.1，计算每一亲缘族与这两个标记(42D6、Mfd15)和大致位于这两个标记的中间位置的第三标记Mfd188之间的LOD值。(有关LOD值的计算参见Oh，1985)。在Claus等人，(1991年)的模式下计算可能性，该模式假设估计的基因频率为0.003，基因携带者的终身患病风险率约0.80，而且非基因携带者的风险率是以群体为基础的年龄特异性的。根据本实验室对CEPH实验对象中不相关个体(White和Lalaouel，1988)的分型结果计算出用于LOD值计算的三种标记的等位基因频率。表2显示每一亲缘族与三种标记42D6、Mfd188和Mfd15的配对连锁分析结果。

表2

亲缘族的配对连锁分析

Mfd15(D17S250) Mfd188(D17S579)42D6(D17S588)

重组重组重组

0.001 0.1 0.001 0.1 0.001 0.1

亲缘族

1910 0.06 0.30 0.06 0.30 0.06 0.30

1001 -0.30 -0.09 NT NT -0.52 -0.19

2035 2.34 1.85 0.94 0.90 2.34 1.82

2027 -1.22 -0.33 -1.20 -0.42 -1.16 -0.33

9018 -0.54 -0.22 -0.17 -0.10 0.11 0.07

1925 1.08 0.79 0.55 0.38 -0.11 -0.07

1927 -0.41 0.01 -0.35 0.07 -0.44 -0.02

1911 -0.27 -0.13 -0.43 -0.23 0.49 0.38

1929 -0.49 -0.25 NT NT -0.49 -0.25

1901 1.50 1.17 0.78 0.57 0.65 0.37

2082 4.25 3.36 6.07 5.11 2.00 3.56

2019 -0.10 -0.01 -0.11 -0.05 -0.18 -0.10

1900 -0.14 -0.11 NT NT -0.12 -0.05

2080 -0.16 -0.04 0.76 0.74 -1.25 -0.58

2073 -0.41 -0.29 0.63 0.49 -0.23 -0.13

1917 -0.02 -0.02 NT NT -0.01 0.00

1920 -0.03 -0.02 NT NT 0.00 0.00

2079 0.02 0.01 -0.01 -0.01 0.01 0.01

2039 -1.67 -0.83 0.12 0.59 -1.15 0.02

NT没有对Mfd188进行分型的亲缘族。

以在CASH模式(Claus等人，1991)下，至少一个基因座的LOD值＞1.0作为与17q发生连锁的标准，19个亲缘族中有4个似乎与17q连锁(K1901、K1925、K2035、K2082)。其它一些亲缘族也表现出某些连锁迹象，但在此不能确切归为连锁类。这些亲缘族包括K1911、K2073、K2039和K2080。3个17q连锁亲缘族具有此区域内可提供信息的重组体，详细描述见下文。

亲缘族2082是迄今报道的最大的17q连锁的乳房癌家族。该家族有20例乳房癌，10例卵巢癌。两例同时患有卵巢癌和乳房癌。该家族与17q连锁的证明是十分明显的，其与所连锁单倍型的LOD值大于6.0，但3例乳房癌除外，它们似乎是偶发的，即这些病例不共有Mfd15和42D6之间的连锁单倍型。这3个偶发病例在46，47和54岁时被诊断为乳房癌。在较小的亲缘族中，这种偶发癌肿大大干扰了连锁分析和对关键重组体的正确鉴定。在2082亲缘族中的关键重组体是一个在45岁时患上卵巢癌的妇女，其母亲和阿姨分别在58岁和66岁患上卵巢癌。她遗传了Mfd188和42D6两者的单倍型连锁部分同时遗传了位于Mfd15的非连锁等位基因；该重组事件将BRCA1定位于Mfd15的远端。

K1901是典型的早发型乳房癌家族。该家族有10例平均诊断年龄为43.5岁的乳房癌病例；4例是在40岁前诊断的。该亲缘族与标记42D6的LOD值为1.5，使得17q连锁的经验概率为0.96。对该亲缘族中的单倍型进行检查，在一必然男性携带者和其受累的女儿(在45岁时诊断为乳房癌)中鉴定了一个重组单倍型。他们的标记Mfd15连锁等位基因不同于在该亲缘族中其它病例(有1例除外，该病例不能由其后代完全推测)中找到的。两种单倍型对Mfd188和42D6是一致的。所以，从K1901获得的数据也将BRCA1定位于Mfd15的远端。

亲缘族2035在疾病表型方面类似于K1901。该亲缘族中8例乳房癌的平均诊断年龄为37岁。其中一例还在60岁时患上卵巢癌。该家族的乳房癌病例从两姐妹开始下传，这两姐妹直至80多岁死亡时始终没有发生乳房癌。两分支均包括4例乳房癌，各分支中至少一例是明显的早发型。该亲缘族与Mfd15的LOD值是2.34。两分支中患乳房癌的分离单倍型都有相同的位于Mfd15的等位基因，但远端基因座Mfd188和NM23(由协会成员定出的、刚好位于42D6远端的标记(Hall等人，1992))不同。虽然这两个单倍型对标记42D6来说是一样的，但很可能等位基因共有相同的状态(来自不同祖先的相同等位基因)而不是相同的起源(来自同一祖先)，因为共有等位基因是在该基因座观察到的第二位的最常见等位基因。相比之下，在Mfd15处共有的连锁等位基因其频率为0.04。这是我们数据组合中的一个关键重组体，因为这是唯一一个BRCA1随单倍型近端部分分离的重组体，由此确定了BRCA1区域的远端边界。如果这一事件不是成为关键重组体的话，则需要在与该亲缘族婚配的一配偶中存在有第二个突变型BRCA1基因，该配偶也共有亲缘族两分支中随乳房癌一同分离的稀有Mfd15等位基因。这种情况的可能性低于千分之一。来自该亲缘族的证据将BRCA1基因座定位于Mfd188的近端。

实施例3

利用其它的STR多态性产生精确的结构图谱并将BRCA1区域确定于Mfd191-Mfd188

为了更好的定性重组体以及确定更靠近的标记，需要有染色体17q上此相对小区域的密集图谱。17号染色体研讨会已根据遗传和物理作图研究(Fain，1992)得出了该区域的一致性图谱(图1)。该图谱同时包含高度多态性的STR多态性和一些非多态性的表达基因。由于该图谱没有给出证明该次序的有关细节，也没有给出局部支持相邻基因座次序倒位的测定值，所以我们只将其视为获取用于开发新的标记和构建我们自己的含BRCA1小区域的详细遗传和物理图谱的粗略引导。我们的方法是，同时根据利用CEPH参考家族的DNA鉴定出的减数分裂(遗传)断裂点图和就此区域构建的体细胞杂交体(物理断裂点)图，分析由其它研究者提供的已有STR标记和各种由我们实验室新开发出的标记。这些标记包括由本实验室开发的位于Mfd15近端的26C2、Mfd191(由JamesWeber提供)、THRA1(Futreal等人，1992)和三个由Donald Black博士提供三个多态性标记：NM23(Hall等人，1992)、SCG40(D17S181)和6C1(D17S293)。

标记的遗传定位

为了在目标区域内将新的标记遗传定位，我们已在CEPH参考家族和我们的大乳房癌亲缘族(K2082)中鉴定出了一些该区域内的减数分裂断裂点。由于该区域内遗传距离短，它们似乎只是很小的一组可用于此目的的重组体，而且它们将标记分成几组。每一组中的标记次序只能由物理作图测定。但是，这最大程度地减少了定位新标记所必需的基因分型的次数。表3和表4显示出了这些断裂点。利用此方法，我们能够确定标记THRA1、6C1、SCG40和Mfd191的遗传次序。从表3和表4中可以看到，THRA1和MFD19，都在Mfd15至Mfd181域内，我们已在先前鉴定出该区域内含有BRCA1基因座。在表3和表4中，M/P表示一母系或父系重组体。“1”表示等位基因遗传自祖父辈，“0”表示遗传自祖母辈，“-”表示该基因座没有被分型或没有信息。

表3

CEPH重组体

家族 ID M/P Mfd15 THRA1 Mfd191 Mfd188 SCG40 6C1 42D6

13292 4 M 1 1 1 0 0 0 0

13294 4 M 1 1 1 0 0 0 0

13294 6 M 0 0 1 1 - - -

1334 3 M 1 1 1 1 1 0 0

1333 4 M 1 1 1 0 - - 0

1333 6 M 0 0 1 1 - - 1

1333 8 P 1 0 0 0 - - 0

1377 8 M 0 - 0 0 0 0 1

表4

亲缘族2082重组体

家族 ID M/P Mfd15 Mfd191 Mfd188 SCG40 6C1 42D6

75 M 0 1 1 1 - -

63 M 0 0 1 1 - 1

125 M 1 1 1 0 - 0

40 M 1 1 0 0 - 0

在我们的重组体家族中对标记Mfd15、Mfd188、Mfd191和THRA1进行分析

在我们的重组体家族中对Mfd15、Mfd188、Mfd191和THRA1进行了分型，并检查了其它定位BRCA1基因座的信息。在亲缘族1901中，Mfd15重组体也是THRA1重组体，但没有信息显示是Mfd191重组体，因此BRCA1位于THRA1的远端。在K2082中，带Mfd15的重组体也带Mfd191，所以，BRCA1基因座位于Mfd191的远端(Goldgar等人，1994)。在亲缘族K2035中对THRA1和Mfd191的检查未提供进一步的定位信息，两分支对两标记的表现相同。但是，SCG40和6C1表现出相同于Mfd188的格局，更使我们确信该家族中Mfd188提供的定位信息。所以，BRCA1基因座，或者至少其部分，位于由其近端Mfd191和远端Mfd188界定的区间内。

实施例4

该目标区域内的遗传和物理资源的开发

为了增加Mfd191至Mfd188区域内高度多态性基因座的数量，我们在实验室中通过粘粒和YAC开发了一些STR标记，它们被物理定位于该区域的。这些标记能够使我们进一步确定此区域。

从已知位于所需区域内的基因中鉴定出STS以用于鉴定含有这些基因座的YAC，然后将其用于鉴定粘粒P1或BAC中的亚克隆。然后，利用(CA)_n寡核苷酸(Pharmacia)，就是否存在CA串联重复序列进行筛选。优先选取具有强信号的克隆，因为它们更可能代表了CA重复序列，即具有大量的重复序列和/或具有与(CA)_n格局近乎最佳的一致性。已知两者的这些特征都提高了多态性的可能性(Weber，1990)。从载体上直接测序这些克隆以确定重复序列位置。利用一组与CA重复序列末端互补的可能性引物中的一个，例如(GT)₁₀T，我们获得了CA重复序列一侧的一段单一序列。根据这段单一序列，合成一个引物，从而从反方向对重复区进行测序，由此产生了一个单一序列，再将其用于设计第二个位于CA重复区侧翼的引物。然后对一小组不相关个体就多态性筛选STR，然后对照杂交体图进行检查以确认它们的物理位置。然后在来自犹他州和CEPH家族的一组40个不相关个体中对满足这些标准的新标记进行分型以获取适合研究群体的等位基因频率。本研究中报道的其它标记在一较小组的CEPH不相关个体中进行测试以类似地获取合适的等位基因频率。

使用上述方法，从这些YAC中共发现8种多态性STR。以此方式鉴定的基因座中有4个既呈多态性，而且又位于BRCA1区。有4个标记不在染色体17上，反映了所用的YAC的嵌合特性。位于区域内的4个标记为AA1、ED2、4-7和YM29。AA1和ED2来自RNU2阳性的YAC，4-7来自EPB3YAC，YM29来自根据杂交体图位于该区域的粘粒。表5给出了在乳房癌亲缘族中分析的有关这4个及所有其它STR多态性的等位基因数量、杂合性和来源的说明。

表5

用于BRCA1基因座精确结构作图的多态性短串联重复标记

等位基因^*频率(％)

克隆基因 Na^** 杂合性 1 2 3 4 5 6

Mfd15 D17S250 10 0.82 26 22 15 7 7 23

THRA1 THRA1 5

Mfd191 D17S776 7 0.55 48 20 11 7 7 7

ED2 D17S1327 12 0.55 62 9 8 5 5 11

AA1 D17S1326 7 0.83 28 28 25 8 6 5

CA375 D17S184 10 0.75 26 15 11 9 9 20

4-7 D17S1183 9 0.50 63 15 8 6 4 4

YM29 -- 9 0.62 42 24 12 7 7 8

Mfd188 D17S579 12 0.92 33 18 8 8 8 25

SCG40 D17S181 14 0.90 20 18 18 10 8 35

42D6 D17S588 11 0.86 21 17 11 10 9 32

6C1 D17S293 7 0.75 30 30 11 11 9 9

Z109 D17S750 9 0.70 33 27 7 7 7 19

tdj1475 D17S132 1 13 0.84 21 16 11 11 8 33

CF4 D17S1320 6 0.63 50 27 9 7 4 3

tdj1239 D17S1328 10 0.80 86 10 9 7 4 14

U5 D17S1325 13 0.83 19 16 12 10 9 34

^*等位基因编号1-5按递减频率排列；等位基因数目不对应于片段的大小。等位基因6频率是全部其它等位基因对每一基因座的联合频率。

^**在用于计算等位基因频率的遗传上独立DNA样本中看到的等位基因数量。

在先前的表3和表4所示减数分裂断裂点图中，对这4个物理定位于该区域的STR多态性进行分析。表6和表7包含了用于定位这4个标记的相关CEPH数据和亲缘族2082数据。在两表中，M/P表示一母系或父系的重组体。“1”表示遗传的等位基因来自祖父辈，“0”表示来自祖母辈，“-”表示该基因座没有被分型或无信息。

表6

用于确定17q的BRCA1区域内

实验室开发的新STR基因座遗传顺序的关键重组体

CEPH

家族 ID M/P Mfd15 THRA1 Mfd191 ED2 AA1 Z109 4-7 YM29 Mfd188 SCG40 42D613292 4 M 1 1 1 1 1 0 0 0 0 0 013294 4 M 1 0 0 - 0 - - - 0 - -13294 6 M 0 0 1 - 1 - - - 1 - -1333 4 M 1 1 1 - 0 - -0 0 - 0 -1333 6 M 0 0 1 - 1 - - 1 1 - 11333 3 M 0 0 1 - - - 1 1 1 - 1

表7

亲缘族2082重组体

ID M/P Mfd15 Mfd191 ED2 AA1 4-7 YM29 Mfd188 SCG40 42D6

63 M 0 0 1 - 1 1 1 1 1

125 M 1 1 1 - 1 1 1 0 0

40 M 1 1 0 - 0 - 0 0 0

22 P 0 0 1 1 1 1 1 1 1

从CEPH1333-04我们看到，AA1和YM29一定位于Mfd191的远端。从13292可以推断AA1和ED2都在4-7、YM29和Mfd188的近端。在K2082中发现的重组体提供了另外一些顺序信息。3个相互独立的观察结果(个体号22、40和63)将AA1、ED2、4-7和YM29以及Mfd188定位于Mfd191的远端，ID125则将4-7、YM29和Mfd188定位于SCG40的近端。从遗传重组体分析中，没有获得有关两标记簇AA1/ED2和4-7/YM29/Mfd188内相对次序的遗传信息。虽然根据已知含有“洞”(间隙人DNA小片段可能在此丢失)的杂交体来确定基因座的次序是有疑问的，但杂交体格局显示4-7在YM29和Mfd188的上游。

实施例5

利用标记AA1、4-7、ED2和YM29进行乳房癌亲缘族遗传分析

除了具有前述关键重组体的3个亲缘族外，亲缘族K2039经新STR标记分析被证明与该区域连锁而且具有有用的重组体。

表8就各基因座的特异性标记及其频率确定了亲缘族的单倍型(以编号形式表示)。表8中，等位基因按频率递减次序排列；各基因座等位基因1-5频率在表5中给出。单倍型H是BRCA1关联单倍型，P表示部分的H单倍型，R表示可观察到的重组体单倍型。如表8所示，并非所有的亲缘族都对全部标记分型；而且，并非同一亲缘族特别是K2082中的全部个体都对同一组标记分型。除一个例外之外，只表示了遗传自发病或危发亲缘族成员的单倍型；没有描述来自与亲缘族婚配的配偶的单倍型。所以在一给定的同胞关系中，单倍型X和Y的出现表示，发现了来自发病或危发个体的两个单倍型，但都不是乳房癌关联单倍型。

表8

在三个亲缘族中发现的乳房癌连锁单倍型

Mfd Mfd tdj Mfd亲缘族 HAP 15 THRA1 191 1475 ED2 AA1 Z109 CA375 4-7 YM29 188 SCG40 6C1 42D61901 H1 1 5 5 3 1 4 NI NI 1 1 3 NI NI 1

R2 9 2 5 6 1 4 NI NI 1 1 3 NI NI 12082 H1 3 NI 4 6 6 1 NI NI 2 1 4 2 NI 1

P1 3 NI 4 NI NI NI NI NI NI NI 4 2 NI 1

P2 3 NI NI NI NI NI NI NI NI NI 4 NI NI NI

R1 6 NI 1 5 6 1 NI NI 2 1 4 2 NI 1

R2 6 NI 4 6 6 1 NI NI 2 1 4 2 NI 1

R3 3 NI 4 NI 6 1 NI NI 2 1 4 1 NI 7

R4 7 NI 1 NI 1 5 NI NI 4 6 1 2 NI 1

R5 3 NI 4 NI NI NI NI NI NI 2 1 NI NI NI

R6 3 NI 4 3 1 2 NI NI 1 2 2 6 NI 6

R7 3 NI 4 3 7 1 NI NI 1 1 3 7 NI 42035 HI 8 2 1 NI 5 1 1 4 3 1 6 8 2 4

H2 8 2 1 NI 5 1 1 2 1 1 2 3 1 4

R2 8 2 1 NT 5 1 1 2 1 1 2 3 6 1

在亲缘族K1901中，新标记没有表现出可观察的、具有乳房癌易患性的重组体，这表明该亲缘族中的重组事件最可能发生在THRA1和ED2之间。所以，根据在该亲缘族中对这4个新标记的研究未获得新的BRCA1定位信息。在亲缘族2082中，关键重组体个体遗传了ED2、4-7、AA1和YM29的等位基因，但就tdj1474发生了重组，这表明该个体中的重组事件发生在tdj1474至ED2/AA1之间。

如表8所示，在亲缘族K2035中有三个有意义单倍型，H1，H2和R2。H1存在于4个病例和个体17后代的一个必然男性携带者中，H2存在于或据推断存在于两个病例和个体10后代的两个必然男性携带者中。R2就Mfd15和SCG40之间(包括两端)的基因座而言与H2相同，但在SCG40和42D6之间发生了重组。由于我们已确定BRCA1在42D6的近端，这一H2/R2差异并不提供进一步的定位信息。H1和R2共有位于Mfd15、THRA1、AA1和ED2的相同等位基因，但对于假设位于ED2远端的基因座却不同，即4-7、Mfd188，SCG40和6C1。虽然两单倍型对标记YM29(物理上定位于4-7和Mfd188之间的标记)的第5个等位基因是相同的，但很可能这些等位基因共有相同的状态而不是相同的起源，因为该等位基因是该基因座最常见的等位基因，在CEPH亲代中其频率估计为0.42。相反，在Mfd15和ED2基因座共有的连锁等位基因，其频率分别为0.04和0.09。它们还在Mfd191(频率＝0.52)，THRA1和AA1(频率＝0.28)共有相同的等位基因。这是这一组中的关键重组体，因为它是唯一一个乳房癌随单倍型近端部分一同分离的重组体，由此确定了远端的边界。来自该亲缘族的证据由此将BRCA1基因座定位于4-7的远端。

亲缘族2082中将BRCA1定位于tdj1474远端的重组事件，是所述4种重组事件中唯一一个可以直接推断而知的；即，受累母亲的基因型可由其配偶和后代来推断，重组体单倍型可见于其发病的女儿。在该家族中，携带BRCA1易患性等位基因的发病个体的机率极高；对此数据的唯一解释是BRCA1位于Mfd191的远端，或者，该重组体是在44岁患上卵巢癌的偶发病例。对亲缘族2035的解释是根据对不同、有时是关系较远的亲缘族旁系中不同的17q单倍型分离的观察结果而得出的，而不是依据可直接观察或推断的重组体。观察结果是这些单倍型中的部分就某些标记具有共同的等位基因而对另外一些标记则不同，该结果将BRCA1基因座定位于共有区域内。对这一定位的确定性取决于几个因素：各单倍型携带者之间的关系，共有等位基因的频率，显示单倍型与BRCA1基因座一同分离的确性度，以及用于在该区域内确定该单倍型的标记的密度。在亲缘族2035中，两分支紧密相关，各分支都有一些携带各自单倍型的早发型病例。有两个共有等位基因是相同的(Mfd191、THRA1)，在Mfd15、AA1和ED2处的共有等位基因的估计频率分别是0.04、0.28和0.09。所以，很可能，这些等位基因的起源相同(起源于同一祖先)而不是状态相同(来自普通群体的相同等位基因)。

实施例6

精细的物理作图研究确定BRCA1基因在以tfj1474和U5R为侧翼的区域内

自1990年最早在染色体17q上进行定位(Hall等人，1990)以来，已进行了大量努力将BRCA1基因定位在一个足够小的区域内，小至允许使用有效的定位克隆法来分离该基因。BRCA1基因座最早根据由214个来自世界各地的家族构成的合作乳房癌连锁协会数据集，利用多点连锁分析(Easton等人，1993)，被确定位于Mfd15(D17S250)至42D6(D17S588)之间。随后的进一步精确定位是根据个别家族中的个体重组。Bowcock等人(1993年)将其确定在THRA1至D17S183区域；Simard等人(1993年)将其确定在THRA1至D17S78区域。

我们还证明BRCA1基因座一定位于标记Mfd191(D17S776)(Goldgar等人，1994)的远端。已知该标记位于THRA1和RARA的远端。所以，已公开的最小BRCA1基因座区域是在D17S776和D17S78之间。该区域仍含有约1.5×10⁶个DNA碱基，使得在此区域内分离并测试全部基因十分困难。所以，我们力图构建该区域的物理图谱，分离出一组该区域内的多态性STR标记，并在一组可提供信息的家族中对这些新的标记进行分析以便将BRCA1基因的位置确定在一可操作的间距内。

有4个家族可提供重要遗传证据，将BRCA1定位于一足够小的区域从而可使用定位克隆法。两个家族(K2082、K1901)提供与BRCA1近端边界有关的数据，另两个(K2035，K1813)确定远端边界。下文将对这些家族进行详细论述。可用PCR测试的总共15个短串联重复标记，被用于在被研究家族中的精确定位。这些标记包括DS17S7654、DS17S975、tdj1474和tdj1239。这些标记的引物序列是：DS17S754的SEQ ID NO：3和SEQ ID NO：4；DS17SS975的SEQ IDNO：5和SEQ ID NO：6；tdj1474的SEQ ID NO：7和SEQ ID NO：8；tdj1239的SEQ ID NO：9和SEQ ID NO：10。

亲缘族2082

亲缘族2082是迄今研究过的最大的BRCA1连锁乳房癌/卵巢癌家族。其LOD值为8.6，明确表明与17q连锁。该家族前文已述并显示有一个关键重组体将BRCA1定位于MFD191(D17S776)的远端。该重组体出现在一个于45岁时被诊断为卵巢癌的妇女中，其母亲于63岁患上卵巢癌。发病的母亲已死亡；但是，从她的后代可以推断她具有存在于该家族30个其它连锁病例中的、位于Mfd15和Mfd188之间的连锁单倍型。其发病的女儿在基因座ED2、4-7和Mfd188得到了连锁的等位基因，但在Mfd15和Mfd191得到的是非BRCA1染色体上的等位基因。为了进一步确定重组断裂点的位置，我们就以下得自物理图来源的标记对该家族中的关键成员进行的测试：tdj1474、tdj1239、CF4、D17S855。发病的女儿没有得到tdj1474和CF4标记的连锁等位基因。但是，就STR基因座tdj1239而言，可推断母亲有有关信息而女儿的确得到了BRCA1关联等位基因。在该家族中，D17S855不提供信息。根据此分析，次序应为17q着丝粒-Mfd191-17HSD-CF4-tdj1474-tdj1239-D17S855-ED2-4-7-17q端粒。所以上述重组体中将BRCA1定位于tdj1474的远端，而断裂点在tdj1474和tdj1239之间。除了BRCA1位于tdj1474远端这种解释之外，对该家族数据的唯一另一种解释是，重组个体的卵巢癌是由与BRCA1基因不相关的原因引起的。由于很少有人在50岁前被诊断为卵巢癌，所以该解释非常不可能。

亲缘族1901

亲缘族1901是一个早发型乳房癌家族，有7例50岁前诊断为乳房癌，其中4例在40岁之前。此外，还有3例在50至70岁之间诊断为乳房癌。有一例乳房癌还在61岁时诊断患卵巢癌。该家族现在与D17S855的LOD值为1.5。因为该连锁证据并且存在有至少一例卵巢癌，该家族因BRCA1而发病的经验概率超过0.99。该家族中，重组缘自这样一个事实，即有一个体是卵巢癌病例(大部分其它病例遗传自该卵巢癌病例)的兄弟，他只共有该家族中随其它病例共分离的单倍型的一部分。但是，他将这一部分的单倍型传给了他的女儿，后者在44岁时患上乳房癌。如果该病例是由BRCA1基因造成的，那么只有该兄弟与其姐妹共有的那部分单倍型可能含有BRCA1基因。解释这种情况的难处在于，虽然可以确定不共有的标记是重组体，但相同的标记可能是因为非重组而共有，也可能是因为其亲代是纯合子。没有父亲的基因型数据，不可能区别这多种可能性。对K1901中的单倍型检查显示，他不共有Mfd15(D17S250)、THRA1、CF4(D17S1320)和tdj1474(17DS1321)的连锁等位基因。他共有Mfd191(D17S776)、ED2(D17S1327)、tdj1239(D17S1328)和Mfd188(D17S579)处的连锁等位基因。虽然Mfd191处的共有等位基因较少见(0.07)，我们将假设亲代是纯合子，因为它们是靠近两侧的标记的重组体，而该区域内的双重组事件是极不可能的。所以，该家族的证据也表明BRCA1基因座位于tdj1474的远端。但是，没有父亲的基因型信息不能确定该断裂点的下限。有趣的是，该家族中的关键重组体断裂点证实了亲缘族2082中的结果。如前所述，该家族中的定位信息只有在乳房癌是由BRCA1基因引起时才有意义。但是，她相对早的诊断时年龄(44岁)使得这一点显得很有可能，因为45前乳房癌的风险在普通群体中是很低的(约1％)。

亲缘族2035

有关键重组体的信息不是直接观察到的而是由观察结果推断的，该观察结果是：为随该家族两旁系中早发型乳房癌共分离的两个单倍型对位于17q BRCA1区域近端的标记表现相同但对较远端基因座的表现不同。在这一点上，该家族与K1901类似。两单倍型都出现在至少4例早发型或双侧乳房癌中。该家族与ED2的总LOD值为2.2，考虑到该家族中有一例卵巢癌(表明与BRCA1连锁的先验概率为80％)，得出的该家族与BRCA1连锁的经验概率为0.998。两单倍型对标记Mfd15、THRA1、Mfd191、ED2、AA1、D17S858和D17S902相同。Mfd15和ED2处的共同等位基因很少见，这表明该单倍型在后代中共有相同。但单倍型对CA375、4-7和Mfd188及几个更远的标记不相同。这表明BRCA1基因座一定位于CA375的上游。该标记在D17S78下游约50kb处，所以，它主要起到进一步证实了先前Simard等人(1993)报道的下游边界。

亲缘族1813

亲缘族1813是一个小家族，有4例于40岁前诊断为的乳房癌，她们母亲在45岁诊断为乳房癌并在61岁诊断为卵巢癌。这一情况因这样的事实而有些复杂：即4病例有3个不同的父亲，其中只有一个确定了基因型。但是，通过对BRCA1区域内一些不同标记和基因组中其它位置的高度多态性标记的分型，已高可信度地确定了该家族中所有后代的父系。该家族与17q标记的最大多点LOD值为0.60，在已知有至少一例卵巢癌的情况下，作为BRCA1连锁家族的经验概率为0.93。该家族个体18中有一个可直接观察到的重组事件(参见图5，Simard等人，Human Mol.Genet.2：1193-1199(1993))，该个体在34岁时发生乳房癌。从她的基因型、她的发病的姐妹的基因型和其它3个未发病的同胞的基因型，可推断其发病的母亲在相关的17q基因座的基因型。个体18遗传了以下基因座的BRCA1连锁等位基因：Mfd15、THRA1、D17S800、D17S855、AA1和D17S931。但是，对D17931下游的标记，即U5R、vrs31、D17S858和D17S579，她遗传了不带疾病的染色体上的等位基因。来自该家族的证据由此确定BRCA1位于标记U5R的近端。因为她较早的诊断年龄(34岁)，极可能该重组个体的癌肿是因为与该家族其它乳房癌/卵巢癌病例有关的基因引起的；该家族中的不定性缘于我们较少的证据，即该家族中的乳房癌是由于BRCA1而不是另一个、尚为作图的癌肿易患性基因座。

含BRCA1的区域的大小

根据以上详细描述的遗传数据，BRCA1基因座一定位于标记tdj1474和U5R之间，两标记都在本实验室中得以分离。根据图2和3中的物理图谱，我们可以试着估计这两个基因座之间的物理距离。大约需要14个平均插入片段大小约80kb的P1克隆来跨越该区域。但是，所有这些P1克隆都有某种未知程度的重叠，所以很可能物理距离比80kb的14倍小得多。根据覆盖该区域的克隆的限制性图谱，我们估计含BRCA1区域的大小约为650kb。

实施例7

通过毗连群区的基因组分析鉴定BRCA1基因座的候选cDNA克隆

可能区域的全面筛选。鉴定候选cDNA的第一种方法是利用已知技术，但是劳动强度较大。该方法包括筛选毗连群内的粘粒和P1及BAC克隆以鉴定出推断的编码序列。然后将含有推断的编码序列的克隆用作cDNA文库滤膜上的探针，以鉴定出候选cDNA克隆用于以后的分析。用两种方法中的任何一种，就推断的编码序列筛选克隆。

动物印迹。鉴定推断的编码序列的第一种方法是筛选粘粒和P1克隆，寻找在进化过程中种间保守的序列。该技术被称为“动物印迹分析”，Monaco，1986对此有所说明。具体地说，来自牛、鸡、猪、小鼠和大鼠的DNA用限制酶EcoRI和HindIII消化(8μgDNA/酶)。消化后的DNA在0.7％的凝胶(14cm的凝胶)上，以20伏分离16小时，以标准的Southern印迹技术将DNA转移到尼龙膜上。例如，动物印迹滤膜在65℃，在0.1×SSC，0.5％SDS和0.2M的Tris(pH8.0)中处理30分钟，然后在42℃，在5×SSC、10％PEG8000、20mMNaPO₄(pH6.8)、100μg/ml鲑精DNA、1×Denhardt’s、50％甲酰胺、0.1％SDS和2μg/ml C₀t-1DNA中封闭过夜。

用限制酶消化待分析的粘粒和P1克隆，使人DNA从载体DNA上释放。DNA在14cm、0.5％琼脂糖凝胶上，以20伏电压，过夜电泳16小时。从凝胶中切取人DNA带，在0.5×Tris乙酸盐缓冲液中，以100伏电压，由凝胶边缘电洗脱人DNA至少2小时(Maniatis等人，1982)。然后用EcoRI限制酶消化洗出的经NotI消化的DNA(～15kb至25kb)以产生更小的片段(～0.5kb至5.0kb)，后者在下一步放射性核苷酸标记DNA中更容易解链。利用六聚体(Borhringer-Mannheim，目录#1004760)随机引发标记法标记这些DNA片段。标记的DNA经精胺沉淀(加100μlTE，5μl0.1M精胺，和5μl10mg/ml鲑精DNA)去除未掺入的放射性核苷酸。然后将标记过的DNA在100μlTE、0.5M NaCl中于65℃悬浮5分钟，再按照制造商的说明用人C₀t-1DNA(Gibco/BRL，目录#5279SA)封闭2-4小时。经C₀t-1封闭的探针在动物印迹滤膜上，在封闭溶液中于42℃孵育过夜。滤膜在2×SSC、0.1％SDS中，室温下洗涤30分钟，再在相同的溶液中于55℃洗涤30分钟。将滤膜与带增感屏的Kodak XAR-5胶片在-70℃曝光1至3天。这样，动物印迹或者与插入片段的EcoR I片段混合物杂交，或者与单个片段杂交。

HTF岛分析。鉴定用作cDNA文库探针的粘粒的另一种方法是HTF岛分析。由于脉冲场图谱可揭示HTF岛，所以优先分析这些定位于HTF岛区域的粘粒。HTF岛是含有高频率非甲基化CpG二核苷酸的DNA片段(Tonolio等人，1990)，并可通过识别序列包括CpG二核苷酸的酶限制性位点的聚集程度来揭示。已知用于HTF岛分析的酶是AscI、NotI、BssHII、EagI、SacII、NaeI、NarI、SmaI和MluI(Anand，1992)。用酶NotI、NruI、EagI、SacII和SalI产生脉冲场图，发现两个HTF岛。这些岛位于区域的远末端，一个在GP2B基因座的远端，另一个在同一基因座的近端，两个都在BRCA1区域外。分析来自YAC的、覆盖这两个位置的粘粒，以鉴定含有这些限制性位点的质粒，进而鉴别出HTF岛。

cDNA筛选。含有HTF岛或与除人之外物种的DNA杂交的克隆可能含有编码序列。从这些克隆中分离出作为完整插入片段或EcoRI片段的人DNA，并如上所述进行标记。用标记过的DNA在与动物印迹相同的条件下筛选各种cDNA文库滤膜，所不同的是cDNA滤膜经受了更严紧的洗涤，2次以0.1×SSC和0.1％SDS在65℃洗涤30分钟。

迄今在我们的研究中使用的大多数cDNA文库(cDNA文库得自正常乳房组织、一个怀孕8个月的妇女和乳房癌恶化的妇女的乳房组织)是Clonetech，Inc.制备的。可从Clonetech(目录#HL1037a)购得构建于λgt-10载体的怀孕8个月的妇女的乳房组织的cDNA文库，它培养在C600Hfl细菌宿主细胞内。由一37岁的高加索女性分离正常乳房组织和恶性乳房组织的样本，两种组织各取1克送至Clonetech进行mRNA加工和构建cDNA文库。利用随机引发和寡聚dT引发来产生后两个cDNA文库，并筛选出大小合适的最终产物克隆入λZaplI载体，按照制造商的说明将其培养在XL1-蓝菌株中。其它组织特异性cDNA文库包括人胎脑(Stratagene，目录936206)、人睾丸(Clonetech目录HL3024)、人胸腺(Clonetech目录HL1127n)、人脑(Clonetech目录HL11810)、人胎盘(Clonetech目录1075b)和人骨骼肌(Clonetech目录HL1124b)。

将cDNA文库及其宿主细胞铺于NZCYM板上，按照Maniatis等人(1982)所述，从每一板上重复进行滤膜取印。纯化候选基因组克隆的插入(人)DNA，并放射性标记至高比活性。然后放射性DNA与cDNA滤膜杂交，以鉴定对应于候选粘粒克隆中的基因的cDNA。挑选、再铺平板由此鉴定出的cDNA，并再次用标记过的克隆插入片段或由其衍生的EcoRI片段DNA筛选，以证实其为阳性状态。培养在这第二轮筛选后呈阳性的克隆，并纯化其DNA用于Southern印迹分析和测序。克隆可以按照制造商的方法说明，从λ载体上通过体内切取质粒而作为质粒纯化，也可以作为限制性片段从λ载体上分离，然后将其亚克隆入质粒载体中。

重复进行Southern印迹，其中之一用原初基因组的插入DNA作为探针来证实cDNA插入片段子中含有杂交序列。另一次印迹是与最大cDNA克隆的cDNA插入DNA杂交，以鉴定出代表相同基因的克隆。所有与基因组克隆杂交并具有单一性的cDNA被测序，并分析DNA以确定序列是否代表了已知的或单一的基因。所有表现出单一性的cDNA作为候选BRCA1基因座被进一步分析。具体地说，这些克隆与Northern印迹杂交以查找乳房特异性表达和正常的对乳房肿瘤RNA的差异表达。还在BRCA1区域内的克隆上对它们进行了PCR分析以确定它们的位置。为了对基因座范围作图，分离出全长cDNA，并将其序列用作YAC和包围并包含原初鉴定克隆的克隆上的PCR探针。然后通过序列分析进一步确定内含子-外显子边界。

我们已用得自该区域内粘粒BAC和P1克隆的动物印迹阳性Eco RI片段，筛选了正常乳房、8个月孕妇的乳房和胎脑的cDNA文库。在这3个文库中鉴定出了潜在的BRCA1 cDNA克隆。挑选出克隆，再铺平板，并用原初探针再次筛选以确认其为阳性。

对杂交体选择的cDNA的分析。直接选取的cDNA片段用DNA探针通过Southern印迹杂交检查以证实它们来自毗连群。对通过该测试的片段进行完整测序。然后，由此获得的这套DNA序列相互杂交检查以查找重叠的独立克隆。例如，克隆694-65、1240-1和1240-33是分别获得的，但序列上显示为来自同一毗连cDNA序列，该序列定名为EST∶489∶1。

候选克隆的分析。对上述产生的一个或多个候选基因进行测序，并将信息用于鉴定和分型每一种被表达的基因，通过核苷酸序列比较并通过在翻译所有框架后与已知氨基酸序列比较来将这些DNA序列与已知基因进行比较。这种比较的是对本地以及远程序列数据库(如GenBank)进行比较而完成的，其中使用GeneticData Environment(GDE)2.2版软件和Basic Local Alignment Search Tool(Blast)系列客户/服务器软件包(例如BLASTN1.3.13MP)，并在Sun SPARC工作站上运行。已经产生了从用粘粒和P1鉴定的cDNA克隆集合而重构的序列。进一步分析所有代表新序列的候选基因以测定它们作为推断的BRCA1基因座的候选性。

突变的筛选。为了筛选发病谱系中的突变，使用了两种不同的方法。第一种，将从已知携带BRCA1易患性等位基因的家族成员中分离出的DNA用作PCR扩增候选基因的模板。如果PCR引物在内含子/外含子边界的旁边或与其重叠，扩增出的片段将比预计的cDNA序列大，或者不存在于扩增后的混合物中。利用一套设计的引物将这种扩增实验与P1、BAC或粘粒克隆测序相结合，便可以确定内含子/外含子结构并最终获得该谱系的基因组DNA的DNA序列。

第二种方法在候选基因的内含子/外显子较复杂时要快得多，它涉及对由谱系淋巴细胞cDNA扩增得到的片段进行测序。从该谱系的血液中抽提淋巴细胞mRNA，由此mRNA合成cDNA，将其用作利用设计的引物PCR扩增的底物。如果候选基因在淋巴细胞中大量表达，这种实验通常产生不需要知道内含子/外显子连接而可直接测序的扩增片段。

通过凝胶电泳来分析这种测序反应的产物，以确定序列中含有突变(例如缺失或插入)或碱基对置换的物质(它们都会导致氨基酸改变或其它有害结果)。

任何一种在乳房组织中表达的BRCA1区域内的序列都被认为是BRCA1的候选基因。给定候选基因对应于BRCA1的有力证据缘于这样的证明：即谱系家族含有该候选基因的缺陷型等位基因。

实施例8

BRCA1的鉴定

BRCA1的鉴定。使用多种方案，绘制出在D17S1321和D17S1324之间600kb的17q21区域的详细图谱。候选的被表达序列定义为以下途径获得的DNA序列：1)对乳房、胎脑或淋巴细胞cDNA文库的直接筛选，2)对乳房、淋巴细胞或卵巢cDNA的杂交体选择，或3)对基因组DNA的随机测序和利用XPOUND(Thoma和Skolnick，1994)预测编码外显子。很多情况下，这些可表达序列被组合成由多个分别鉴定出的序列构成的毗连群。候选基因可能包含一个以上的这些候选可表达序列。通过杂交体选择、直接筛选cDNA文库和对P1亚克隆随机测序鉴定了该区域内的65个候选可表达序列。通过对分离17q连锁的乳房癌和卵巢癌易患性亲缘族个体中的转录产物大小、DNA序列、数据库比较、表达方式、基因组结构和最重要的DNA序列分析，对表达序列进行定性。

分离得到3个独立的表达序列的毗连群1141∶1(649bp)、694∶5(213bp)和754∶2(1079bp)，并被最后证明代表了部分的BRCA1。当用这些毗连群的EST作为Northern分析的探针时，在正常的乳房mRNA中只发现一种约7.8kb的转录产物，这表明它们编码同一基因的不同部分。筛选乳房、胎脑、胸腺、睾丸、淋巴细胞和胎盘的cDNA文库，并用乳房mRNA进行PCR试验，将1141∶1、694∶5和754∶2的毗连群连接起来。5’RACE试验使用胸腺、睾丸和乳房mRNA将毗连群延伸至推断的5’末端，由此获得复合的全长序列。该区域内P1和BAC的PCR和直接测序被用于鉴定内含子的位置和测定剪接供体和受体的位点。这3个可表达序列被合并成一个转录单元，该单元在最后的分析中被确认为BRCA1。这一转录单元位于该600kb区域中部的D17S855附近(图4)。

将得自cDNA克隆、杂交体选择序列和PCR扩增产物的序列合并起来，能够构建出复合的全长BRCA1 cDNA(SED ID NO：1)。BRCA1 cDNA序列(终止子以上)也已在GenBank保藏，登记号为U-14680。该保藏序列在此被参考引用。在3’方向延伸最远的cDNA克隆含有聚腺苷酸化信号和随后的聚腺苷酸段。cDNA的概念翻译揭示了一段208千道尔顿的长开放阅读框(氨基酸序列SEQ IDNO：2)，其中有一潜在的起始密码子，该密码子侧翼为与Kozak一致序列(Kozak，1987)相似的序列。Smith-Waterman(Smith和Waterman，1981)和BLAST(Altschul等，1990)搜索鉴定了一段靠近氨基末端的序列，它与锌指域具有相当的同源性(图5)。该序列含有位于C3HC4锌指基序(motif)中的半胱氨酸和组氨酸，并与数据库中的锌指蛋白共有多个其它残基。BRCA1基因由23个编码外显子构成，它们排列在超过100Kb的基因组DNA上(图6)。利用BRCA1 cDNA片段为探针的Northern印迹鉴定了单一的约7.8kb的转录产物，该转录产物在乳房、胸腺和睾丸中最多，也存在于卵巢中(图7)。还观察到4种不同剪接产物的独立cDNA克隆；其中3个在乳房中检测到，有2个在卵巢mRNA中(图6)。组织cDNA的PCR检测进一步支持了这一观点，即该基因的转录产物靠近5’端具有相当的不均一性；不均一性的分子基础涉及不同的第一剪接供体位点选择，而测得的变化都改变了鉴定出的起始密码子5’区域的转录产物。我们在该5’非翻译区测得6个潜在的其它剪接供体，最长缺失为1,155bp。乳房和卵巢中的主要BRCA1蛋白形式没有外显子4。BRCA1外显子4的核苷酸序列见SEQ ID NO：11，其预期氨基酸序列见SEQ ID NO：12。

另一BRCA1基因组DNA5’序列显示在SEQ ID NO：13中。位置1处的G代表在睾丸中的潜在起始位点。位置140处中的A代表体细胞组织中的潜在起始位点。如图8所示，该5’序列有6种不同剪接形式。位置356处的G代表标准的第一剪接供体位点。位置444处的G代表两个克隆(睾丸1和睾丸2)中的第一剪接供体位点。位置889处的G代表胸腺3中的第一剪接供体位点。第四种剪接供体位点是位置1230处的G。位置1513处的T代表所有上述剪接供体的剪接受体位点。第五种不同剪接形式具有在位置349处的第一剪接供体位点，位置591处的第一剪接受体位点，以及位置889处的第二剪接供体位点和位置1513处的第二受体位点。第六种不同形式在该5’区域是非剪接的。位置1532处的A是标准起始位点，它出现在SEQ ID NO：1的位置120处。测定为BRCA1的部分基因组DNA序列显示在图10A-10H和SEQ ID NO14至34中。小写字母(图10A-10H中)表示内含子序列，大写字母表示外含子序列。图10A-10H中以vvvvvvvvvvvvv表示内含子内不确定的间隔。表9列出内含子/外显子的连接。在在外显子8和14的5’端有发现的CAG，位于某些cDNA中但在其它cDNA中则没有发现。图10A-10H中以黑体显示已知的多态性位点，并加有下划线。

表9外长内显子边界显碱基子位置^*度No. 5’ 3’ 5’ 3’e1 1 100 100 GATAAATTAAAACTGCGACTGCGCGGCGTG35^* GTAGTAGAGTCCCGGGAAAGGGACAGGGGG36e2 101 199 99 ATATATATATGTTTTTCTAATGTGTTAAAG37 GTAAGTCAGCACAAGAGTGTATTAATTTGG38e3 200 253 54 TTTCTTTTTCTCCCCCCCCTACCCTGCTAG39 GTAAGTTTGAATGTGTTATGTGGCTCCATT40e4 ^*** ^*** 111 AGCTACTTTTTTTTTTTTTTTTTGAGACAG41 GTAAGTGCACACCACCATATCCAGCTAAAT42e5 254 331 78 AATTGTTCTTTCTTTCTTTATAATTTATAG43 GTATATAATTTGGTAATGATGCTAGGTTGG44e6 332 420 89 GAGTGTGTTTCTCAAACAATTTAATTTCAG45 GTAAGTGTTGAATATCCCAAGAATGACACT46e7 421 560 140 AAACATAATGTTTTCCCTTGTATTTTACAG47 GTAAAACCATTTGTTTTCTTCTTCTTCTTC48e8 561 666 106 TGCTTGACTGTTCTTTACCATACTGTTTAG49 GTAAGGGTCTCAGGTTTTTTAAGTATTTAA50e9 667 712 46 TGATTTATTTTTTGGGGGGAAATTTTTTAG51 GTGAGTCAAAGAGAACCTTTGTCTATGAAG52e10 713 789 77 TCTTATTAGGACTCTGTCTTTTCCCTATAG53 GTAATGGCAAAGTTTGCCAACTTAACAGGC54e11 790 4215 3426 GAGTACCTTGTTATTTTTGTATATTTTCAG55 GTATTGGAACCAGGTTTTTGTGTTTGCCCC56e12 4216 4302 87 ACATCTGAACCTCTGTTTTTGTTATTTAAG57 AGGTAAAAAGCGTGTGTGTGTGTGCACATG58e13 4303 4476 174 CATTTTCTTGGTACCATTTATCGTTTTTGA59 GTGTGTATTGTTGGCCAAACACTGATATCT60e14 4477 4603 127 AGTAGATTTGTTTTCTCATTCCATTTAAAG61 GTAAGAAACATCAATGTAAAGATGCTGTGG62e15 4604 4794 191 ATGGTTTTCTCCTTCCATTTATCTTTCTAG63^**GTAATATTTCATCTGCTGTATTGGAACAAA64e16 4795 5105 311 TGTAAATTAAACTTCTCCCATTCCTTTCAG65 GTGAGTGTATCCATATGTATCTCCCTAATG66e17 5106 5193 88 ATGATAATGGAATATTTGATTTAATTTCAG67 GTATACCAAGAACCTTTACAGAATACCTTG68e18 5194 5271 78 CTAATCCTTTGAGTGTTTTTCATTCTGCAG69 GTAAGTATAATACTATTTCTCCCCTCCTCC70e19 5272 5312 41 TGTAACCTGTCTTTTCTATGATCTCTTTAG71 GTAAGTACTTGATGTTACAAACTAACCAGA72e20 5313 5396 84 TCCTGATGGGTTGTGTTTGGTTTCTTTCAG73 GTAAAGCTCCCTCCCTCAAGTTGACAAAAA74e21 5397 5451 55 CTGTCCCTCTCTCTTCCTCTCTTCTTCCAG75 GTAAGAGCCTGGGAGAACCCCAGAGTTCCA76e22 5452 5525 74 AGTGATTTTACATGTAAATGTCCATTTTAG77 GTAAGTATTGGGTGCCCTGTCAGTGTGGGA78e23 5526 5586 61 TTGAATGCTCTTTCCTTCCTGGGGATCCAG79 GTAAGGTGCCTCGCATGTACCTGTGCTATT80e24 5587 5914 328 CTAATCTCTGCTTGTGTTCTCTGTCTCCAG81^* SEQ ID NO：1中的碱基编号^** 指SEQ ID NO的编号^***来自SEQ ID NO：11的e4。低严紧性印迹，即用缺失了锌指区域的BRCA1序列为探针杂交来自不同系统发育背景的生物基因组DNA，发现了人、猴、羊和猪中的强杂交片段，以及鼠中很弱的杂交信号。该结果表明，除了锌指域外，BRCA1在进化过程中只具有中等保守性。

17q连锁的亲缘族中的种系BRCA1突变。对BRCA1候选基因最严格的检测，是在分离17q连锁的乳房癌和卵巢癌易患性的亲缘族的携带者个体中，寻找潜在的分裂突变。这类个体一定含有不同于野生型序列的BRCA1等位基因。用于该分析的这组DNA样本，由代表了8个不同BRCA1亲缘族的个体的DNA组成。

表10

亲缘族说明和关联LOD值

亲缘族病例数(n) 偶发病 LOD值标记

例数¹(n)

乳房癌50岁前的卵巢癌

乳房癌

2082 31 20 22 7 9.49 D17S1327

2099 22 14 2^* 0 2.36 D17S800/D17S855²

2035 10 8 1^* 0 2.25 D17S1327

1901 10 7 1^* 0 1.50 D17S855

1925 4 3 0 0 0.55 D17S579

1910 5 4 0 0 0.36 D17S579/D17S250²

1927 5 4 0 1 -0.44 D17S250

1911 8 5 0 2 -0.20 D17S250

1.不共有在该亲缘族其它病例中分离的BRCA1连锁的单倍型的、患有乳房癌(诊断于50岁前)或卵巢癌(诊断于任何年龄)的妇女人数。

2.用两个标记计算而得的多点LOD值。

^*同时具有患乳房癌和卵巢癌的个体的亲缘族；该个体既算作乳房癌病例又算作卵巢癌病例。

17q21中一组标记在这些亲缘族中的优势对数(logarithm of the odds，LOD)在9.49至-0.44之间。其中4个家族具有令人信服的连锁LOD值，4个具有低正值或负值的LOD值。包括后4个亲缘族是因为它们证明了至少3个发病成员共有染色体17q21上的单倍型。而且，该组中的所有亲缘族都表现出早发乳房癌，而且有4个亲缘族包括了至少一例卵巢癌，两者均是BRCA1亲缘族的标记。亲缘族2082具有近乎相等的乳房癌和卵巢癌发病率，基于群体中较低的卵巢癌发病率而言，这是一个特例。除2个之外的所有亲缘族都在犹他州加以确认。K2035来自中西部。K2099来自美国南部的非洲-美洲亲缘族。

在最初对BRCA1中倾向性突变的筛选中，测试了各亲缘族中一个携带有易患单倍型个体的DNA。从基因组DNA样本或从淋巴细胞mRNA制备的cDNA扩增出23个编码外显子和相关的剪接接头。在将扩增出的DNA序列与野生型序列比较时，8个亲缘族实例中4个被发现有序列变异体(表11)。

表11

倾向性突变

亲缘族编号突变体编码结果位置^*

2082 C→T Gln→终止 4056

1910 多余的C 移码 5358

2099 T→G Met→Arg 5443

2035 ？不转录

1901 缺失11bp 移码 189

^*在SEQ ID NO：1中

4种序列变异体都是杂合的，而且每一种都只表现在一个亲缘族中。亲缘族2082含有在外显子11中的一个无义突变(图9A)，亲缘族1910有一个在外显子20中的单核苷酸插入(图9B)，亲缘族2099有一个在外显子21中的错义突变，造成Met→Arg取代。移码突变和无义突变有可能损害BRCA1产物的功能。由亲缘族1910中的移码等位基因编码的肽含有改变的、从野生型的C末端第108个残基起的氨基酸序列。亲缘族1901的移码等位基因编码的肽含有改变的、从从野生型的N末端第24个残基起的氨基酸序列。亲缘族2082的突变型等位基因编码的蛋白质缺失从C末端起551个残基。亲缘族2099中的错义突变具有潜在的危害性，因为它导致大的带电残基Arg取代了小的疏水性氨基酸Met。还观察到11个共同的多态性，8个在编码序列中，3个在内含子中。

亲缘族2035中的被研究个体显然具有BRCA1内的调节型突变。在她的cDNA中，多态性位点(碱基3667处的A→G)表现为纯合的，但她的基因组DNA在此位置表现出杂合性(图9C)。对此结果一种可能的解释是，她的突变BRCA1等位基因的mRNA的丢失是因为突变影响其产生或稳定性。通过检查BRCA1编码区域内的5个多态性位点进一步检验这种可能性，在BRCA1的转录产物中按3.5kb分离这5个位点。在她的基因组DNA对某一多态性表现为杂合的所有情况下，cDNA总是纯合的。在其它亲缘族个体和亲缘族2035的非单倍型携带者中，可以观察到这些多态性位点在cDNA中是杂合的，这暗示由cDNA进行的扩增并不偏向于某个等位基因。该分析表明亲缘族2035的BRCA1突变或者阻碍了转录，或者造成BRCA1转录产物的不稳定性或不正常剪接。

BRCA1突变与BRCA1单倍型的共分离和群体频率分析。除了潜在的分解蛋白的功能之外，序列变异体还必须满足两条标准才够格成为候选的倾向性突变。变异体必须：1)存在于亲缘族中携带了倾向性BRCA1单倍型的个体中，但不存在于亲缘族的其它个体中，2)鲜见于普通群体中。

检查了每一种突变与BRCA1的共分离情况。对于亲缘族1910中的移码突变，对另两个单倍型携带者和一个非携带者进行了测序(图9B)。只有携带者表现出了移码突变。亲缘族2082中C变为T产生了一个新的AvrII限制性位点。对该亲缘族中的其它携带者和非携带者就是否存在该限制性位点进行了检查(图9A)。设计了等位基因特异性寡核苷酸(ASO)在亲缘族2099中检查是否存在序列变异体。针对先前在该亲缘族中测得的突变，利用ASO对该亲缘族中的一些个体进行了筛选，其中有些个体已知带有与倾向性等位基因关联的单倍型，另一些则已知不带关联单倍型。在每个亲缘族中，在携带有BRCA1关联单倍型的个体中都测得了相应的突变型等位基因，而在非携带者中则没有。对于发现调节型突变的亲缘族2035个体，将该亲缘族中携带者的cDNA与基因组DNA就多态性位点的杂合性进行了比较。在各例中，cDNA样本中缺失的等位基因被证明存在于携带有BRCA1倾向性等位基因的染色体上(图9C)。

为了排除突变只是群体中一般多态性的可能性，使用针对各种突变的ASO来筛选一组正常DNA样本。根据犹他州群体的随机样本进行高加索人中的基因频率分析。根据M.Peracek-Vance提供的39份样本进行非洲-美洲人中的基因频率分析，这些样本来自她在连锁研究中所用的非洲-美洲人和20个新生的犹他州非洲-美洲人。在适当的对照群体中没有发现4种潜在的倾向性突变中的任何一种，这表明它们在普通群体中很少见。所以，这些候选的倾向性突变满足了成为BRCA1易患性等位基因的两条重要条件：1)突变型等位基因与疾病的共分离，2)突变型等位基因不存在于对照中，这表明其在普通群体中基因频率低。

BRCA1突变的表型表达。BRCA1蛋白质突变的影响与在BRCA1亲缘族观察到的表型表达差异有关。大多数BRCA1亲缘族有发生卵巢癌风险的中等程度提高，有一较小的家族具有可与乳房癌发病率相比的卵巢癌高风险率(Easton等，1993)。测得BRCA1突变的4个亲缘族中有3个归入前一类，第四个(亲缘族K2082)归入卵巢癌高风险率一组。由于在亲缘族K2082中发现的BRCA1无义突变比其它测得的突变更靠近氨基端，所以预计它可能具有不同的表型。实际上，亲缘族K2082突变具有高的卵巢癌发病率，以及比其它亲缘族迟的平均乳房癌诊断年龄(Goldgar等人，1994)。这一发病年龄上的差异可能是因为较小的、外显率更高的家族中的确证偏离，或者，这可能反映BRCA1突变表现的组织特异性差异。分离已知BRCA1突变的其它3个亲缘族中每十个乳房癌病例中有一例卵巢癌，但在25-30岁至30出头诊断为乳房癌的比例较高。发生移码突变的亲缘族1910值得注意，因为4个发病者中有3个患有双侧乳房癌，而且其中的第二个肿瘤都是在第一个出现后一年内诊断的。分离潜在的调节型BRCA1突变的亲缘族2035估计也具有出人意料的表型。该亲缘族中50岁之前的乳房癌发病率为80％。这一数据和该组中的任一亲缘族一样高，由此指示了一个具有高度外显率的BRCA1突变型等位基因(表10)。

虽然以上清晰描述的突变是有害的，使得妇女在很年轻时就发生乳房癌，但发生突变的4个亲缘族都有至少一位妇女携带有突变但活到80岁而并不发生恶性病症。在以后的研究中最重要的是，鉴定能够改善BRCA1突变效果的其它遗传或环境因素。

在8个推断的BRCA1连锁的亲缘族中有4个并未在其中发现潜在的倾向性突变。这4个中有3个与BRCA1连锁的标记的LOD值低于0.55。所以，这些亲缘族可能实际上并不分离BRCA1倾向性等位基因。或者，这4个亲缘族中的突变发生在影响转录水平的BRCA1区域内，因而被漏检。

BRCA1在癌肿中的作用。迄今已鉴定的大多数肿瘤抑制基因产生功能丧失、失效或减退的蛋白质产物。TP53突变主要是错义；其中有些已被证明产生干扰野生型产物功能的异常p53分子(Shaulian等人，1992；Srivastava等人，1993)。对于有些产生截短分子的家族性多发性结肠息肉症(APC)等位基因(Su等人，1993)和改变蛋白质的DNA结合位点的Wilms肿瘤基因(WT1)中点突变(Little等人，1993)，提出了类似的显性的负向作用机制。在BRCA1编码序列中观察到的突变特征与显性的负向蛋白或非功能性蛋白的产生相一致。亲缘族2035中的推断的调节型突变不可能是显性负向的；这种突变更可能导致患者等位基因的BRCA1表达的降低或完全丧失。

BRCA1蛋白包含一个C₃HC₄锌指域，这与在许多DNA结合蛋白中发现的并与核酸的锌依赖性结合有关的锌指域相似。BRCA1前180个氨基酸中的碱性残基比酸性残基多5个。相反，分子的其余部分酸性很强，净超出70个酸性残基。超出的负电荷尤其集中于C末端。所以，一种可能性是BRCA1编码一种转录因子，该因子具有N末端的DNA结合域和C末端的反式激活“酸点(acidic blob)”域。有趣的是，另一家族的肿瘤抑制基因WT1也具有类似的锌指基序(Haber等人，1990)。WT1内的许多癌肿倾向性突变改变了锌指域(Little等人，1993；Haber等人，1990；Little等人，1992)。WT1编码一种转录因子，对编码锌指域的外显子的各种剪接改变了WT1的DNA结合特性(Bickmore等人，1992)。某些WT1 mRNA的其他剪接形式产生作为转录抑制剂的分子(Drummond等人，1994)。某些BRCA1剪接变异体可能改变锌指基序，这提高了类似于WT1中的调节机制适用于BRCA1的可能性。

实施例9

BRCA1突变肿瘤的分析

为了将分析集中于最可能包含BRCA1突变的肿瘤，根据BRCA1区内的LOH对原发性乳房癌和卵巢癌进行分型。使用三个高度多态性、简单串联重复标记来评价LOH：BRCA1基因内的D17S1323和D17S855，以及距BRCA1远端约100kb的D17S1327。有信息的病例中乳房癌的合并LOH频率(即，种系为杂合子的)为32/72(44％)，卵巢癌的为12/21(57％)，这与过去该区域的LOH测定值一致(Futreal等人，1992b；Jacobs等人，1993；Sato等人，1990；Eccles等人，1990；Cropp等人，1994)。这一分析确定了一组病例以检查是否有BRCA1突变，该组病例由不同种族、不同发病年龄的32例乳房肿瘤和12例卵巢肿瘤病例构成。单独通过直接测序，或将单链构象分析(SSCA)于直接测序联用，而筛选出基因的完整的5,589bp编码区和内含子/外显子边界序列。

总共发现6例突变(其中有2例是一样的)，一例在卵巢肿瘤中，4例在乳房肿瘤中，1例在一男性不发病的单倍型携带者中(表12)。突变之一，Glu1541Ter，引入了一个终止子，这将产生羧基端缺失323个氨基酸的截短的蛋白质。此外，鉴定了两例错义突变。它们是Ala1708Glu和Met1775Arg，并且涉及小的、疏水性残基被带电残基所取代。病人17764和19964来自同一家族。在病人OV24中，核苷酸2575缺失，病人17764和19964中，核苷酸2993-2996缺失。

表12

倾向性突变

病人密码子核苷酸变化氨基酸变化发病年龄家族史

BT098 1541 GAT→TAG Glu→终止 39 -

OV24 819 缺失1bp 移码 44 -

BT106 1708 GCG→GAG Ala→Glu 24 +

MC44 1775 ATG→AGG Met→Arg 42 +

17764 958 缺失4bp 移码 31 +

19964 958 缺失4bp 移码 +^*

^*不发病的单倍型携带者，男性

有几条证据表明，所有5种突变代表了BRCA1易患性等位基因：

(I)全部突变都存在于种系中；

(ii)全部突变都不存在于适当的对照人群中，这表明它们不是一般的多态性；

(iii)每一种突变型等位基因都保留在肿瘤中，正如同来自分离BRCA1易患性等位基因的亲缘族的病人肿瘤中的情况(Smith等人，1992；Kelsell等人，1993)(如果突变代表的是中性多态性，它们应该只保留于50％的病例中)；

(iv)4例发生突变的乳房癌病例的发病年龄在24至42岁之间，与BRCA1易患性个体的乳房癌早发年龄相一致；类似的，卵巢癌诊断于44岁，该年龄归于所有卵巢癌病例中最年轻的13％之中；最后

(v)回顾其医疗记录，5例中有3例具有阳性乳房癌或卵巢癌家族史，尽管肿瘤组并不是据此选择的。

BT106在24岁被诊断为乳房癌。其母亲患有卵巢癌，其父亲患有黑素瘤，其祖母也患有乳房癌。病人MC44，非洲-美洲混血儿，在42岁时诊断为双侧乳房癌。该病人有一姊妹在34岁死于乳房癌，另一姊妹死于淋巴癌，以及一兄弟死于肺癌。她的突变(Met1775Arg)先前曾在亲缘族2099(一个分离BRCA1易患性等位基因的非洲-美洲混血家族)中测得过，但不存在于非洲-美洲混血和高加索对照中。据我们所知，病人MC44与亲缘族2099无关。一次在BRCA1亲缘族中，一次在明显不相关的早发型乳房癌病例种系中发现一种稀有的突变型等位基因表明，Met1775Arg改变可能是非洲-美洲混血家族中的常见倾向性突变。总而言之，这些观察结果表明肿瘤中的全部4种突变代表了易患性等位基因；在接受分析的样本中没有检测到体细胞突变。

根据17q上的LOH频率以及通常的易患性基因作为肿瘤抑制基因在癌肿发展过程中的作用，没有体细胞BRCA1突变是意料之外的。对此有3种可能的解释：(i)我们的筛选过程遗漏了一些编码序列中的BRCA1突变；(ii)BRCA1体细胞突变在编码外显子之外；(iii)17q中的LOH并不反映体细胞突变。

如果在乳房癌和卵巢癌中，体细胞BRCA1突变确实少见，那么这将是BRCA1生物学的强烈暗示。体细胞BRCA1突变的表观缺失暗示，与普通群体中的肿瘤相比，遗传倾向性BRCA1携带者中肿瘤的发生可能存在着根本的差异。例如，BRCA1中的突变可能只对乳房癌和卵巢癌发育早期某一特定阶段的肿瘤形成有作用。这种可能性与更年期前乳房癌中的BRCA1的主要功能相一致。这种BRCA1在乳房癌和卵巢癌中的作用模型预计了生殖激素与BRCA1功能之间的一种相互作用。但是，除了发病年龄之外，还未曾有过在家族性和偶发性的乳房癌和卵巢癌之间存在临床或病理学差异的描述(Lynch等人，1990)。另一方面，最近的发现，即具有乳房癌家族史的病人其乳腺肿瘤中的TP53突变和微卫星(microsatellite)不稳定性的增加(Glebov等人，1994)，可能反映遗传倾向性个体中肿瘤发生的某些差异。现在可以直接论及BRCA1在这种现象中的关系。或者，体细胞BRCA1突变的缺乏可能是因为存在着多个基因，它们以与BRCA1相同的肿瘤抑制路径起作用，但共同代表着偶发肿瘤中更为优先的突变目标。因为遗传路径中单个元件的突变通常就足以使路径中断，所以BRCA1的突变率可能远低于其它元件突变频率的总和。

实施例10

BRCA1基因的分析

按照以下方法测定BRCA1基因的结构与功能。

生物学研究。构建包含了BRCA1 cDNA的哺乳动物表达载体，将其转染入该基因损伤的合适的乳房癌细胞。使用的是野生型的BRCA1 cDNA和变异过的BRCA1 cDNA。变异过的BRCA1 cDNA可取自变异的BRCA1等位基因，或者如下产生。检查培养物中的表型回复(如细胞形态、倍增时间、不依赖贴壁生长情况)和动物中的表型回复(如生瘤性)。研究将同时使用基因的野生型和突变型形式(B部分)。

分子遗传学研究。进行体外诱变以构建缺失突变体和错义突变体(通过个别密码子中的单碱基对取代和带电簇→丙氨酸扫描诱变)。突变体被用于生物学、生物化学和生理学研究中。

机制研究。检查BRCA1蛋白与已知和未知DNA序列的结合能力。利用哺乳动物细胞中的瞬时报道基因表达系统分析其反式激活启动子的能力。常规方法例如颗粒捕获和酵母双杂交体系统(yeast two-hybrid system)被用于发现和鉴定各种功能性配偶体。对配偶体的特性和功能进行描述。这些配偶体因此而成为药物开发的目标。

结构研究。在大肠杆菌(E.coli)、酵母、昆虫和/或哺乳动物细胞中生产重组蛋白，将其用于结晶学和NMR研究中。还使用了蛋白质的分子模型。这些研究有助于基于结构的药物研究。

实施例11

检测样本中有否BRCA1的两步试验

根据Antonarakis等人(1985)所述的方法对病人的样品进行处理，经1％琼脂糖凝胶电泳分离，转移到尼龙膜上进行Southern印迹分析。利用GS基因连接仪(Bio-Rad)在150mJ对膜进行UV交联。将对应于SEQ ID NO：1中核苷酸位置3631-3930的BRCA1探针亚克隆在pTZ18U中。将此噬菌粒转化入经辅助噬菌体M13KO7(Bio-Rad，Richmond，CA)感染的大肠杆菌(E.coli.)MV1190。根据标准方法分离出单链DNA(参见Sambrook等人，1989)。

印迹在0.5M NaPO₄中的7％十二烷基硫酸钠(SDS)中，在65℃预杂交15至30分钟。此方法按照Nguyen等人，1992所述进行。印迹与25-50ng/ml单链探针DNA在65℃，在7％SDS、0.5M NaPO₄中杂交过夜。杂交后洗涤包括两次用5％SDS、40mM NaPO₄在65℃洗涤30分钟，然后两次用1％SDS，40mM NaPO₄在65℃洗涤30分钟。

接着，印迹用磷酸盐缓冲液(pH6.8)在室温下洗涤5分钟，用0.2％酪蛋白的PBS溶液室温下孵育30-60分钟，然后用PBS洗涤5分钟。然后，印迹与杂交缓冲液(包含6M尿素，0.3M NaCl和5×Denhardt’s溶液(参见Sambrook等人，1989)在振荡水浴中预孵育5至10分钟。去除缓冲液，代之以50-75μl/cm²新鲜的杂交缓冲液和2.5nM共价交联的寡核苷酸-碱性磷酸酶偶联体，其中的核苷酸序列与通用引物位点互补(UP-AP，Biod-Rad)。印迹在45℃杂交20-30分钟，杂交后洗涤为在45℃孵育，即两次在6M尿素、1×标准柠檬酸盐溶液(SSC)、0.1％SDS中洗涤10分钟，一次在1×SSC、0.1％Triton^X-100中洗涤10分钟。室温下以1×SSC洗涤印迹10分钟。

印迹在含有0.1M二乙醇胺、1mM MgCl₂，0.02％叠氮钠、pH10.0的底物缓冲液中，在室温下振荡孵育10分钟。各个印迹与底物缓冲液和0.2mMAMPPD(3-(2’-螺金刚烷)-4-甲氧基-(3’-磷酰氧)苯基-1，2-二噁烷二钠盐，Biod-Rad)一起置于垫封口袋中。室温下振荡孵育20分钟后，去除过量的AMPPD溶液。印迹与X光片曝光过夜。阳性条带表示有BRCA1存在。

实施例12

抗BRCA1的多克隆抗体的产生

以融合蛋白形式在大肠杆菌中表达BRCA1编码序列的片段。凝胶洗脱纯化高表达蛋白，按照类似于Harlow和Lane，1988所述的方法，将其用于免疫兔和小鼠。该方法已被证明能够产生抗多种其它蛋白质的抗体(例如，参见Kraemer等人，1993)。

简而言之，将一段BRCA1编码序列作为融合蛋白克隆到质粒PET5A(Novagen，Inc.，Madison，WI)中。含有BRCA1的序列包含对应于SEQ ID NO：2中#1361-1554的氨基酸。用IPTG诱导后，由SDS/PAGE证实具有期望分子量的融合蛋白的高表达。利用电洗脱从凝胶上纯化融合蛋白。通过N末端蛋白质测序证明了该蛋白是BRCA1融合产物。接着，将纯化蛋白用作兔的免疫原。用100μg溶于完全Freund’s佐剂中的蛋白质来免疫兔，并以3周为间隔加强免疫2次，第一次用溶于完全Freund’s佐剂中的100μg免疫原，后一次用溶于PBS中的100μg免疫原。两周后收集含有抗体的血清。

重复该方法以产生抗BRCA1基因突变型的抗体。这些抗体与野生型BRCA1的抗体一起可用于检测各种组织和生物体液中突变型的存在和相对水平。

实施例13

BRCA1特异性单克隆抗体的产生

根据以下方法生产单克隆抗体。以众所周知的方法利用戊二醛或EDC将完整BRCA1或BRCA1肽(野生型或突变型)与匙孔血蓝蛋白偶联，以此作为免疫原免疫小鼠。

免疫原是与某种佐剂混合的。每个小鼠注射4次10至100μg免疫原，在第4次注射后采集小鼠的血样，测定血清中有否免疫原的抗体。利用ELISA或RIA测定血清的效价。挑选血清中含有针对免疫原的抗体的小鼠用于产生杂交瘤。

从免疫鼠中取出脾脏，制备单细胞悬液(参见Harlow和Lane，1988)。基本上按照Kohler和Milstein(1975年)所述的方法进行细胞融合。简而言之，根据Harlow和Lane，1988所述，用聚乙二醇将P3.65.3骨髓瘤细胞(美国典型培养物保藏中心，Rockville，MD)和免疫脾细胞融合在一起。按2×10⁵细胞/孔的密度将细胞置于96孔的组织培养板上。检查各孔是否有细胞的生长，并且对生长的孔中的上清液通过ELISA或RIA，用野生型或突变型BRCA1靶蛋白进行测试以确定BRCA1特异性抗体的存在。对阳性孔中的细胞继续进行培养并且亚克隆以获得并证实单克隆性。

具有所需特异性的克隆在小鼠中作为腹水或者在空心纤维系统中继续繁殖和生长，从而产生出足够的抗体供定性和分析之用。

实施例14

BRCA1的夹心分析

将单克隆抗体连于固相表面，例如板、试管、珠或颗粒。较佳地，抗体被附着于96孔ELISA板的孔表面。将含有BRCA1肽/蛋白质(野生型或突变型)的100微升样品(例如血清、尿液、组织胞液)加至固相抗体。样品在室温下孵育2小时。接着倒去样品液体，用缓冲液洗涤固相以去除非结合的物质。将100μl第二种单克隆抗体(针对BRCA1肽/蛋白质的不同的抗原决定簇)加至固相。该抗体是用检测分子(例如¹²⁵I、酶、荧光基团、生色基团)标记的。固相和第二种抗体在室温下孵育2小时。倒去第二种抗体，用缓冲液洗涤固相以去除非结合的物质。

定量地测定结合标记物的数量，它与样品中BRCA1肽/蛋白质的数量成正比。再使用对野生型BRCA1特异的单克隆抗体以及对各种BRCA1突变特异的单克隆抗体进行分析。

工业实用性

如上所述，本发明提供了用于检测个体BRCA1等位基因的材料与方法，以及对等位基因正常或倾向性特性的解释。发病风险高于正常的个体可适当地改变其生活方式。在BRCA1病例中，最主要的非遗传性风险因子具有早期、全程妊振的保护作用。所以，具有发病危险的妇女可以考虑提早生育或采取激发早期全程妊振激素作用的治疗方法。具有高发病风险的妇女还应该力求早期检查，并更积极地学习和实践乳房自查。这些妇女还应更多地进行定期乳房X线照片，开始的年龄可能早于普通人群。还应该进行较高频率的卵巢癌检查。以BRCA1基因座的序列分析为基础的诊断方法也可用于肿瘤的检测和分类。序列分析可用于诊断前体损伤。随着方法的改进以及有关BRCA1和其它致病基因座的信息的累积，区分良性还是恶性的癌肿将成为可能。

如果是倾向性的，因而与不是倾向性的妇女相比更可能发生其它癌肿的妇女应接受各种不同的手术治疗。使用肽或小分子(合理的药物设计)可以发展出其它治疗方法。肽可能是缺失基因产物本身或缺失基因产物的一部分。或者，治疗剂可以是另一种分子，它模拟缺失基因的功能，是能够抵抗遗传基因座有害作用的肽或非肽类分子。治疗方法还可以是以基因为基础的，即给个体引入正常的BRCA1等位基因，以产生能够抵抗有害等位基因作用的蛋白质。这些基因治疗可以是多种形式的，可以是直接阻止肿瘤的形成，从而在癌肿刚发生时将其治愈，或者是阻止癌肿的转移。

很明显地，本发明的方法和内容可以用于各种不同的实施例中，其中只有一小部分公开于此。本领域中的熟练技术人员知晓，还存在其他的实施方式，这些都是属于本发明范围之内。因此，上述的实施例只用于阐述目的，并不用于限制目的。

参考文献清单

Altschul，S.F.等人(1990).“分子生物学杂志”(J.Mol.Biol.)215：195-197.

美国癌症协会(American Cancer Society)，癌症事实＆数据-1992(CancerFacts&Figures-1992).(美国癌症协会(American Cancer Society)，亚特兰大，GA).

Anand，R.(1992).分析复杂基因组的技术(Techniques for the Analysisof Complex Genomes)，(Academic Press).

Anderson，等人(1980).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)77：5399-5403.

Anderson，D.E.(1972).“国立癌症研究所杂志”(J.Natl.CancerInst.)48：1029-1034.

Anderson，J.A.，等人(1992).“耳鼻喉科学杂志”(J.Otolaryngology)21：321.

Antonarakis，S.E.，等人(1985).“新英国医学杂志”(New Eng.J.Med.)313：842-848.

Ausubel，F.M.，等人(1992)，分子生物学中目前方案(Current Protocolsin Molecular Biology)，(J.Wiley and Sons，N.Y.)

Beaucage&Carruthers(1981).“四字符”(Tetra.Letts.)22：1859-1862.

Berkner(1992).“微生物学免疫学的当前课题”(Curr.Top.Microbiol.Immunol.)158：39-61.

Berkner，等人(1988).“生物技术”(BioTechniques)6：616-629.

Bickmore，W.A.，等人(1992).“科学”(Science)257：235-7.

Bishop，D.T.，等人(1988).“遗传流行病”(Genet.Epidemiol.)5：151-169.

Bishop，D.T.和Gardner.E.J.(1980).In：Banbury报道之4：在限定人群中的癌症发生(Banbury Report4：Cancer Incidence in Defined Populations)(J.Cairns，J.L.Lyon，M.Skolnick，eds.)，Cold Spring Harbor Laboratory，ColdSpring Harbor，N.Y.，309-408.

Botstein，等人(1980).“美国人类遗传学杂志”(Am.J.Hum.Genet.)32：314-331.

Bowcock，A.M.，等人(1993).“美国人类遗传学杂志”(Am.J.Hum.Genet.)52：718.

Brandyopadhyay和Temin(1984).“分子细胞生物学”(Mol.Cell.Biol.)4：749-754.

Breakfield和Geller(1987).“分子神经生物学”(Mol.Neurobiol.)1：337-371.

Brinster，等人(1981).“细胞”(Cell)27：223-231.

Buchschacher和Panganiban(1992).“病毒学杂志”(J.Virol.)66：2731-2739.

Buckler，等人(1991).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)88：4005-4009.

Cannon-Albright，L.，等人(1994).“癌症研究”(Cancer Research)54：2378-2385.

Capecchi，M.R.(1989).“科学”(Science)244：1288

Cariello(1988).“人类遗传学”(Human Genetics)42：726.

Claus，E.，等人(1991).“美国人类遗传学杂志”(Am.J.Hum.Genet.)48：232-242.

Conner，B.J.，等人(1983).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)80：278-282.

Constantini和Lacy(1981).“自然”(Nature)294：92-94.

Cotten，等人(1990).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)87：4033-4037.

Cotton，等人(1988).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)85：4397.

Cropp，C.S.，等人(1994)，“癌症研究”(Cancer Res.)54：2548-2551.

Culver，等人(1992).“科学”(Science)256：1550-1552.

Curiel，等人(1991a).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)88：8850-8854.

Curiel，等人(1991b).“人基因治疗”(Hum.Gene Ther.)3：147-154.

Deutscher，M.(1990).“酶学方法”(Meth.Enzymology)182(AcademicPress，San Diego，Cal.).

Donehower，L.A.，等人(1992).“自然”(Natu re)356：215.

Drummond，I.A.，等人(1994).“分子细胞生物学”(Mol.Cell Biol.)14：3800-9.

Easton，D.，等人(1993).“美国人类遗传学杂志”(Am.J.Hum.Genet.)52：678-701.

Eccles，D.M.，等人(1990).“癌基因”(Oncogene)5：1599-1601.

增强子和真核基因表达(Enhancers and Eurkaryotic Gene Expression)，ColdSpring Harbor Press，Cold Spring Harbor，New York(1983).

Erickson，J.等人，(1990).“科学”(Science)249：527-533.

Fain，P.R.(1992).“细胞发生细胞遗传学”(Cytogen.Cell Genet.)60：178.

Felgner，等人(1987)“美国科学院院报”(Proc.Natl.Acad.Sci.USA)84：7413-7417.

Fiers，等人(1978).“自然”(Nature)273：113.

Fink，等人(1992).“人基因治疗”(Hum.Gene Ther.)3：11-19.

Finkelstein，J.，等人(1990)“基因组”(Genomics)7：167-172.

Freese，等人(1990).“生物化学药物学”(Biochem.Pharmacol.)40：2189-2199.

Friedman，T.(1991).遗传疾病治疗(In Therapy for Genetic Diseases)，T.Friedman，ed.，Oxford University Press，pp.105-121.

Futreal(1993).博士论文，University of North Carolina，Chapel Hill.

Futreal，A.，等人(1992a).“人类分子遗传学”(Hum.Molec.Genet.)1：66.

Futreal，P.A.，等人(1992b).“癌症研究”(Cancer Res.)52：2624-2627.

Glebov，O.K.，等人(1994)“癌症研究”(Cancer Res，)54：3703-3709.

Glover，D.(1985).“DNA克隆”(DNA Cloning)，I and II(Oxford Press).

Go，R.C.P.，等人(1983).“国立癌症研究所杂志”(J.Natl.CancerInst.)71：455-461.

Goding(1986).单克隆抗体：原理和实践(Monoclonal Antibodies：Principles and Practice)，2版.(Academic Press，N.Y.).

Godowski，等人(1988).“科学”(Science)241：812-816.

Goldgar，D.E.，等人(1994).“国立癌症研究院杂志”(J.Natl.Can.Inst.)86：3：200-209.

Gordon，等人(1980).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)77：7380-7384.

Gorziglia和Kapikian(1992).“病毒学杂志”(J.Virol.)66：4407-4412.

Graham和van der Eb(1973)“病毒学”(Virology)52：456-467.

Grompe，M.，(1993).“自然遗传学”(Nature Genetics)5：111-117.

Grompe，M.，等人，(1989).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)86：5855-5892.

Guthrie，G.&Fink，G.R.1991).酵母遗传学和分子生物学导向(Guide toYeast Genetics and Molecular Biology)(Academic Press).

Haber，D.A.，等人(1990).“细胞”(Cell)61：1257-69.

Hall，J.M.，等人(1990).“科学”(Science 250：1684-1689.

Hall，J.M.，等人(1992).“美国人类遗传学杂志”(Am.J.Hum.Genet.)50：1235-1241.

Harlow&Lane(1988).抗体：实验室手册(Antibodies：A Laboratory Manual)(Cold Spring Harbor Laboratory，Cold Spring Harbor，N.Y.

Hasty，P.，K.，等人(1991).“自然”(Nature)350：243.

Helseth，等人(1990).“病毒学杂志”(J.Virol.)64：2416-2420.

Hodgson，J.(1991).“生物技术”(Bio/Technology)9：19-21.

Huse，等人(1989).“科学”(Scence)246：1275-1281.

Innis等人(1990).PCR方案：方法和应用引导(PCR Protocols：A Guide toMethods and Applications)(Academic Press，San Diego，Cal.).

Jablonski，E.，等人(1986).“核酸研究”(Nuc.Acids Res.)14：6115-6128.

Jacobs，I.J.，等人(1993)“癌症研究”(Cancer Res.)53：1218-1221.

Jakoby，W.B.和Pastan，I.H.(eds.)(1979).细胞培养酶学方法(CellCulture.Methods in Enzymology)，栏58(volume58)(Academic Press，Inc.，Harcourt Brace Jovanovich(New York)).

Jeffreys，等人(1985)“自然”(Nature 314：67-73.

Johnson，等人(1992)“病毒学杂志”(J.Virol.)66：2952-2965.

Kamb，A.等人(1994).“科学”(Science)264：436-440.

Kandpal，等人(1990).“核酸研究”(Nucl.Acids Res.)18：1789-1795.

Kaneda，等人(1989).“生物化学杂志”(J.Biol.Chem.)264：12126-12129.

Kanehisa(1984).“核酸研究”(Nucl.Acids Res.)12：203-213.

Kelsell，D.P.，等人(1993).“人类分子遗传学”(Human Mol.Genet.)2：1823-1828.

Kinszler，K.W.，等人(1991)“科学”(Science)251：1366-1370.

Knudson，A.G.(1993).“自然遗传学”(Nature Genet.)5：103.

Kohler，G.和Milstein，C.(1975).“自然”(Nature)256：495-497.

Kozak，M.(1987).“核酸研究”(Nucleic Acids Res.)15：8125-8148.

Kraemer，F.B.等人(1993).“脂类研究杂志”(J.Lipid Res.)34：663-672.

Kubo，T.，等人(1988).FEBS Letts.241：119.

Landegren，等人(1988).“科学”(Science)242：229.

Lim，等人(1992).“循环系统”(Circulation)83：2007-2011.

Lindsay，S.，等人(1987).“自然”(Nature)327：336-368.

Litt，等人(1989).“美国人类遗传学杂志”(Am.J.Hum.Genet.)44：397-401.

Little，M.H.，等人(1992).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)89：4791.

Little，M.H.，等人(1993).“人类分子遗传学”(Hum.Mol.Genet.)2：259.

Lovett，等人(1991).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)88：9628-9632.

Lynch，H.T.，等人(1990).“妇科肿瘤学”(Gynecol.Oncol.)36：48-55.

Madzak，等人(1992).“遗传病毒学杂志”(J.Gen.Virol.)73：1533-1536.

Malkin，D.，等人(1990).“科学”(Science)250：1233-1238.

Maniatis.T.，等人(1982).分子克隆：实验室手册(Molecular Cloning：ALaboratory Manual)(Cold Spring Harbor Laboratory，Cold Spring Harbor，N.Y.).

Mann和Baltimore(1985).“病毒学杂志”(J.Virol.)54：401-407.

Margaritte，等人(1992).“美国人类遗传学杂志”(Am.J.Hum.Genet.)50：1231-1234.

Margolskee(1992).“微生物学免疫学的当前课题”(Curr.Top.Microbiol.Immunol.)158：67-90.

Martin，R.，等人(1990).“生物技术”(BioTechniques)9：762-768.

Matteucci，M.D.和Caruthers.M.H.(1981)“美国化学协会杂志”(J.Am.Chem.Soc.)103：3185.

Matthews&Kricka(1988).“分析化学”(Anal.Biochem.169：1.

Merrifield(1963).“美国化学协会杂志”(J.Am.Chem.Soc.)85：2149-2156.

Mettlin，C.，等人(1990).“美国流行病杂志”(American Journal ofEpidemiology)131：973-983.

Metzger，等人(1988).“自然”(Nature)334：31-36.

Miller(1992).“微生物学免疫学的当前课题”(Curr.Top.Microbiol.Immunol)158：1-24.

Miller，等人(1985).“分子细胞生物学”(Mol.Cell.Biol.)5：431-437.

Miller，等人(1988).“病毒学杂志”(J.Virol.)62：4337-4345.

Mittlin(1989).“临床化学”(Clinical Chem.)35：1819.

Modrich，P.(1991).“遗传学年报”(Ann.Rev Genet.)25：229-253.

Mombaerts，P.，等人(1992).“细胞”(Cell)68：869.

Monaco，等人(1986).“自然”(Nature)323：646.

Moss(1992).“微生物学免疫学的当前课题”(Curr.Top.Microbiol.Immunol.)158：25-38.

Muzyczka(1992).“微生物学免疫学的当前课题”(Curr.Top.Microbiol.Immunol.)158：97-123.

Nabel(1992).“人基因治疗”(Hum.Gene Ther.)3：399-410.

Nabel，等人(1990).“科学”(Science)249：1285-1288.

Nakamura，等人(1987).“科学”(Science)235：1616-1622.

Narod，S.A.，等人(1991).“柳叶刀”(The Lancet)338：82-83.

Newman，B.，等人(1988).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)85：3044-3048.

Newton.C.R.，Graham，A.，Heptinstall，L.E.，Powell，S.J.，Summers，C.，Kalsheker，N.，Smith，J.C.，和Markham，A.F.(1989).“核酸研究”(Nucl.Acids Res.)17：2503-2516.

Nguyen，Q.，等人(1992).“生物技术”(BioTechniques)13：116-123.

Novack，等人(1986).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)83：586.

Oh，J.(1985).人遗传连锁分析(Analysis of Human Genetic Linkage)，Johns Hopkins University Press，Baltimore，Md，pp.1-216.

Obi，等人(1990).“基因”(Gene)89：279-282.

Oliphant，A.，等人(1991).“核酸研究”(Nucleic Acid Res.)19：4794.

Oliphant，A.，等人(1991).“核酸研究”(Nucleic Acid Res.)19：4795.

Orita，等人(1989).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)86：2776-2770.

Page，等人(1990).“病毒学杂志”(J.Virol.)64：5370-5276.

Pellicer，等人(1980).“科学”(Science)209：1414-1422.

Petropoulos，等人(1992).“病毒学杂志”(J.Virol.)66：3391-3397.

Philpott，K.L.，等人(1992).“科学”(Science)256：1448.

Pierce，等人(1992).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)89：2056-2060.

Quantin，等人(1992).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)89：2581-2584.

Rano&Kidd(1989).“核酸研究”(Nucl.Acids Res.)17：8392.

Rigby，P.W.J.，等人(1977).“分子生物学杂志”(J.Mol.Biol.〕113：237-251.

Rosenfeld，等人(1992).“细胞”(Cell)68：143-155.

Sambrook，J.，等人(1989).分子克隆：实验室手册(Molecular Cloning：ALaboratory Manual)，2nd Ed.(Cold Spring Harbor Laboratory，Cold SpringHarbor，N.Y.).

Sato，T.，等人(1990).“癌症研究”(“癌症研究”(Cancer Res.))50：7184-7189.

Scharf(1986).“科学”(Science)233：1076.

Scopes，R.(1982).蛋白质纯化：原理和实践(Protein Purification：Principles and Practice)，(Springer-Verlag，N.Y.).

Shaulian，E.，等人(1992).“分子细胞生物学”(Mol.Cell Biol.)12：5581-92.

Sheffield，V.C.，等人(1989).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)86：232-236.

Sheffield，V.C.，等人(1991).“美国人类遗传学杂志”(Am.J.Hum.Genet.)49：699-706.

Shenk，等人(1975).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)72：989.

Shimada，等人(1991).“临床调查杂志”(J.Clin.Invest.)88：1043-1047.

Shinkai，Y.，等人(1992).“细胞”(Cell)68：855.

Shizuya，H.，等人(1992).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)89：8794-8797.

Simard，J.，等人(1993).“人类分子遗传”(Human Mol.Genet.)2：1193-1199.

Skolnick，M.H.和Wallace，B.R.(1988).“基因组”(Genomics)2：273-279.

Skolnick，M.H.，等人(1990)“科学”(Science)250：1715-1720.

Smith，SA.，等人(1992).“自然遗传学”(Nature Genetics)2：128-131.

Smith，T.F.和Waterman，M.S(1981).“分子生物学杂志”(J.Mol.Biol.〕147：195-197.

Snouwaert，J.N.，等人(1992)“科学”(Science)257：1083.

Sorge，等人(1984).“分子细胞生物学”(Mol.Cell.Biol.)4：1730-1737.

Srivastava，S.，等人(1993).“癌症研究”(“癌症研究”(Cancer Res.))53：4452-5.

Sternberg(1990).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)87：103-107.

Sternberg，等人(1990).“新生物学家”(The New Biologist)2：151-162.

Stewart，等人(1992).“人基因治疗”(“人基因治疗”(Hum.Gene Ther.))3：267-275.

Stratford-Perrcaudet，等人(1990).“人基因治疗”(“人基因治疗”(Hum.Gene Ther.))1：241-256.

Swift，M.，等人(1991).“新英国医学杂志”(N.Engl.J.Med.)325：1831-1836.

Swift，M.，等人(1976).“癌症研究”(“癌症研究”(Cancer Res.))36：209-215.

Su，L.K.，等人(1993).“癌症研究”(“癌症研究”(Cancer Res.))53：2728-31.

Thomas，A.和Skolnick，M.H.(1994).“在医学和生物学中应用数学的IMA杂志”(IMA Journal of Mathematics Applied in Medicine and Biology)(inpress).

Tonolio，D.，等人(1990).Cold Spring Harbor会议，

Valancius，V.&Smithies，O.(1991).“分子细胞生物学”(Mol.Cell Biol.)11：1402.

van Dilla，等人(1986).“生物技术”(Biotechnology)4：537-552.

Wagner，等人(1990).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)87：3410-3414.

Wagner，等人(1991).“美国科学院院报”(Proc.Nat1.Acad.Sci.USA)88：4255-4259.

Wang和Huang(1989).“生物化学”(Biochemistry)28：9508-9514.

Wartell，R.M.，等人(1990).“核酸研究”(Nucl.Acids Res.)18：2699-2705.

Weber，J.L.(1990).“基因组”(Genomics)7：524-530.

Weber和May(1989).“美国人类遗传学杂志”(Am.J.Hum.Genet.)44：388-396.

Weber，J.L.，等人(1990).“核酸研究”(Nucleic Acid Res.)18：4640.

Wells，J.A.(1991).”酶学方法”(Methods in Enzymol.)202：390-411.

Wetmur&Davidson(1968).“分子生物学杂志”(J.Mol.Biol.〕31：349-370.

White，M.B.，等人，(1992).“基因组”(Genomics)12：301-306.

White和Lalouel(1988).“遗传学年报”(Ann.Rev.Genet.)22：259-279.

Wilkinson，等人(1992)“核酸研究”(Nucleic Acids Res.)20：2233-2239.

Willams和Anderson(1984).“遗传流行病”(Genet.Epidemiol.)1：7-20.

Wolff，等人(1990).“科学”(Science)247：1465-1468.

Wolff，等人.(1991).“生物技术”(BioTechniques)11：474-485.

Wooster，R.，等人(1994).“科学”(Science)265：2088.

Wu，等人(1989a).“基因组”(Genomics)4：560-569.

Wu，等人(1989b).“生物化学杂志”(J.Biol.Chem.)264：16985-16987.

Wu，等人(1991).“生物化学杂志”(J.Biol.Chem.)266：14338-14342.

Zenke，等人(1990).“美国科学院院报”(Proc.Natl.Acad.Sci.USA)87：3655-3659.

专利和专利申请清单

美国专利No.3,817,837

美国专利No.3,850,752

美国专利No.3,939,350

美国专利No.3,996,345

美国专利No.4,275,149

美国专利No.4,277,437

美国专利No.4,366,241

美国专利No.4,376,110

美国专利No.4,486,530

美国专利No.4,683,195

美国专利No.4,683,202

美国专利No.4,816,567

美国专利No.4,868,105

美国专利No.5,252,479

EPO出版物No.225,807

欧洲专利申请出版物No.0332435

Geysen，H.，PCT出版的申请WO 84/03564，于1984年9月13日出版

Hitzeman等人，EP73,675A

PCT出版的申请WO 93/07282

序列表(1)一般信息：(i)申请人：Skolnick，Mark H.

Goldgar，David E.

Miki，Yoshio

Swenson，Jeff

Kamb，Alexander

Harshman，Keith D

Shattuck-Eidens，Donna M.

Tavtigian，Sean V.

Wiseman，Roger W.

Futreal，P.Andrew(ii)发明名称：诊断乳房癌和卵巢癌倾向性的方法(iii)序列数目：85(iv)通信地址：

(A)收信人：Venable，Baetjer，Howard&Civiletti，LLP

(B)街道：1201 New York Avenue，N.W.，Suite 1000

(C)城市：华盛顿

(D)州：DC

(E)国家：美国

(F)邮编：20005

(V)计算机可读形式：

(A)记录介质类型：软盘

(B)计算机：IBM PC兼容性

(C)操作系统：PC-DOS/MS-DOS

(D)软件：Patent In Release#1.0，Version#1.30(Vi)本申请资料：

(A)申请号：

(B)申请日：

(C)分类：(vii)在先申请资料：

(A)申请号：US

(B)申请H：07-6月-1995(vii)在先申请资料：

(A)申请号：US 08/409,305

(B)申请日：24-3月-1995(vii)在先申请资料：

(A)申请号：US 08/348,824

(B)申请日：29-11月-1994(vii)在先申请资料：

(A)申请号：US 08/308,104

(B)申请日：16-9月-1994(vii)在先申请资料：

(A)申请号：US 08/300,266

(B)申请日：02-9月-1994(vii)在先申请资料：

(A)申请号：US 08/289,221

(B)申请H：12-8月-1994(viii)律师/代理人信息：

(A)姓名：Ihnen，Jeffrey L.

(B)登记号：28,957

(C)参考/案卷号：24884-109347(ix)通讯信息：

(A)电话：202-962-4810

(B)传真：202-962-8300(2)SEQ ID NO：1信息：(i)序列特征：

(A)长度：5914碱基对

(B)类型：核酸

(C)股性：双链

(D)拓扑结构：线性(ii)分子类型：cDNA(iii)假设：否(iv)反义：否(vi)最初来源：

(A)有机体：人(ix)特征：

(A)名称/检索符号：CDS

(B)位置：120..5711(xi)序列描述：SEQ ID NO：1：AGCTCGCTGA GACTTCCTGG ACCCCGCACC AGGCTGTGGG GTTTCTCAGA TAACTGGGCC 60CCTGCGCTCA GGAGGCCTTC ACCCTCTGCT CTGGGTAAAG TTCATTGGAA CAGAAAGAA 119ATG GAT TTA TCT GCT CTT CGC GTT GAA GAA GTA CAA AAT GTC ATT AAT 167Met Asp Leu Ser Ala Leu Arg Val Glu Glu Val Gln Asn Val Ile Asn1 5 10 15GCT ATG CAG AAA ATC TTA GAG TGT CCC ATC TGT CTG GAG TTG ATC AAG 215Ala Met Gln Lys Ile Leu Glu Cys Pro Ile Cys Leu Glu Leu Ile Lys

20 25 30GAA CCT GTC TCC ACA AAG TGT GAC CAC ATA TTT TGC AAA TTT TGC ATG 263Glu Pro Val Ser Thr Lys Cys Asp His Ile Phe Cys Lys Phe Cys Met

35 40 45CTG AAA CTT CTC AAC CAG AAG AAA GGG CCT TCA CAG TGT CCT TTA TGT 311Leu Lys Leu Leu Asn Gln Lys Lys Gly Pro Ser Gln Cys Pro Leu Cys

50 55 60AAG AAT GAT ATA ACC AAA AGG AGC CTA CAA GAA AGT ACG AGA TTT AGT 359Lys Asn Asp Ile Thr Lys Arg Ser Leu Gln Glu Ser Thr Arg Phe Ser65 70 75 8OCAA CTT GTT GAA GAG CTA TTG AAA ATC ATT TGT GCT TTT CAG CTT GAC 407Gln Leu Val Glu Glu Leu Leu Lys Ile Ile Cys Ala Phe Gln Leu Asp

85 90 95ACA GGT TTG GAG TAT GCA AAC AGC TAT AAT TTT GCA AAA AAG GAA AAT 455Thr Gly Leu Glu Tyr Ala Asn Ser Tyr Asn Phe Ala Lys Lys Glu Asn

100 105 110AAC TCT CCT GAA CAT CTA AAA GAT GAA GTT TCT ATC ATC CAA AGT ATG 503Asn Ser Pro Glu His Leu Lys Asp Glu Val Ser Ile Ile Gln Ser Met

115 120 125GGC TAC AGA AAC CGT GCC AAA AGA CTT CTA CAG AGT GAA CCC GAA AAT 551Gly Tyr Arg Asn Arg Ala Lys Arg Leu Leu Gln Ser Glu Pro Glu Asn

130 135 140CCT TCC TTG CAG GAA ACC AGT CTC AGT GTC CAA CTC TCT AAC CTT GGA 599Pro Ser Leu Gln Glu Thr Ser Leu Ser Val Gln Leu Ser Asn Leu Gly145 150 155 160ACT GTG AGA ACT CTG AGG ACA AAG CAG CGG ATA CAA CCT CAA AAG ACG 647Thr Val Arg Thr Leu Arg Thr Lys Gln Arg Ile Gln Pro Gln Lys Thr

165 170 175TCT GTC TAC ATT GAA TTG GGA TCT GAT TCT TCT GAA GAT ACC GTT AAT 695Ser Val Tyr Ile Glu Leu Gly Ser Asp Ser Ser Glu Asp Thr Val Asn

180 185 190AAG GCA ACT TAT TGC AGT GTG GGA GAT CAA GAA TTG TTA CAA ATC ACC 743Lys Ala Thr Tyr Cys Ser Val Gly Asp Gln Glu Leu Leu Gln Ile Thr

195 200 205CCT CAA GGA ACC AGG GAT GAA ATC AGT TTG GAT TCT GCA AAA AAG GCT 791Pro Gln Gly Thr Arg Asp Glu Ile Ser Leu Asp Ser Ala Lys Lys Ala

210 215 220GCT TGT GAA TTT TCT GAG ACG GAT GTA ACA AAT ACT GAA CAT CAT CAA 839Ala Cys Glu Phe Ser Glu Thr Asp Val Thr Asn Thr Glu His His Gln225 230 235 240CCC AGT AAT AAT GAT TTG AAC ACC ACT GAG AAG CGT GCA GCT GAG AGG 887Pro Ser Asn Asn Asp Leu Asn Thr Thr Glu Lys Arg Ala Ala Glu Arg

245 250 255CAT CCA GAA AAG TAT CAG GGT AGT TCT GTT TCA AAC TTG CAT GTG GAG 935His Pro Glu Lys Tyr Gln Gly Ser Ser Val Ser Asn Leu His Val Glu

260 265 270CCA TGT GGC ACA AAT ACT CAT GCC AGC TCA TTA CAG CAT GAG AAC AGC 983Pro Cys Gly Thr Asn Thr His Ala Ser Ser Leu Gln His Glu Asn Ser

275 280 285AGT TTA TTA CTC ACT AAA GAC AGA ATG AAT GTA GAA AAG GCT GAA TTC 1031Ser Leu Leu Leu Thr Lys Asp Arg Met Asn Val Glu Lys Ala Glu Phe

290 295 300TGT AAT AAA AGC AAA CAG CCT GGC TTA GCA AGG AGC CAA CAT AAC AGA 1079Cys Asn Lys Ser Lys Gln Pro Gly Leu Ala Arg Ser Gln His Asn Arg305 310 315 320TGG GCT GGA AGT AAG GAA ACA TGT AAT GAT AGG CGG ACT CCC AGC ACA 1127Trp Ala Gly Ser Lys Glu Thr Cys Asn Asp Arg Arg Thr Pro Ser Thr

325 330 335GAA AAA AAG GTA GAT CTG AAT GCT GAT CCC CTG TGT GAG AGA AAA GAA 1175Glu Lys Lys Val Asp Leu Asn Ala Asp Pro Leu Cys Glu Arg Lys Glu

340 345 350TGG AAT AAG CAG AAA CTG CCA TGC TCA GAG AAT CCT AGA GAT ACT GAA 1223Trp Asn Lys Gln Lys Leu Pro Cys Ser Glu Asn Pro Arg Asp Thr Glu

355 360 365GAT GTT CCT TGG ATA ACA CTA AAT AGC AGC ATT CAG AAA GTT AAT GAG 1271Asp Val Pro Trp Ile Thr Leu Asn Ser Ser Ile Gln Lys Val Asn Glu

370 375 380TGG TTT TCC AGA AGT GAT GAA CTG TTA GGT TCT GAT GAG TCA CAT GAT 1319Trp Phe Ser Arg Ser Asp Glu Leu Leu Gly Ser Asp Asp Ser His Asp385 390 395 400GGG GAG TCT GAA TCA AAT GCC AAA GTA GCT GAT GTA TTG GAC GTT CTA 1367Gly Glu Ser Glu Ser Asn Ala Lys Val Ala Asp Val Leu Asp Val Leu

405 410 415AAT GAG GTA GAT GAA TAT TCT GGT TCT TCA GAG AAA ATA GAC TTA CTG 1415Asn Glu Val Asp Glu Tyr Ser Gly Ser Ser Glu Lys Ile Asp Leu Leu

420 425 430GCC AGT GAT CCT CAT GAG GCT TTA ATA TGT AAA AGT GAA AGA GTT CAC 1463Ala Ser Asp Pro His Glu Ala Leu Ile Cys Lys Ser Glu Arg Val His

435 440 445TCC AAA TCA GTA GAG AGT AAT ATT GAA GAC AAA ATA TTT GGG AAA ACC 1511Ser Lys Ser Val Glu Ser Asn Ile Glu Asp Lys Ile Phe Gly Lys Thr

450 455 460TAT CGG AAG AAG GCA AGC CTC CCC AAC TTA AGC CAT GTA ACT GAA AAT 1559Tyr Arg Lys Lys Ala Ser Leu Pro Asn Leu Ser His Val Thr Glu Asn465 470 475 480CTA ATT ATA GGA GCA TTT GTT ACT GAG CCA CAG ATA ATA CAA GAG CGT 1607Leu Ile Ile Gly Ala Phe Val Thr Glu Pro Gln Ile Ile Gln Glu Arg

485 490 495CCC CTC ACA AAT AAA TTA AAG CGT AAA AGG AGA CCT ACA TCA GGC CTT 1655Pro Leu Thr Asn Lys Leu Lys Arg Lys Arg Arg Pro Thr Ser Gly Leu

500 505 510CAT CCT GAG GAT TTT ATC AAG AAA GCA GAT TTG GCA GTT CAA AAG ACT 1703His Pro Glu Asp Phe Ile Lys Lys Ala Asp Leu Ala Val Gln Lys Thr

515 520 525CCT GAA ATG ATA AAT CAG GGA ACT AAC CAA ACG GAG CAG AAT GGT CAA 1751Pro Glu Met Ile Asn Gln Gly Thr Asn Gln Thr Glu Gln Asn Gly Gln

530 535 540GTG ATG AAT ATT ACT AAT AGT GGT CAT GAG AAT AAA ACA AAA GGT GAT 1799Val Met Asn Ile Thr Asn Ser Gly His Glu Asn Lys Thr Lys Gly Asp545 550 555 560TCT ATT CAG AAT GAG AAA AAT CCT AAC CCA ATA GAA TCA CTC GAA AAA 1847Ser Ile Gln Asn Glu Lys Asn Pro Asn Pro Ile Glu Ser Leu Glu Lys

565 570 575GAA TCT GCT TTC AAA ACG AAA GCT GAA CCT ATA AGC AGC AGT ATA AGC 1895Glu Ser Ala Phe Lys Thr Lys Ala Glu Pro Ile Ser Ser Ser Ile Ser

580 585 590AAT ATG GAA CTC GAA TTA AAT ATC CAC AAT TCA AAA GCA CCT AAA AAG 1943Asn Met Glu Leu Glu Leu Asn Ile His Asn Ser Lys Ala Pro Lys Lys

595 600 605AAT AGG CTG AGG AGG AAG TCT TCT ACC AGG CAT ATT CAT GCG CTT GAA 1991Asn Arg Leu Arg Arg Lys Ser Ser Thr Arg His Ile His Ala Leu Glu

610 615 620CTA GTA GTC AGT AGA AAT CTA AGC CCA CCT AAT TGT ACT GAA TTG CAA 2039Leu Val Val Ser Arg Asn Leu Ser Pro Pro Asn Cys Thr Glu Leu Gln625 630 635 640ATT GAT AGT TGT TCT AGC AGT GAA GAG ATA AAG AAA AAA AAG TAC AAC 2087Ile Asp Ser Cys Ser Ser Sen Glu Glu Ile Lys Lys Lys Lys Tyr Asn

645 650 655CAA ATG CCA GTC AGG CAC AGC AGA AAC CTA CAA CTC ATG GAA GGT AAA 2135Gln Met Pro Val Arg His Ser Arg Asn Leu Gln Leu Met Glu Gly Lys

660 665 670GAA CCT GCA ACT GGA GCC AAG AAG AGT AAC AAG CCA AAT GAA CAG ACA 2183Glu Pro Ala Thr Gly Ala Lys Lys Ser Asn Lys Pro Asn Glu Gln Thr

675 680 685AGT AAA AGA CAT GAC AGC GAT ACT TTC CCA GAG CTG AAG TTA ACA AAT 2231Ser Lys Arg His Asp Ser Asp Thr Phe Pro Glu Leu Lys Leu Thr Asn

690 695 700GCA CCT GGT TCT TTT ACT AAG TGT TCA AAT ACC AGT GAA CTT AAA GAA 2279Ala Pro Gly Ser Phe Thr Lys Cys Ser Asn Thr Ser Glu Leu Lys Glu705 710 715 720TTT GTC AAT CCT AGC CTT CCA AGA GAA GAA AAA GAA GAG AAA CTA GAA 2327Phe Val Asn Pro Ser Leu Pro Arg Glu Glu Lys Glu Glu Lys Leu Glu

725 730 735ACA GTT AAA GTG TCT AAT AAT GCT GAA GAC CCC AAA GAT CTC ATG TTA 2375Thr Val Lys Val Ser Asn Asn Ala Glu Asp Pro Lys Asp Leu Met Leu

740 745 750AGT GGA GAA AGG GTT TTG CAA ACT GAA AGA TCT GTA GAG AGT AGC AGT 2423Ser Gly Glu Arg Val Leu Gln Thr Glu Arg Ser Val Glu Ser Ser Ser

755 760 765ATT TCA TTG GTA CCT GGT ACT GAT TAT GGC ACT CAG GAA AGT ATC TCG 2471Ile Ser Leu Val Pro Gly Thr Asp Tyr Gly Thr Gln Glu Ser Ile Ser

770 775 780TTA CTG GAA GTT AGC ACT CTA GGG AAG GCA AAA ACA GAA CCA AAT AAA 2519Leu Leu Glu Val Ser Thr Leu Gly Lys Ala Lys Thr Glu Pro Asn Lys785 790 795 800TGT GTG AGT CAG TGT GCA GCA TTT GAA AAC CCC AAG GGA CTA ATT CAT 2567Cys Val Ser Gln Cys Ala Ala Phe Glu Asn Pro Lys Gly Leu Ile His

805 810 815GGT TGT TCC AAA GAT AAT AGA AAT GAC ACA GAA GGC TTT AAG TAT CCA 2615Gly Cys Ser Lys Asp Asn Arg Asn Asp Thr Glu Gly Phe Lys Tyr Pro

820 825 830TTG GGA CAT GAA GTT AAC CAC AGT CGG GAA ACA AGC ATA GAA ATG GAA 2663Leu Gly His Glu Val Asn His Ser Arg Glu Thr Ser Ile Glu Met Glu

835 840 845GAA AGT GAA CTT GAT GCT CAG TAT TTG CAG AAT ACA TTC AAG GTT TCA 2711Glu Ser Glu Leu Asp Ala Gln Tyr Leu Gln Asn Thr Phe Lys Val Ser

850 855 860AAG CGC CAG TCA TTT GCT CCG TTT TCA AAT CCA GGA AAT GCA GAA GAG 2759Lys Arg Gln Ser Phe Ala Pro Phe Ser Asn Pro Gly Asn Ala Glu Glu865 870 875 880GAA TGT GCA ACA TTC TCT GCC CAC TCT GGG TCC TTA AAG AAA CAA AGT 2807Glu Cys Ala Thr Phe Ser Ala His Ser Gly Ser Leu Lys Lys Gln Ser

885 890 895CCA AAA GTC ACT TTT GAA TGT GAA CAA AAG GAA GAA AAT CAA GGA AAG 2855Pro Lys Val Thr Phe Glu Cys Glu Gln Lys Glu Glu Asn Gln Gly Lys

900 905 910AAT GAG TCT AAT ATC AAG CCT GTA CAG ACA GTT AAT ATC ACT GCA GGC 2903Asn Glu Ser Asn Ile Lys Pro Val Gln Thr Val Asn Ile Thr Ala Gly

915 920 925TTT CCT GTG GTT GGT CAG AAA GAT AAG CCA GTT GAT AAT GCC AAA TGT 2951Phe Pro Val Val Gly Gln Lys Asp Lys Pro Val Asp Asn Ala Lys Cys

930 935 940AGT ATC AAA GGA GGC TCT AGG TTT TGT CTA TCA TCT CAG TTC AGA GGC 2999Ser Ile Lys Gly Gly Ser Arg Phe Cys Leu Ser Ser Gln Phe Arg Gly945 950 955 960AAC GAA ACT GGA CTC ATT ACT CCA AAT AAA CAT GGA CTT TTA CAA AAC 3047Asn Glu Thr Gly Leu Ile Thr Pro Asn Lys His Gly Leu Leu Gln Asn

965 970 975CCA TAT CGT ATA CCA CCA CTT TTT CCC ATC AAG TCA TTT GTT AAA ACT 3095Pro Tyr Arg Ile Pro Pro Leu Phe Pro Ile Lys Ser Phe Val Lys Thr

980 985 990AAA TGT AAG AAA AAT CTG CTA GAG GAA AAC TTT GAG GAA CAT TCA ATG 3143Lys Cys Lys Lys Asn Leu Leu Glu Glu Asn Phe Glu Glu His Ser Met

995 1000 1005TCA CCT GAA AGA GAA ATG GGA AAT GAG AAC ATT CCA AGT ACA GTG AGC 3191Ser Pro Glu Arg Glu Met Gly Asn Glu Asn Ile Pro Ser Thr Val Ser

1010 1015 1020ACA ATT AGC CGT AAT AAC ATT AGA GAA AAT GTT TTT AAA GAA GCC AGC 3239Thr Ile Ser Arg Asn Asn Ile Arg Glu Asn Val Phe Lys Glu Ala Ser1025 1030 1035 1040TCA AGC AAT ATT AAT GAA GTA GGT TCC AGT ACT AAT GAA GTG GGC TCC 3287Ser Ser Asn Ile Asn Glu Val Gly Ser Ser Thr Asn Glu Val Gly Ser

1045 1050 1055AGT ATT AAT GAA ATA GGT TCC AGT GAT GAA AAC ATT CAA GCA GAA CTA 3335Ser Ile Asn Glu Ile Gly Ser Ser Asp Glu Asn Ile Gln Ala Glu Leu

1060 1065 1070GGT AGA AAC AGA GGG CCA AAA TTG AAT GCT ATG CTT AGA TTA GGG GTT 3383Gly Arg Asn Arg Gly Pro Lys Leu Asn Ala Met Leu Arg Leu Gly Val

1075 1080 1085TTG CAA CCT GAG GTC TAT AAA CAA AGT CTT CCT GGA AGT AAT TGT AAG 3431Leu Gln Pro Glu Val Tyr Lys Gln Ser Leu Pro Gly Ser Asn Cys Lys

1090 1095 1100CAT CCT GAA ATA AAA AAG CAA GAA TAT GAA GAA GTA GTT CAG ACT GTT 3479His Pro Glu Ile Lys Lys Gln Glu Tyr Glu Glu Val Val Gln Thr Val1105 1110 1115 1120AAT ACA GAT TTC TCT CCA TAT CTG ATT TCA GAT AAC TTA GAA CAG CCT 3527Asn Thr Asp Phe Ser Pro Tyr Leu Ile Ser Asp Asn Leu Glu Gln Pro

1125 1130 1135ATG GGA AGT AGT CAT GCA TCT CAG GTT TGT TCT GAG ACA CCT GAT GAC 3575Met Gly Ser Ser His Ala Ser Gln Val Cys Ser Glu Thr Pro Asp Asp

1140 1145 1150CTG TTA GAT GAT GGT GAA ATA AAG GAA GAT ACT AGT TTT GCT GAA AAT 3623Leu Leu Asp Asp Gly Glu Ile Lys Glu Asp Thr Ser Phe Ala Glu Asn

1155 1160 1165GAC ATT AAG GAA AGT TCT GCT GTT TTT AGC AAA AGC GTC CAG AAA GGA 3671Asp Ile Lys Glu Ser Ser Ala Val Phe Ser Lys Ser Val Gln Lys Gly

1170 1175 1180GAG CTT AGC AGG AGT CCT AGC CCT TTC ACC CAT ACA CAT TTG GCT CAG 3719Glu Leu Ser Arg Ser Pro Ser Pro Phe Thr His Thr His Leu Ala Gln1185 1190 1195 1200GGT TAC CGA AGA GGG GCC AAG AAA TTA GAG TCC TCA GAA GAG AAC TTA 3767Gly Tyr Arg Arg Gly Ala Lys Lys Leu Glu Ser Ser Glu Glu Asn Leu

1205 1210 1215TCT AGT GAG GAT GAA GAG CTT CCC TGC TTC CAA CAC TTG TTA TTT GGT 3815Ser Ser Glu Asp Glu Glu Leu Pro Cys Phe Gln His Leu Leu Phe Gly

1220 1225 1230AAA GTA AAC AAT ATA CCT TCT CAG TCT ACT AGG CAT AGC ACC GTT GCT 3863Lys Val Asn Asn Ile Pro Ser Gln Ser Thr Arg His Ser Thr Val Ala

1235 1240 1245ACC GAG TGT CTG TCT AAG AAC ACA GAG GAG AAT TTA TTA TCA TTG AAG 3911Thr Glu Cys Leu Ser Lys Asn Thr Glu Glu Asn Leu Leu Ser Leu Lys

1250 1255 1260AAT AGC TTA AAT GAC TGC AGT AAC CAG GTA ATA TTG GCA AAG GCA TCT 3959Asn Ser Leu Asn Asp Cys Ser Asn Gln Val Ile Leu Ala Lys Ala Ser1265 1270 1275 1280CAG GAA CAT CAC CTT AGT GAG GAA ACA AAA TGT TCT GCT AGC TTG TTT 4007Gln Glu His His Leu Ser Glu Glu Thr Lys Cys Ser Ala Ser Leu Phe

1285 1290 1295TCT TCA CAG TGC AGT GAA TTG GAA GAC TTG ACT GCA AAT ACA AAC ACC 4055Ser Ser Gln Cys Ser Glu Leu Glu Asp Leu Thr Ala Asn Thr Asn Thr

1300 1305 1310CAG GAT CCT TTC TTG ATT GGT TCT TCC AAA CAA ATG AGG CAT CAG TCT 4103Gln Asp Pro Phe Leu Ile Gly Ser Ser Lys Gln Met Arg His Gln Ser

1315 1320 1325GAA AGC CAG GGA GTT GGT CTG AGT GAC AAG GAA TTG GTT TCA GAT GAT 4151Glu Ser Gln Gly Val Gly Leu Ser Asp Lys Glu Leu Val Ser Asp Asp

1330 1335 1340GAA GAA AGA GGA ACG GGC TTG GAA GAA AAT AAT CAA GAA GAG CAA AGC 4199Glu Glu Arg Gly Thr Gly Leu Glu Glu Asn Asn Gln Glu Glu Gln Ser1345 1350 1355 1360ATG GAT TCA AAC TTA GGT GAA GCA GCA TCT GGG TGT GAG AGT GAA ACA 4247Met Asp Ser Asn Leu Gly Glu Ala Ala Ser Gly Cys Glu Ser Glu Thr

1365 1370 1375AGC GTC TCT GAA GAC TGC TCA GGG CTA TCC TCT CAG AGT GAC ATT TTA 4295Ser Val Ser Glu Asp Cys Ser Gly Leu Ser Ser Gln Ser Asp Ile Leu

1380 1385 1390ACC ACT CAG CAG AGG GAT ACC ATG CAA CAT AAC CTG ATA AAG CTC CAG 4343Thr Thr Gln Gln Arg Asp Thr Met Gln His Asn Leu Ile Lys Leu Gln

1395 1400 1405CAG GAA ATG GCT GAA CTA GAA GCT GTG TTA GAA CAG CAT GGG AGC CAG 4391Gln Glu Met Ala Glu Leu Glu Ala Val Leu Glu Gln His Gly Ser Gln

1410 1415 1420CCT TCT AAC AGC TAC CCT TCC ATC ATA AGT GAC TCT TCT GCC CTT GAG 4439Pro Ser Asn Ser Tyr Pro Ser Ile Ile Ser Asp Ser Ser Ala Leu Glu1425 1430 1435 1440GAC CTG CGA AAT CCA GAA CAA AGC ACA TCA GAA AAA GCA GTA TTA ACT 4487Asp Leu Arg Asn Pro Glu Gln Ser Thr Ser Glu Lys Ala Val Leu Thr

1445 1450 1455TCA CAG AAA AGT AGT GAA TAC CCT ATA AGC CAG AAT CCA GAA GGC CTT 4535Ser Gln Lys Ser Ser Glu Tyr Pro Ile Ser Gln Asn Pro Glu Gly Leu

1460 1465 1470TCT GCT GAC AAG TTT GAG GTG TCT GCA GAT AGT TCT ACC AGT AAA AAT 4583Ser Ala Asp Lys Phe Glu Val Ser Ala Asp Ser Ser Thr Ser Lys ASn

1475 1480 1485AAA GAA CCA GGA GTG GAA AGG TCA TCC CCT TCT AAA TGC CCA TCA TTA 4631Lys Glu Pro Gly Val Glu Arg Ser Ser Pro Ser Lys Cys Pro Ser Leu

1490 1495 1500GAT GAT AGG TGG TAC ATG CAC AGT TGC TCT GGG AGT CTT CAG AAT AGA 4679Asp Asp Arg Trp Tyr Met His Ser Cys Ser Gly Ser Leu Gln Asn Arg1505 1510 1515 1520AAC TAC CCA TCT CAA GAG GAG CTC ATT AAG GTT GTT GAT GTG GAG GAG 4727Asn Tyr Pro Ser Gln Glu Glu Leu Ile Lys Val Val Asp Val Glu Glu

1525 1530 1535CAA CAG CTG GAA GAG TCT GGG CCA CAC GAT TTG ACG GAA ACA TCT TAC 4775Gln Gln Leu Glu Glu Ser Gly Pro His Asp Leu Thr Glu Thr Ser Tyr

1540 1545 1550TTG CCA AGG CAA GAT CTA GAG GGA ACC CCT TAC CTG GAA TCT GGA ATC 4823Leu Pro Arg Gln Asp Leu Glu Gly Thr Pro Tyr Leu Glu Ser Gly Ile

1555 1560 1565AGC CTC TTC TCT GAT GAC CCT GAA TCT GAT CCT TCT GAA GAC AGA GCC 4871Ser Leu Phe Ser Asp Asp Pro Glu Ser Asp Pro Ser Glu Asp Arg Ala

1570 1575 1580CCA GAG TCA GCT CGT GTT GGC AAC ATA CCA TCT TCA ACC TCT GCA TTG 4919Pro Glu Ser Ala Arg Val Gly Asn Ile Pro Ser Ser Thr Ser Ala Leu1585 1590 1595 1600AAA GTT CCC CAA TTG AAA GTT GCA GAA TCT GCC CAG AGT CCA GCT GCT 4967Lys Val Pro Gln Leu Lys Val Ala Glu Ser Ala Gln Ser Pro Ala Ala

1605 1610 1615GCT CAT ACT ACT GAT ACT GCT GGG TAT AAT GCA ATG GAA GAA AGT GTG 5015Ala His Thr Thr Asp Thr Ala Gly Tyr Asn Ala Met Glu Glu Ser Va1

1620 1625 1630AGC AGG GAG AAG CCA GAA TTG ACA GCT TCA ACA GAA AGG GTC AAC AAA 5063Ser Arg Glu Lys Pro Glu Leu Thr Ala Ser Thr Glu Arg Val Asn Lys

1635 1640 1645AGA ATG TCC ATG GTG GTG TCT GGC CTG ACC CCA GAA GAA TTT ATG CTC 5111Arg Met Ser Met Val Val Ser Gly Leu Thr Pro Glu Glu Phe Met Leu

1650 1655 1660GTG TAC AAG TTT GCC AGA AAA CAC CAC ATC ACT TTA ACT AAT CTA ATT 5159Val Tyr Lys Phe Ala Arg Lys His His Ile Thr Leu Thr Asn Leu Ile1665 1670 1675 1680ACT GAA GAG ACT ACT CAT GTT GTT ATG AAA ACA GAT GCT GAG TTT GTG 5207Thr Glu Glu Thr Thr His Val Val Met Lys Thr Asp Ala Glu Phe Val

1685 1690 1695TGT GAA CGG ACA CTG AAA TAT TTT CTA GGA ATT GCG GGA GGA AAA TGG 5255Cys Glu Arg Thr Leu Lys Tyr Phe Leu Gly Ile Ala Gly Gly Lys Trp

1700 1705 1710GTA GTT AGC TAT TTC TGG GTG ACC CAG TCT ATT AAA GAA AGA AAA ATG 5303Val Val Ser Tyr Phe Trp Val Thr Gln Ser Ile Lys Glu Arg Lys Met

1715 1720 1725CTG AAT GAG CAT GAT TTT GAA GTC AGA GGA GAT GTG GTC AAT GGA AGA 5351Leu Asn Glu His Asp Phe Glu Val Arg Gly Asp Val Val Asn Gly Arg

1730 1735 1740AAC CAC CAA GGT CCA AAG CGA GCA AGA GAA TCC CAG GAC AGA AAG ATC 5399Asn His Gln Gly Pro Lys Arg Ala Arg Glu Ser Gln Asp Arg Lys Ile1745 1750 1755 1760TTC AGG GGG CTA GAA ATC TGT TGC TAT GGG CCC TTC ACC AAC ATG CCC 5447Phe Arg Gly Leu Glu Ile Cys Cys Tyr Gly Pro Phe Thr Asn Met Pro

1765 1770 1775ACA GAT CAA CTG GAA TGG ATG GTA CAG CTG TGT GGT GCT TCT GTG GTG 5495Thr Asp Gln Leu Glu Trp Met Val Gln Leu Cys Gly Ala Ser Val Val

1780 1785 1790AAG GAG CTT TCA TCA TTC ACC CTT GGC ACA GGT GTC CAC CCA ATT GTG 5543Lys Glu Leu Ser Ser Phe Thr Leu Gly Thr Gly Val His Pro Ile Val

1795 1800 1805GTT GTG CAG CCA GAT GCC TGG ACA GAG GAC AAT GGC TTC CAT GCA ATT 5591Val Val Gln Pro Asp Ala Trp Thr Glu Asp Asn Gly Phe His Ala Ile

1810 1815 1820GGG CAG ATG TGT GAG GCA CCT GTG GTG ACC CGA GAG TGG GTG TTG GAC 5639Gly Gln Met Cys Glu Ala Pro Val Val Thr Arg Glu Trp Val Leu Asp1825 1830 1835 1840AGT GTA GCA CTC TAC CAG TGC CAG GAG CTG GAC ACC TAC CTG ATA CCC 5687Ser Val Ala Leu Tyr Gln Cys Gln Glu Leu Asp Thr Tyr Leu Ile Pro

1845 1850 1855CAG ATC CCC CAC AGC CAC TAC TGA CTGCAGCCAG CCACAGGTAC AGAGCCACAG 5741Gln Ile Pro His Ser His Tyr ^*

1860GACCCCAAGA ATGAGCTTAC AAAGTGGCCT TTCCAGGCCC TGGGAGCTCC TCTCACTCTT 5801CAGTCCTTCT ACTGTCCTGG CTACTAAATA TTTTATGTAC ATCAGCCTGA AAAGGACTTC 5861TGGCTATGCA AGGGTCCCTT AAAGATTTTC TGCTTGAAGT CTCCCTTGGA AAT 5914(2)SEQ ID NO：2信息： (i)序列特征：

(A)长度：1864氨基酸

(B)类型：氨基酸

(D)拓扑结构：线性(ii)分子类型：蛋白质(xi)序列描述：SEQ ID NO：2：Met Asp Leu Ser Ala Leu Arg Val Glu Glu Val Gln Asn Val Ile Asn1 5 10 15Ala Met Gln Lys Ile Leu Glu Cys Pro Ile Cys Leu Glu Leu Ile Lys

20 25 30Glu Pro Val Ser Thr Lys Cys Asp His Ile Phe Cys Lys Phe Cys Met

35 40 45Leu Lys Leu Leu Asn Gln Lys Lys Gly Pro Ser Gln Cys Pro Leu Cys

50 55 60Lys Asn Asp Ile Thr Lys Arg Ser Leu Gln Glu Ser Thr Arg Phe Ser65 70 75 80Gln Leu Val Glu Glu Leu Leu Lys Ile Ile Cys Ala Phe Gln Leu Asp

85 90 95Thr Gly Leu Glu Tyr Ala Asn Ser Tyr Asn Phe Ala Lys Lys Glu Asn

100 105 110Asn Ser Pro Glu His Leu Lys Asp Glu Val Ser Ile Ile Gln Ser Met

115 120 125Gly Tyr Arg Asn Arg Ala Lys Arg Leu Leu Gln Ser Glu Pro Glu Asn

130 135 140Pro Ser Leu Gln Glu Thr Ser Leu Ser Val Gln Leu Ser Asn Leu Gly145 150 155 160Thr Val Arg Thr Leu Arg Thr Lys Gln Arg Ile Gln Pro Gln Lys Thr

165 170 175Ser Val Tyr Ile Glu Leu Gly Ser Asp Ser Ser Glu Asp Thr Val Asn

180 185 190Lys Ala Thr Tyr Cys Ser Val Gly Asp Gln Glu Leu Leu Gln Ile Thr

195 200 205Pro Gln Gly Thr Arg Asp Glu Ile Ser Leu Asp Ser Ala Lys Lys Ala

210 215 220Ala Cys Glu Phe Ser Glu Thr Asp Val Thr Asn Thr Glu His His Gln225 230 235 240Pro Ser Asn Asn Asp Leu Asn Thr Thr Glu Lys Arg Ala Ala Glu Arg

245 250 255His Pro Glu Lys Tyr Gln Gly Ser Ser Val Ser Asn Leu His Val Glu

260 265 270Pro Cys Gly Thr Asn Thr His Ala Ser Ser Leu Gln His Glu Asn Ser

275 280 285Ser Leu Leu Leu Thr Lys Asp Arg Met Asn Val Glu Lys Ala Glu Phe

290 295 300Cys Asn Lys Ser Lys Gln Pro Gly Leu Ala Arg Ser Gln His Asn Arg305 310 315 320Trp Ala Gly Ser Lys Glu Thr Cys Asn Asp Arg Arg Thr Pro Ser Thr

325 330 335Glu Lys Lys Val Asp Leu Asn Ala Asp Pro Leu Cys Glu Arg Lys Glu

340 345 350Trp Asn Lys Gln Lys Leu Pro Cys Ser Glu Asn Pro Arg Asp Thr Glu

355 360 365Asp Val Pro Trp Ile Thr Leu Asn Ser Ser Ile Gln Lys Val Asn Glu

370 375 380Trp Phe Ser Arg Ser Asp Glu Leu Leu Gly Ser Asp Asp Ser His Asp385 390 395 400Gly Glu Ser Glu Ser Asn Ala Lys Val Ala Asp Val Leu Asp Val Leu

405 410 415Asn Glu Val Asp Glu Tyr Ser Gly Ser Ser Glu Lys Ile Asp Leu Leu

420 425 430Ala Ser Asp Pro His Glu Ala Leu Ile Cys Lys Ser Glu Arg Val His

435 440 445Ser Lys Ser Val Glu Ser Asn Ile Glu Asp Lys Ile Phe Gly Lys Thr

450 455 460Tyr Arg Lys Lys Ala Ser Leu Pro Asn Leu Ser His Val Thr Glu Asn465 470 475 480Leu Ile Ile Gly Ala Phe Val Thr Glu Pro Gln Ile Ile Gln Glu Arg

485 490 495Pro Leu Thr Asn Lys Leu Lys Arg Lys Arg Arg Pro Thr Ser Gly Leu

500 505 510His Pro Glu Asp Phe Ile Lys Lys Ala Asp Leu Ala Val Gln Lys Thr

515 520 525Pro Glu Met Ile Asn Gln Gly Thr Asn Gln Thr Glu Gln Asn Gly Gln

530 535 540Val Met Asn Ile Thr Asn Ser Gly His Glu Asn Lys Thr Lys Gly Asp545 550 555 560Ser Ile Gln Asn Glu Lys Asn Pro Asn Pro Ile Glu Ser Leu Glu Lys

565 570 575Glu Ser Ala Phe Lys Thr Lys Ala Glu Pro Ile Ser Ser Ser Ile Ser

580 585 590Asn Met Glu Leu Glu Leu Asn Ile His Asn Ser Lys Ala Pro Lys Lys

595 600 605Asn Arg Leu Arg Arg Lys Ser Ser Thr Arg His Ile His Ala Leu Glu

610 615 620Leu Val Val Ser Arg Asn Leu Ser Pro Pro Asn Cys Thr Glu Leu Gln625 630 635 640Ile Asp Ser Cys Ser Ser Ser Glu Glu Ile Lys Lys Lys Lys Tyr Asn

645 650 655Gln Met Pro Val Arg His Ser Arg Asn Leu Gln Leu Met Glu Gly Lys

660 665 670Glu Pro Ala Thr Gly Ala Lys Lys Ser Asn Lys Pro Asn Glu Gln Thr

675 680 685Ser Lys Arg His Asp Ser Asp Thr Phe Pro Glu Leu Lys Leu Thr Asn

690 695 700Ala Pro Gly Ser Phe Thr Lys Cys Ser Asn Thr Ser Glu Leu Lys Glu705 710 715 720Phe Val Asn Pro Ser Leu Pro Arg Glu Glu Lys Glu Glu Lys Leu Glu

725 730 735Thr Val Lys Val Ser Asn Asn Ala Glu Asp Pro Lys Asp Leu Met Leu

740 745 750Ser Gly Glu Arg Val Leu Gln Thr Glu Arg Ser Val Glu Ser Ser Ser

755 760 765Ile Ser Leu Val Pro Gly Thr Asp Tyr Gly Thr Gln Glu Ser Ile Ser

770 775 780Leu Leu Glu Val Ser Thr Leu Gly Lys Ala Lys Thr Glu Pro Asn Lys785 790 795 800Cys Val Ser Gln Cys Ala Ala Phe Glu Asn Pro Lys Gly Leu Ile His

805 810 815Gly Cys Ser Lys Asp Asn Arg Asn Asp Thr Glu Gly Phe Lys Tyr Pro

820 825 830Leu Gly His Glu Val Asn His Ser Arg Glu Thr Ser Ile Glu Met Glu

835 840 845Glu Ser Glu Leu Asp Ala Gln Tyr Leu Gln Asn Thr Phe Lys Val Ser

850 855 860Lys Arg Gln Ser Phe Ala Pro Phe Ser Asn Pro Gly Asn Ala Glu Glu865 870 875 880Glu Cys Ala Thr Phe Ser Ala His Ser Gly Ser Leu Lys Lys Gln Ser

885 890 895Pro Lys Val Thr Phe Glu Cys Glu Gln Lys Glu Glu Asn Gln Gly Lys

900 905 910Asn Glu Ser Asn Ile Lys Pro Val Gln Thr Val Asn Ile Thr Ala Gly

915 920 925Phe Pro Val Val Gly Gln Lys Asp Lys Pro Val Asp Asn Ala Lys Cys

930 935 940Ser Ile Lys Gly Gly Ser Arg Phe Cys Leu Ser Ser Gln Phe Arg Gly945 950 955 960Asn Glu Thr Gly Leu Ile Thr Pro Asn Lys His Gly Leu Leu Gln Asn

965 970 975Pro Tyr Arg Ile Pro Pro Leu Phe Pro Ile Lys Ser Phe Val Lys Thr

980 985 990Lys Cys Lys Lys Asn Leu Leu Glu Glu Asn Phe Glu Glu His Ser Met

995 1000 1005Ser Pro Glu Arg Glu Met Gly Asn Glu Asn Ile Pro Ser Thr Val Ser

1010 1015 1020Thr Ile Ser Arg Asn Asn Ile Arg Glu Asn Val Phe Lys Glu Ala Ser1025 1030 1035 1040Ser Ser Asn Ile Asn Glu Val Gly Ser Ser Thr Asn Glu Val Gly Ser

1045 1050 1055Ser Ile Asn Glu Ile Gly Ser Ser Asp Glu Asn Ile Gln Ala Glu Leu

1060 1065 1070Gly Arg Asn Arg Gly Pro Lys Leu Asn Ala Met Leu Arg Leu Gly Val

1075 1080 1085Leu Gln Pro Glu Val Tyr Lys Gln Ser Leu Pro Gly Ser Asn Cys Lys

1090 1095 1100His Pro Glu Ile Lys Lys Gln Glu Tyr Glu Glu Val Val Gln Thr Val1105 1110 1115 1120Asn Thr Asp Phe Ser Pro Tyr Leu Ile Ser Asp Asn Leu Glu Gln Pro

1125 1130 1135Met Gly Ser Ser His Ala Ser Gln Val Cys Ser Glu Thr Pro Asp Asp

1140 1145 1150Leu Leu Asp Asp Gly Glu Ile Lys Glu Asp Thr Ser Phe Ala Glu Asn

1155 1160 1165Asp Ile Lys Glu Ser Ser Ala Val Phe Ser Lys Ser Val Gln Lys Gly

1170 1175 1180Glu Leu Ser Arg Ser Pro Ser Pro Phe Thr His Thr His Leu Ala Gln1185 1190 1195 1200Gly Tyr Arg Arg Gly Ala Lys Lys Leu Glu Ser Ser Glu Glu Asn Leu

1205 1210 1215Ser Ser Glu Asp Glu Glu Leu Pro Cys Phe Gln His Leu Leu Phe Gly

1220 1225 1230Lys Val Asn Asn Ile Pro Ser Gln Ser Thr Arg His Ser Thr Val Ala

1235 1240 1245Thr Glu Cys Leu Ser Lys Asn Thr Glu Glu Asn Leu Leu Ser Leu Lys

1250 1255 1260Asn Ser Leu Asn Asp Cys Ser Asn Gln Val Ile Leu Ala Lys Ala Ser1265 1270 1275 1280Gln Glu His His Leu Ser Glu Glu Thr Lys Cys Ser Ala Ser Leu Phe

1285 1290 1295Ser Ser Gln Cys Ser Glu Leu Glu Asp Leu Thr Ala Asn Thr Asn Thr

1300 1305 1310Gln Asp Pro Phe Leu Ile Gly Ser Ser Lys Gln Met Arg His Gln Ser

1315 1320 1325Glu Ser Gln Gly Val Gly Leu Ser Asp Lys Glu Leu Val Ser Asp Asp

1330 1335 1340Glu Glu Arg Gly Thr Gly Leu Glu Glu Asn Asn Gln Glu Glu Gln Ser1345 1350 1355 1360Met Asp Ser Asn Leu Gly Glu Ala Ala Ser Gly Cys Glu Ser Glu Thr

1365 1370 1375Ser Val Ser Glu Asp Cys Ser Gly Leu Ser Ser Gln Ser Asp Ile Leu

1380 1385 1390Thr Thr Gln Gln Arg Asp Thr Met Gln His Asn Leu Ile Lys Leu Gln

1395 1400 1405Gln Glu Met Ala Glu Leu Glu Ala Val Leu Glu Gln His Gly Ser Gln

1410 1415 1420Pro Ser Asn Ser Tyr Pro Ser Ile Ile Ser Asp Ser Ser Ala Leu Glu1425 1430 1435 1440Asp Leu Arg Asn Pro Glu Gln Ser Thr Ser Glu Lys Ala Val Leu Thr

1445 1450 1455Ser Gln Lys Ser Ser Glu Tyr Pro Ile Ser Gln Asn Pro Glu Gly Leu

1460 1465 1470Ser Ala Asp Lys Phe Glu Val Ser Ala Asp Ser Ser Thr Ser Lys Asn

1475 1480 1485Lys Glu Pro Gly Val Glu Arg Ser Ser Pro Ser Lys Cys Pro Ser Leu

1490 1495 1500Asp Asp Arg Trp Tyr Met His Ser Cys Ser Gly Ser Leu Gln Asn Arg1505 1510 1515 1520Asn Tyr Pro Ser Gln Glu Glu Leu Ile Lys Val Val Asp Val Glu Glu

1525 1530 1535Gln Gln Leu Glu Glu Ser Gly Pro His Asp Leu Thr Glu Thr Ser Tyr

1540 1545 1550Leu Pro Arg Gln Asp Leu Glu Gly Thr Pro Tyr Leu Glu Ser Gly Ile

1555 1560 1565Ser Leu Phe Ser Asp Asp Pro Glu Ser Asp Pro Ser Glu Asp Arg Ala

1570 1575 1580Pro Glu Ser Ala Arg Val Gly Ash Ile Pro Ser Ser Thr Ser Ala Leu1585 1590 1595 1600Lys Val Pro Gln Leu Lys Val Ala Glu Ser Ala Gln Ser Pro Ala Ala

1605 1610 1615Ala His Thr Thr Asp Thr Ala Gly Tyr Asn Ala Met Glu Glu Ser Val

1620 1625 1630Ser Arg Glu Lys Pro Glu Leu Thr Ala Ser Thr Glu Arg Val Asn Lys

1635 1640 1645Arg Met Ser Met Val Val Ser Gly Leu Thr Pro Glu Glu Phe Met Leu

1650 1655 1660Val Tyr Lys Phe Ala Arg Lys His His Ile Thr Leu Thr Asn Leu Ile1665 1670 1675 1680Thr Glu Glu Thr Thr His Val Val Met Lys Thr Asp Ala Glu Phe Val

1685 1690 1695Cys Glu Arg Thr Leu Lys Tyr Phe Leu Gly Ile Ala Gly Gly Lys Trp

1700 1705 1710Val Val Ser Tyr Phe Trp Val Thr Gln Ser Ile Lys Glu Arg Lys Met

1715 1720 1725Leu Asn Glu His Asp Phe Glu Val Arg Gly Asp Val Val Asn Gly Arg

1730 1735 1740Asn His Gln Gly Pro Lys Arg Ala Arg Glu Ser Gln Asp Arg Lys Ile1745 1750 1755 1760Phe Arg Gly Leu Glu Ile Cys Cys Tyr Gly Pro Phe Thr Asn Met Pro

1765 1770 1775Thr Asp Gln Leu Glu Trp Met Val Gln Leu Cys Gly Ala Ser Val Val

1780 1785 1790Lys Glu Leu Ser Ser Phe Thr Leu Gly Thr Gly Val His Pro Ile Val

1795 1800 1805Val Val Gln Pro Asp Ala Trp Thr Glu Asp Asn Gly Phe His Ala Ile

1810 1815 1820Gly Gln Met Cys Glu Ala Pro Val Val Thr Arg Glu Trp Val Leu Asp1825 1830 1835 1840Ser Val Ala Leu Tyr Gln Cys Gln Glu Leu Asp Thr Tyr Leu Ile Pro

1845 1850 1855Gln Ile Pro His Ser His Tyr ^*

1860(2)SEQ ID NO：3信息：(i)序列特征：

(A)长度：20碱基对

(B)类型：核酸

(C)股性：单链

(D)拓扑结构：线性(ii)分子类型：DNA(基因组)(iii)假设：否

(vi)最初来源：

(A)有机体：人(vii)直接来源：

(B)克隆：s754A(xi)序列描述：SEQ ID NO：3：CTAGCCTGGG CAACAAACGA 20(2)SEQ ID NO：4信息：(i)序列特征：

(A)长度：20碱基对

(B)类型：核酸

(C)股性：单链

(D)拓扑结构：线性(ii)分子类型：DNA(基因组)(iii)假设：否(vi)最初来源：

(A)有机体：人 (vii)直接来源：

(B)克隆：s754B(xi)序列描述：SEQ ID NO：4：GCAGGAAGCA GGAATGGAAC 20(2)SEQ ID NO：5信息：(i)序列特征：

(A)长度：20碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(vii)直接来源：

(B)克隆：s975A(xi)序列描述：SEQ ID NO：5：TAGGAGATGG ATTATTGGTG 20(2)SEQ ID NO：6信息：(i)序列特征：

(A)长度：20碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(vii)直接来源：

(B)克隆：s975B(xi)序列描述：SEQ ID NO：6：AGGCAACTTT GCAATGAGTG 20(2)SEQ ID NO：7信息：(i)序列特征：

(A)长度：22碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(vii)直接来源：

(B)克隆：tdj1474A(xi)序列描述：SEQ ID NO：7：CAGAGTGAGA CCTTGTCTCA AA 22(2)SEQ ID NO：8信息：(i)序列特征：

(A)长度：23碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(vii)直接来源：

(B)克隆：tdj1474B(xi)序列描述：SEQ ID NO：8：TTCTGCAAAC ACCTTAAACT CAG 23(2)SEQ ID NO：9信息：(i)序列特征：

(A)长度：20碱基对

(B)类型：核酸

(C)股性：单链

(D)拓扑结构：线性(ii)分子类型：DNA(基因组)(iii)假设：否 (vi)最初来源：

(A)有机体：人(vii)直接来源：

(B)克隆：tdj1239A(xi)序列描述：SEQ ID NO：9：AACCTGGAAG GCAGAGGTTG 20(2)SEQ ID NO：10信息：(i)序列特征：

(A)长度：21碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(vii)直接来源：

(B)克隆：tdj1239B(xi)序列描述：SEQ ID NO：10：TCTGTACCTG CTAAGCAGTG G 21(2)SEQ ID NO：11信息：(i)序列特征：

(A)长度：111碱基对

(B)类型：核酸

(C)股性：双链

(D)拓扑结构：线性(ii)分子类型：cDNA(iii)假设：否(vi)最初来源：

(A)有机体：人(ix)特征：

(A)名称/检索符号：CDS

(B)位置：2..111(xi)序列描述：SEQ ID NO：11：G GKC TTA CTC TGT TGT CCC AGC TGG AGT ACA GWG TGC GAT CAT GAG 46Xaa Leu Leu Cys Cys Pro Ser Trp Ser Thr Xaa Cys Asp His Glu1865 1870 1875GCT TAC TGT TGC TTG ACT CCT AGG CTC AAG CGA TCC TAT CAC CTC AGT 94Ala Tyr Cys Cys Leu Thr Pro Arg Leu Lys Arg Ser Tyr His Leu Ser1880 1885 1890 1895CTC CAA GTA GCT GGA CT 111Leu Gln Val Ala Gly

1900(2)SEQ ID NO：12信息：(i)序列特征：

(A)长度：36氨基酸

(B)类型：氨基酸

(D)拓扑结构：线性 (ii)分子类型：蛋白质(xi)序列描述：SEQ ID NO：12：Xaa Leu Leu Cys Cys Pro Ser Trp Ser Thr Xaa Cys Asp His Glu Ala1 5 10 15Tyr Cys Cys Leu Thr Pro Arg Leu Lys Arg Ser Tyr His Leu Ser Leu

20 25 30Gln Val Ala Gly

35(2)SEQ ID NO：13信息：(i)序列特征：

(A)长度：1534碱基对

(B)类型：核酸

(C)股性：双链

(D)拓扑结构：线性(ii)分子类型：DNA(基因组)(iii)假设：否(iv)反义：否(vi)最初来源：

(A)有机体：人(xi)序列描述：SEQ ID NO：13：GAGGCTAGAG GGCAGGCACT TTATGGCAAA CTCAGGTAGA ATTCTTCCTC TTCCGTCTCT 60TTCCTTTTAC GTCATCGGGG AGACTGGGTG GCAATCGCAG CCCGAGAGAC GCATGGCTCT 120TTCTGCCCTC CATCCTCTGA TGTACCTTGA TTTCGTATTC TGAGAGGCTG CTGCTTAGCG 180GTAGCCCCTT GGTTTCCGTG GCAACGGAAA AGCGCGGGAA TTACAGATAA ATTAAAACTG 240CGACTGCGCG GCGTGAGCTC GCTGAGACTT CCTGGACCCC GCACCAGGCT GTGGGGTTTC 300TCAGATAACT GGGCCCCTGC GCTCAGGAGG CCTTCACCCT CTGCTCTGGG TAAAGGTAGT 360AGAGTCCCGG GAAAGGGACA GGGGGCCCAA GTGATGCTCT GGGGTACTGG CGTGGGAGAG 420TGGATTTCCG AAGCTGACAG ATGGGTATTC TTTGACGGGG GGTAGGGGCG GAACCTGAGA 480GGCGTAAGGC GTTGTGAACC CTGGGGAGGG GGGCAGTTTG TAGGTCGCGA GGGAAGCGCT 540GAGGATCAGG AAGGGGGCAC TGAGTGTCCG TGGGGGAATC CTCGTGATAG GAACTGGAAT 600ATGCCTTGAG GGGGACACTA TGTCTTTAAA AACGTCGGCT GGTCATGAGG TCAGGAGTTC 660CAGACCAGCC TGACCAACGT GGTGAAACTC CGTCTCTACT AAAAATACNA AAATTAGCCG 720GGCGTGGTGC CGCTCCAGCT ACTCAGGAGG CTGAGGCAGG AGAATCGCTA GAACCCGGGA 780GGCGGAGGTT GCAGTGAGCC GAGATCGCGC CATTGCACTC CAGCCTGGGC GACAGAGCGA 840GACTGTCTCA AAACAAAACA AAACAAAACA AAACAAAAAA CACCGGCTGG TATGTATGAG 900AGGATGGGAC CTTGTGGAAG AAGAGGTGCC AGGAATATGT CTGGGAAGGG GAGGAGACAG 960GATTTTGTGG GAGGGAGAAC TTAAGAACTG GATCCATTTG CGCCATTGAG AAAGCGCAAG 1020AGGGAAGTAG AGGAGCGTCA GTAGTAACAG ATGCTGCCGG CAGGGATGTG CTTGAGGAGG 1080ATCCAGAGAT GAGAGCAGGT CACTGGGAAA GGTTAGGGGC GGGGAGGCCT TGATTGGTGT 1140TGGTTTGGTC GTTGTTGATT TTGGTTTTAT GCAAGAAAAA GAAAACAACC AGAAACATTG 1200GAGAAAGCTA AGGCTACCAC CACCTACCCG GTCAGTCACT CCTCTGTAGC TTTCTCTTTC 1260TTGGAGAAAG GAAAAGACCC AAGGGGTTGG CAGCGATATG TGAAAAAATT CAGAATTTAT 1320GTTGTCTAAT TACAAAAAGC AACTTCTAGA ATCTTTAAAA ATAAAGGACG TTGTCATTAG 1380TTCTTCTGGT TTGTATTATT CTAAAACCTT CCAAATCTTC AAATTTACTT TATTTTAAAA 1440TGATAAAATG AAGTTGTCAT TTTATAAACC TTTTAAAAAG ATATATATAT ATGTTTTTCT 1500AATGTGTTAA AGTTCATTGG AACAGAAAGA AATG 1534(2)SEQ ID NO：14信息：(i)序列特征：

(A)长度：1924碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：14：GAGGCTAGAG GGCAGGCACT TTATGGCAAA CTCAGGTAGA ATTCTTCCTC TTCCGTCTCT 60TTCCTTTTAC GTCATCGGGG AGACTGGGTG GCAATCGCAG CCCGAGAGAC GCATGGCTCT 120TTCTGCCCTC CATCCTCTGA TGTACCTTGA TTTCGTATTC TGAGAGGCTG CTGCTTAGCG 180GTAGCCCCTT GGTTTCCGTG GCAACGGAAA AGCGCGGGAA TTACAGATAA ATTAAAACTG 240CGACTGCGCG GCGTGAGCTC GCTGAGACTT CCTGGACCCC GCACCAGGCT GTGGGGTTTC 300TCAGATAACT GGGCCCCTGC GCTCAGGAGG CCTTCACCCT CTGCTCTGGG TAAAGGTAGT 360AGAGTCCCGG GAAAGGGACA GGGGGCCCAA GTGATGCTCT GGGGTACTGG CGTGGGAGAG 420TGGATTTCCG AAGCTGACAG ATGGGTATTC TTTGACGGGG GGTAGGGGCG GAACCTGAGA 480GGCGTAAGGC GTTGTGAACC CTGGGGAGGG GGGCAGTTTG TAGGTCGCGA GGGAAGCGCT 540GAGGATCAGG AAGGGGGCAC TGAGTGTCCG TGGGGGAATC CTCGTGATAG GAACTGGAAT 600ATGCCTTGAG GGGGACACTA TGTCTTTAAA AACGTCGGCT GGTCATGAGG TCAGGAGTTC 660CAGACCAGCC TGACCAACGT GGTGAAACTC CGTCTCTACT AAAAATACNA AAATTAGCCG 720GGCGTGGTGC CGCTCCAGCT ACTCAGGAGG CTGAGGCAGG AGAATCGCTA GAACCCGGGA 780GGCGGAGGTT GCAGTGAGCC GAGATCGCGC CATTGCACTC CAGCCTGGGC GACAGAGCGA 840GACTGTCTCA AAACAAAACA AAACAAAACA AAACAAAAAA CACCGGCTGG TATGTATGAG 900AGGATGGGAC CTTGTGGAAG AAGAGGTGCC AGGAATATGT CTGGGAAGGG GAGGAGACAG 960GATTTTGTGG GAGGGAGAAC TTAAGAACTG GATCCATTTG CGCCATTGAG AAAGCGCAAG 1020AGGGAAGTAG AGGAGCGTCA GTAGTAACAG ATGCTGCCGG CAGGGATGTG CTTGAGGAGG 1080ATCCAGAGAT GAGAGCAGGT CACTGGGAAA GGTTAGGGGC GGGGAGGCCT TGATTGGTGT 1140TGGTTTGGTC GTTGTTGATT TTGGTTTTAT GCAAGAAAAA GAAAACAACC AGAAACATTG 1200GAGAAAGCTA AGGCTACCAC CACCTACCCG GTCAGTCACT CCTCTGTAGC TTTCTCTTTC 1260TTGGAGAAAG GAAAAGACCC AAGGGGTTGG CAGCGATATG TGAAAAAATT CAGAATTTAT 1320GTTGTCTAAT TACAAAAAGC AACTTCTAGA ATCTTTAAAA ATAAAGGACG TTGTCATTAG 1380TTCTTCTGGT TTGTATTATT CTAAAACCTT CCAAATCTTC AAATTTACTT TATTTTAAAA 1440TGATAAAATG AAGTTGTCAT TTTATAAACC TTTTAAAAAG ATATATATAT ATGTTTTTCT 1500AATGTGTTAA AGTTCATTGG AACAGAAAGA AATGGATTTA TCTGCTCTTC GCGTTGAAGA 1560AGTACAAAAT GTCATTAATG CTATGCAGAA AATCTTAGAG TGTCCCATCT GGTAAGTCAG 1620CACAAGAGTG TATTAATTTG GGATTCCTAT GATTATCTCC TATGCAAATG AACAGAATTG 1680ACCTTACATA CTAGGGAAGA AAAGACATGT CTAGTAAGAT TAGGCTATTG TAATTGCTGA 1740TTTTCTTAAC TGAAGAACTT TAAAAATATA GAAAATGATT CCTTGTTCTC CATCCACTCT 1800GCCTCTCCCA CTCCTCTCCT TTTCAACACA ATCCTGTGGT CCGGGAAAGA CAGGGCTCTG 1860TCTTGATTGG TTCTGCACTG GGCAGGATCT GTTAGATACT GCATTTGCTT TCTCCAGCTC 1920TAAA 1924(2)SEQ ID NO：15信息：(i)序列特征：

(A)长度：631碱基对

(B)类型：核酸

(C)股性：双链

(D)拓扑结构：线性(ii)分子类型：DNA(基因组)(iii)假设：否 (iv)反义：否(vi)最初来源：

(A)有机体：人(xi)序列描述：SEQ ID NO：15：AAATGCTGAT GATAGTATAG AGTATTGAAG GGATCAATAT AATTCTGTTT TGATATCTGA 60AAGCTCACTG AAGGTAAGGA TCGTATTCTC TGCTGTATTC TCAGTTCCTG ACACAGCAGA 120CATTTAATAA ATATTGAACG AACTTGAGGC CTTATGTTGA CTCAGTCATA ACAGCTCAAA 180GTTGAACTTA TTCACTAAGA ATAGCTTTAT TTTTAAATAA ATTATTGAGC CTCATTTATT 240TTCTTTTTCT CCCCCCCCTA CCCTGCTAGT CTGGAGTTGA TCAAGGAACC TGTCTCCACA 300AAGTGTGACC ACATATTTTG CAAGTAAGTT TGAATGTGTT ATGTGGCTCC ATTATTAGCT 360TTTGTTTTTG TCCTTCATAA CCCAGGAAAC ACCTAACTTT ATAGAAGCTT TACTTTCTTC 420AATTAAGTGA GAACGAAAAT CCAACTCCAT TTCATTCTTT CTCAGAGAGT ATATAGTTAT 480CAAAAGTTGG TTGTAATCAT AGTTCCTGGT AAAGTTTTGA CATATATTAT CTTTTTTTTT 540TTTTGAGACA AGTCTCGCTC TGTCGCCCAG GCTGGAGTGC AGTGGCATGA GGCTTGCTCA 600CTGCACCTCC GCCCCCGAGT TCAGCGACTC T 631(2)SEQ ID NO：16信息：(i)序列特征：

(A)长度：481碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：16：TGAGATCTAG ACCACATGGT CAAAGAGATA GAATGTGAGC AATAAATGAA CCTTAAATTT 60TTCAACAGCT ACTTTTTTTT TTTTTTTTTG AGACAGGGKC TTACTCTGTT GTCCCAGCTG 120GAGTACAGWG TGCGATCATG AGGCTTACTG TTGCTTGACT CCTAGGCTCA AGCGATCCTA 180TCACCTCAGT CTCCAAGTAG CTGGACTGTA AGTGCACACC ACCATATCCA GCTAAATTTT 240GTGTTTTCTG TAGAGACGGG GTTTCGCCAT GTTTCCCAGG CTGGTCTTGA ACTTTGGGCT 300TAACCCGTCT GCCCACCTAG GCATCCCAAA GTGCTAGGAT TACAGGTGTG AGTCATCATG 360CCTGGCCAGT ATTTTAGTTA GCTCTGTCTT TTCAAGTCAT ATACAAGTTC ATTTTCTTTT 420AAGTTTAGTT AACAACCTTA TATCATGTAT TCTTTTCTAG CATAAAGAAA GATTCGAGGC 480C 481(2)SEQ ID NO：17信息：(i)序列特征：

(A)长度：522碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：17：TGTGATCATA ACAGTAAGCC ATATGCATGT AAGTTCAGTT TTCATAGATC ATTGCTTATG 60TAGTTTAGGT TTTTGCTTAT GCAGCATCCA AAAACAATTA GGAAACTATT GCTTGTAATT 120CACCTGCCAT TACTTTTTAA ATGGCTCTTA AGGGCAGTTG TGAGATTATC TTTTCATGGC 180TATTTGCCTT TTGAGTATTC TTTCTACAAA AGGAAGTAAA TTAAATTGTT CTTTCTTTCT 240TTATAATTTA TAGATTTTGC ATGCTGAAAC TTCTCAACCA GAAGAAAGGG CCTTCACAGT 300GTCCTTTATG TAAGAATGAT ATAACCAAAA GGTATATAAT TTGGTAATGA TGCTAGGTTG 360GAAGCAACCA CAGTAGGAAA AAGTAGAAAT TATTTAATAA CATAGCGTTC CTATAAAACC 420ATTCATCAGA AAAATTTATA AAAGAGTTTT TAGCACACAG TAAATTATTT CCAAAGTTAT 480TTTCCTGAAA GTTTTATGGG CATCTGCCTT ATACAGGTAT TG 522(2)SEQ ID NO：18信息：(i)序列特征：

(A)长度：465碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：18：GGTAGGCTTA AATGAATGAC AAAAAGTTAC TAAATCACTG CCATCACACG GTTTATACAG 60ATGTCAATGA TGTATTGATT ATAGAGGTTT TCTACTGTTG CTGCATCTTA TTTTTATTTG 120TTTACATGTC TTTTCTTATT TTAGTGTCCT TAAAAGGTTG ATAATCACTT GCTGAGTGTG 180TTTCTCAAAC AATTTAATTT CAGGAGCCTA CAAGAAAGTA CGAGATTTAG TCAACTTGTT 240GAAGAGCTAT TGAAAATCAT TTGTGCTTTT CAGCTTGACA CAGGTTTGGA GTGTAAGTGT 300TGAATATCCC AAGAATGACA CTCAAGTGCT GTCCATGAAA ACTCAGGAAG TTTGCACAAT 360TACTTTCTAT GACGTGGTGA TAAGACCTTT TAGTCTAGGT TAATTTTAGT TCTGTATCTG 420TAATCTATTT TAAAAAATTA CTCCCACTGG TCTCACACCT TATTT 465(2)SEQ ID NO：19信息(i)序列特征：

(A)长度：513碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：19：AAAAAATCAC AGGTAACCTT AATGCATTGT CTTAACACAA CAAAGAGCAT ACATAGGGTT 60TCTCTTGGTT TCTTTGATTA TAATTCATAC ATTTTTCTCT AACTGCAAAC ATAATGTTTT 120CCCTTGTATT TTACAGATGC AAACAGCTAT AATTTTGCAA AAAAGGAAAA TAACTCTCCT 180GAACATCTAA AAGATGAAGT TTCTATCATC CAAAGTATGG GCTACAGAAA CCGTGCCAAA 240AGACTTCTAC AGAGTGAACC CGAAAATCCT TCCTTGGTAA AACCATTTGT TTTCTTCTTC 300TTCTTCTTCT TCTTTTCTTT TTTTTTTCTT TTTTTTTTTG AGATGGAGTC TTGCTCTGTG 360GCCCAGGCTA GAAGCAGTCC TCCTGCCTTA GCCNCCTTAG TAGCTGGGAT TACAGGCACG 420CGCACCATGC CAGGCTAATT TTTGTATTTT TAGTAGAGAC GGGGTTTCAT CATGTTGGCC 480AGGCTGGTCT CGAACTCCTA ACCTCAGGTG ATC 513(2)SEQ ID NO：20信息：(i)序列特征：

(A)长度：6769碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：20：ATGATGGAGA TCTTAAAAAG TAATCATTCT GGGGCTGGGC GTAGTAGCTT GCACCTGTAA 60TCCCAGCACT TCGGGAGGCT GAGGCAGGCA GATAATTTGA GGTCAGGAGT TTGAGACCAG 120CCTGGCCAAC ATGGTGAAAC CCATCTCTAC TAAAAATACA AAAATTAGCT GGGTGTGGTG 180GCACGTACCT GTAATCCCAG CTACTCGGGA GGCGGAGGCA CAAGAATTGC TTGAACCTAG 240GACGCGGAGG TTGCAGCGAG CCAAGATCGC GCCACTGCAC TCCAGCCTGG GCCGTAGAGT 300GAGACTCTGT CTCAAAAAAG AAAAAAAAGT AATTGTTCTA GCTGGGCGCA GTGGCTCTTG 360CCTGTAATCC CAGCACTTTG GGAGGCCAAG GCGGGTGGAT CTCGAGTCCT AGAGTTCAAG 420ACCAGCCTAG GCAATGTGGT GAAACCCCAT CGCTACAAAA AATACAAAAA TTAGCCAGGC 480ATGGTGGCGT GCGCATGTAG TCCCAGCTCC TTGGGAGGCT GAGGTGGGAG GATCACTTGA 540ACCCAGGAGA CAGAGGTTGC AGTGAACCGA GATCACGCCA CCACGCTCCA GCCTGGGCAA 600CAGAACAAGA CTCTGTCTAA AAAAATACAA ATAAAATAAA AGTAGTTCTC ACAGTACCAG 660CATTCATTTT TCAAAAGATA TAGAGCTAAA AAGGAAGGAA AAAAAAAGTA ATGTTGGGCT 720TTTAAATACT CGTTCCTATA CTAAATGTTC TTAGGAGTGC TGGGGTTTTA TTGTCATCAT 780TTATCCTTTT TAAAAATGTT ATTGGCCAGG CACGGTGGCT CATGGCTGTA ATCCCAGCAC 840TTTGGGAGGC CGAGGCAGGC AGATCACCTG AGGTCAGGAG TGTGAGACCA GCCTGGCCAA 900CATGGCGAAA CCTGTCTCTA CTAAAAATAC AAAAATTAAC TAGGCGTGGT GGTGTACGCC 960TGTAGTCCCA GCTACTCGGG AGGCTGAGGC AGGAGAATCA ACTGAACCAG GGAGGTGGAG 1020GTTGCAGTGT GCCGAGATCA CGCCACTGCA CTCTAGCCTG GCAACAGAGC AAGATTCTGT 1080CTCAAAAAAA AAAAACATAT ATACACATAT ATCCCAAAGT GCTGGGATTA CATATATATA 1140TATATATATA TATTATATAT ATATATATAT ATATATGTGA TATATATGTG ATATATATAT 1200AACATATATA TATGTAATAT ATATGTGATA TATATATAAT ATATATATGT AATATATATG 1260TGATATATAT ATATACACAC ACACACACAT ATATATGTAT GTGTGTGTAC ACACACACAC 1320ACAAATTAGC CAGGCATAGT TGCACACGCT TGGTAGACCC AGCTACTCAG GAGGCTGAGG 1380GAGGAGAATC TCTTGAACTT AGGAGGCGGA GGTTGCAGTG AGCTGAGATT GCGCCACTGC 1440ACTCCAGCCT GGGTGACAGA GCAGGACTCT GTACACCCCC CAAAACAAAA AAAAAAGTTA 1500TCAGATGTGA TTGGAATGTA TATCAAGTAT CAGCTTCAAA ATATGCTATA TTAATACTTC 1560AAAAATTACA CAAATAATAC ATAATCAGGT TTGAAAAATT TAAGACAACM SAARAAAAAA 1620WYCMAATCAC AMATATCCCA CACATTTTAT TATTMCTMCT MCWATTATTT TGWAGAGMCT 1680GGGTCTCACY CYKTTGCTWA TGCTGGTCTT TGAACYCCYK GCCYCAARCA RTCCTSCTCC 1740ABCCTCCCAA RGTGCTGGGG ATWATAGGCA TGARCTAACC GCACCCAGCC CCAGACATTT 1800TAGTGTGTAA ATTCCTGGGC ATTTTTTCAA GGCATCATAC ATGTTAGCTG ACTGATGATG 1860GTCAATTTAT TTTGTCCATG GTGTCAAGTT TCTCTTCAGG AGGAAAAGCA CAGAACTGGC 1920CAACAATTGC TTGACTGTTC TTTACCATAC TGTTTAGCAG GAAACCAGTC TCAGTGTCCA 1980ACTCTCTAAC CTTGGAACTG TGAGAACTCT GAGGACAAAG CAGCGGATAC AACCTCAAAA 2040GACGTCTGTC TACATTGAAT TGGGTAAGGG TCTCAGGTTT TTTAAGTATT TAATAATAAT 2100TGCTGGATTC CTTATCTTAT AGTTTTGCCA AAAATCTTGG TCATAATTTG TATTTGTGGT 2160AGGCAGCTTT GGGAAGTGAA TTTTATGAGC CCTATGGTGA GTTATAAAAA ATGTAAAAGA 2220CGCAGTTCCC ACCTTGAAGA ATCTTACTTT AAAAAGGGAG CAAAAGAGGC CAGGCATGGT 2280GGCTCACACC TGTAATCCCA GCACTTTGGG AGGCCAAAGT GGGTGGATCA CCTGAGGTCG 2340GGAGTTCGAG ACCAGCCTAG CCAACATGGA GAAACTCTGT CTGTACCAAA AAATAAAAAA 2400TTAGCCAGGT GTGGTGGCAC ATAACTGTAA TCCCAGCTAC TCGGGAGGCT GAGGCAGGAG 2460AATCACTTGA ACCCGGGAGG TGGAGGTTGC GGTGAACCGA GATCGCACCA TTGCACTCCA 2520GCCTGGGCAA AAATAGCGAA ACTCCATCTA AAAAAAAAAA AGAGAGCAAA AGAAAGAMTM 2580TCTGGTTTTA AMTMTGTGTA AATATGTTTT TGGAAAGATG GAGAGTAGCA ATAAGAAAAA 2640ACATGATGGA TTGCTACAGT ATTTAGTTCC AAGATAAATT GTACTAGATG AGGAAGCCTT 2700TTAAGAAGAG CTGAATTGCC AGGCGCAGTG GCTCACGCCT GTAATCCCAG CACTTTGGGA 2760GGCCGAGGTG GGCGGATCAC CTGAGGTCGG GAGTTCAAGA CCAGCCTGAC CAACATGGAG 2820AAACCCCATC TCTACTAAAA AAAAAAAAAA AAAAATTAGC CGGGGTGGTG GCTTATGCCT 2880GTAATCCCAG CTACTCAGGA GGCTGAGGCA GGAGAATCGC TTGAACCCAG GAAGCAGAGG 2940TTGCAGTGAG CCAAGATCGC ACCATTGCAC TCCAGCCTAG GCAACAAGAG TGAAACTCCA 3000TCTCAAAAAA AAAAAAAAAG AGCTGAATCT TGGCTGGGCA GGATGGCTCG TGCCTGTAAT 3060CCTAACGCTT TGGAAGACCG AGGCAGAAGG ATTGGTTGAG TCCACGAGTT TAAGACCAGC 3120CTGGCCAACA TAGGGGAACC CTGTCTCTAT TTTTAAAATA ATAATACATT TTTGGCCGGT 3180GCGGTGGCTC ATGCCTGTAA TCCCAATACT TTGGGAGGCT GAGGCAGGTA GATCACCTGA 3240GGTCAGAGTT CGAGACCAGC CTGGATAACC TGGTGAAACC CCTCTTTACT AAAAATACAA 3300AAAAAAAAAA AAATTAGCTG GGTGTGGTAG CACATGCTTG TAATCCCAGC TACTTGGGAG 3360GCTGAGGCAG GAGAATCGCT TGAACCAGGG AGGCGGAGGT TACAATGAGC CAACACTACA 3420CCACTGCACT CCAGCCTGGG CAATAGAGTG AGACTGCATC TCAAAAAAAT AATAATTTTT 3480AAAAATAATA AATTTTTTTA AGCTTATAAA AAGAAAAGTT GAGGCCAGCA TAGTAGCTCA 3540CATCTGTAAT CTCAGCAGTG GCAGAGGATT GCTTGAAGCC AGGAGTTTGA GACCAGCCTG 3600GGCAACATAG CAAGACCTCA TCTCTACAAA AAAATTTCTT TTTTAAATTA GCTGGGTGTG 3660GTGGTGTGCA TCTGTAGTCC CAGCTACTCA GGAGGCAGAG GTGAGTGGAT ACATTGAACC 3720CAGGAGTTTG AGGCTGTAGT GAGCTATGAT CATGCCACTG CACTCCAACC TGGGTGACAG 3780AGCAAGACCT CCAAAAAAAA AAAAAAAAGA GCTGCTGAGC TCAGAATTCA AACTGGGCTC 3840TCAAATTGGA TTTTCTTTTA GAATATATTT ATAATTAAAA AGGATAGCCA TCTTTTGAGC 3900TCCCAGGCAC CACCATCTAT TTATCATAAC ACTTACTGTT TTCCCCCCTT ATGATCATAA 3960ATTCCTAGAC AACAGGCATT GTAAAAATAG TTATAGTAGT TGATATTTAG GAGCACTTAA 4020CTATATTCCA GGCACTATTG TGCTTTTCTT GTATAACTCA TTAGATGCTT GTCAGACCTC 4080TGAGATTGTT CCTATTATAC TTATTTTACA GATGAGAAAA TTAAGGCACA GAGAAGTTAT 4140GAAATTTTTC CAAGGTATTA AACCTAGTAA GTGGCTGAGC CATGATTCAA ACCTAGGAAG 4200TTAGATGTCA GAGCCTGTGC TTTTTTTTTG TTTTTGTTTT TGTTTTCAGT AGAAACGGGG 4260GTCTCACTTT GTTGGCCAGG CTGGTCTTGA ACTCCTAACC TCAAATAATC CACCCATCTC 4320GGCCTCCTCA AGTGCTGGGA TTACAGGTGA GAGCCACTGT GCCTGGCGAA GCCCATGCCT 4380TTAACCACTT CTCTGTATTA CATACTAGCT TAACTAGCAT TGTACCTGCC ACAGTAGATG 4440CTCAGTAAAT ATTTCTAGTT GAATATCTGT TTTTCAACAA GTACATTTTT TTAACCCTTT 4500TAATTAAGAA AACTTTTATT GATTTATTTT TTGGGGGGAA ATTTTTTAGG ATCTGATTCT 4560TCTGAAGATA CCGTTAATAA GGCAACTTAT TGCAGGTGAG TCAAAGAGAA CCTTTGTCTA 4620TGAAGCTGGT ATTTTCCTAT TTAGTTAATA TTAAGGATTG ATGTTTCTCT CTTTTTAAAA 4680ATATTTTAAC TTTTATTTTA GGTTCAGGGA TGTATGTGCA GTTTGTTATA TAGGTAAACA 4740CACGACTTGG GATTTGGTGT ATAGATTTTT TTCATCATCC GGGTACTAAG CATACCCCAC 4800AGTTTTTTGT TTGCTTTCTT TCTGAATTTC TCCCTCTTCC CACCTTCCTC CCTCAAGTAG 4860GCTGGTGTTT CTCCAGACTA GAATCATGGT ATTGGAAGAA ACCTTAGAGA TCATCTAGTT 4920TAGTTCTCTC ATTTTATAGT GGAGGAAATA CCCTTTTTGT TTGTTGGATT TAGTTATTAG 4980CACTGTCCAA AGGAATTTAG GATAACAGTA GAACTCTGCA CATGCTTGCT TCTAGCAGAT 5040TGTTCTCTAA GTTCCTCATA TACAGTAATA TTGACACAGC AGTAATTGTG ACTGATGAAA 5100ATGTTCAAGG ACTTCATTTT CAACTCTTTC TTTCCTCTGT TCCTTATTTC CACATATCTC 5160TCAAGCTTTG TCTGTATGTT ATATAATAAA CTACAAGCAA CCCCAACTAT GTTACCTACC 5220TTCCTTAGGA ATTATTGCTT GACCCAGGTT TTTTTTTTTT TTTTTTTGGA GACGGGGTCT 5280TGCCCTGTTG CCAGGATGGA GTGTAGTGGC GCCATCTCGG CTCACTGCAA TCTCCAACTC 5340CCTGGTTCAA GCGATTCTCC TGTCTCAATC TCACGAGTAG CTGGGACTAC AGGTATACAC 5400CACCACGCCC GGTTAATTGA CCATTCCATT TCTTTCTTTC TCTCTTTTTT TTTTTTTTTT 5460TTGAGACAGA GTCTTGCTCT GTTGCCCAGG CTGGAGTACA GAGGTGTGAT CTCACCTCTC 5520CGCAACGTCT GCCTCCCAGG TTGAAGCCAT ACTCCTGCCT CAGCCTCTCT AGTAGCTGGG 5580ACTACAGGCG CGCGCCACCA CACCCGGCTA ATTTTTGTAT TTTTAGTAGA GATGGGGTTT 5640CACCATGTTG GCCAGGCTGG TCTTGAACTC ATGACCTCAA GTGGTCCACC CGCCTCAGCC 5700TCCCAAAGTG CTGGAATTAC AGGCTTGAGC CACCGTGCCC AGCAACCATT TCATTTCAAC 5760TAGAAGTTTC TAAAGGAGAG AGCAGCTTTC ACTAACTAAA TAAGATTGGT CAGCTTTCTG 5820TAATCGAAAG AGCTAAAATG TTTGATCTTG GTCATTTGAC AGTTCTGCAT ACATGTAACT 5880AGTGTTTCTT ATTAGGACTC TGTCTTTTCC CTATAGTGTG GGAGATCAAG AATTGTTACA 5940AATCACCCCT CAAGGAACCA GGGATGAAAT CAGTTTGGAT TCTGCAAAAA AGGGTAATGG 6000CAAAGTTTGC CAACTTAACA GGCACTGAAA AGAGAGTGGG TAGATACAGT ACTGTAATTA 6060GATTATTCTG AAGACCATTT GGGACCTTTA CAACCCACAA AATCTCTTGG CAGAGTTAGA 6120GTATCATTCT CTGTCAAATG TCGTGGTATG GTCTGATAGA TTTAAATGGT ACTAGACTAA 6180TGTACCTATA ATAAGACCTT CTTGTAACTG ATTGTTGCCC TTTCGCTTTT TTTTTTGTTT 6240GTTTGTTTGT TTTTTTTTGA GATGGGGTCT CACTCTGTTG CCCAGGCTGG AGTGCAGTGA 6300TGCAATCTTG GCTCACTGCA ACCTCCACCT CCAAAGGCTC AAGCTATCCT CCCACTTCAG 6360CCTCCTGAGT AGCTGGGACT ACAGGCGCAT GCCACCACAC CCGGTTAATT TTTTGTGGTT 6420TTATAGAGAT GGGGTTTCAC CATGTTACCG AGGCTGGTCT CAAACTCCTG GACTCAAGCA 6480GTCTGCCCAC TTCAGCCTCC CAAAGTGCTG CAGTTACAGG CTTGAGCCAC TGTGCCTGGC 6540CTGCCCTTTA CTTTTAATTG GTGTATTTGT GTTTCATCTT TTACCTACTG GTTTTTAAAT 6600ATAGGGAGTG GTAAGTCTGT AGATAGAACA GAGTATTAAG TAGACTTAAT GGCCAGTAAT 6660CTTTAGAGTA CATCAGAACC AGTTTTCTGA TGGCCAATCT GCTTTTAATT CACTCTTAGA 6720CGTTAGAGAA ATAGGTGTGG TTTCTGCATA GGGAAAATTC TGAAATTAA 6769(2)SEQ ID NO：21信息：(i)序列特征：

(A)长度：4249碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：21：GATCCTAAGT GGAAATAATC TAGGTAAATA GGAATTAAAT GAAAGAGTAT GAGCTACATC 60TTCAGTATAC TTGGTAGTTT ATGAGGTTAG TTTCTCTAAT ATAGCCAGTT GGTTGATTTC 120CACCTCCAAG GTGTATGAAG TATGTATTTT TTTAATGACA ATTCAGTTTT TGAGTACCTT 180GTTATTTTTG TATATTTTCA GCTGCTTGTG AATTTTCTGA GACGGATGTA ACAAATACTG 240AACATCATCA ACCCAGTAAT AATGATTTGA ACACCACTGA GAAGCGTGCA GCTGAGAGGC 300ATCCAGAAAA GTATCAGGGT AGTTCTGTTT CAAACTTGCA TGTGGAGCCA TGTGGCACAA 360ATACTCATGC CAGCTCATTA CAGCATGAGA ACAGCAGTTT ATTACTCACT AAAGACAGAA 420TGAATGTAGA AAAGGCTGAA TTCTGTAATA AAAGCAAACA GCCTGGCTTA GCAAGGAGCC 480AACATAACAG ATGGGCTGGA AGTAAGGAAA CATGTAATGA TAGGCGGACT CCCAGCACAG 540AAAAAAAGGT AGATCTGAAT GCTGATCCCC TGTGTGAGAG AAAAGAATGG AATAAGCAGA 600AACTGCCATG CTCAGAGAAT CCTAGAGATA CTGAAGATGT TCCTTGGATA ACACTAAATA 660GCAGCATTCA GAAAGTTAAT GAGTGGTTTT CCAGAAGTGA TGAACTGTTA GGTTCTGATG 720ACTCACATGA TGGGGAGTCT GAATCAAATG CCAAAGTAGC TGATGTATTG GACGTTCTAA 780ATGAGGTAGA TGAATATTCT GGTTCTTCAG AGAAAATAGA CTTACTGGCC AGTGATCCTC 840ATGAGGCTTT AATATGTAAA AGTGAAAGAG TTCACTCCAA ATCAGTAGAG AGTAATATTG 900AAGGCCAAAT ATTTGGGAAA ACCTATCGGA AGAAGGCAAG CCTCCCCAAC TTAAGCCATG 960TAACTGAAAA TCTAATTATA GGAGCATTTG TTACTGAGCC ACAGATAATA CAAGAGCGTC 1020CCCTCACAAA TAAATTAAAG CGTAAAAGGA GACCTACATC AGGCCTTCAT CCTGAGGATT 1080TTATCAAGAA AGCAGATTTG GCAGTTCAAA AGACTCCTGA AATGATAAAT CAGGGAACTA 1140ACCAAACGGA GCAGAATGGT CAAGTGATGA ATATTACTAA TAGTGGTCAT GAGAATAAAA 1200CAAAAGGTGA TTCTATTCAG AATGAGAAAA ATCCTAACCC AATAGAATCA CTCGAAAAAG 1260AATCTGCTTT CAAAACGAAA GCTGAACCTA TAAGCAGCAG TATAAGCAAT ATGGAACTCG 1320AATTAAATAT CCACAATTCA AAAGCACCTA AAAAGAATAG GCTGAGGAGG AAGTCTTCTA 1380CCAGGCATAT TCATGCGCTT GAACTAGTAG TCAGTAGAAA TCTAAGCCCA CCTAATTGTA 1440CTGAATTGCA AATTGATAGT TGTTCTAGCA GTGAAGAGAT AAAGAAAAAA AAGTACAACC 1500AAATGCCAGT CAGGCACAGC AGAAACCTAC AACTCATGGA AGGTAAAGAA CCTGCAACTG 1560GAGCCAAGAA GAGTAACAAG CCAAATGAAC AGACAAGTAA AAGACATGAC AGCGATACTT 1620TCCCAGAGCT GAAGTTAACA AATGCACCTG GTTCTTTTAC TAAGTGTTCA AATACCAGTG 1680AACTTAAAGA ATTTGTCAAT CCTAGCCTTC CAAGAGAAGA AAAAGAAGAG AACTAGAAAC 1740AGTTAAAGTG TCTAATAATG CTGAAGACCC CAAAGATCTC ATGTTAAGTG GAGAAAGGGT 1800TTTGCAAACT GAAAGATCTG TAGAGAGTAG CAGTATTTCA TTGGTACCTG GTACTGATTA 1860TGGCACTCAG GAAAGTATCT CGTTACTGGA AGTTAGCACT CTAGGGAAGG CAAAAACAGA 1920ACCAAATAAA TGTGTGAGTC AGTGTGCAGC ATTTGAAAAC CCCAAGGGAC TAATTCATGG 1980TTGTTCCAAA GATAATAGAA ATGACACAGA AGGCTTTAAG TATCCATTGG GACATGAAGT 2040TAACCACAGT CGGGAAACAA GCATAGAAAT GGAAGAAAGT GAACTTGATG CTCAGTATTT 2100GCAGAATACA TTCAAGGTTT CAAAGCGCCA GTCATTTGCT CCGTTTTCAA ATCCAGGAAA 2160TGCAGAAGAG GAATGTGCAA CATTCTCTGC CCACTCTGGG TCCTTAAAGA AACAAAGTCC 2220AAAAGTCACT TTTGAATGTG AACAAAAGGA AGAAAATCAA GGAAAGAATG AGTCTAATAT 2280CAAGCCTGTA CAGACAGTTA ATATCACTGC AGGCTTTCCT GTGGTTGGTC AGAAAGATAA 2340GCCAGTTGAT AATGCCAAAT GTAGTATCAA AGGAGGCTCT AGGTTTTGTC TATCATCTCA 2400GTTCAGAGGC AACGAAACTG GACTCATTAC TCCAAATAAA CATGGACTTT TACAAAACCC 2460ATATCGTATA CCACCACTTT TTCCCATCAA GTCATTTGTT AAAACTAAAT GTAAGAAAAA 2520TCTGCTAGAG GAAAACTTTG AGGAACATTC AATGTCACCT GAAAGAGAAA TGGGAAATGA 2580GAACATTCCA AGTACAGTGA GCACAATTAG CCGTAATAAC ATTAGAGAAA ATGTTTTTAA 2640AGAAGCCAGC TCAAGCAATA TTAATGAAGT AGGTTCCAGT ACTAATGAAG TGGGCTCCAG 2700TATTAATGAA ATAGGTTCCA GTGATGAAAA CATTCAAGCA GAACTAGGTA GAAACAGAGG 2760GCCAAAATTG AATGCTATGC TTAGATTAGG GGTTTTGCAA CCTGAGGTCT ATAAACAAAG 2820TCTTCCTGGA AGTAATTGTA AGCATCCTGA AATAAAAAAG CAAGAATATG AAGAAGTAGT 2880TCAGACTGTT AATACAGATT TCTCTCCATA TCTGATTTCA GATAACTTAG AACAGCCTAT 2940GGGAAGTAGT CATGGATCTC AGGTTTGTTC TGAGACACCT GATGACCTGT TAGATGATGG 3000TGAAATAAAG GAAGATACTA GTTTTGCTGA AAATGACATT AAGGAAAGTT CTGCTGTTTT 3060TAGCAAAAGC GTCCAGAAAG GAGAGCTTAG CAGGAGTCCT AGCCCTTTCA CCCATACACA 3120TTTGGCTCAG GGTTACCGAA GAGGGGCCAA GAAATTAGAG TCCTCAGAAG AGAACTTATC 3180TAGTGAGGAT GAAGAGCTTC CCTGCTTCCA ACACTTGTTA TTTGGTAAAG TAAACAATAT 3240ACCTTCTCAG TCTACTAGGC ATAGCACCGT TGCTACCGAG TGTCTGTCTA AGAACACAGA 3300GGAGAATTTA TTATCATTGA AGAATAGCTT AAATGACTGC AGTAACCAGG TAATATTGGC 3360AAAGGCATCT CAGGAACATC ACCTTAGTGA GGAAACAAAA TGTTCTGCTA GCTTGTTTTC 3420TTCACAGTGC AGTGAATTGG AAGACTTGAC TGCAAATACA AACACCCAGG ATCCTTTCTT 3480GATTGGTTCT TCCAAACAAA TGAGGCATCA GTCTGAAAGC CAGGGAGTTG GTCTGAGTGA 3540CAAGGAATTG GTTTCAGATG ATGAAGAAAG AGGAACGGGC TTGGAAGAAA ATAATCAAGA 3600AGAGCAAAGC ATGGATTCAA ACTTAGGTAT TGGAACCAGG TTTTTGTGTT TGCCCCAGTC 3660TATTTATAGA AGTGAGCTAA ATGTTTATGC TTTTGGGGAG CACATTTTAC AAATTTCCAA 3720GTATAGTTAA AGGAACTGCT TCTTAAACTT GAAACATGTT CCTCCTAAGG TGCTTTTCAT 3780AGAAAAAAGT CCTTCACACA GCTAGGACGT CATCTTTGAC TGAATGAGCT TTAACATCCT 3840AATTACTGGT GGACTTACTT CTGGTTTCAT TTTATAAAGC AAATCCCGGT GTCCCAAAGC 3900AAGGAATTTA ATCATTTTGT GTGACATGAA AGTAAATCCA GTCCTGCCAA TGAGAAGAAA 3960AAGACACAGC AAGTTGCAGC GTTTATAGTC TGCTTTTACA TCTGAACCTC TGTTTTTGTT 4020ATTTAAGGTG AAGCAGCATC TGGGTGTGAG AGTGAAACAA GCGTCTCTGA AGACTGCTCA 4080GGGCTATCCT CTCAGAGTGA CATTTTAACC ACTCAGGTAA AAAGCGTGTG TGTGTGTGCA 4140CATGCGTGTG TGTGGTGTCC TTTGCATTCA GTAGTATGTA TCCCACATTC TTAGGTTTGC 4200TGACATCATC TCTTTGAATT AATGGCACAA TTGTTTGTGG TTCATTGTC 4249(2)SEQ ID NO：22信息：(i)序列特征：

(A)长度：710碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：22：NGNGAATGTA ATCCTAATAT TTCNCNCCNA CTTAAAAGAA TACCACTCCA ANGGCATCNC 60AATACATCAA TCAATTGGGG AATTGGGATT TTCCCTCNCT AACATCANTG GAATAATTTC 120ATGGCATTAA TTGCATGAAT GTGGTTAGAT TAAAAGGTGT TCATGCTAGA ACTTGTAGTT 180CCATACTAGG TGATTTCAAT TCCTGTGCTA AAATTAATTT GTATGATATA TTNTCATTTA 240ATGGAAAGCT TCTCAAAGTA TTTCATTTTC TTGGTACCAT TTATCGTTTT TGAAGCAGAG 300GGATACCATG CAACATAACC TGATAAAGCT CCAGCAGGAA ATGGCTGAAC TAGAAGCTGT 360GTTAGAACAG CATGGGAGCC AGCCTTCTAA CAGCTACCCT TCCATCATAA GTGACTCTTC 420TGCCCTTGAG GACCTGCGAA ATCCAGAACA AAGCACATCA GAAAAAGGTG TGTATTGTTG 480GCCAAACACT GATATCTTAA GCAAAATTCT TTCCTTCCCC TTTATCTCCT TCTGAAGAGT 540AAGGACCTAG CTCCAACATT TTATGATCCT TGCTCAGCAC ATGGGTAATT ATGGAGCCTT 600GGTTCTTGTC CCTGCTCACA ACTAATATAC CAGTCAGAGG GACCCAAGGC AGTCATTCAT 660GTTGTCATCT GAGATACCTA CAACAAGTAG ATGCTATGGG GAGCCCATGG 710(2)SEQ ID NO：23信息：(i)序列特征：

(A)长度：473碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：23：CCATTGGTGC TAGCATCTGT CTGTTGCATT GCTTGTGTTT ATAAAATTCT GCCTGATATA 60CTTGTTAAAA ACCAATTTGT GTATCATAGA TTGATGCTTT TGAAAAAAAT CAGTATTCTA 120ACCTGAATTA TCACTATCAG AACAAAGCAG TAAAGTAGAT TTGTTTTCTC ATTCCATTTA 180AAGCAGTATT AACTTCACAG AAAAGTAGTG AATACCCTAT AAGCCAGAAT CCAGAAGGCC 240TTTCTGCTGA CAAGTTTGAG GTGTCTGCAG ATAGTTCTAC CAGTAAAAAT AAAGAACCAG 300GAGTGGAAAG GTAAGAAACA TCAATGTAAA GATGCTGTGG TATCTGACAT CTTTATTTAT 360ATTGAACTCT GATTGTTAAT TTTTTTCACC ATACTTTCTC CAGTTTTTTT GCATACAGGC 420ATTTATACAC TTTTATTGCT CTAGGATACT TCTTTTGTTT AATCCTATAT AGG 473(2)SEQ ID NO：24信息：(i)序列特征：

(A)长度：421碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：24：GGATAAGNTC AAGAGATATT TTGATAGGTG ATGCAGTGAT NAATTGNGAA AATTTNCTGC 60CTGCTTTTAA TCTTCCCCCG TTCTTTCTTC CTNCCTCCCT CCCTTCCTNC CTCCCGTCCT 120TNCCTTTCCT TTCCCTCCCT TCCNCCTTCT TTCCNTCTNT CTTTCCTTTC TTTCCTGTCT 180ACCTTTCTTT CCTTCCTCCC TTCCTTTTCT TTTCTTTCTT TCCTTTCCTT TTCTTTCCTT 240TCTTTCCTTT CCTTTCTTTC TTGACAGAGT CTTGCTCTGT CACTCAGGCT GGAGTGCAGT 300GGCGTGATCT CGNCTCACTG CAACCTCTGT CTCCCAGGTT CAAGCAATTT TCCTGCCTCA 360GCCTCCCGAG TAGCTGAGAT TACAGGCGCC AGCCACCACA CCCAGCTACT GACCTGCTTT 420T 421(2)SEQ ID NO：25信息：(i)序列特征：

(A)长度：997碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：25：AAACAGCTGG GAGATATGGT GCCTCAGACC AACCCCATGT TATATGTCAA CCCTGACATA 60TTGGCAGGCA ACATGAATCC AGACTTCTAG GCTGTCATGC GGGCTCTTTT TTGCCAGTCA 120TTTCTGATCT CTCTGACATG AGCTGTTTCA TTTATGCTTT GGCTGCCCAG CAAGTATGAT 180TTGTCCTTTC ACAATTGGTG GCGATGGTTT TCTCCTTCCA TTTATCTTTC TAGGTCATCC 240CCTTCTAAAT GCCCATCATT AGATGATAGG TGGTACATGC ACAGTTGCTC TGGGAGTCTT 300CAGAATAGAA ACTACCCATC TCAAGAGGAG CTCATTAAGG TTGTTGATGT GGAGGAGCAA 360CAGCTGGAAG AGTCTGGGCC ACACGATTTG ACGGAAACAT CTTACTTGCC AAGGCAAGAT 420CTAGGTAATA TTTCATCTGC TGTATTGGAA CAAACACTYT GATTTTACTC TGAATCCTAC 480ATAAAGATAT TCTGGTTAAC CAACTTTTAG ATGTACTAGT CTATCATGGA CACTTTTGTT 540ATACTTAATT AAGCCCACTT TAGAAAAATA GCTCAAGTGT TAATCAAGGT TTACTTGAAA 600ATTATTGAAA CTGTTAATCC ATCTATATTT TAATTAATGG TTTAACTAAT GATTTTGAGG 660ATGWGGGAGT CKTGGTGTAC TCTAMATGTA TTATTTCAGG CCAGGCATAG TGGCTCACGC 720CTGGTAATCC CAGTAYYCMR GAGCCCGAGG CAGGTGGAGC CAGCTGAGGT CAGGAGTTCA 780AGACCTGTCT TGGCCAACAT GGGNGAAACC CTGTCTTCTT CTTAAAAAAN ACAAAAAAAA 840TTAACTGGGT TGTGCTTAGG TGNATGCCCC GNATCCTAGT TNTTCTTGNG GGTTGAGGGA 900GGAGATCACN TTGGACCCCG GAGGGGNGGG TGGGGGNGAG CAGGNCAAAA CACNGACCCA 960GCTGGGGTGG AAGGGAAGCC CACTCNAAAA AANNTTN 997(2)SEQ ID NO：26信息：(i)序列特征：

(A)长度：639碱基对

(B)类型：核酸

(C)股性：双链

(D)拓扑结构：线性 (ii)分子类型：DNA(基因组)(iii)假设：否(iv)反义：否(vi)最初来源：

(A)有机体：人(xi)序列描述：SEQ ID NO：26：TTTTTAGGAA ACAAGCTACT TTGGATTTCC ACCAACACCT GTATTCATGT ACCCATTTTT 60CTCTTAACCT AACTTTATTG GTCTTTTTAA TTCTTAACAG AGACCAGAAC TTTGTAATTC 120AACATTCATC GTTGTGTAAA TTAAACTTCT CCCATTCCTT TCAGAGGGAA CCCCTTACCT 180GGAATCTGGA ATCAGCCTCT TCTCTGATGA CCCTGAATCT GATCCTTCTG AAGACAGAGC 240CCCAGAGTCA GCTCGTGTTG GCAACATACC ATCTTCAACC TCTGCATTGA AAGTTCCCCA 300ATTGAAAGTT GCAGAATCTG CCCAGAGTCC AGCTGCTGCT CATACTACTG ATACTGCTGG 360GTATAATGCA ATGGAAGAAA GTGTGAGCAG GGAGAAGCCA GAATTGACAG CTTCAACAGA 420AAGGGTCAAC AAAAGAATGT CCATGGTGGT GTCTGGCCTG ACCCCAGAAG AATTTGTGAG 480TGTATCCATA TGTATCTCCC TAATGACTAA GACTTAACAA CATTCTGGAA AGAGTTTTAT 540GTAGGTATTG TCAATTAATA ACCTAGAGGA AGAAATCTAG AAAACAATCA CAGTTCTGTG 600TAATTTAATT TCGATTACTA ATTTCTGAAA ATTTAGAAY 639(2)SEQ ID NO：27信息：(i)序列特征：

(A)长度：922碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：27：NCCCNNCCCC CNAATCTGAA ATGGGGGTAA CCCCCCCCCA ACCGANACNT GGGTNGCNTA 60GAGANTTTAA TGGCCCNTTC TGAGGNACAN AAGCTTAAGC CAGGNGACGT GGANCNATGN 120GTTGTTTNTT GTTTGGTTAC CTCCAGCCTG GGTGACAGAG CAAGACTCTG TCTAAAAAAA 180AAAAAAAAAA AAATCGACTT TAAATAGTTC CAGGACACGT GTAGAACGTG CAGGATTGCT 240ACGTAGGTAA ACATATGCCA TGGTGGGATA ACTAGTATTC TGAGCTGTGT GCTAGAGGTA 300ACTCATGATA ATGGAATATT TGATTTAATT TCAGATGCTC GTGTACAAGT TTGCCAGAAA 360ACACCACATC ACTTTAACTA ATCTAATTAC TGAAGAGACT ACTCATGTTG TTATGAAAAC 420AGGTATACCA AGAACCTTTA CAGAATACCT TGCATCTGCT GCATAAAACC ACATGAGGCG 480AGGCACGGTG GCGCATGCCT GTAATCGCAG CACTTTGGGA GGCCGAGGCG GGCAGATCAC 540GAGATTAGGA GATCGAGACC ATCCTGGCCA GCATGGTGAA ACCCCGTCTC TACTANNAAA 600TGGNAAAATT ANCTGGGTGT GGTCGCGTGC NCCTGTAGTC CCAGCTACTC GTGAGGCTGA 660GGCAGGAGAA TCACTTGAAC CGGGGAAATG GAGGTTTCAG TGAGCAGAGA TCATNCCCCT 720NCATTCCAGC CTGGCGACAG AGCAAGGCTC CGTCNCCNAA AAAATAAAAA AAAACGTGAA 780CAAATAAGAA TATTTGTTGA GCATAGCATG GATGATAGTC TTCTAATAGT CAATCAATTA 840CTTTATGAAA GACAAATAAT AGTTTTGCTG CTTCCTTACC TCCTTTTGTT TTGGGTTAAG 900ATTTGGAGTG TGGGCCAGGC AC 922(2)SEQ ID NO：28信息：(i)序列特征：

(A)长度：867碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：28：GATCTATAGC TAGCCTTGGC GTCTAGAAGA TGGGTGTTGA GAAGAGGGAG TGGAAAGATA 60TTTCCTCTGG TCTTAACTTC ATATCAGCCT CCCCTAGACT TCCAAATATC CATACCTGCT 120GGTTATAATT AGTGGTGTTT TCAGCCTCTG ATTCTGTCAC CAGGGGTTTT AGAATCATAA 180ATCCAGATTG ATCTTGGGAG TGTAAAAAAC TGAGGCTCTT TAGCTTCTTA GGACAGCACT 240TCCTGATTTT GTTTTCAACT TCTAATCCTT TGAGTGTTTT TCATTCTGCA GATGCTGAGT 300TTGTGTGTGA ACGGACACTG AAATATTTTC TAGGAATTGC GGGAGGAAAA TGGGTAGTTA 360GCTATTTCTG TAAGTATAAT ACTATTTCTC CCCTCCTCCC TTTAACACCT CAGAATTGCA 420TTTTTACACC TAACATTTAA CACCTAAGGT TTTTGCTGAT GCTGAGTCTG AGTTACCAAA 480AGGTCTTTAA ATTGTAATAC TAAACTACTT TTATCTTTAA TATCACTTTG TTCAAGATAA 540GCTGGTGATG CTGGGAAAAT GGGTCTCTTT TATAACTAAT AGGACCTAAT CTGCTCCTAG 600CAATGTTAGC ATATGAGCTA GGGATTTATT TAATAGTCGG CAGGAATCCA TGTGCARCAG 660NCAAACTTAT AATGTTTAAA TTAAACATCA ACTCTGTCTC CAGAAGGAAA CTGCTGCTAC 720AAGCCTTATT AAAGGGCTGT GGCTTTAGAG GGAAGGACCT CTCCTCTGTC ATTCTTCCTG 780TGCTCTTTTG TGAATCGCTG ACCTCTCTAT CTCCGTGAAA AGAGCACGTT CTTCTGCTGT 840ATGTAACCTG TCTTTTCTAT GATCTCT 867(2)SEQ ID NO：29信息：(i)序列特征：

(A)长度：561碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：29：NAAAAACGGG GNNGGGANTG GGCCTTAAAN CCAAAGGGCN AACTCCCCAA CCATTNAAAA 60ANTGACNGGG GATTATTAAA ANCGGCGGGA AACATTTCAC NGCCCAACTA ATATTGTTAA 120ATTAAAACCA CCACCNCTGC NCCAAGGAGG GAAACTGCTG CTACAAGCCT TATTAAAGGG 180CTGTGGCTTT AGAGGGAAGG ACCTCTCCTC TGTCATTCTT CCTGTGCTCT TTTGTGAATC 240GCTGACCTCT CTATGTCCGT GAAAAGAGCA CGTTCTTCGT CTGTATGTAA CCTGTCTTTT 300CTATGATCTC TTTAGGGGTG ACCCAGTCTA TTAAAGAAAG AAAAATGCTG AATGAGGTAA 360GTACTTGATG TTACAAACTA ACCAGAGATA TTCATTCAGT CATATAGTTA AAAATGTATT 420TGCTTCCTTC CATCAATGCA CCACTTTCCT TAACAATGCA CAAATTTTCC ATGATAATGA 480GGATCATCAA GAATTATGCA GGCCTGCACT GTGGCTCATA CCTATAATCC CAGCGCTTTG 540GGAGGCTGAG GCGCTTGGAT C 561(2)SEQ ID NO：30信息：(i)序列特征：

(A)长度：567碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：30：AATTTTTTGT ATTTTTAGTA GAGATGAGGT TCACCATGTT GGTCTAGATC TGGTGTCGAA 60CGTCCTGACC TCAAGTGATC TGCCAGCCTC AGTCTCCCAA AGTGCTAGGA TTACAGGGGT 120GAGCCACTGC GCCTGGCCTG AATGCCTAAA ATATGACGTG TCTGCTCCAC TTCCATTGAA 180GGAAGCTTCT CTTTCTCTTA TCCTGATGGG TTGTGTTTGG TTTCTTTCAG CATGATTTTG 240AAGTCAGAGG AGATGTGGTC AATGGAAGAA ACCACCAAGG TCCAAAGCGA GCAAGAGAAT 300CCCAGGACAG AAAGGTAAAG CTCCCTCCCT CAAGTTGACA AAAATCTCAC CCCACCACTC 360TGTATTCCAC TCCCCTTTGC AGAGATGGGC CGCTTCATTT TGTAAGACTT ATTACATACA 420TACACAGTGC TAGATACTTT CACACAGGTT CTTTTTTCAC TCTTCCATCC CAACCACATA 480AATAAGTATT GTCTCTACTT TATGAATGAT AAAACTAAGA GATTTAGAGA GGCTGTGTAA 540TTTGGATTCC CGTCTCGGGT TCAGATC 567(2)SEQ ID NO：31信息：(i)序列特征：

(A)长度：633碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：31：TTGGCCTGAT TGGTGACAAA AGTGAGATGC TCAGTCCTTG AATGACAAAG AATGCCTGTA 60GAGTTGCAGG TCCAACTACA TATGCACTTC AAGAAGATCT TCTGAAATCT AGTAGTGTTC 120TGGACATTGG ACTGCTTGTC CCTGGGAAGT AGCAGCAGAA ATGATCGGTG GTGAACAGAA 180GAAAAAGAAA AGCTCTTCCT TTTTGAAAGT CTGTTTTTTG AATAAAAGCC AATATTCTTT 240TATAACTAGA TTTTCCTTCT CTCCATTCCC CTGTCCCTCT CTCTTCCTCT CTTCTTCCAG 300ATCTTCAGGG GGCTAGAAAT CTGTTGCTAT GGGCCCTTCA CCAACATGCC CACAGGTAAG 360AGCCTGGGAG AACCCCAGAG TTCCAGCACC AGCCTTTGTC TTACATAGTG GAGTATTATA 420AGCAAGGTCC CACGATGGGG GTTCCTCAGA TTGCTGAAAT GTTCTAGAGG CTATTCTATT 480TCTCTACCAC TCTCCAAACA AAACAGCACC TAAATGTTAT CCTATGGCAA AAAAAAACTA 540TACCTTGTCC CCCTTCTCAA GAGCATGAAG GTGGTTAATA GTTAGGATTC AGTATGTTAT 600GTGTTCAGAT GGCGTTGAGC TGCTGTTAGT GCC 633(2)SEQ ID NO：32信息：(i)序列特征：

(A)长度：470碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：32：TTTGAGAGAC TATCAAACCT TATACCAAGT GGCCTTATGG AGACTGATAA CCAGAGTACA 60TGGCATATCA GTGGCAAATT GACTTAAAAT CCATACCCCT ACTATTTTAA GACCATTGTC 120CTTTGGAGCA GAGAGACAGA CTCTCCCATT GAGAGGTCTT GCTATAAGCC TTCATCCGGA 180GAGTGTAGGG TAGAGGGCCT GGGTTAAGTA TGCAGATTAC TGCAGTGATT TTACATGTAA 240ATGTCCATTT TAGATCAACT GGAATGGATG GTACAGCTGT GTGGTGCTTC TGTGGTGAAG 300GAGCTTTCAT CATTCACCCT TGGCACAGTA AGTATTGGGT GCCCTGTCAG TGTGGGAGGA 360CACAATATTC TCTCCTGTGA GCAAGACTGG CACCTGTCAG TCCCTATGGA TGCCCCTACT 420GTAGCCTCAG AAGTCTTCTC TGCCCACATA CCTGTGCCAA AAGACTCCAT 470(2)SEQ ID NO：33信息： (i)序列特征：

(A)长度：517碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：33：GGTGGTACGT GTCTGTAGTT CCAGCTACTT GGGAGGCTGA GATGGAAGGA TTGCTTGAGC 60CCAGGAGGCA GAGGTGGNAN NTTACGCTGA GATCACACCA CTGCACTCCA GCCTGGGTGA 120CAGAGCAAGA CCCTGTCTCA AAAACAAACA AAAAAAATGA TGAAGTGACA GTTCCAGTAG 180TCCTACTTTG ACACTTTGAA TGCTCTTTCC TTCCTGGGGA TCCAGGGTGT CCACCCAATT 240GTGGTTGTGC AGCCAGATGC CTGGACAGAG GACAATGGCT TCCATGGTAA GGTGCCTCGC 300ATGTACCTGT GCTATTAGTG GGGTCCTTGT GCATGGGTTT GGTTTATCAC TCATTACCTG 360GTGCTTGAGT AGCACAGTTC TTGGCACATT TTTAAATATT TGTTGAATGA ATGGCTAAAA 420TGTCTTTTTG ATGTTTTTAT TGTTATTTGT TTTATATTGT AAAAGTAATA CATGAACTGT 480TTCCATGGGG TGGGAGTAAG ATATGAATGT TCATCAC 517(2)SEQ ID NO：34信息：(i)序列特征：

(A)长度：434碱基对

(B)类型：核酸

(C)股性：双链

(A)有机体：人(xi)序列描述：SEQ ID NO：34：CAGTAATCCT NAGAACTCAT ACGACCGGGC CCCTGGAGTC GNTGNTTNGA GCCTAGTCCN 60GGAGAATGAA TTGACACTAA TCTCTGCTTG TGTTCTCTGT CTCCAGCAAT TGGGCAGATG 120TGTGAGGCAC CTGTGGTGAC CCGAGAGTGG GTGTTGGACA GTGTAGCACT CTACCAGTGC 180CAGGAGCTGG ACACCTACCT GATACCCCAG ATCCCCCACA GCCACTACTG ACTGCAGCCA 240GCCACAGGTA CAGAGCCACA GGACCCCAAG AATGAGCTTA CAAAGTGGCC TTTCCAGGCC 300CTGGGAGCTC CTCTCACTCT TCAGTCCTTC TACTGTCCTG GCTACTAAAT ATTTTATGTA 360CATCAGCCTG AAAAGGACTT CTGGCTATGC AAGGGTCCCT TAAAGATTTT CTGCTTGAAG 420TCTCCCTTGG AAAT 434(2)SEQ ID NO：35信息： (i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：35：GATAAATTAA AACTGCGACT GCGCGGCGTG 30(2)SEQ ID NO：36信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：36：GTAGTAGAGT CCCGGGAAAG GGACAGGGGG 30(2)SEQ ID NO：37信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：37：ATATATATAT GTTTTTCTAA TGTGTTAAAG 30(2)SEQ ID NO：38信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：38：GTAAGTCAGC ACAAGAGTGT ATTAATTTGG 30(2)SEQ ID NO：39信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：39：TTTCTTTTTC TCCCCCCCCT ACCCTGCTAG 30(2)SEQ ID NO：40信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人 (xi)序列描述：SEQ ID NO：40：GTAAGTTTGA ATGTGTTATG TGGCTCCATT 30(2)SEQ ID NO：41信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：41：AGCTACTTTT TTTTTTTTTT TTTGAGACAG 30(2)SEQ ID NO：42信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：42：GTAAGTGCAC ACCACCATAT CCAGCTAAAT 30(2)SEQ ID NO：43信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：43：AATTGTTCTT TCTTTCTTTA TAATTTATAG 30(2)SEQ ID NO：44信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(D)拓扑结构：线性(ii)分子类型：DNA(基因组) (iii)假设：否(vi)最初来源：

(A)有机体：人(xi)序列描述：SEQ ID NO：44：GTATATAATT TGGTAATGAT GCTAGGTTGG 30(2)SEQ ID NO：45信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：45：GAGTGTGTTT CTCAAACAAT TTAATTTCAG 30(2)SEQ ID NO：46信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(D)拓扑结构：线性 (ii)分子类型：DNA(基因组)(iii)假设：否(vi)最初来源：

(A)有机体：人(xi)序列描述：SEQ ID NO：46：GTAAGTGTTG AATATCCCAA GAATGACACT 30(2)SEQ ID NO：47信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：47：AAACATAATG TTTTCCCTTG TATTTTACAG 30(2)SEQ ID NO：48信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：48：GTAAAACCAT TTGTTTTCTT CTTCTTCTTC 30(2)SEQ ID NO：49信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：49：TGCTTGACTG TTCTTTACCA TACTGTTTAG 30(2)SEQ ID NO：50信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：50：GTAAGGGTCT CAGGTTTTTT AAGTATTTAA 30(2)SEQ ID NO：51信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：51：TGATTTATTT TTTGGGGGGA AATTTTTTAG 30(2)SEQ ID NO：52信息： (i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：52：GTGAGTCAAA GAGAACCTTT GTCTATGAAG 30(2)SEQ ID NO：53信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：53：TCTTATTAGG ACTCTGTCTT TTCCCTATAG 30(2)SEQ ID NO：54信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：54：GTAATGGCAA AGTTTGCCAA CTTAACAGGC 30(2)SEQ ID NO：55信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：55：GAGTACCTTG TTATTTTTGT ATATTTTCAG 30(2)SEQ ID NO：56信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：56：GTATTGGAAC CAGGTTTTTG TGTTTGCCCC 30(2)SEQ ID NO：57信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人 (xi)序列描述：SEQ ID NO：57：ACATCTGAAC CTCTGTTTTT GTTATTTAAG 30(2)SEQ ID NO：58信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：58：AGGTAAAAAG CGTGTGTGTG TGTGCACATG 30(2)SEQ ID NO：59信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：59：CATTTTCTTG GTACCATTTA TCGTTTTTGA 30(2)SEQ ID NO：60信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：60：GTGTGTATTG TTGGCCAAAC ACTGATATCT 30(2)SEQ ID NO：61信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：61：AGTAGATTTG TTTTCTCATT CCATTTAAAG 30(2)SEQ ID NO：62信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：62：GTAAGAAACA TCAATGTAAA GATGCTGTGG 30(2)SEQ ID NO：63信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：63：ATGGTTTTCT CCTTCCATTT ATCTTTCTAG 30(2)SEQ ID NO：64信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：64：GTAATATTTC ATCTGCTGTA TTGGAACAAA 30(2)SEQ ID NO：65信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：65：TGTAAATTAA ACTTCTCCCA TTCCTTTCAG 30(2)SEQ ID NO：66信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：66：GTGAGTGTAT CCATATGTAT CTCCCTAATG 30(2)SEQ ID NO：67信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：67：ATGATAATGG AATATTTGAT TTAATTTCAG 30(2)SEQ ID NO：68信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：68：GTATACCAAG AACCTTTACA GAATACCTTG 30(2)SEQ ID NO：69信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：69：CTAATCCTTT GAGTGTTTTT CATTCTGCAG 30(2)SEQ ID NO：70信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：70：GTAAGTATAA TACTATTTCT CCCCTCCTCC 30(2)SEQ ID NO：71信息： (i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：71：TGTAACCTGT CTTTTCTATG ATCTCTTTAG 30(2)SEQ ID NO：72信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：72：GTAAGTACTT GATGTTACAA ACTAACCAGA 30(2)SEQ ID NO：73信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：73：TCCTGATGGG TTGTGTTTGG TTTCTTTCAG 30(2)SEQ ID NO：74信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：74：GTAAAGCTCC CTCCCTCAAG TTGACAAAAA 30(2)SEQ ID NO：75信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：75：CTGTCCCTCT CTCTTCCTCT CTTCTTCCAG 30(2)SEQ ID NO：76信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人 (xi)序列描述：SEQ ID NO：76：GTAAGAGCCT GGGAGAACCC CAGAGTTCCA 30(2)SEQ ID NO：77信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：77：AGTGATTTTA CATGTAAATG TCCATTTTAG 30(2)SEQ ID NO：78信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：78：GTAAGTATTG GGTGCCCTGT CAGTGTGGGA 30(2)SEQ ID NO：79信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：79：TTGAATGCTC TTTCCTTCCT GGGGATCCAG 30(2)SEQ ID NO：80信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：80：GTAAGGTGCC TCGCATGTAC CTGTGCTATT 30(2)SEQ ID NO：81信息：(i)序列特征：

(A)长度：30碱基对

(B)类型：核酸

(C)股性：单链

(A)有机体：人(xi)序列描述：SEQ ID NO：81：CTAATCTCTG CTTGTGTTCT CTGTCTCCAG 30(2)SEQ ID NO：82信息：(i)序列特征：

(A)长度：42氨基酸

(B)类型：氨基酸

(C)股性：

(D)拓扑结构：线性 (ii)分子类型：肽(iii)假设：否(vi)最初来源：

(A)有机体：人(xi)序列描述：SEQ ID NO：82Cys Pro Ile Cys Leu Glu Leu Ile Lys Glu Pro Val Ser Thr Lys Cys1 5 10 15Asp His Ile Phe Cys Lys Phe Cys Met Leu Lys Leu Leu Asn Gln Lys

20 25 30Lys Gly Pro Ser Gln Cys Pro Leu Cys Lys

35 40(2)SEQ ID NO：83信息：(i)序列特征：

(A)长度：45氨基酸

(B)类型：氨基酸

(C)股性：

(D)拓扑结构：线性(ii)分子类型：肽(iii)假设：否(xi)序列描述：SEQ ID NO：83：Cys Pro Ile Cys Leu Glu Leu Leu Lys Glu Pro Val Ser Ala Asp Cys1 5 10 15Asn His Ser Phe Cys Arg Ala Cys Ile Thr Leu Asn Tyr Glu Ser Asn

20 25 30Arg Asn Thr Asp Gly Lys Gly Asn Cys Pro Val Cys Arg

35 40 45(2)SEQ ID NO：84信息：(i)序列特征：

(A)长度：41氨基酸

(B)类型：氨基酸

(C)股性：

(D)拓扑结构：线性(ii)分子类型：肽(iii)假设：否(xi)序列描述：SEQ ID NO：84：Cys Pro Ile Cys Leu Asp Met Leu Lys Asn Thr Met Thr Thr Lys Glu1 5 10 15Cys Leu His Arg Phe Cys Ser Asp Cys Ile Val Thr Ala Leu Arg Ser

20 25 30Gly Asn Lys Glu Cys Pro Thr Cys Arg

35 40(2)SEQ ID NO：85信息：(i)序列特征：

(A)长度：42氨基酸

(B)类型：氨基酸

(C)股性：

(D)拓扑结构：线性 (ii)分子类型：肽(iii)假设：否(xi)序列描述：SEQ ID NO：85：Cys Pro Val Cys Leu Gln Tyr Phe Ala Glu Pro Met Met Leu Asp Cys1 5 10 15Gly His Asn Ile Cys Cys Ala Cys Leu Ala Arg Cys Trp Gly Thr Ala

20 25 30Cys Thr Asn Val Ser Cys Pro Gln Cys Arg

35 40

Claims

1.一种诊断人个体患乳房癌和卵巢癌倾向性的方法，其特征在于，它包括：确定在个体的组织样品中是否有BRCA1基因序列或BRCA1基因调控序列的种系改变，该改变表示倾向于患该癌肿。

2.一种诊断人个体损伤是否有与BRCA1基因座关联的瘤形成的方法，其特征在于，它包括：确定该损伤组织样品中是否有BRCA1基因序列或BRCA1基因调控序列的改变，该改变表示有瘤形成。

3.如权利要求2所述的方法，其特征在于，该损伤是乳房或卵巢损伤。

4.如权利要求1-3中任一权利要求所述的方法，其特征在于，在该样品中的BRCA1基因序列与选自SEQ ID NO：1中所示序列的一个或多个野生型BRCA1基因序列及其野生型等位基因变异序列进行比较。

5.如权利要求1-3中任一权利要求所述的方法，其特征在于，研究在该样品中BRCA1基因表达产物的水平和/或序列。

6.如权利要求5所述的方法，其特征在于，该表达产物是mRNA。

7.如权利要求6所述的方法，其特征在于，该样品的mRNA与BRCA1基因探针，在适合该探针与对应于BRCA1基因的RNA杂交的条件下进行接触，并确定该探针的杂交情况。

8.如权利要求1-4中任一权利要求所述的方法，其特征在于，BRCA1基因探针与从该样品中分离出的基因组DNA，在适合该探针与基因杂交的条件下进行接触，并确定该探针的杂交情况。

9.如权利要求7或8所述的方法，其特征在于，该探针是突变型的、等位基因特异性探针。

10.如权利要求5所述的方法，其特征在于，该表达产物是该样品中由BRCA1基因所编码的多肽。

11.如权利要求10所述的方法，其特征在于，该多肽用免疫印迹法或免疫细胞化学方法检测。

12.如权利要求10所述的方法，其特征在于，分析从该样品中分离出的BRCA1基因蛋白与能够特异性地结合于突变型BRCA1等位基因的多肽表达产物的结合配偶体和/或针对具有SEQ ID NO：2所示氨基酸序列的BRCA1多肽的结合配偶体之间的结合反应。

13.如权利要求12所述的方法，其特征在于，测定该结合配偶体生物化学活性的抑制情况。

14.如权利要求1-3和5中任一权利要求所述的方法，其特征在于，包括确定该样品中BRCA1基因调控区域是否改变。

15.如权利要求1-4中任一权利要求所述的方法，其特征在于，通过观察来自该样品的单链DNA在非变性聚丙烯酰胺凝胶上电泳迁移率的变化，来确定该样品中种系的BRCA1基因序列是否改变。

16.如权利要求1-4中任一权利要求所述的方法，其特征在于，来自该样品的全部或部分BRCA1基因被扩增，然后确定该扩增序列的序列。

17.如权利要求1-4中任一权利要求所述的方法，其特征在于，用寡核苷酸引物，通过核酸扩增而确定该样品中是否能鉴别出特异性的BRCA1突变型等位基因。

18.如权利要求1-4中任一权利要求所述的方法，其特征在于，来自该样品的全部或部分BRCA1基因被克隆以产生克隆的序列，然后确定该被克隆序列的序列。

19.如权利要求1-6中任一权利要求所述的方法，其特征在于，它包括确定在分子(1)从该样品中分离出的BRCA1基因的基因组DNA或BRCA1 mRNA和(2)与人野生型BRCA1基因DNA互补的核酸探针之间，当分子(1)和(2)之间相互杂交形成双链时是否有错配。

20.如权利要求1-6中任一权利要求所述的方法，其特征在于，扩增该样品中的BRCA1基因序列，然后确定扩增序列与一个或多个核酸探针的杂交情况，该探针含有野生型BRCA1基因序列或有突变的突变型BRCA1基因序列。

21.如权利要求1-4中任一权利要求所述的方法，其特征在于，包括确定该样品中的BRCA1基因与一个或多个核酸探针的原位杂交情况，该探针含有野生型BRCA1基因序列或有突变的突变型BRCA1基因序列。

22.如上述权利要求中任一权利要求所述的方法，其特征在于，被筛选的改变是缺失突变。

23.如权利要求1-20中任一权利要求所述的方法，其特征在于，被筛选的改变是点突变。

24.如权利要求1-20中任一权利要求所述的方法，其特征在于，被筛选的改变是插入突变。