CN101027410A

CN101027410A - 用于癌症诊断的寡核苷酸

Info

Publication number: CN101027410A
Application number: CN200580026265.8A
Authority: CN
Inventors: 普拉维恩·沙玛; 安德斯·郎内博格
Original assignee: Diagenic AS
Current assignee: Diagenic AS
Priority date: 2004-06-02
Filing date: 2005-06-02
Publication date: 2007-08-29
Also published as: SI1766056T1; NZ551797A; AU2005250219B2; NO20065939L; DE602005025633D1; ATE493511T1; AP2006003862A0; US20120295800A1; WO2005118851A1; EP1766056A1; JP5060945B2; JP2008501332A; US8105773B2; ZA200610644B; AU2005250219A1; CA2568889A1; EP1766056B1; ES2358910T3; US20080026385A1; DK1766056T3

Abstract

本发明提供了用于制作转录模式，特别是癌症诊断的转录模式的寡核苷酸组，这些寡核苷酸对应于涉及蛋白质合成和/或稳定性的蛋白质编码基因或涉及防御调节和/或染色质重塑的蛋白质编码基因。本发明还延伸至所述几组寡核甘酸和含有所述几组寡核甘酸的试剂盒以及相关方法，所述方法依据所述基因编码的标记多肽分析开发特征性表达模式。

Description

用于癌症诊断的寡核苷酸

本发明涉及用于评价细胞内基因转录物水平的寡核苷酸探针，其可用于分析技术，特别是诊断技术。探针以试剂盒形式被方便地提供。不同的探针组可用于制作基因表达模式和鉴定、诊断或检测不同癌症或其分期的技术中。

确立用于例如诊断应用的快速和简便的样本分析方法仍是许多研究者的目标。终端使用者寻求经济有效、产生有统计意义的结果且不需要高技术人员就可以常规实施的方法。

细胞内基因表达的分析已用于提供关于所述细胞的状态，以及重要地，关于所述细胞来源的个体状态的信息。已经确认，细胞内各种基因的相对表达反映着机体内的特定状态。例如，已知癌细胞可表现有各种蛋白质的表达改变，转录物或表达蛋白可因此用作所述疾病状态的标记物。

因此，可对活检组织分析这些标记物的存在，可通过所述标记物的存在鉴定机体其他组织或体液中源于疾病部位的细胞。此外，表达改变的产物可释放至血流，可对这些产物进行分析。另外，已接触疾病细胞的细胞可因其与这些细胞直接接触导致基因表达改变而受累，同样可对其表达或表达产物进行分析。

然而，这些方法有几种限制。例如，鉴定癌症的特定肿瘤标记物的使用具有许多缺陷，比如缺少特异性或灵敏性，标记物除与癌症的特定类型相关还与疾病状态相关，以及对无症状个体的检测困难。

除了对一种或两种标记转录物或蛋白质的分析，最近，已对基因表达模式(expression pattern)进行分析。疾病诊断中涉及大规模基因表达分析的大多数工作，需要来自疾病组织或细胞的临床样本。例如，证明基因表达数据可用来区别相似癌症类型的几个最新出版物，使用了来自疾病组织或细胞的临床样本(Alon等，1999，PNAS，96，p6745-6750；Golub等，1999，Science，286，p531-537；Alizadeh等，2000，Nature，403，p503-511；Bittner等，2000，Nature，406，p536-540)。

然而，这些方法依赖于对含有疾病细胞或这些疾病细胞的产物或被疾病细胞接触过的细胞的样本进行分析。这些样本的分析依赖于疾病的存在以及其位置的知识，而这在无症状的患者中可能是困难的。此外，样本往往并不总能从疾病部位得到，例如在脑疾病中。

在重大意义的发现中，本发明的发明人确认了机体所有细胞先前未使用的潜能，以提供与细胞来源的生物体状态相关的信息。WO98/49342描述了远离疾病部位的细胞基因表达的分析，例如分析远离癌症部位收集的外周血液。通过引用并入本文的PCT/GB03/005102，描述了用于诊断乳腺癌和阿耳茨海默氏病的特异性探针，并且描述了鉴定用于该目的及诊断其他疾病的其他合适探针的方案。

该发现基于这样一个前提：即生物体的不同部分相互之间存在动态地相互作用。当疾病影响到机体的一个部分时，机体的其他部分也会受到影响。这种相互作用源自疾病部位释放并影响机体其他部位的多种生物化学信号。尽管释放信号所诱导的生物化学和生理学变化的性质在不同的机体部位可不同，但是这些变化可以在基因表达水平被检测并用于诊断用途。

生物体内细胞的生理状态取决于基因在细胞内的表达模式。该表达模式依赖于所述细胞所受的内部和外部生物学刺激，这些刺激的程度或性质的任何变化都会引起细胞内的不同基因表达模式的变化。人们越来越认识到，通过分析生物样本中细胞的基因表达模式的系统变化，有可能提供有关作用于细胞的生物刺激的类型和性质的信息。因此，例如，通过检测样本中细胞大量基因的表达，就有可能确定其基因是否是以一种特定的疾病、病症或其分期的特有模式而表达。因此，检测细胞例如来自组织或体液的细胞的基因的行为变化，作为疾病诊断的有力工具已经开始崭露头角。

这些方法有许多优点。通常，从疾病机体的某些部位获得临床样本是困难的，而且可能涉及不希望机体侵入，例如经常使用活检来获得癌症样本。在一些情况下，例如阿耳茨海默氏病，疾病脑样本只能在死后获得。另外，所获得的组织样本通常是非同质的，可含有疾病的和非疾病细胞的混合物，使得所产生的基因表达数据的分析变得复杂和困难。

已有资料表明，在肿瘤形态学表现上似乎具有病理遗传同质性的一组肿瘤组织，在分子水平上可能是高度异质的(Alizadeh，2000，同上)，而且事实上可包含代表基本不同疾病的肿瘤(Alizadeh，2000，同上；Golub，1999，同上)。为了鉴定疾病、病症或其分期，不需要直接源自疾病组织或细胞的临床样本的任何方法都是非常理想的，这是因为表现细胞类型均匀混合的临床样本可以从容易达到的机体部位获得。

我们已鉴定了一个序列家族，其可以衍生出一组探针，所述探针对于鉴定癌症特别是乳腺癌具有惊人的效用。因此，现在我们描述多个基因家族，所述基因家族的表达在癌症患者血液样本的细胞中发生了改变，所述基因家族可用于产生鉴定、诊断或检测癌症或其分期的探针。

在本发明的工作中，发明人检测了癌症患者相对于正常患者的大量基因的表达水平。结果发现，不仅大量基因显示出表达改变，而且那些表达改变的基因根据其功能属于不同的基因家族。这样，这些基因提供了一个基因群，从所述基因群可产生对应的探针，所述探针可共同地用于产生个体中这些基因的表达指纹。因为这些基因的表达在癌症患者中会有所改变，并可因此认为其可提供该状态的信息，自探针集合产生的指纹相对于正常状态可指征疾病。

已确认在癌症患者中差异表达的基因家族总结如下：

(i)涉及蛋白质合成和/或稳定性的蛋白质编码基因；

(ii)涉及防御调节和/或染色质重塑的蛋白质编码基因。

基因家族(i)包括：

(a)核糖体蛋白和核糖体活化蛋白(即：包含核糖体蛋白的成分或

编码涉及其功能修饰的蛋白质，其被发现在癌症患者中下调)的基因，其编码的蛋白质包括核糖体蛋白L1-L56、L7A、L10A、L13A、L18A、L23A、L27A、L35A、L36A、L37A、P0、P1、P2、S2-S29、S31、S33-S36、S3A、S15A、S18A、S18B、S18C、S27A、63、115(和假基因)，核糖体蛋白激酶(例如S6激酶)、核糖核酸酶、推定的S1 RNA结合区蛋白质、真核翻译起始因子和鸟嘌呤核苷酸结合蛋白G；

(b)编码翻译抑制和起始因子(即涉及mRNA翻译成蛋白质产物的蛋白质，发现其在癌症患者中下调)的基因，其编码的蛋白质包括真核的翻译延伸因子、tRNA合成酶、RNA结合蛋白、聚腺苷酸化元件结合蛋白、酪氨酸磷酸酶、真核的翻译起始因子，及RNA聚合酶I，III转录因子；

(c)编码转录或翻译的其他调节因子的基因，例如细胞周期蛋白D-型结合蛋白和鸟嘌呤核苷酸结合蛋白。

基因家族(ii)包括：

(a)编码免疫应答相关蛋白(即：响应于免疫刺激而上调的蛋白质，其包括响应于炎症或在产生炎症应答的反应中上调的蛋白质，其被发现在癌症患者中上调)的基因，其编码的蛋白质包括T-细胞受体和相关组分，例如蛋白激酶，各种细胞因子，包括白细胞介素及其受体(例如IL-1、IL-2、IL-3、IL-4、IL-5、IL-6、IL-7、IL-8、IL-9、IL-10、IL-11、IL-12、IL-13、IL-15 IL-17、IL-18 IL-20、IL-22、IL-24)，肿瘤坏死因子及其受体及其超家族(例如TNF超家族成员TNF2、TNF3、TNF4、TNF5、TNF6、TNF7、TNF8、TNF9、TNF11、TNF12、TNF13、TNF14、TNF15)，干扰素调节因子，制瘤素M，白血病抑制因子，趋化因子配体及受体家族(例如编号1-28)，补体组分，干扰素刺激因子例如转录因子，MHC(例如HLA)I类或II类(或相关组分)(例如DQ、DR、DO、DP、DMα或DMβ)，黏着蛋白(例如CD1A、CD1C、CD1D、CD3Z、CD6、CD8、CD11、CD14、CD18、CD24、CD27、CD28、CD29、CD40、CD44、CD50、CD54、CD59、CD74、CD79B、CD80、CD81、CD83、CD86、CD96、ICAM)，B-细胞中κ多肽基因增强子的核因子，髓鞘碱性蛋白，组织蛋白酶，toll-样受体，蛋白体亚基，铁蛋白，蛋白激酶或磷酸酶及其活化剂和抑制剂，白细胞免疫球蛋白样受体，免疫球蛋白组分，例如重链或Fc片断(例如IgG、IgB或IgA或其超家族的重链或Fc片断)，防卫素，催产素，S100钙结合蛋白，凝集素及其受体和超家族，瘦蛋白，磷脂酶，以及生长因子(例如内皮细胞生长因子或红细胞生成素)；

(b)编码TNF-诱导蛋白(即在个体内在暴露于TNF时相应地被诱导的蛋白质，其被发现在癌症患者上调)的基因，其编码的蛋白质包括TNFα-诱导蛋白8，整联蛋白，B-细胞中κ轻链多肽基因增强子抑制物，TNF-相关因子2、TNF-相关因子5，B-细胞中κ轻链多肽基因增强子的核因子，MAP激酶，蛋白激酶C，遍在型激酶(ubiquitous kinase)，钙黏着蛋白，胱天蛋白酶(caspases)，细胞周期蛋白D1，超氧化物歧化酶和白细胞介素；

(c)编码低氧诱导蛋白(即当个体或其部分在低氧状态下时被诱导的蛋白质，发现其在癌症患者上调)的基因。其编码的蛋白质包括sestrin，E1A结合蛋白p300，内皮缩血管肽，毛细血管扩张性共济失调和Rad3相关蛋白，己糖激酶2，TEK酪氨酸激酶，DNA断裂因子，胱天蛋白酶，纤溶酶原激活物，低氧诱导因子1(hypoxia inducible factor 1)及葡糖磷酸异构酶；

(d)氧化应激蛋白(即当个体或其部分在氧化应激状态下而被诱导的蛋白质，发现其在癌症患者上调)的编码基因，其编码的蛋白质包括超氧化物歧化酶，谷胱甘肽合成酶，过氧化氢酶，乳过氧化物酶，甲状腺过氧化物酶，髓过氧化物酶，嗜酸性粒细胞过氧化物酶，氧抗性1(oxidation resistance1)，过氧化物氧还蛋白，细胞色素P450，清道夫受体，对氧磷酶，谷胱甘肽还原酶，NAD(P)H脱氢酶，谷胱甘肽S-转移酶，联蛋白，谷氧还蛋白，热休克蛋白(例如热休克转录因子)，有丝分裂原活化蛋白激酶，烯醇化酶，硫氧还蛋白还原酶及过氧化物氧还蛋白；

(e)编码染色质重塑有关蛋白(即有助于维持或修饰染色质结构，并为基因调节所必需的蛋白质)的基因。其编码的蛋白质包括组蛋白置换蛋白(histone replacement proteins)，例如H3.3A或H3.3B家族。

属于上述家族的合适基因序列可通过使用如家族名的关键字查询而确认，如在挪威国家生物技术信息中心(National Centre for BiotechnologyInformation，Norway)的基因或蛋白质数据库中使用“免疫反应”。为证实所述基因序列对于开发用于本发明所述试验的寡核苷酸的效用，可对试验癌症患者与正常患者进行比较评估特定基因序列的表达。在对照水平之上或之下的表达差异提示所述序列对于探针衍生是有效用的。

通常，在癌症患者中，相对于正常患者，上述家族(i)的编码基因下调，而家族(ii)中的编码基因上调。

推测在癌症患者中，涉及核糖体产生和翻译控制的基因表达的系统性减少，提示血细胞通过减少蛋白质合成的速率对所述患者中的新情况作出反应，这可能是对低氧和能量缺乏环境的细胞适应。这可受到下述观察结果的支持：即在癌症样本中，涉及防御活性氧类别(ROS)的基因，例如MnSOD和铁蛋白上调。低的红细胞生成素可解释癌症患者中的低氧水平。由于已知TNF上调如铁蛋白、防卫素、MnSOD及钙粒蛋白B的表达，TNF活化也被认为是上述基因家族变化的一种途径。TNF还可抑制EPO产生，EPO自身可造成血液环境中的低氧状况。已知低氧诱导TNF水平。这些变化可被进入血流的血管生成因子(angiogenic factors)触发。虽然不希望受理论限制，在表1中描述了解释上述效应的假说。

因此，本发明提供对应于细胞中表达受影响的基因的寡核苷酸探针组，所述基因表达是以特定癌症或其分期特有的模式被影响的，其中所述基因受所述癌症或其分期系统地影响。优选地，所述基因组成性地中度或高度表达，优选地，所述基因在样本细胞中，但不在疾病细胞或已接触所述疾病细胞的细胞中中度或高度表达。

这些探针，特别当从与远离疾病部位的细胞分离时，不依赖于疾病的发展达到临床可识别的水平，使得人们在所述癌症发病之后很早的时期内，甚至在其他主观或客观症状出现之前几年，就可以检测癌症或其分期。

本发明使用的“系统地”受影响的基因，是指机体中未直接接触疾病细胞或疾病部位而表达受影响的基因，而且所研究的细胞不是疾病细胞。

本发明所述的“接触”是指细胞互相接近以致可观察到一个细胞对其他细胞的直接作用，如免疫反应，其中这些反应不是通过第一细胞所释放的远距离影响第二细胞的次级分子来介导的。优选地“接触”是指物理接触，或空间上可能的最接近的接触，方便地，互相接触的细胞出现在同一单位体积中，如1cm³内。

“疾病细胞”是表现表型变化并在其生存期中的某段时间存在于疾病部位的细胞，如肿瘤部位的肿瘤细胞或从肿瘤播散的肿瘤细胞，或者，就脑癌而言为脑细胞。

“中度地或高度”表达的基因是指以超过30-100拷贝/细胞的拷贝数(假设细胞中具有平均3×10⁵mRNA分子)存在于静息细胞中的基因。

本发明提供具有上述性质的特异性探针。

因此，在一个方面，本发明提供寡核苷酸探针组，所述寡核苷酸探针组包括选自下述的至少10种寡核苷酸：

对应于上文定义的家族(i)或家族(ii)的基因序列或从这些序列衍生的寡核苷酸，或具有互补序列的寡核苷酸，或功能上等同的寡核苷酸。

本发明还提供一种制备用于本发明所述方法的寡核苷酸组的方法，其包括下述步骤：选择对应于家族(i)的基因序列的一种或多种寡核苷酸及对应于家族(ii)基因序列的一种或多种寡核苷酸。优选地从每个家族(如从不同的亚家族)选取多于1种寡核苷酸，并且所选的寡核苷酸来自本发明所述的优选基因。

本发明还提供一种或多种寡核苷酸探针，其中各寡核苷酸探针选自列于表2、3或4(如自表2)的寡核苷酸，或从表2、3或4所述序列衍生的寡核苷酸，或其互补序列。所述衍生的寡核苷酸包括与上述表中提供的序列对应的基因，如表2、5或6(参见登录号)所述基因衍生的寡核苷酸，或其互补序列。所述探针在本发明的产品和方法中的用途，形成本发明的其他方面。

本发明所述的“寡核苷酸”是一种核酸分子，其聚合结构中具有至少6个单体，即核苷酸或其修饰形式。核酸分子可为DNA、RNA或PNA(肽核酸)，或其杂交形式，或其修饰形式，如通过甲基化或在合成过程中由修饰碱基或非天然碱基组成的化学修饰形式，如LNA(锁定核酸)，只要它们保留其结合互补序列的能力。根据本发明，所述寡核苷酸用于探测目标序列，因此在本发明还称其为寡核苷酸探针或直接称为探针。

对应于家族(i)或家族(ii)的基因序列的寡核苷酸是指对应于所述基因序列或其转录物的全部或部分的寡核苷酸。当使用基因序列的部分时，其满足本发明所述寡核苷酸探针的要求，如长度和功能。优选地所述部分具有下文所述的大小。该寡核苷酸在下文中称为“基本寡核苷酸”。“衍生的寡核苷酸”是指作为基本寡核苷酸的部分，但满足本发明所述探针要求的寡核苷酸。

优选地，形成所述寡核苷酸探针组的寡核苷酸探针为至少15个碱基长度以允许目标分子结合。尤其优选地，所述寡核苷酸探针为20个至200个碱基长度，如30个至150个碱基，优选50-100个碱基长度。

本发明所述术语“互补序列”是指具有连续互补碱基(即T：A，G：C)的序列，并且所述互补序列因此能通过它们的互补性互相结合。

“10种寡核苷酸”是指10种不同的寡核苷酸。虽然来自本发明所述的基因序列家族的寡核苷酸、衍生的寡核苷酸及其功能上的等同物被看作不同的寡核苷酸，但不将互补的寡核苷酸看作不同的寡核苷酸。但是优选地，所述至少10种寡核苷酸对应于所述基因序列家族中的10种不同基因序列(或衍生的寡核苷酸或其功能上的等同物)。因此，所述10种不同寡核苷酸优选地能结合10种不同的转录物。

优选地，所述至少10种寡核苷酸由家族(i)和家族(ii)的寡核苷酸的组合组成，例如可以使用来自每个家族的5种寡核苷酸，或来自一个家族的4种和来自另一家族的6种。这样就有利地让与正常患者相比在癌症患者中上调或下调的基因的使用成为可能。方便地，可以使用来自不同的亚家族的一种或多种寡核苷酸，如来自(i)a、(i)b、(i)c、(ii)a和(ii)b的各2种探针。尤其优选地，所述寡核苷酸组包括来自家族(i)a、(ii)和(ii)e的寡核苷酸。

家族(i)a基因编码的优选蛋白质是核糖体蛋白，并且，优选地，各组包括来自所述蛋白质的编码基因的寡核苷酸。

家族(ii)a基因编码的优选的免疫反应蛋白包括黏着蛋白家族，白细胞介素及其受体和超家族，TNF及其受体和超家族，免疫球蛋白组分和红细胞生成素。

特别优选地，所述寡核苷酸组包括来自编码一种或多种核糖体蛋白和任选地一种或多种组蛋白和任选地铁蛋白的基因的寡核苷酸。

优选地，所述寡核苷酸如表2或3所示，或衍生自表2或3所示，例如表2所示的序列。所述寡核苷酸组还可包括如表4所列的，或者自表4所示序列衍生的一种或多种寡核苷酸探针，或其互补序列。所述衍生的寡核苷酸包括衍生自所述表中提供的序列对应的基因，如表2、5或6(参见登录号)所述基因衍生的寡核苷酸，或其互补序列。

所述“组”是指独特的寡核苷酸探针(即具有异于其它的序列)的集合，并且优选地由少于1000种寡核苷酸探针，尤其是少于500种探针，如优选地10至500种，如10至100种，200或300种，尤其优选地20至100种，如30至100种探针组成。在某些情况下，可使用少于10种探针，如2至9种探针，如5至9种探针。

应该知道，增加探针的数量，可以通过与能类似地改变所述特定基因表达的其他疾病比较，而防止做出不良分析例如误诊的可能性。本发明未描述的其他寡核苷酸探针也可存在，尤其是如果它们有助于所述组寡核苷酸探针的最终用途。但是，优选地，所述组只由本发明所述的寡核苷酸或其亚组(如上述大小的组)组成。

每组中可存在每种独特的寡核苷酸探针的多个拷贝，如10个或更多拷贝，但这些拷贝仅构成单独一种探针。

寡核苷酸探针组优选地可以固定化在固体载体上或者具有这样固定化的工具，这样的探针组包括选自上述的那些中的至少10种寡核苷酸探针。如上面指出的，这10种探针必须是独特的，并具有不同的序列。但是，识别相同的基因但反映不同的剪接事件的两种不同的探针是可以使用的。不过优选的是互补于并结合于不同的基因的寡核苷酸探针。

本文中使用的“功能上等同的”或衍生的寡核苷酸是指这样的寡核苷酸，它能够与来自本文所述的基因序列家族中的序列的寡核苷酸识别相同的基因，即，它可以和所述基本寡核苷酸或所述衍生的寡核苷酸(或其互补序列)结合转录自基因(目标核酸分子)的相同的mRNA分子(或DNA)。

因此，在优选的方面中，所述衍生的或功能上等同的寡核苷酸是表2、5或6中定义的基因序列的部分，或其互补序列。优选地，所述功能上等同的寡核苷酸序列与基本寡核苷酸或衍生的寡核苷酸能够识别即结合相同的剪接产物。优选地，所述mRNA分子是对应于所述基本核苷酸或衍生寡核苷酸的全长mRNA分子。

本发明所述的“能结合”或“结合”是指在下文所述条件下杂交的能力。

或者可以这样表述，功能上等同的寡核苷酸(或互补的序列)与目标分子的区域具有序列同一性或如下文所述地与目标分子的区域杂交，其中基本寡核苷酸或衍生的寡核苷酸或互补寡核苷酸与所述目标分子结合。优选地，功能上等同的寡核苷酸(或它们的互补序列)在下文所述的条件下，与对应于基本寡核苷酸或衍生的寡核苷酸的mRNA序列之一杂交，或者与对应于基本寡核苷酸或衍生的寡核苷酸的mRNA序列之一的部分具有序列同一性。这里“部分”是指至少5个，例如至少10或20个碱基，如5到100个，例如10到50个或10到30个碱基的序列段。

在一个特别优选的方面，功能上等同的寡核苷酸结合基本寡核苷酸或衍生的寡核苷酸所结合的目标核酸分子(mRNA或cDNA)的所有或部分区域。“目标”核酸分子是基因转录物或相关产物如mRNA，或cDNA，或其扩增产物。所述基本寡核苷酸或衍生的寡核苷酸结合的所述目标分子的所述“区域”为存在互补性的序列段。该区域最大是基本寡核苷酸或衍生的寡核苷酸的全长，但如果整个基本序列或衍生的寡核苷酸不是整个地与目标序列的区域互补，那么该区域可能会短些。

优选地，所述目标分子的所述区域的所述部分是至少5个碱基，如至少10或20个碱基，例如5至100个碱基，如10至50个或15至30个碱基的范围。这可例如通过有几个碱基与基本寡核苷酸或衍生的寡核苷酸的碱基相同的所述功能上一致的寡核苷酸实现。这些碱基可以在连续的序列段上，例如功能上等同的寡核苷酸的部分中一致，也可非连续地存在，但提供充足的互补性以允许结合目标序列。

因此，在一个优选的方面，所述功能上等同的寡核苷酸在高严紧条件下与基本寡核苷酸或衍生的寡核苷酸或其互补序列杂交。或者可以这样表述，所述功能上等同的寡核苷酸表现与基本寡核苷酸的全部或部分具有高的序列同一性。优选地，所述功能上等同的寡核苷酸与基本寡核苷酸的全部或其部分具有至少70％序列同一性，优选地至少80％，如至少90％、95％、98％或99％。这里所使用的“部分”是指在所述基本寡核苷酸中的至少5个，如至少10或20个碱基，例如5至100个，如10至50个或15至30个碱基的序列段。尤其优选地，当仅与所述基本寡核苷酸的一部分存在序列同一性时，序列同一性是高的，如上述的至少80％。

满足上述功能要求的功能上等同的寡核苷酸，包括衍生自基本寡核苷酸的寡核苷酸，还包括这样的寡核苷酸：它们通过单个或多个核苷酸碱基的置换、添加和/或缺失而被修饰，但仍保留功能活性，例如它们与基本寡核苷酸或衍生寡核苷酸结合相同的目标分子，其中它们是从所述基本寡核苷酸或衍生寡核苷酸进一步衍生或修饰而成的。优选地，所述修饰是1到50，例如10到30，优选1到5个碱基的修饰。特别优选地，只存在次要的修饰，例如少于10个碱基中的改变，例如少于5个碱基的改变。

“添加”等同物的意义中包括这样的寡核苷酸，其包含与目标分子上连续的碱基序列段互补的附加序列，而所述基本寡核苷酸或衍生的寡核苷酸与所述连续的碱基序列段结合。或者，所述添加可包含不同的、非相关的序列，其例如可赋予另外的性质，例如提供固定化的工具，如接头(linker)，来将寡核苷酸探针固定到固相载体上。

特别优选天然存在的等同物，例如生物变体，例如等位、地理或异型变体，例如对应于基因变体，例如存在于别的物种中的。

功能等同物包括带有修饰过的碱基，如使用非天然存在的碱基的寡核苷酸。所述衍生物可在合成过程中或通过生产后修饰进行制备。

在低严紧的条件下结合的“杂交”序列是那些在非严紧条件下(例如，室温、6×SSC/50％甲酰胺)结合，并且当在低严格条件下(2×SSC、室温，更优选2×SSC、42℃)被洗涤时仍保持结合的序列。在高严紧条件下杂交是指上述条件中在2×SSC、65℃(其中SSC＝0.15M NaCl，0.015M柠檬酸钠，pH7.2)进行洗涤。

本发明所述的“序列同一性”是指当使用ClustalW(Thompson等，1994，Nucl.Acids Res.，22，p4673-4680)评估时获得的值，使用下述参数：

配对比对(pairwise alignment)参数-方法(Method)：准确(accurate)，矩阵(Matrix)：IUB，空位罚分(Gap open penalty)：15.00，空位延伸罚分(Gapextension penalty)：6.66；

多重比对(multiple alignment)参数-矩阵：IUB，空位罚分：15.00，延迟同一性％(％identity for delay)：30，负矩阵(Negative matrix)：无，空位延伸罚分：6.66，cDNA转换加权(DNA transitions weighting)：0.5。

特定碱基的序列同一性意在包括仅被衍生的相同碱基。

本发明还延伸至由表2、3或4的寡核苷酸或表2、3或4衍生的寡核苷酸(如具有表2、5或6定义的序列或其互补序列)结合的mRNA序列编码的多肽。本发明进一步延伸至结合任何所述多肽的抗体。

如上所述，方便地，所述寡核苷酸探针组可被固定在一种或多种固体载体上。各特异性探针的单一或优选地多个拷贝结合至所述固体载体，如10个或更多，如存在至少100个拷贝的各特异性探针。

一种或多种独特的寡核苷酸探针可联结不同的固体载体，其一起形成固定于多个固体载体上的探针组，如一种或多种特异性探针可被固定于多个小珠、膜、过滤器材(filter)、生物芯片(biochip)等之上，一起形成探针组，这些探针组一起形成下文所述的试剂盒组件。虽然与各探针(如下文所述产生的)关联的信号必须是可分别确定的，不同组件的固体载体方便地物理结合。或者，探针可被固定于相同固体载体上的不连续的部分，如各种独特的寡核苷酸探针，例如以多个拷贝的形式，可被固定于单个过滤器材或膜的不同及不连续部分或区域，如以产生阵列。

也可使用所述技术的组合，如可使用几种固体载体，其中每种固定几种独特的探针。

术语“固体载体”是指能通过疏水、离子或共价桥(bridge)结合寡核苷酸的任何固体材料。

本发明使用的“固定”是指通过所述的结合作用所述探针与所述固体载体可逆或不可逆的联结。如果是可逆的，所述探针与所述固体载体保持联结足够的时间以实施本发明方法。

根据本发明适于作为固定部分的许多固体载体为本领域公知，并且广泛描述于文献中，一般而言，固体载体可为当前广泛用于或被建议用于化学或生物化学方法中的固定、分离等的任何公知载体或基质。所述材料包括，但不限于，任何合成有机聚合物例如聚苯乙烯，聚氯乙烯，聚乙烯；或硝酸纤维素和乙酸纤维素；或甲苯磺酰基活化的表面；或携带适于共价偶联核酸的基团的玻璃或尼龙或任何表面。固定部分可采取颗粒、薄片、凝胶、过滤器材、膜、微纤维小条、试管或平板，纤维或毛细管的形式，可用例如聚合材料如琼脂糖、纤维素、藻酸盐或酯、聚四氟乙烯、胶乳或聚苯乙烯或磁性小珠制造。可以呈现阵列，优选单维阵列的固体载体是优选的，如薄片、过滤器材、膜、平板或生物芯片。

核酸分子对固体载体的附着(attachment)可直接或间接进行。例如，如果使用过滤器材，可通过UV诱导的交联进行附着。或者，附着可通过寡核苷酸探针和/或固体载体上所带的附着部分间接进行。因此，例如，可使用一对亲和结合配偶体(affinity binding partners)，例如抗生物素蛋白、链霉抗生物素蛋白或生物素、DNA或DNA结合蛋白质(如lac I阻遏蛋白或其所结合的lac操纵子序列)、抗体(可为单克隆或多克隆抗体)，抗体片段或抗体的表位或半抗原。在这些情况下，结合对中的一个配偶体附着于固体载体(或为其固有部分)，而另一个配偶体附着于核酸分子(或为其固有部分)。

如本发明使用的“亲和结合对”是指特异地(即优先于结合其他分子)相互识别和结合的两种组分。所述结合对当结合在一起时形成复合物。

合适的功能基团对固体载体的附着可通过本领域公知方法进行，包括例如通过羟基、羧基、醛基或氨基基团的附着，这些基团可通过处理固体载体以提供合适的表面包被来提供。呈现供结合配偶体附着的合适部分的固体载体，可通过本领域已知的常规方法制备。

合适的功能基团对本发明寡核苷酸探针的附着，可通过连接进行或在合成或扩增过程中引入，例如使用携带合适部分例如生物素或用于捕获的特定序列的引物。

方便地，上文所述的探针组以试剂盒形式提供。

因此，从另一方面来看，本发明提供了一种试剂盒，其包括上文所述的寡核苷酸探针组，所述探针被固定于一种或多种固体载体上。

优选地，所述探针被固定于单一固体载体，并且每种独特的探针附着于所述固体载体的不同区域。但是，当附着于多种固体载体时，所述多种固体载体形成组成试剂盒的组件。尤其优选地所述固体载体是薄片、过滤器材、膜、平板或生物芯片。

任选地试剂盒还可包含下述：与正常或疾病样本产生的信号相关的信息(如下文有关试剂盒使用的更详细讨论)，标准化材料，如用于对照的来自正常和/或疾病样本的mRNA或cDNA，供掺入cDNA的标记物，用于引入供扩增的核酸序列的连接物，用于扩增的引物和/或合适的酶，缓冲液和溶液。任选地，所述试剂盒还可包含描述如何实施本发明方法的说明书，任选地提供用于解析实施发明时获得的结果的标准图、数据或软件。

所述试剂盒用于生成如下文所述的标准诊断基因转录物模式的用途，构成本发明的另一方面。

本发明所述的探针组有多种用途。但它们主要用于评估检测细胞的基因表达状态以提供与所述细胞来源的生物体相关的信息。因此，探针可用于诊断、鉴定或监测生物体中的癌症或其分期。

因此，在另一方面，本发明提供上文所述的寡核苷酸探针组或试剂盒用于确定细胞的基因表达模式的用途，该模式反映了所述寡核苷酸探针结合的基因的基因表达水平，包括至少下述步骤：

a)从所述细胞分离mRNA，所述mRNA可任选地逆转录为cDNA；

b)使步骤(a)的mRNA或cDNA与本发明定义的寡核苷酸探针组或试剂盒杂交；及

c)评估与所述各探针杂交的mRNA或cDNA数量以产生所述模式。

该方法及下文方法中所述的mRNA和cDNA，包含所述分子的衍生物或拷贝，例如所述分子的拷贝，例如这样的拷贝：其通过互补链的扩增或制备所产生，但保留mRNA序列的同一性，即可基于所述分子中至少某个区域上的精确互补性或序列同一性与直接转录物(或其互补序列)杂交。应该知道，当使用了可能截短转录物或引入新序列的技术，例如通过引物扩增的技术时，互补性不会在整个区域上都存在。为方便起见，所述mRNA或cDNA优选地在步骤b)之前被扩增。如同本发明所述寡核苷酸一样，所述分子可被修饰，如通过在合成过程中，在保留互补性的条件下使用非天然碱基。所述分子还可携带其他部分如信号或固定工具。

涉及制作所述模式的方法的多个步骤在下文更详细描述。

本发明使用的“基因表达”是指特定基因的转录以产生特定mRNA产物(即特定剪接产物)。基因表达的水平可通过评估被转录的mRNA分子，或自mRNA分子逆转录的cDNA分子，或那些分子衍生的产物的水平来确定，例如利用扩增手段。

该技术创造的“模式”是指，例如，可以用表格或图解形式表示的信息，该信息传达关于两种或更多种寡核苷酸相关信号的信息。优选地，所述模式表示为与各探针相关的表达水平有关的数组。

优选地，所述模式使用以下线性模型建立：

y＝Xb+f 公式1

其中，X是基因表达数据矩阵，并且y是反应变量(response variable)，b是回归系数向量，f是估计的残差向量。虽然许多不同的方法可用于建立公式1提供的关系，尤其优选地偏最小二乘法回归(PLSR)方法用于建立公式1中的关系。

因此使用探针来产生反映其分离时细胞的基因表达的模式。表达的模式反映了细胞所处的环境的特征，并且依赖于细胞所受到的影响。因此，可制作来自患有特定癌症的个体的细胞的特征性基因转录物模式标准或指纹(标准探针模式)，并用它来与待测细胞的转录物模式比较。这对于生物体是否患有特定癌症或其分期的诊断、监测或鉴定具有明确的适用性。

标准模式是通过测定来自细胞的总mRNA(或cDNA或相关产品)与探针结合的程度来制作的，其中所述细胞来自患有癌症或其分期的一种或多种生物体的样本。这反映了对应于各种独特探针的转录物存在的水平。评估结合不同探针的核酸物质的量，该信息共同形成所述癌症或其分期的基因转录物模式标准。每个这样的标准模式都反映所述癌症或其分期的特征。

因此，在另一方面中，本发明提供一种制作反映生物体中癌症或其分期的特征的标准基因转录物模式的方法，其至少包括如下步骤：

a)从患有癌症或其分期的一种或多种生物的样本的细胞分离mRNA，所述mRNA可任选地被反转录为cDNA；

b)使步骤(a)的mRNA或cDNA与本发明定义的寡核苷酸探针组或试剂盒组件杂交，所述寡核苷酸探针组或试剂盒组件对于与所研究的生物体或其样本相对应的生物体或其样本中的所述癌症或其分期是特异性的。

及c)评估与所述各探针杂交的mRNA或cDNA的数量以产生特征性模式，所述特征性模式反映了癌症或其分期样本中所述寡核苷酸结合的基因的基因表达水平。

为方便起见，优选将所述寡核苷酸固定于一种或多种固体载体上。

使用特定探针所得的多种癌症及其不同分期的标准模式可积累于数据库中，并可供实验室索取。

本发明所述的“疾病”样本和生物体，或“癌症”样本和生物体，是指具有异常细胞增殖，例如在实体中，如肿瘤中的异常细胞增殖的生物体(或相同来源的样本)。称所述生物体患有或表现有所研究的癌症或分期。

其“分期”是指癌症的不同分期，其可表现或不表现特定生理性或代谢性变化，但其表现基因水平上的变化，所述基因水平上的变化可作为基因表达的改变而被检测出。应该知道，在癌症过程中不同转录物的表达可变化。因此，在不同的分期中，与“正常”样本比较，特定的转录物可能不显示表达的改变。但是，可以将癌症病程中的一个或多个分期显示表达改变的几种转录物的信息组合起来，提供指征癌症的特定分期的特征性模式。因此，可鉴定例如癌症的不同分期，如I前期，I期，II期，II期或IV期。

本发明使用的“正常的”是指用作对照的生物体或样本。优选地，这些生物体或样本是“正常的”，意思是其不表现可影响基因表达的任何疾病或病症的指征，或者被认为不具有影响基因表达的任何疾病或病症，特别是对于要用它们作为正常标准的癌症而言。但是应该理解，可能会在癌症的不同分期之间作比较，在这样的情况下，“正常”样本可对应于癌症的较早期。

本发明使用的“样本”是指从生物体，如所研究的人类或非人类动物获得的任何材料，其含有细胞，并包括组织、体液或身体废物，或在原核生物情况下为生物体本身。“体液”包括血液、唾液、脊髓液、精液、淋巴液。“身体废物”包括尿、咳出物(肺相关患者)、粪便等。“组织样本”包括通过活检、手术介入或其他途径如胎盘获得的组织。但是优选地，被检测的样本来自不受癌症明显影响的身体区域。这样的样本中的细胞不是疾病细胞，即癌细胞，未与所述疾病细胞接触，并且非起源于癌症的部位。“疾病部位”被认为是以可客观确定的方式表现疾病如肿瘤的身体部分。因此，例如，外周血液可用于非造血系统癌症的诊断，并且血液不需要其中存在来自癌症的恶性细胞或播散细胞。同样，在由于血脑屏障而在血液中未发现疾病细胞的脑疾病中，外周血液也可用于本发明的方法。

然而，应该知道，制作标准转录模式的方法和本发明的其他方法还可适用于真核生物体的有生命部分，例如细胞系和器官培养物及外植体。

如本发明所使用，“对应的”样本等是指优选地来自相同组织、体液或身体废物的细胞，但也包括来自对制作标准模式或检测模式而言足够相似的组织、体液或身体废物的细胞。当用于指与探针“对应的”基因时，是指探针在序列上相关(可为互补的)的基因，尽管所述探针可反映表达的不同剪接产物。

本发明使用的“评估”是指定量和定性评估，其可以在绝对或相对的意义上测定。

本发明可实施如下。

为了制作特定癌症或其分期的标准转录模式，根据已知技术从患病个体或生物的组织、体液或身体废物的细胞提取mRNA样本(参见例如Sambrook等，(1989)，Molecular Cloning：A laboratory manual，第二版，ColdSpring Harbor Laboratory Press，Cold Spring Harbor，N.Y.)。

由于操作RNA的困难，在此阶段优选将RNA逆转录为第一链cDNA。然而，在本发明的这个方法或其他方法中，cDNA的克隆或cDNA文库的筛选或使用都不是必需的。优选地，合成第一链cDNA的互补链，即第二链cDNA，但这将取决于哪条相关链存在于寡核苷酸探针中。然而，可选地，RNA可不需要逆转录而直接使用，并且如果需要可进行标记。

优选地，通过已知扩增技术例如聚合酶链式反应(PCR)使用合适的引物扩增cDNA链。可选地，可使用载体对cDNA链进行克隆，用该载体转化细菌如大肠杆菌(E.coli)，然后可以培养所述大肠杆菌而扩增所述核酸分子。当cDNAs的序列未知时，引物可针对引入的核酸分子的区域。因此，例如，可以将衔接子(adapter)连接到cDNA分子和指向这些区域的引物以扩增cDNA分子。可选地，在真核样本情况下，可利用多聚A尾和RNA帽制备合适的引物。

为产生特定癌症或其分期的标准诊断基因转录物模式或指纹，使用上述的寡核苷酸探针探测疾病样本的mRNA或cDNA，以产生与各特定寡核苷酸探针种类，即各个独特探针杂交的信号。如果需要，还可使用正常样本的mRNA或cDNA制作标准对照基因转录物模式。因此，使得mRNA或cDNA在合适的条件下与寡核苷酸探针接触以允许杂交。

当探测多个样本时，可以使用相同的探针，例如在一种或多种固体载体即探针试剂盒组件上的相同探针连续进行，或通过同时与对应的探针，例如对应的探针试剂盒的组件杂交进行。

为确定杂交发生和获得结合寡核苷酸探针的转录物/cDNA分子数量的指征，有必要鉴定转录物(或相关的分子)杂交时产生的信号(如通过检测双链核酸分子，或者在去除未结合分子，例如通过洗涤去除未结合分子之后，检测结合的分子)。

为了获得杂交的信号，杂交的组分之一或两者(即探针和转录物)均携带或形成信号工具或其部分。该“信号工具”是能够通过信号的产生或存在直接或间接检测的部分。信号可以是任何可检测的物理特征，例如由下面的性质所赋予的特征：辐射发射性质、散射或吸收性质、磁性质，或其他物理性质如电荷、存在的分子(如标记物)的大小或结合特性，或可产生的分子(如气体排放等)。

优选允许信号扩增的技术，例如从单个活性结合位置产生多信号事件，例如通过酶催化反应产生多个可检测的产物的技术。

方便地，信号工具可为自身提供可检测信号的标记物。方便地，这可通过使用放射性标记物或其他标记物而实现，其中所述放射性标记物或其他标记物可在cDNA产生过程中、互补cDNA链制备过程中、目标mRNA/cDNA扩增过程中掺入目标核酸分子，或者被直接添加至目标核酸分子。

合适的标记物是那些直接地或间接允许检测或测定转录物/cDNA存在的标记物。所述标记物包括例如放射性标记物、化学标记物，例如发色团或荧光基团(例如荧光素和罗丹明染料)，或高电子密度的试剂例如铁蛋白、血蓝蛋白或胶体金。或者，标记物可为酶，例如过氧化物酶或碱性磷酸酶，其中酶的存在通过其与合适的实体如底物相互作用而显现。所述标记物还可构成信号对(signally pair)的部分，其中所述信号对的另一成员可存在于转录物/cDNA结合的寡核苷酸探针上或与其接近，例如，可使用荧光化合物和淬灭荧光底物。标记物还可以在不同实体上，例如抗体上提供，所述实体物质识别附着于转录物/cDNA的肽部分，例如附着到合成或扩增过程中使用的碱基的肽部分。

可在杂交步骤之前、之中或之后引入标记物而获得信号。可选地，杂交转录物的存在可通过其他物理性质如其吸光度而鉴定，并且在此情况下，信号工具是复合物本身。

然后评估与各寡核苷酸探针相关联的信号数量。所述评估可为定量或定性的，并可基于单一转录物种类(或相关的cDNA或其他产物)与每种探针的结合，或多个转录物种类与每种独特探针的多个拷贝的结合来进行。可以理解，该定量结果经过编辑将提供癌症转录物指纹的进一步的信息。该数据可以绝对值(在宏阵列(macroarray)情况下)表示，或可相对于特定标准或参考物，如正常对照样本而确定。

此外，应该理解，可使用一种或多种疾病样本(以及正常样本，如果使用的话)进行杂交步骤来制作标准诊断基因模式转录物，来获得不偏向特定个体基因表达差异的模式。

使用所述探针制作标准模式，及使用由此制作的标准诊断基因转录模式鉴定或诊断或监测特定生物体中的特定癌症或其分期，构成了本发明的另一个方面。

一旦使用所选寡核苷酸探针确定了某个特定癌症或其分期的标准诊断指纹或模式，即可使用该信息来鉴定其它检测生物体或个体中所述癌症的存在、不存在或其程度或分期。

为测定待测样本的基因表达模式，从所研究的患者或生物体获得与用于制作标准模式的样本对应的含有细胞的组织、体液或身体废物的待测样本。然后如上文所述有关标准模式的制作来制作检测基因转录模式。

因此，在另一方面，本发明提供了一种制作待测的基因转录模式的方法，其至少包括下述步骤：

a)从所述待测生物体的样本的细胞分离mRNA，所述mRNA可任选地被逆转录为cDNA；

b)使步骤(a)的mRNA或cDNA与上文所述的寡核苷酸探针组或试剂盒组件杂交，所述寡核苷酸探针组或试剂盒组件对于与被研究的生物体或其样本相对应的生物体或其样本中的所述癌症或其分期是特异性的；及

c)评估与所述各种探针杂交的mRNA或cDNA数量以生成所述模式，所述模式反映了在所述待测样本中所述寡核苷酸结合的基因的基因表达水平。

然后，可将该检测模式与一种或多种标准模式比较，来评估样本是否包含癌症或其分期的细胞。

因此，从另一方面来看，本发明提供了一种诊断或鉴定或监测生物体中的癌症或其分期的方法，其包括下述步骤：

a)从所述生物体样本分离mRNA，所述mRNA可任选地被逆转录为cDNA；

b)使步骤(a)的mRNA或cDNA与上文所述的寡核苷酸探针组或试剂盒组件杂交，所述寡核苷酸探针组或试剂盒组件对于与被研究的生物体或其样本相对应的生物体或其样本中的所述癌症或其分期是特异性的；；

c)评估与所述各种探针杂交的mRNA或cDNA数量以生成特征性模式，所述模式反映了在所述样本中所述寡核苷酸结合的基因的基因表达水平；以及

d)将所述模式与标准诊断模式对照，确定所研究生物体中所述癌症或其分期的存在，其中所述标准诊断模式是使用与所研究的生物体及样本对应的生物体的样本，根据本发明的方法制作的。

直到及包括步骤c)的方法为如上所述的检测模式的制作。

如本发明所述，“诊断”是指确定生物体中癌症或其分期的出现(presence)或存在(existence)。“监测”是指确定(establish)癌症的程度，特别当已知个体患有癌症时，例如监测治疗的作用或癌症的发展，如以确定治疗的适合性或提供预后。

癌症或其分期的存在可通过确定标准样本和待测样本的模式之间的相关程度而确定。这有必要考虑到所获得的正常和疾病样本的数值范围。虽然这可能通过获得与探针结合的几种代表性样本的标准偏差而形成标准来确定，但是可以理解，如果待测样本表现与所述标准足够相近的相关性，单独的样本可能足以产生鉴定癌症的标准模式。方便地，通过将与待测样本中信息性探针的表达水平相关的数据插入根据公式1建立的标准诊断探针模式，可预测检测样本中癌症或其分期的存在、不存在或程度。

可以使用各种技术，从最基本的视觉表现(如关于强度)到更复杂的数据操作，来分析使用上述方法得到的数据，以鉴定其背后的模式，该模式反映不同探针结合的各个基因表达水平的相互关系，并且可以数学地定量或表示。方便的，由此得到的原始数据可通过下文所述的数据处理和统计方法进行操作，特别是归一化和标准化所述数据并对所述数据适用分类模型，以确定所述测试数据是否反映特定癌症或其分期的模式。

本发明所述方法可用于鉴定，监测或诊断寡核苷酸探针对其而言是信息性的癌症或其分期或进展。如本发明所述的“信息性”探针是指这样的探针，它们反映在所述癌症或其特定分期中表达改变的基因。本发明的探针当单独使用时对于诊断目的可能不足够具有信息性，但当用作几种探针的其中之一以提供特征性模式时，其可为信息性的，如在上文所述的探针组中使用。

优选地，所述探针对应于受所述癌症或其分期系统性影响的基因。特别优选地，衍生结合本发明探针的转录物的所述基因，被中度或高度表达。使用针对中度或高度表达基因的探针的优点是，要得到必要的基因表达数据集所需的样本较小，如小于1ml的血样。

此外，已发现已被活跃地转录的所述基因倾向于更易于受新刺激的正性或负性影响。另外，因为转录物以通常可检测的水平产生，如不需要达到某个可检测阈值，即可容易检测所述水平的小变化。

在本发明的优选方法中，本发明的探针组对于多种不同癌症或其分期是信息性的。本发明所述的探针亚组可用于诊断、鉴定或监测特定癌症或其分期。

可用所述探针诊断、鉴定或监测的癌症包括胃癌、肺癌、乳腺癌、前列腺癌、肠(bowel)癌、皮肤癌、结肠癌和卵巢癌。特别优选地，所述探针用于乳腺癌分析。

所述诊断方法可单独使用来替代其他诊断技术，或者在这些技术之外附加使用。例如，本发明的方法可用作使用成像技术的诊断的替代性或附加性诊断措施，所述成像技术如磁共振成像(MRI)、超声波成像、核成像(nuclear imaging)或X-射线成像，例如在肿瘤的鉴定和/或诊断中。

本发明的方法可在来自原核或真核生物的细胞上实施，所述真核生物可为任何真核生物，例如人类、其他哺乳动物和兽类、鸟、昆虫、鱼和植物，和任何原核生物，例如细菌。

可实施本发明方法的优选非人类动物包括，但不限于，哺乳动物，特别是灵长类动物、家养动物(domestic animals)、家畜(livestock)和实验动物。因此，用于诊断的优选动物包括小鼠、大鼠、豚鼠、猫、狗、猪、家牛(cows)、山羊、绵羊、马。特别优选地诊断、鉴定或监测人类癌症。

如上所述，研究样本可为可从生物体获得的任何方便样本。然而，优选地，如上所述，样本可从远离疾病部位的部位获得，并且所述样本中的细胞非疾病细胞，未与所述疾病细胞接触以及非来源于疾病部位。在这些情况下，样本可能含有，虽然优选没有不符合这些标准的细胞。但是，因为本发明的探针是与在满足这些标准的细胞中表达改变的转录物相关的，因此，所述探针也是特异性地检测这些细胞的转录水平的变化，即使存在其他本底细胞时也是如此。

已发现这些样本的细胞在大量基因的基因表达中显示显著的和信息性的差异。因此可能会发现，同一探针(或数种探针)，基于与该探针结合的转录物的特定水平或与所述探针结合的程度相对于与其他探针结合程度的相互关系，在有关两种和更多癌症或其分期的测定中具有信息性。因此，使用相对较小数量的探针筛选多种癌症是可能的。这对于探针的选择具有重要意义，对于用于多种诊断的单组探针的使用也具有重要意义。

因此，本发明还提供了用于诊断、鉴定或监测两种或多种癌症或其分期的探针组，其中至少一种所述探针适于所述诊断、鉴定或监测至少两种所述癌症或其分期，并提供了使用所述多组探针的试剂盒和方法。优选地，至少5种探针，如5至15种探针，用于至少两种诊断中。

因此，在另一优选的方面，本发明提供了一种如上文所述的诊断或鉴定或监测方法，用于诊断或鉴定或监测生物体中两种或更多种癌症或其分期，其中在步骤d)中，将该诊断方法步骤c)中产生的所述检测模式，与上文所述制作的至少两种标准诊断模式进行对比，其中各标准诊断模式是为不同癌症或其分期生成的模式。

虽然在优选的方面中所述评估方法涉及生成待测样本的基因转录物模式并将该模式与标准模式进行对照，还可通过检测表达产物和所述产物的水平来测定某些标记物表达的提高或降低。因此，可产生与表达产物有关的标准模式。

在这些方法中，分析由基本寡核苷酸或衍生的寡核苷酸结合的基因编码的一组多肽的表达水平。

多种诊断方法可用于评估存在的多肽的量(或其片段)。可检测多肽的存在或浓度，例如通过使用所述多肽的结合配偶体(如抗体)，其中所述结合配偶体可被固定，以从所述样本中分离所述多肽，然后可测定该多肽的量。

所述多肽的“片段”是指所述多肽的结构域或区域，如抗原性片段，其可被识别为所述多肽的衍生物，以允许特异性结合配偶体的结合。优选地，这样的片段包括所述多肽的显著的部分并对应于正常的合成后加工的产物。

因此，在另一方面，本发明提供了一种制作生物体癌症或其分期的特征性标准基因转录模式的方法，其包括至少下述步骤：

a)从患有癌症或其分期的一种或多种生物体的样本释放出目标多肽；

b)使所述多肽与一种或多种结合配偶体接触，其中每种结合配偶体为特异性针对基本寡核苷酸(或衍生序列)结合的基因编码的标记多肽(或其片段)，使得所述结合配偶体可以与所述目标多肽结合，其中所述标记多肽对对于与被研究的生物体或其样本相对应的生物体或其样本中的所述癌症是特异性的；及

c)评估与所述结合配偶体结合的目标多肽以产生特征性模式，所述特征性模式反映了带有所述癌症或其分期的样本中表达所述标记多肽的基因的基因表达水平。

本发明使用的“目标多肽”是指存在于样本中的待检测多肽，“标记多肽”是基本寡核苷酸或衍生的寡核苷酸结合的基因即基因家族中的基因编码的多肽。目标多肽和标记多肽相同或至少具有高相似性的区域，如抗原表位区，以允许结合配偶体的识别和结合。

目标多肽的“释放”是指适当处理样本以提供所述多肽，其中该多肽是对于结合配偶体的结合而言可及的形式，例如通过裂解存在这些多肽的细胞。在这种情况下，使用的样本不一定需要包括细胞，这是因为目标多肽可从细胞被释放至周围的组织或液体，可分析所述组织或液体，如尿液或血液。然而，优选地，使用本发明所述的优选样本。“结合配偶体”包共同形成如上所述的亲和结合对的各个实体，其中所述结合对的一个配偶体为目标多肽或标记多肽，另一个配偶体，例如抗体，特异性结合所述多肽。

可考虑多种配置用于检测形成的结合对的量。可使用最简单的形式-夹心型(sandwich type)测定，例如免疫测定，如ELISA；这样的测定中，对所述多肽特异的、并携带标记物(如本文他处所述)的抗体可与结合对(如第一抗体：多肽对)结合，然后可检测标记物的量。

可类似地修改本发明所述的其他方法，以分析蛋白表达产物，而非基因转录物和相关的核酸分子。

因此，本发明的另一方面提供了一种制作待测基因转录模式的方法，其至少包括下述步骤：

a)从所述检测生物体样本中释放出目标多肽；

b)使所述目标多肽与一种或多种结合配偶体接触，其中每种结合配偶体特异性地针对由基本寡核苷酸(或衍生序列)所结合的基因编码的标记多肽(或其片段)，以使所述结合配偶体能够与所述目标多肽结合，其中所述标记多肽对于与被研究的生物体或其样本相对应的生物体或其样本中的所述癌症是特异性的；及

c)评估与所述结合配偶体结合的目标多肽以产生特征性模式，所述模式反映了所述待测样本中表达所述标记多肽的基因的基因表达水平。

本发明的另一方面提供了一种诊断或鉴定或监测生物体中的癌症或其分期的方法，其包括下述步骤：

a)从所述检测生物体的样本中释放出目标多肽；

b)使所述目标多肽与一种或多种结合配偶体接触，其中每种结合配偶体特异性针对基本寡核苷酸(或衍生序列)所结合的基因编码的标记多肽(或其片段)，以使得所述结合配偶体能够与所述目标多肽结合，其中所述标记多肽对于与被研究的生物体或其样本相对应的生物体或其样本中的所述癌症是特异性的；及

c)评估与所述结合配偶体结合的目标多肽以产生特征性模式，所述模式反映了所述检测样本中表达所述标记多肽的基因的基因表达水平；及

d)将所述模式与标准诊断模式比较以确定相关程度，该相关程度指征所研究的生物体中所述癌症或其分期的存在，其中所述标准诊断模式是按照上文所述，使用与所研究的生物体及样本对应的生物体的样本制作的。

产生标准模式和检测模式的方法和诊断技术依赖于使用信息性寡核苷酸探针以产生基因表达数据。某些情况下，可能需要从可用的探针中选择这些信息探针，来用于特定的方法，例如诊断特定的癌症；所述可用的探针有例如表2和/或表3的寡核苷酸、表2和/或表3中衍生的寡核苷酸、其互补序列和功能上等同的寡核苷酸，以及任选地表4的寡核苷酸、其衍生的寡核苷酸、互补序列和功能上等同的寡核苷酸。所述衍生的寡核苷酸包括从与这些表格中提供的序列对应的基因，如在表2、表5或表6(参见登录号)中所述基因衍生的寡核苷酸，或其互补序列。下述方法学描述了一种鉴定所述信息性探针的方便方法，或者更具体地说，如何从本发明所述探针中选择合适的探针亚组的方法。

用于特定癌症或其分期分析的探针，可使用现有技术中已知的许多方法进行鉴定，包括通过差异表达或通过文库差减(library subtraction)(参见例如WO98/49342)。如PCT/GB03/005102和下文所述，考虑到大多数转录物的高信息含量，作为起点，也可以直接分析对应于本发明所述序列家族的mRNA或cDNA种类的随机亚组，并从所述亚组挑选最有信息性的探针。下述方法描述了使用结合不同样本的mRNA(或相关分子)的固定寡核苷酸探针(如本发明的探针)，以鉴定哪条探针对于鉴定特定类型的癌症，例如疾病样本，是最有信息性的。

固定的探针可来自多种无亲缘关系或有亲缘关系的生物体；唯一的要求是，在待测生物体中，固定的探针应该特异性结合其同源对应物。探针还可来自商业来源的或公共的数据库并固定于固体载体。所选择的探针有必要对应于本发明所述基因序列家族中的基因中的一种，但目的探针可从整个家族群体中随机选择。

固定于固体载体的探针长度应该足够长以允许与目标序列特异结合。固定的探针可为DNA、RNA或其修饰的产物或PNAs(肽核酸)的形式。优选地，固定的探针应该特异性结合其代表待测生物体中高度和中度表达的基因的同源对应物。方便地，所使用的探针为本发明所述的探针。

生物样本中细胞的基因表达模式可使用现有技术，例如下述的微阵列或宏阵列，或使用本发明所述方法产生。目前已开发了几种用于同时监测生物样本中大量基因表达水平的技术，例如，高密度寡阵列(oligoarray)(Lockhart等，1996，Nat.Biotech.，14，p1675-1680)、cDNA微阵列(Schena等，1995，Science，270，p467-470)及cDNA宏阵列(Maier E等1994，Nucl.Acids Res.，22，p3423-3424；Bernard等，1996，Nucl.Acids Res.，24，p1435-1442)。

在高密度寡阵列和cDNA微阵列中，成百上千的探针寡核苷酸或cDNAs被点样在载玻片或尼龙膜上，或在生物芯片上被合成。通过使用红色或绿色荧光染料逆转录来标记从待测样本和参考样本分离的mRNA，混合，再与微阵列杂交。在洗涤以后，利用激光器检测结合的荧光染料，产生两种图像，每种染料一种图像。结果产生的两种图像上红色和绿色点的比例提供了关于待测样本和参考样本中基因表达水平变化的信息。或者，还可进行单通道或多通道微阵列研究。

在cDNA宏阵列中，将不同的cDNA点样在固体载体，例如尼龙膜上，所述cDNA相对于可与各点杂交的待测mRNA的量是过量的。从待测样本分离的mRNA通过逆转录被放射性标记，并与固定的探针cDNA杂交。在洗涤以后，检测并定量与固定的探针cDNA特异性杂交的标记物的相关信号。宏阵列中所得的数据含有待测样本中存在的转录物的相对水平的信息。宏阵列仅适于监测有限数量基因的表达，而微阵列可用于监测几千种基因的同时表达，因此后者是大规模基因表达研究的优先选择。

用产生基因表达数据集的宏阵列技术描述了本发明所述的探针鉴定方法。为此目的，从目的样本中分离mRNA，并用其制备标记的目标分子，如上述的mRNA或cDNA。然后使标记的目标分子与固定于固体载体的探针杂交。如前所述，多种固体载体可用于该目的。在杂交以后，去除未结合的目标分子并对来自与固定探针杂交的目标分子的信号进行定量。如果进行放射性标记，可使用PhosphoImager产生可用于产生原始数据集的图象文件。根据所选择用于标记目标分子的标记物的性质，还可使用其他仪器，例如，当使用荧光进行标记时，可使用FluoroImager从杂交的目标分子产生图像文件。

对应于各点中信号的平均强度、中间值强度或体积的原始数据，可使用商品化的图像分析软件从图像文件获得。然而，由于几种因素可影响杂交信号的质量和数量，所获取的数据需要对于背景信号进行校正并在分析前进行归一化。例如，样本间分离的mRNA的质量和数量差异，各反应过程中标记目标分子的效率细微差异，及不同的宏阵列间非特异结合的数量差异，均对所获得的数据集的噪音有贡献，所述数据集的噪音必须在分析前进行校正。

背景校正可使用多种方法进行。背景扣除可使用点内的最低像素强度，或使用点轮廓周围的像素线的平均值或中值。也可以基于阴性对照产生的信号定义出代表背景强度的区域，并将该区域的平均强度用于背景扣除。

然后可对背景校正的数据进行变换以稳定数据结构中的变差，并针对探针强度的差异将其归一化。几种变换技术已描述于文献中，简要综述可见Cui、Kerr及Churchill http://www.jax.org/research/churchill/research/expression/Cui-Transform.pdf)。可以用每个点的强度除以宏阵列中所有点或宏阵列中一组点的集体强度、平均强度或中值强度来进行归一化，来获得与宏阵列中的探针杂交的信号的相对强度。用于标准化基因表达数据的几种方法已有描述(Richmond和Somerville，2000，Current Opin.Plant Biol.，3，p108-116；Finkelstein等，2001，In″Methods of Microarray DataAnalysis.Papersfrom CAMDA，Eds.Lin & Johnsom，Kluwer Academic，p57-68；Yang等，2001，In″Optical Technologies and Informatics″，Eds.Bittner，Chen，Dorsel &Dougherty，Proceedings of SPIE，4266，p141-152；Dudoit等，2000，J.Am.Stat.Ass.，97，p77-87；Alter等，2000，supra；Newton等，2001，J.Comp.Biol.，8，p37-52)。通常，首先计算换算系数或函数以校正强度影响，并用其对强度进行归一化。还有人建议使用外标以改进标准化。

在大规模基因表达分析中遇到的另一个主要挑战是对于从不同时间进行的实验所收集的数据进行标准化。我们观察到，相同实验中获得的样本基因表达数据经过背景校正和归一化后，可以得到高效的比较。然而，从不同时间进行的实验获得的样本数据在分析前需要进一步标准化。这是因为在不同的实验之间实验参数的细微差异，例如在不同时间提取的mRNA的质量和数量上的差异，用于标记目标分子的时间的差异，杂交时间或曝光时间差异，可影响测定值。并且，例如所研究的转录物序列的性质(其GC含量)及其相互之间的相对量等因素，决定了它们如何受实验过程中细微差异的影响。它们决定了例如第一链合成过程中对应于特定转录物的第一cDNA链以怎样的效率被转录和标记，或在杂交过程中对应的标记的目标分子以怎样的效率结合其互补序列。在印刷的过程中批间差异也是所产生的表达数据差异的一个主要因素。

如果这样的影响得不到合适的处理和矫正，就会导致这样的情况：实验系列之间的差异，可能会掩盖基因表达数据集中包含的主要目的信息，即来自不同实验系列的组合数据内的差异。因此，当需要时，在数据分析前应该分批调整(batch-adjust)表达数据。

对数个样本中的大量基因的表达监测产生大量太复杂而不易解释的数据。已经证明几种监督和非监督的多变量数据分析可用于从这些大数据集提取重要的生物信息。聚类分析是基因表达分析的最常用的技术，并已被用来鉴定相似地受调节的基因，和/或使用基因表达模式鉴定新的/未知的肿瘤类型(Eisen等，1998，PNAS，95，p14863-14868，Alizadeh等，2000，supra，Perou等，2000，Nature，406，p747-752；Ross等，2000，Nature Genetics，24(3)，p227-235；Herwig等，1999，Genome Res.，9，p1093-1105；Tamayo等，1999，Science，PNAS，96，p2907-2912)。

在聚类方法中，根据表达模式将基因编组入功能类别(群)，其满足二个标准：同质性-相同类群的基因相互间在表达上具有高相似性；及区分性-不同群的基因相互间在表达上具有低相似性。

已用于基因表达分析的多种聚类技术的例子包括分级聚类(hierarchicalclustering)(Eisen等，1998，同上；Alizadeh等，2000，同上；Perou等，2000，同上；Ross等，2000，同上)，K方法聚类(K-means clustering)(Herwig等，1999，同上；Tavazoie等，1999，Nature Genetics，22(3)，p.281-285)，基因削除(gene shaving)(Hastie等，2000，Genome Biology，1(2)，research0003.1-0003.21)，分块聚类(block clustering)(Tibshirani等，1999，Tech reportUniv Stanford.)，Plaid模型(Lazzeroni，2002，Stat.Sinica，12，p61-86)，和自组织图(Tamayo等，1999，同上)。另外，多变量统计分析相关方法，例如使用单数值分解的方法(Alter等，2000，PNAS，97(18)，p10101-10106；Ross等，2000，同上)或多维量表法(multidimensional scaling)可有效减小研究对象的维度。

但是，例如聚类分析和单数值分解等方法仅仅是探索性的，并仅提供数据内部结构的大致概况。它们是非监督的方法，在该方法中，涉及被研究的类型的性质的可获得的信息未用于分析中。通常，特定样本经受的生物性扰动的性质是已知的。例如，通常已知分析基因表达模式的样本是来自疾病个体还是健康个体。在这些情况下，可使用判别分析来根据样本的基因表达数据将样本分成多个组。

在这样的分析中，通过训练数据，可构建能够区别给定类型的成员和非成员的分类器(classifier)。然后，可以用受过训练的分类器预测未知样本的类型。

已描述于文献中的鉴别方法的例子包括支持矢量机(Support VectorMachines)(Brown等，2000，PNAS，97，p262-267)、最短距离(NearestNeighbour)(Dudoit等，2000，supra)、分类树(Classification trees)(Dudoit等，2000，supra)、选举分类(Voted classification)(Dudoit et al.，2000，supra)、加权基因选举(Weighted Gene voting)(Golub等，1999，supra)，及Bayesian分类(Keller等，2000，Tec report Univ of Washington)。另外，首先使用PLS(部份最小二乘)回归分析减少基因表达数据集的因次，然后使用logistic判别分析和二次判别分析(quadratic discriminant analysis)(LD和QDA)进行分类的一种技术最近已有描述(Nguyen & Rocke，2002，Bioinformatics，18，p39-50和1216-1226)。

基因表达数据对经典的判别方法的挑战是：对其表达进行分析的基因的数量与所分析的样本的数量相比是非常大的。然而，在大多数情况下，这些基因中只有小部分在判别分析问题中具有信息性。另外存在无关基因的噪音掩盖或歪曲信息性基因的信息的危险。文献中已提出了几种用于鉴定和选择宏阵列的信息性基因的方法，例如，t-统计(Dudoit等，2002，J.Am.Stat.Ass.，97，p77-87)、方差分析(Kerr等，2000，PNAS，98，p8961-8965)、邻近性分析(Neighbourhood analysis)(Golub等，1999，同上)、组间与组内平方和之比(Dudoit等，2002，同上)、非参数评分(Park等，2002，PacificSymposium on Biocomputing，p52-63)及似然选择(likelihood selection)(Keller等，2000，同上)。

在本文所述的方法中，使用偏最小二乘回归(PLSR)分析已归一化和标准化的基因表达数据。虽然PLSR主要是一种用于连续数据的回归分析的方法(参见附录A)，它也可用作使用基于二进制编码的虚拟反应矩阵的模型建立和判别分析的方法。归类是根据简单二分区分，例如乳腺癌(1类)/健康(2类)，或基于多疾病诊断的多重区分，例如乳腺癌(1类)/卵巢癌(2类)/健康(3类)。要分类的疾病列表可根据其他癌症或阶段相应的可获得的样本而增加。

用作分类方法的PLSR称为PLS-DA(DA代表判别分析)。PLS-DA是PLSR算法的引伸，其中Y矩阵是包含n行(对应于样本的数量)和K列(对应于类的数量)的虚拟矩阵(dummy matrix)。Y矩阵是这样建立的：在第k行插入1，并在所有其他列插入-1，如果对应的x的第i个对象属于k类。通过Y至X的回归，通过选择与拟合的

\hat{y} (x) = (\hat{y} 1 (x), \hat{y} 2 (x), . . ., \hat{y} k (x))

中最大的成员对应的组而实现新样本的归类。因此，在-1/1反应矩阵中，小于0的预测值表明样本属于被指定为-1的类，而大于0的预测值表明样本属于被指定为1的类。

PLSR-DA的优点是：所获得的结果可容易地以两种不同的图(plots)，即评分(score)和载入(loading)图的形式表示。评分图表示样本在主成分上的投影(projection)，并显示样本在分类模型中的分布及其相互关系。载入图显示数据集中变量的相互关系。

由于PLS-DA其能够处理共线性数据，通常推荐其用作分类问题的起点，并推荐PLSR用作降维技术。一旦满足了这个目的，就可以使用其他方法例如已显示可有效用于提取其他信息的线性判别分析(linear discriminantanalysis)LDA Indahl等(1999，Chem.and Imell.Lab.Syst.，49，p19-31)。这种方法基于首先使用PLS-DA分解数据，然后使用评分矢量(代替原始变量)作为对LDA的输入。有关LDA的其他细节可见Duda和Hart(Classificationand Scene Analysis，1973，Wiley，USA)。

模型建立之后下一步是模型验证。该步骤被认为是多变量分析最重要的方面之一，其检测已建立的校准模型(calibration model)的“优良度”(goodness)。在此工作中，使用了交叉验证(cross validation)方法进行验证。在该方法中，当根据保留数据使用完全交叉验证建立模型时，在各段(segment)之外留出一个或少数样本。然后将留出的样本用于预测/分类。重复该简单的交叉验证几次，同时对每次交差验证留出不同的样本，即产生所谓的双重交叉验证方法。该方法已显示使用有限量的数据作用良好，如本文中一些实施例中的情况。另外，由于重复几次交叉验证步骤，减轻了模型偏倚(model bias)和过拟合(overfitting)的危险。

一旦建立和验证了校准模型，就可以用现有技术中已有描述的变量选择(variable selection)技术(如别处所述)来选择这样的基因：该基因所显示的表达模式，对于描述模型中的所需信息而言是最相关的。变量选择有助于减小最终模型的复杂性，提供节约型模型，并因此产生可用于预测的可靠模型。另外，使用较少的基因来提供诊断，将降低诊断产品的成本。这样，可鉴定结合相关基因的信息性探针。

我们发现在建立校准模型之后，可以使用基于再抽样方法学的统计技术如Jackknife(Effon，1982，The Jackknife，the Bootstrap and other resamplingplans.Society for Industrial and Applied mathematics，Philadelphia，USA)来高效地选择或确证显著性变量(信息性探针)。PLS回归系数B的近似不确定性变差(approximate uncertainty variance)可通过下述估计：

S^{2} B = Σ_{m = 1}^{M} {((B - B_{m}) g)}^{2}

其中

S²B＝所估计的B的不确定性方差；

B＝使用所有N对象在交叉验证的列A的回归系数；

B_m＝使用除在交叉验证段m留出的对象外的所有对象，在秩(rank)A下的回归系数；及

g＝定标系数(scaling coefficient)(此处：g＝1)。

在我们的方法中，Jackknife与交叉验证一起应用。对于每一变量，首先计算交叉验证亚模型(sub-model)中的B系数B_i与总模型的B_tot之间的差异。然后计算所有亚模型中差异的平方和以获得变量的B_i估计值的方差的表达式。B_i估计的显著性使用t检验进行计算。因此，结果所产生的回归系数可使用对应于2标准差的不确定性极限表示，并由此不确定性极限检测到显著性变量。

由于该步骤已于商品化软件(The Unscrambler，CAMO ASA，Norway)中实现，未提供关于该步骤的实施或使用的其他细节。另外，关于使用Jackknife的变量选择的细节可见Westad和Martens(2000，J.NearIn Spectr.，8，p117-124)。

下述方法可用于从基因表达数据集选择信息性探针：

a)每交叉验证段留出一特异样本(包括其重复，如果该数据集中存在的话)；

b)使用PLSR-DA在其余样本上建立校准模型(交叉验证段)；

c)使用Jackknife准则选择步骤b)的模型的显著性基因；

d)重复上述3个步骤直到数据集中的所有独特样本被留出一次(如步骤a所述)。例如，如果数据集中存在75个特异样本，则建立75个不同的校准模型，产生共75个不同的显著性探针组；

e)使用出现频率准则，在步骤d)中产生的显著性探针组中选择最显著的变量。例如，出现在所有组(100％)中的一组探针比在仅50％的步骤d)中产生的组中出现的探针更具有信息性。

一旦已选择了一种疾病的信息性探针，便制作并验证最终模型。验证该模型的两种最常用方法是交叉验证(CV)和检验集(test set)验证。在交叉验证中，数据被划分成k个亚组。然后将所述模型训练k次，每次留出一个亚组不训练，但仅使用这个被留出的亚组计算误差准则，即RMSEP(均方根预测误差)。如果k等于样本大小，则称为“留出一”(“leave-one-out”)交叉验证。每一验证段留出一个或几个样本的想法仅在各实验之间的协方差为0的情况下有效。因此，在含有重复的情形下，每次一个样本的方法不能证明有效，只留出重复中的一个将向我们的分析中引入系统偏倚。这样的情况下，正确的方法是每次将同一样本的所有重复都留出，因为这样可以满足CV段间协方差为零的假设。

模型验证的第二种方法是使用单独的检验集以验证校准模型。这需要单独进行一组实验作为检验集。假如可获得真实的检验数据，这将是优选方法。

然后，用最终的模型鉴定待测样本中的癌症或其分期。为此目的，自待测样本产生所选的信息性基因的表达数据，然后，用最终的模型确定样本属于疾病类型还是非疾病类型，或是否具有癌症或其分期。

优选地，通过使用根据上述方法鉴定的探针有关的数据产生用于分类目的的模型。优选地，样本如前文所述。优选地，于步骤(a)中固定的寡核苷酸随机地选自上文所述的家族，但作为选择，可选择代表不同家族的寡核苷酸，例如通过选择不同家族的编码相同功能的蛋白质的基因所对应的一种或多种寡核苷酸。尤其优选地，所述选择包括衍生自家族(i)和家族(ii)的基因的寡核苷酸。所述寡核苷酸可具有相当的长度，例如，如果使用cDNA(包括在术语“寡核苷酸”范围内)。这样的cDNA被鉴定为有用的探针，从而可以开发出更短的寡核苷酸，它们保留cDNA分子的特异性，但更容易制造和操作。然后，上述的模型可用于产生和分析待测样本的数据，并因此可用于本发明的诊断方法。在这些方法中，基因表达数据集由待测样本产生的数据提供，并如上所述被归一化和标准化。然后，所述数据适用于上述的校准模型以提供分类。

本发明所述方法还可用于同时选择几种癌症的信息性探针。根据哪些癌症已包括在校准组或训练组，可选择用于所述癌症的信息性探针。所选的用于一种癌症的信息性探针可与所选的另一种感兴趣的癌症的信息性探针相似或不相似。所选基因在癌症或其分期过程中彼此相对的表达的模式决定了所选基因对于所述癌症或其分期是否为信息性的。

换句话说，根据在所研究癌症或其分期产生的反应的影响下信息性基因的表达与其他所选信息性基因的表达如何互相关联而选择信息性基因。

为同时分离信息性探针或鉴定几种癌症和其分期的目的，基因表达数据集必须包含关于当受试者具有所研究的癌症或其分期时基因如何表达的信息。该数据集从一组健康或疾病样本产生，其中特定样本可包含仅一种癌症或其分期的信息，或还可包含关于多种癌症或其分期的信息。因此，该方法还教导了一种有效的实验设计，以通过选择代表多于一种癌症或其分期的样本而减少分离信息性探针所需的样本数量。

如上所述，考虑到转录物的高信息含量，用于诊断、监测或鉴定特定癌症或其分期的信息性探针的验证和选择可得到显著地简化。因此，可以从根本上减少用于从中选择鉴定信息性探针的基因群。

不同于从细胞中正被表达的数以千计的基因的群体中选择信息性探针(例如在微阵列中)的现有技术，在本文描述的方法中，信息性探针选自如前文所述的基因序列家族中的有限数量的基因。从这些家族中，可随机选择目的探针。

因此，在优选的方面，所述寡核苷酸组随机地选自上文所述的基本寡核苷酸。

如本发明所述的“随机”是指选择不基于转录物所携带的关于被研究的癌症或生物体的信息的程度而偏倚，即不偏向它们作为信息性探针的可能的效用。虽然可以从已具有偏倚的，例如偏向高度或中度表达的转录物的转录物(或相关产物)库中进行随机选择，但优选从非偏倚的，或者根据基于序列的准则选择过的转录物库中进行随机选择。因此，较大的组可能包含对应于高度和中度表达的基因的寡核苷酸，或者可以富集对应于高度和中度表达的基因的寡核苷酸。

从高度和中度表达的基因的随机选择可使用多种方法实现。例如，通过从被研究的生物样本构建的、包含对应于上述基因序列家族的克隆的cDNA文库中选择显著数目的克隆。由于在cDNA文库中，以高度或中度的量大量或中等量存在的转录物所对应的cDNA克隆比以低度的量存在的cDNA所对应的转录物更常存在，因此前者较后者更常被选择。通过该方法，可以分离富集了对应于高度或中度表达的基因的转录物的cDNA库。

为了从分离的群体中鉴定以高度或中度的量表达的基因用于本发明的方法，可以使用多种现有的技术来生成目标样本中它们的转录物水平的信息。为此，可以使用不基于序列的方法，例如差异显示或RNA指纹法，也可使用基于序列的方法，例如微阵列和宏阵列法。作为选择，可以设计针对高度和中度表达的基因的特异性引物序列和例如定量RT-PCR等方法来确定高度和中度表达的基因的水平。因此，技术人员可使用本领域已知的多种技术确定生物样本中mRNA的相对水平。

尤其优选地，上述方法中的用于mRNA分离的样本如上文所述，并优选地非来自疾病部位，所述样本中的细胞非疾病细胞，且未接触过疾病细胞，例如外周血液样本用于检测非造血系统癌症，如乳腺癌。

下述实施例仅仅是为了举例说明，其中所述图如下：

图1：显示导致乳腺癌个体中表达变化的各因素间可能的相互作用；

图2：显示102个正常(包括良性)和乳腺癌样本在PLSR-DA产生的分类模型上的投影，使用35个信息性基因的数据，其中PC是主成分，并且N和C分别是正常和乳腺癌样本；

图3显示了使用35个cDNA的数据基于3个主成分的预测图；及

图4显示用于乳腺癌预测的35个基因的平均表达水平。

实施例1：乳腺癌的诊断

方法

血液样本

在挪威地方伦理委员会(Regional Ethical Committee of Norway)批准下，从知情并同意的供者采集血液样本。在分析过程中所有供者被匿名处理。在知道第一次筛查过程中所观察到的异常是良性还是恶性之前，从具有可疑的初始乳房X线照片的女性，包括患有乳腺癌的女性和具有不正常乳房X线照片的女性抽取血液。在所有情况中，在8a.m.和4p.m.之间抽取血液样本。由熟练技术人员从每位女性抽取10ml血液至含EDTA作为抗凝血剂的真空管(vacutainer tube)(Becton Dickinson，Baltimore，美国)中或直接至PAXgene^TM管(PreAnalytiX，Hombrechtikon，瑞士)中。将收集在EDTA试管中的血液立即储存在-80℃，而将PAX管放置过夜，然后将其储存在-80℃备用。

cDNA阵列的制备

从550位健康个体全血构建的质粒文库随机选择1435个cDNA克隆(Clontech，Palo Alto，USA)。约20％随机选择的克隆冗余。为扩增插入物，在包含50μg/ml羧苄青霉素的150μl LB的微量滴定板中培养细菌克隆，37℃搅拌过夜培养。为裂解细胞，将5μl的每份培养物用50μl H₂O稀释，并在95℃温育12min。用40μpmol的5’-和3’-测序引物，在1.5mM MgCl₂存在下对2μl的该混合物进行PCR反应，使用下列循环方案进行PCR反应：在RoboCycler Temperature Cycler(Stratagene，La Jolla，美国)或DNAEngine Dyad Peltier Thermal Cycler(MJ Research Inc.，Waltham，美国)中，首先95℃ 4min，然后94℃ 1min，60℃ 1min，72℃ 3min，25个循环。使用NaOH(0.2M，终浓度)变性扩增产物30分钟，再根据厂商(BioRobotics Ltd，Cambridge England)的说明，使用MicroGrid II工作站将其点至Hybond-N⁺膜(Amersham Pharmacia Biotech，Little Chalfont，英国)上。使用紫外交联剂将固定化的cDNA固定(Hoefer Scientific Instruments，San Francisco，美国)。

除1435个cDNA之外，印刷的阵列还包含了用于评价测定的背景水平、一致性和敏感性的对照。这些对照被点在多处位置，并包括如PCR混合物(无任何插入物)的对照；SpotReport^TM10阵列验证系统(Stratagene，La Jolla，美国)的对照及对应于组成性表达基因例如β-肌动蛋白、γ-肌动蛋白、GAPDH、HOD及亲环蛋白的cDNAs。

RNA提取、探针合成和杂交

在37℃融解收集在EDTA管中的血液并将其转移至PAX管，根据供应商的说明(PreAnalytiX，Hombrechtikon，瑞士)纯化总RNA。如上所述从直接收集在PAX管的血液提取总RNA，其中提取RNA在上述管中进行而不转移至任何新管中。使用无DNA试剂盒(DNA-free kit)(Ambion，Inc.Austin，USA)通过DNAase I处理从分离的RNA中去除污染的DNA。通过琼脂糖凝胶电泳后观察28S和18S核糖体带的完整性目测确定RNA的质量。只有提取的RNA质量优良的样本才被用于本项研究。在我们的经验中，EDTA管中采集的血液产生的RNA质量经常较差，而PAX管中采集的血液几乎总是产生质量优良的RNA。所提取的RNA的浓度和纯度通过测量在260nm和280nm的吸光度而确定，根据供应商的说明(Dynal AS，Oslo，挪威)使用Dynabeads分离总mRNA。

分16批进行了标记和杂交实验。每批测定的样本的数量为六到九个不等。为使印刷中批间差异造成的噪音最小化，每批中仅使用同次印刷制备的阵列。当样本被测定超过一次时(重复)，使用来自相同mRNA库的等份进行探针合成。对于探针合成，将对应于4-5μg总RNA的等份mRNA与寡脱氧胸苷酸25Nv(oligodT_25Nv)(0.5μg/μl)和SpotReport^TM 10阵列验证系统(10 pg；Spike 2，1 pg)的mRNA spikes混合在一起，加热至70℃，然后于冰上冷却。探针制备：在35μl反应混合物中，在50Ci[α³³p]dATP，3.5μMdATP，dCTP、dTTP、dGTP各0.6mM，200单位的SuperScript逆转录酶(Invitrogen，LifeTechnologies)和0.1M DTT的存在下通过逆转录在42℃标记1.5小时。在合成以后，在70℃ 10min使酶失活，并在37℃使用4单位Ribo H(Promega，Madison美国)温育反应混合物20min去除mRNA。使用ProbeQuant G 50柱(Amersham Biosciences，Piscataway，美国)去除未掺入的核苷酸。

在室温下4x SSC中平衡膜2个小时，并在10ml预杂交溶液(4x SSC，0.1M NaH₂PO₄，1mM EDTA，8％硫酸葡聚糖，10x Denhardt′s溶液，1％SDS)中65℃过夜预杂交。将新鲜制备的探针添加至5ml相同的预杂交溶液中，在65℃继续过夜杂交。在65℃以递增的严紧度(2x 30min，分别在2x SSC，0.1％SDS；1x SSC，0.1％SDS；0.1x SSC，0.1％SDS中)洗膜。

杂交信号的定量

将杂交过的膜暴露于Phosphoscreen(超分辨率)两天，使用PhosphoImager(Cyclone，Packard，Meriden，美国)产生图像文件。杂交信号的鉴定和定量及局部背景值的扣除使用Phoretix软件(Non Linear Dynamics，UK)进行。从各点中评估的信号强度中扣除各点轮廓周围的象素线的中值来进行背景扣除。

数据分析

从1435个扣除背景的表达数据中，从每个膜上去除67个基因的信号以排除高度差异表达的基因。这包括从每个膜上去除1.25％的最低和最高的信号。对于归一化，首先用各个点的值除以每个阵列的信号的平均值，然后对所有的点进行立方根变换(cube root transformation)。然后使用单向方差分析法(ANOVA)对归一化的数据进行分批调整。

然后通过下述步骤将预先处理的数据用于分离信息性探针：

a)建立交叉验证PLSR模型，其中每交叉验证段留出一独特样本(包括所选样本的所有重复)。

b)使用Jackknife准则选择步骤a)模型的显著性基因的组。

c)使用步骤b)选择的基因，如步骤a)建立交叉验证PLSR-DA模型。

d)再次使用Jackknife准则选择步骤c)模型的最具显著性的基因的组。

步骤b)产生125个基因。

步骤d)选择了35个显著性基因。根据这些基因构建了最终的分类模型。

使用基于出现准则(occurrence criterion)的所选的信息性探针构建分类模型。根据35种探针的分类模型的结果示于表2，其中可见这些基因的表达模式能将大多数乳腺癌妇女和无乳腺癌妇女区分为不同的组。在该图中，PC1和PC2代表从数据统计衍生的两种主成分，其最好地定义了所述数据中存在的系统变化性(systemic variability)。这允许各个样本及样本的标记的第一链cDNA所结合的各信息性探针的数据在分类模型上表现为单个点，该点是样本在主成分上的投影——评分图。

图3显示使用35个显著性基因的预测图。在所示预测图中，癌症样本显示在x轴上+1处，非癌症样本显示在-1处。y轴表示预测的分类隶属关系。在预测过程中，如果预测是正确的，癌症样本应该落在零之上，并且非癌症样本应该落在零以下。在每种情况中，几乎所有样本都得到了正确的预测。对于交叉验证，102个实验样本被划分成60个交叉验证段，其中每段代表一种独特的样本，并且包括其重复，如果有的话。

实现了大多数乳腺癌细胞的正确预测。22位癌症患者中有19人被正确预测，正常患者35人中有34人被正确预测。所检测的个体的全部详细情况及预测的准确性示于表1。表2提供35个信息性基因的详细情况、公共数据库中与它们显示具有序列相似性的基因及其推定的生物学功能。它们的序列在实施例后列出。

图4显示35个基因的表达水平，可见与正常患者的表达相比，某些表达过量，其它的表达过低。

实施例2：其他信息性探针的鉴定及其在乳腺癌诊断中的应用

方法

所使用的鉴定和分析方法基本如实施例1所述，除了不是制备cDNA阵列，而是使用商业上可获得的大规模基因表达分析平台(Agilent 22K芯片)分析样本。

分析了大量样本，包括总共122个样本(78个对照和44个有乳腺癌的)。如上文所述使用PLSR分析了数据。通过10折交叉验证(10-fold crossvalidation)方法选择目的基因。为此，将122个样本的数据分成10个组，各组包含12-13个样本。在9个组上建立校准模型，并留出1个组。通过Jackknife技术鉴定了该内建(built-in)模型的显著性基因。对所有10个组重复了这些步骤，其中每组至少被留出一次。然后根据出现频率准则鉴定信息性基因。在所有10个校准模型中，发现109个基因具有信息性。

结果

用上述109个基因和3个其他基因预测122个所使用样本的分类。结果如下表所示。

样本	数量	正确预测	非正确预测	错误率
样本	数量	正确预测	非正确预测	错误率	对照	78	67	11	0.14
乳腺癌	44	26	18	0.41	对照	78	67	11	0.14

109个信息性基因可被划分成三个类别，即属于本发明所述家族(i)和家族(ii)的那些基因及其他基因。表3提供对应的基因属于家族(i)和家族(ii)的信息性探针的详细情况，并且提供Agilent对这些探针的编号。类似地，表4提供其对应的基因似乎不属于家族(i)和家族(ii)的信息性探针的详细情况。表5和6提供表3和4的探针与其显示序列相似性的基因的详细情况，其已知的推测的生物功能和及所述基因的登录号。

附录A

偏最小二乘回归(PLSR)

多变量回归模型定义为：

Y＝XB+F

其中

X是具有N个预测变量(基因)的NxP矩阵；

Y(NxJ)是J个被预测的变量。在这里，Y代表包含虚拟变量的矩阵；

B是回归系数矩阵；及

F是残差NxJ矩阵。

PLSR模型的结构可写成：

X＝TP^T+E_A，及

Y＝TQ^T+F_A，

其中

T(NxA)是评分向量的矩阵，所述评分向量是x个变量的线性组合；

P(PxA)是以x载入向量p_a作为列的矩阵；

Q(JxA)是以y载入向量q_a作为列的矩阵；

Ea(NxP)是X在A个因素之后的矩阵；及

Fa(NxJ)是Y在A个因素之后的矩阵。

PLSR的准则是最大化[X，Y]的被解释的协方差。这通过载入加权向量W_a+1实现，其为Ea^TFaFa^TEa的第一特征向量(Ea和Fa是在a个因素或PLS组分之后压缩的X和Y)。

回归系数通过下式给出：

B＝W(P^TW)^-1Q^T

满秩的，即成员数最大的PLSR模型与MLR方法等价。PLSR的其他详细情况可见Marteus & Naes，1989，Multivariate Calibration，John Wiley &Sons，Inc.，USA和Kowalski和Seasholtz，1991，同上。

通过Jackknife选择的34/35个基因的核苷酸序列

克隆识别号及其序列

I-30

CTTTTCCTCCCGCTGTCCCCCACGGAGGGGACTGCTCTCCCCCGCTGCATCCTT

TCTGTGAGGTACCTTACCCACCTCAGCACCTGAGAGGGTGAAATAGAATTCTAA

CCTCGACATTCGGGAAGTGTTTTTGAGAAGTCTCGGTCGGTAAGGGAAGTCTTC

CAAGTCCGTGCAGCACTAACGTATTGGCACCTGCCTCCTCTTCGGCCACCCCCC

AGATGAGGCAGCTGTGACTGTGTCAAGGGAAGCCACGACTCTGACCATAGTCTT

CTCTCAGCTTCCACTGCCGTCTCCACAGGAAACCCAGAAGTTCTGTGAACAAGT

CCATGCTGCCATCAAGGCATTTATTGCAGTGTACTATTTGCTTCCAAAGGATCA

GGCCCTGAGAACAATGACCTTATTTCCTACAACAGTGTCTGGGTTGCGTGCCAG

CAGATGCCTCAGATACCAAGAGATAACAAAGCTGCAGCTCTTTTGATGCTGACC

AAGAATGTGGATTTTGTGAAGGATGCACATGAAGAAATGGAGCAGGCTGTGGAA

GAATGTGACCCTTACTCTGGCCTCTTGAATGATACTGAGGAGAACAACTCTGAC

AACCACAATCATGAGGATGATGTGTTGGGGTTTCCCAGCAATCAGGACTTGTAT

TGGTCAGAGGACGATCAAGAGCTCATAATCCCATGCCTTGCGCTGGTGAGAGCA

TCCAAAGCCTGCCTGAAGAAAATTCGGATGTTAGTGGCAGAGAATGGGAAGAAG

GATCAGGTGGCACAGCTGGATGACATTGTGGATATTTCTGATGAAATCAGCCCT

AGTGTGGATGATTTGGCTCTGAGCATATATCCACCTATGTGTCACCTGACCGTG

CGAATCAATTCTGCGAAACTTGTATCTGTTTTAAAGAAGGCACTTGAAATTACA

AAAGCAAGTCATGTGACCCCTCAGCCAGAAGATAGTTGGATCCCTTTACTTATT

AATGCCATTGATCATTGCATGAATAGAATCAAGGAGCTCACTCAGAGTGAACTT

GAATTATGACTTTTCAGGCTCATTTGTACTCTCTTCCCCTCTCATCGTCATGGT

CAGGCTCTGATACCTGCTTTTAAAATGGAGCTAGAATGCTTGCTGGATTGAAAG

GGAGTGCCTATCTATATTTAGCAAGAGACACTATTACCAAAGATTGTTGGTTAG

GCCAGATTGACACCTATTTATAAACCATATGCGTATATTTTTCTGTGCTATATA

TGAAAAATAATTGCATGATTTCTCATTCCTGAGTCATTTCTCAGAGATTCCTAG

GAAAGCTGCCTTATTCTCTTTTTGCAGTAAAGTATGTTGTTTTCATTGTAAAGA

TGTTGATGGTCTCAATAAAATGCTAACTTGCCAGTGAAAAAAAAAAAAAA

III-02

AGGATCTAAGACCAGCCTGGCAGCCACCAGATGGTGATTCTAGTCCTGGCTCAG

TCAGTAATAGGTCACTGACCCCAGAGAAATCAATTCAGCCTCCCCAGGTCCTTG

GATTTCTTTCTGTGAAAATGAAAGCATAGGTAGGAATTTCCCATGGAACAGCTA

GCAGAGGAGAAATATTAAAAGTCAGGAGACTCATGCTATAGTTTTCATACTTCA

TTACAACAATGTTGTTTAGGACAAGTGAGTTAACCTGTTAGCTTCCTCTATATA

AAATGGAAAGTCATTAAAAACCTACATAGCAGGGTTCTTGTGAAGATCAAGTGA

TAATGTAGGAAGCATGTACAAATGTCACATTCTGCCGTCACGTAATGGTCCTCA

CAGCTTGAGGTAGCATTTAGCATGTGTCATGATTTAGTACAAGGGTTGGCAAAC

TGTTGCTCTTGGATTAAGTCTGGCTCATTGCCTGTTTTTCAAAGAAAAAAATTG

TATATGTGTGTATATATGTTATATATAGGTACACACACATATGTGCTATATATA

GCATATATACACACATAATATATAAACATGTACATATATAGCATTATATATATA

CGTGTATAATATCTCCAGTCCTCATGACCAGCCATGCTTGTTCATTTACATTTG

CATACTCTATGATTGCTTTCATGCAACAATGGCAGAGTTGAGTGATTGTTTTGC

AACAGAGACTGTATGGCCCACTAAACCTAAAATATTTAGTCTCTGACCCTGAAA

TGTAAGATTGATAGCCCAGGACCAGGCGTGGTGGCTCACACTTGTAATCCTAGC

ACTTTGGCAGGCCAAGGAGGGTGGATCACCTGAGGTCAGGAGTTAAAGACCAGC

CTGGCCAACATGGTGAAACCCTGACTCTACTAAAAATACAGAAATTAGCTGGGC

GTGGTAATGGGTGCCTGCAATCCAAGCTACTCTGGAGGCTGAGGCAGGAGAATC

ACTTGAACCCAGGAGGCAGAAGTTACAGTGAGCTGAGATGGTGCCACTGCACTC

CAGCCTGGACGACAGAGTGAGACTCCATCTCAAAAA

III-27

CCATTCTCCTGCCTCAGCCTCTCAAGTAGCTGGGACTACAGGCGCCCACAACCA

CGCCCGGCTAATGTTTTTGGTATTTTTCGTAGAGACGGGGTTTCACCTTGTTAG

CCAGGATGGTCTTGATCTCCTGACCTCGTGATCTGCCTGCCTCGGCCTCCCAAA

GTGTTGGGATTACAGGCACATTTTTCACAATTTTTTAACACTTAAGAATGACTT

AACTGAATCATGCCTTTAGAAGAAACTTTCTGTTTAAAAAAAAAAAAAAA

III-60

CTGCCGCCGCCCCCAGCTCCCCCGCCTCGGGGAGGGCACCAGGTCACTGCAGCC

AGAGGGGTCCAGAAGAGAGAGGAGGCACTGCCTCCACTACAGCAACTGCACCCA

CGATGCAGAGCATCAAGTGCGTGGTGGTGGGTGATGGGGCTGTGGGCAAGACGT

GCCTGCTCATCTGCTACACAACTAACGCTTTCCCCAAAGAGTACATCCCCACCG

TGTTCGACAATTACAGCGCGCAGAGCGCAGTTGACGGGCGCACAGTGAACCTGA

ACCTGTGGGACACTGCGGGCCAGGAGGAGTATGACCGCCTCCGTACACTCTCCT

ACCCTCAGACCAACGTTTTCGTCATCTGTTTCTCCATTGCCAGTCCGCCGTCCT

ATGAGAACGTGCGGCACAAGTGGCATCCAGAGGTGTGCCACCACTGCCCTGATG

TGCCCATCCTGCTGGTGGGCACCAAGAAGGACCTGAGAGCCCAGCCTGACACCC

TACGGCGCCTCAAGGAGCAGGGCCAGGCGCCCATCACACCGCAGCAGGGCCAGG

CACTGGCCAAGCAGATCCACGCTGTGCGCTACCTCGAATGCTCAGCCCTGCAAC

AGGATGGTGTCAAGGAAGTGTTCGCCGAGGCTGTCCGGGCTGTGCTCAACCCCA

CGCCGATCAAGCGTGGGCGGTCCTGCATCCTCTTGTGACCCTGGCACTTGGCTT

GGAGGCTGCCCCTGCCCTCCCCCCACCAGTTGTGCCTTGGTGCCTTGTCCGCCT

CAGCTGTGCCTTAAGGACTAATTCTGGCACCCCTTTCCAGGGGGTTCCCTGAAT

GCCTTTTTCTCTGAGTGCCTTTTTCTCCTTAAGGAGGCCTGCAGAGAAAGGGGC

TTTGGGCTCTGCCCCCCTCTGCTTGGGAACACTGGGTATTCTCATGAGCTCATC

CAAGCCAAGGTTGGACCCCTCCCCAAGAGGCCAACCCAGTGCCCCCTCCCATTT

TCCGTACTGACCAGTTCATCCAGCTTTCCACACAGTTGTTGCTGCCTATTGTGG

TGCCGCCTCAGGTTAGGGGCTCTCAGCCATCTCTAACCTCTGCCCTCGCTGCTC

TTGGAATTGCGCCCCCAAGATGCTCTCTCCCTTCTCCAATGAGGGAGCCACAGA

ATCCTGAGAAGGTGAATGTGCCCTAACCTGCTCCTCTGTGCCTAGGCCTTACGC

ATTTGCTGACTGACTCAGCCCCCATGCTTCTGGGGACCTTTCCTACCCCCATCA

GCATCAATAAAACCTCCTGTCTCCAGTGA

IV-26

CAGCCCTCCGTCACCTCTTCACCGCACCCTCGGACTGCCCCAAGGCCCCCGCCG

CCGCTCCAGCGCCGCGCAGCCACCGCCGCCGCCGCCGCCTCTCCTTAGTCGCCG

CCATGACGACCGCGTCCACCTCGCAGGTGCGCCAGAACTACCACCAGGACTCAG

AGGCCGCCATCAACCGCCAGATCAACCTGGAGCTCTACGCCTCCTACGTTTACC

TGTCCATGTCTTACTACTTTGACCGCGATGATGTGGCTTTGAAGAACTTTGCCA

AATACTTTCTTCACCAATCTCATGAGGAGAGGGAACATGCTGAGAAACTGATGA

AGCTGCAGAACCAACGAGGTGGCCGAATCTTCCTTCAGGATATCAAGAAACCAG

ACTGTGATGACTGGGAGAGCGGGCTGAATGCAATGGAGTGTGCATTACATTTGG

AAAAAAATGTGAATCAGTCACTACTGGAACTGCACAAACTGGCCACTGACAAAA

ATGACCCCCATTTGTGTGACTTCATTGAGACACATTACCTGAATGAGCAGGTGA

AAGCCATCAAAGAATTGGGTGACCACGTGACCAACTTGCGCAAGATGGGAGCGC

CCGAATCTGGCTTGGCGGAATATCTCTTTGACAAGCACACCCTGGGAGACAGTG

ATAATGAAAGCTAAGCCTCGGGCTAATTTCCCCATAGCCGTGGGGTGACTTCCC

TGGTCACCAAGGCAGTGCATGCATGTTGGGGTTTCCTTTACCTTTTCTATAAGT

TGTACCAAAACATCCACTTAAGTTCTTTGATTTGTACCATTCCTTCAAATAAAG

AAATTTGGTACCCAAAAAAAA

IV-41

GCCATTTCTAAGACCTACAGCTACCTGACCCCCGACCTCTGGAAGGAGACTGTA

TTCACCAAGTCTCCCTATCAGGAGTTCACTGACCACCTCGTCAAGACCCACACC

AGAGTCTCCGTGCAGCGGACTCAGGCTCCAGCTGTGGCTACAACATAGGGTTTT

TATACAAGAAAAATAAAGTGAATTAAGCGTGAAAA

IV-51

ATTTCTGTGGATACAGTGCCCACCGCCCTCCTCCACTTGGAAACGGTATCCTCC

CTGCCCATCCGTCTGTCTGTCGCCCTTCTCCCGGCCCTCACTAAGCCCCGGCAC

TTCTAGTGGTCTCACCTGGAGGCAAGAGGGAGGGGACAGAGGCCCTGCCACGTC

CCGCTGCCTCCTGCTCTCTGGAGGTACTGAGACAGGGTGCTGATGGGAAGGAGG

GGAGCCTTTGGGGGGCCACCCGGGGCCTGGACCTATGCAGGGAGGCCACGTCCC

ACCCCACCTCTTGTTTCTGGGTCCCTGCTCCCCTTTGGGGGTGTGTGTGTGTGT

TTTAATTTTCTTTATGGAAAAATTGACAAAAAAAAATAGAGAGAGAGGTATTTA

ACTGCAATAAACTGGCCCCATGTGGCCCCCGCCTTGTCAAAAAAAAAA

V-09

TGGATTCCCGTCGTAACTTAAAGGGAAACTTTCACAATGTCCGGAGCCCTTGAT

GTCCTGCAAATGAAGGAGGAGGATGTCCTTAAGTTCCTTGCAGCAGGAACCCAC

TTAGGTGGCACCAATCTTGACTTCCAGATGGAACAGTACATCTATAAAAGGAAA

AGTGATGGCATCTATATCATAAATCTCAAGAGGACCTGGGAGAAGCTTCTGCTG

GCAGCTCGTGCAATTGTTGCCATTGAAAACCCTGCTGATGTCAGTGTTATATCC

TCCAGGAATACTGGCCAGAGGGCTGTGCTGAAGTTTGCTGCTGCCACTGGAGCC

ACTCCAATTGCTGGCCGCTTCACTCCTGGAACCTTCACTAACCAGATCCAGGCA

GCCTTCCGGGAGCCACGGCTTCTTGTGGTTACTGACCCCAGGGCTGACCACCAG

CCTCTCACGGAGGCATCTTATGTTAACCTACCTACCATTGCGCTGTGTAACACA

GATTCTCCTCTGCGCTATGTGGACATTGCCATCCCATGCAACAACAAGGGAGCT

CACTCAGTGGGTTTAATGTGGTGGATGCTGGCTCGGGAAGTTCTGCGCATGCGT

GGCACCATTTCCCGTGAACACCCATGGGAGGTCATGCCTGATCTGTACTTCTAC

AGAGATCCTGAAGAGATTGAAAAAGAAGAGCAGGCTGCTGCTGAGAAGGCAGTG

ACCAAGGAGGAATTTCAGGGTGAATGGACTGCTCCCGCTCCTGAGTTCACTGCT

ACTCAGCCTGAGGTTGCAGACTGGTCTGAAGGTGTACAGGTGCCCTCTGTGCCT

ATTCAGCAATTCCCTACTGAAGACTGGAGCGCTCAGCCTGCCACGGAAGACTGG

TCTGCAGCTCCCACTGCTCAGGCCACTGAATGGGTAGGAGCAACCACTGACTGG

TCTTAAGCTGTTCTTGCATAGGCTCTTAAGCAGCATGGAAAAATGGTTGATGGA

AAATAAACATCAGTTTCT

V-38

GTTTAAATTTGACAAACTAAAGCTAATTACTGCTATAAGAGTAATAACTGCTCA

TTTTCCATAACTCATTCTTAAAGTTTTAGTAATGTAAAAGTTATTTTTTTGCAG

TAAGTTATAATGATAGAAGCTTACATGTTTTTTCATGCCTCATCTGTTTCCCCT

TAAAACTATAATTATCAGTAAAGTCCTGTGGTATTTTTCAATTTGTAAGAAACT

AGGCTATATATACATTGGGAAAAACAGCCTTCATTTGTCAATGCACTAGTGTTC

CAAAGGTTTCTGGTAATTGTGTGCTATTGCTTTTTGTTGACTTGCAAAAAAAAA

AAAAAAAAAATTACTATGACTTGTGGTAGCCCTGCAACCTTCGGAAGTGCTTAG

CCCAGTCTGACCATACATTTATATTTAGAATGCTTAGGTAAATAAATAATATGC

CTAAACCCAATGCTATAAGATACTATATAATATCTCATAATTTTAAAAATCACT

GTTTTGTATAATAATAAAACAAGGCAGGCAAGCTGTTCTACAATGACTGTTGGT

AAGGGTGCTGAGGAAGAAAAACAAACAATCTTGATTCAGGGATAGTGAATAGAC

AAAAAATGTCCTAATCAATGAAGCTGTGTGATGATTCTGATTGACAGAGAGTGC

TGCCACAAGATTCTTAGGCTACACTCAAATCAGCAGAAAAAGTGCTACAATAAA

TTAGAAGTGACTATTACAGGTGCAGATGAGGGTTGGTAGTACCTGTTTGCCATT

TCTCTTCTAATCTTATATTTTCTGACCCTCCTACTGTAAGTCGCGCGGAGGCGG

AGGCTTGGGTGCGTTCAAGATTCAACTTCACCCGTAACCCACCGCCATGGCCGA

GGAAGGCATTGCTGCTGGAGGTGTAATGGACGTTAATACTGCTTTACAAGAGGT

TCTGAAGACTGCCCTCATCCACGATGGCCTAGCACGTGGAATTCGCGAAGCTGC

CAAAGCCTTAGACAAGCGCCAAGCCCATCTTTGTGTGCTTGCATCCAACTGTGA

TGAGCCTATGTATGTCAAGTTGGTGGAGGCCCTTTGTGCTGAACACCAAATCAA

CCTAATTAAGGTTGATGACAACAAGAAACTAGGAGAATGGGTAGGCCTTTGTAA

AATTGACAGAGAGGGGAAACCCCGTAAAGTGGTTGGTTGCAGTTGTGTAGTAGT

TAAGGACTATGGCAAGGAGTCTCAGGCCAAGGATGTCATTGAAGAGTATTTCAA

ATGCAAGAAATGAAGAAATAAATCTTTGGCTCACAAA

VI-44

GAGAATGGCTTGAACCCAGTAGGCAGAGGTTGTAGTGAGCCGAGATTGGGCCAC

TGCACTTTAGCCTGGGTGACAGAGTGAGACTCTGTCTCAAAAAAAAAAAAAAAA

AATTTAAATAAAATAAAAAACCTTTACTTATTTTTAAATTGGGTTGTCTTTTTG

GTATTGAGTTGTTAAAGTTCTTTATATATTTTAGGTACAAATCCCTTATGAGAT

ACGTGATTTGAAAATATTTTCTCCCATTCTGTGGGTTGCTTTTTCACTTTCTTG

GTTGTATCCTTTGAAGCACAGAAGTTTTAAATTTTGATGAAGTCCAGTTTATTT

ATTTTTTTGCTGTTGTTTCTGCTCATACTTTTGAGGTCATGTCTGAGAAACCAT

TGTCAAATCCAAGGTCGTGATGACTTACCCCTGTGTTTTCTTCTAAGAGTTTTA

AAGGCATCTGAAGCTTAATGTGCACTAGATGGATTCTAAATATCATCTCATCCA

AAACCTGCTATATATACTACCTTCCTCATCTCAGTTGAAGGCAAGTCCATTGTT

TCAATTGCCTGGGCAAAAAATATTCTAAATAATTCATAATTTTTCCTCAACTCC

ACATCTATTGGTAAATCCTGTGGGTTCTCCTTTTAAAACATATCCAAAATAGAA

TCATTTCTCACTATCATTCCACTGCAGGCACCAAGTCTCAATAGTCTCCTAGCA

GATAATCATGTCTACATTTATTCTCAATGTAGCAGCTAGAGAGCTTTTTG

VI-49

GCGGTCGTAAGGGCTGAGGATTTTTGGTCCGCACGCTCCTGCTCCTGACTCACC

GCTGTTCGCTCTCGCCGAGGAACAAGTCGGTCAGGAAGCCCGCGCGCAACAGCC

ATGGCTTTTAAGGATACCGGAAAAACACCCGTGGAGCCGGAGGTGGCAATTCAC

CGAATTCGAATCACCCTAACAAGCCGCAACGTAAAATCCTTGGAAAAGGTGTGT

GCTGACTTGATAAGAGGCGCAAAAGAAAAGAATCTCAAAGTGAAAGGACCAGTT

CGAATGCCTACCAAGACTTTGAGAATCACTACAAGAAAAACTCCTTGTGGTGAA

GGTTCTAAGACGTGGGATCGTTTCCAGATGAGAATTCACAAGCGACTCATTGAC

TTGCACAGTCCTTCTGAGATTGTTAAGCAGATTACTTCCATCAGTATTGAGCCA

GGAGTTGAGGTGGAAGTCACCATTGCAGATGCTTAAGTCAACTATTTTAATAAA

TTGATGACCAGTTGTTAAAAAAAAAAAAAAAA

VI-52

GAAAAGGGNTNGCNCCCAANGGGCAGAGGTTGGGCTGATGCCGATATTGGGCCN

CTGCNCTNCANACCTGGGTGACATGAATGAAACTCTGTCTCACATAAAAACCCA

AAAAANCTAAATGAAATAAAAGACCTTTGCTTATTNCTAANTTGGGTACGC

VII-15

CCCATCCCCTCGACCGCTCGCGTCGCATTTGGCCGCCTCCCTACCGCTCCAAGC

CCAGCCCTCAGCCATGGCATGCCCCCTGGATCAGGCCATTGGCCTCCTCGTGGC

CATCTTCCACAAGTACTCCGGCAGGGAGGGTGACAAGCACACCCTGAGCAAGAA

GGAGCTGAAGGAGCTGATCCAGAAGGAGCTCACCATTGGCTCGAAGCTGCAGGA

TGCTGAAATTGCAAGGCTGATGGAAGACTTGGACCGGAACAAGGACCAGGAGGT

GAACTTCCAGGAGTATGTCACCTTCCTGGGGGCCTTGGCTTTGAT

VII-32

AATTAGAGAGGTGAGGATCTGGTATTTCCTGGACTAAATTCCCCTTGGGGAAGA

CGAAGGGATGCTGCAGTTCCAAAAGAGAAGGACTCTTCCAGAGTCATCTACCTG

AGTCCCAAAGCTCCCTGTCCTGAAAGCCACAGACAATATGGTCCCAAATGACTG

ACTGCACCTTCTGTGCCTCAGCCGTTYTTGACATCAAGAATCTTCTGTTCCACA

TCCACACAGCCAATACAATTAGTCAAACCACTGTTATTAACAGATGTAGCAACA

TGAGAAACGCTTATGTTACAGGTTACATGAGAGCAATCATGTAAGTCTATATGA

CTTCAGAAATGTTAAAATAGACTAACCTCTAACAACAAATTAAAAGTGATTGTT

TCAAGGTGATGCAATTATTGATGACCTATTTTATTTTTCTATAATGATCATATA

TTACCTTTGTAATAAAACATTATAACCAAAAAAAAAAAAAAAAAAAAAAAAAAA

AAAA

VII-48

CTTAAGTATGCCCTGACAGGAGATGAAGTAAAGAAGATTTGCATGCAGCGGTTC

ATTAAAATCGATGGCAAGGTCCGAACTGATATAACCTACCCTGCTGGATTCATG

GATGTCATCAGCATTGACAAGACGGGAGAGAATTTCCGTCTGATCTATGACACC

AAGGGTCGCTTTGCTGTACATCGTATTACACCTGAGGAGGCCAAGTACAAGTTG

TGCAAAGTGAGAAAGATCTTTGTGGGCACAAAAGGAATCCCTCATCTGGTGACT

CATGATGCCCGCACCATCCGCTACCCCGATCCCCTCATCAAGGTGAATGATACC

ATTCAGATTGATTTAGAGACTGGCAAGATTACTGATTTCATCAAGTTCGACACT

GGTAACCTGTGTATGGTGACTGGAGGTGCTAACCTAGGAAGAATTGGTGTGATC

ACCAACAGAGAGAGGCACCCTGGATCTTTTGACGTGGTTCACGTGAAAGATGCC

AATGGCAACAGCTTTGCCACTCGACTTTCCAACATTTTTGTTATTGGCAAGGGC

AACAAACCATGGATTTCTCTTCCCCGAGGAAAGGGTATCCGCCTCACCATTGCT

GAAGAGAGAGACAAAAGACTGGCGGCCAAACAGAGCAGTGGGTGAAATGGGTCC

CTGGGTGACATGTCAGATCTTTGTACGTAATTAAAAATATTGTGGCAGGATTAA

TAGCC

VII-76

AGACACACGAGCATATTTCACCTCCGCTACCATAATCATCGCTATCCCCACCGG

CGTCAAAGTATTTAGCTGACTCGCCACACTCCACGGAAGCAATATGAAATGATC

TGCTGCAGTGCTCTGAGCCCTAGGATTCATCTTTCTTTTCACCGTAGGTGGCCT

GACTGGCATTGTATTAGCAAACTCATCACTAGACATCGTACTACACGACACGTA

CTACGTTGTAGCCCACTTCCACTATGTCCTATCAATAGGAGCTGTATTTGCCAT

CATAGGAGGCTTCATTCACTGATTTCCCCTATTCTCAGGCTACACCCTAGACCA

AACCTACGCCAAAATCCATTTCACTATCATATTCATCGGCGTAAATCTAACTTT

CTTCCCACAACACTTTCTCGGCCTATCCGGAATGCCCCGACGTTACTCGGACTA

CCCCGATGCATACACCACATGAAACATCCTATCATCTGTAGGCTCATTCATTTC

TCTAACAGCAGTAATATTAATAATTTTCATGATTTGAGAAGCCTTCGCTTCGAA

GCGAAAAGTCCTAATAGTAGAAGAACCCTCCATAAACCTGGAGTGACTATATGG

ATGCCCCCCACCCTACCACACATTCGAAGAACCCGTATACAT

IX-24

AGAGTGCAAGACGATGACTTGCAAAATGTCGCAGCTGGAACGCAACATAGAGAC

CATCATCAACACCTTCCACCAATACTCTGTGAAGCTGGGGCACCCAGACACCCT

GAACCAGGGGGAATTCAAAGAGCTGGTGCGAAAAGATCTGCAAAATTTTCTCAA

GAAGGAGAATAAGAATGAAAAGGTCATAGAACACATCATGGAGGACCTGGACAC

AAATGCAGACAAGCAGCTGAGCTTCGAGGAGTTCATCATGCTGATGGCGAGGCT

AACCTGGGCCTCCCACGAGAAGATGCACGAGGGTGACGAGGGCCCTGGCCACCA

CCATAAGCCAGGCCTCGGGGAGGGCACCCCCTAAGACCACAGTGGCCAAGATCA

CAGTGGCCACGGCCACGGCCACAGTCATGGTGGCCACGGCCACAGCCACTAATC

AGGAGGCCAGGCCACCCTGCCTCTACCCAACCAGGGCCCCGGGGCCTGTTATGT

CAAACTGTCTTGGCTGTGGGGCTACGGGCTGGGGCCAAATAAAGTCTCTTCCTC

CAAAAAAAA

IX-39

CTTGGCTCCTGTGGAGGCCTGCTGGGAACGGGACTTCTAAAAGGAACTATGTCT

GGAAGGCTGTGGTCCAAGGCCATTTTTGCTGGCTATAAGCGGGGTCTCCGGAAC

CAAAGGGAGCACACAGCTCTTCTTAAAATTGAAGGTGTTTACGCCCGAGATGAA

ACAGAATTCTATTTGGGCAAGAGATGCGCTTATGTATATAAAGCAAAGAACAAC

ACAGTCACTCCTGGCGGCAAACCAAACAAAACCAGAGTCATCTGGGGAAAAGTA

ACTCGGGCCCATGGAAACAGTGGCATGGTTCGTGCCAAATTCCGAAGCAATCTT

CCTGCTAAGGCCATTGGACACAGAATCCGAGTGATGCTGTACCCCTCAAGGATT

TAAACTAACGAAAAATCAATAAATAAATGTGGATTTGTGCTCTTGTA

IX-46

ACGCGAGATGGCAGTGCAAATATCCAAGAAGAGGAAGTTTGTCGCTGATGGCAT

CTTCAAAGCTGAACTGAATGAGTTTCTTACTCGGGAGCTGGCTGAAGATGGCTA

CTCTGGAGTTGAGGTGCGAGTTACACCAACCAGGACAGAAATCATTATCTTAGC

CACCAGAACACAGAATGTTCTTGGTGAGAAGGGCCGGCGGATTCGGGAACTGAC

TGCTGTAGTTCAGAAGAGGTTTGGCTTTCCAGAGGGCAGTGTAGAGCTTTATGC

TGAAAAGGTGGCCACTAGAGGTCTGTGTGCCATTGCCCAGGCAGAGTCTCTGCG

TTACAAACTCCTAGGAGGGCTTGCTGTGCGGAGGGCCTGCTATGGTGTGCTGCG

GTTCATCATGGAGAGTGGGGCCAAAGGCTGCGAGGTTGTGGTGTCTGGGAAACT

CCGAGGACAGAGGGCTAAATCCATGAAGTTTGTGGATGGCCTGATGATCCACAG

CGGAGACCCTGTTAACTACTACGTTGACACTGCTGTGCGCCACGTGTTGCTCAG

ACAGGGTGTGCTGGGCATCAAGGTGAAGATCATGCTGCCCTGGGACCCAACTGG

TAAGATTGGCCCTAAGAAGCCCCTGCCTGACCACGTGAGCATTGTGGAACCCAA

AGATGAGATACTGCCCACCACCCCCATCTCAGAACAGAAGGGTGGGAAGCCAGA

GCCGCCTGCCATGCCCCAGCCAGTCCCCACAGCATAACAGGGTCTCCTTGGCAG

CTGTATTCTGGAGTCTGGATGTTGCTCTCTAAAGACCTTTAATAAAATTTTGT

IX-50

GTCCATCCTGCAGGCCACAAGCTCTGGATGAGGAACTTGAGGCAAGTCACCAGC

CCCTGATCATTTCGCCTAAAAGAGCAAGGACTAGAGTTCCTGACCTCCAGGCCA

GTCCCTGATCCCTGACCTAATGTTATCGCGGAATGATGATATATGTATCTACGG

GGGCCTGGGGCTGGGCGGGCTCCTGCTTCTGGCAGTGGTCCTTCTGTCCGCCTG

CCTGTGTTGGCTGCATCGAAGAGTAAAGAGGCTGGAGAGGAGCTGGGCCCAGGG

CTCCTCAGAGCAGGAACTCCACTATGCATCTCTGCAGAGGCTGCCAGTGCCCAG

CAGTGAGGGACCTGACCTCAGGGGCAGAGACAAGAGAGGCACCAAGGAGGATCC

AAGAGCTGACTATGCCTGCATTGCTGAGAACAAACCCACCTGAGCACCCCAGAC

ACCTTCCTCAACCCAGGCGGGTGGACAGGGTCCCCCTGTGGTCCAGCCAGTAAA

AACCATGGTCCCCCCACTTCTGTGTCTCAGTCCTCTCAGTCCATCTCGAGCCTC

CGTTCAAAATGATCATCATCAAAACTTATGTGGCTTTTTGACCTTTGAATAGGG

AATTTTTTAAATTTTTTAAAAATTAAAATAAAAAAAACACATGGCTCACCCTTC

CACCCAAAAAAAAAA

X-77

CCTCCCGGGCTCTTAAGCCCCTCTCTTTCTCTAACAGAAAAAGCGGATGGTGGT

TCCTGCTGCCCTCAAGGTCGTGCGTCTGAAGCCTACAAGAAAGTTTGCCTATCT

GGGGCGCCTGGCTCACGAGGTTGGCTGGAAGTACCAGGCAGTGACAGCCACCCT

GGAGGAGAAGAGGAAAGAGAAAGCCAAGATCCACTACCGGAAGAAGAAACAGCT

CATGAGGCTACGGAAACAGGCCGAGAAGAACGTGGAGAAGAAAATTGACAAATA

CACAGAGGTCCTCAAGACCCACGGACTCCTGGTCTGAGCCCAATAAAGACTGTT

AATTCCTCATGCGTTGCCTGCCCTTCCTCCATTGTTGCCCTGGAATGTACGGGA

CCCAGGGGCAGCAGCAGTCCAGGTGCCACAGGCAGCCCTGGGACATAGGAAGCT

GGGAGCAAGGAAAGGGTCTTAGTCACTGCCTCCCGAAGTTGCTTGAAAGCACTC

GGAGAATTGTGCAGGTGTCATTTATCTATGACCAATAGGAAGAGCAACCAGTTA

CTATGAGTGAAAGGGAGCCAGAAGACTGATTGGAGGGCCCTATCTTGTGAGTGG

GGCATCTGTTGGACTTTCCACCTGGTCATATACTCTGCAGCTGTTAGAATGTGC

AAGCACTTGGGGACAGCATGAGCTTGCTGTTGTACACAGGGTATT

XI-13

CTGCCAACATGGTGTTCAGGCGCTTCGTGGAGGTTGGCCGGGTGGCCTATGTCT

CCTTTGGACCTCATGCCGGAAAATTGGTCGCGATTGTAGATGTTATTGATCAGA

ACAGGGCTTTGGTCGATGGACCTTGCACTCAAGTGAGGAGACAGGCCATGCCTT

TCAAGTGCATGCAGCTCACTGATTTCATCCTCAAGTTTCCGCACAGTGCCCACC

AGAAGTATGTCCGACAAGCCTGGCAGAAGGCAGACATCAATACAAAATGGGCAG

CCACACGATGGGCCAAGAAGATTGAAGCCAGAGAAAGGAAAGCCAAGATGACAG

ATTTTGATCGTTTTAAAGTTATGAAGGCAAAGAAAATGAGGAACAGAATAATCA

AGAATGAAGTTAAGAAGCTTCAAAAGGCAGCTCTCCTGAAAGCTTCTCCCAAAA

AAGCACCTGGTACTAAGGGTACTGCTGCTGCTGCTGCTGCTGCTGCTGCTGCTG

CTGCTGCTGCTGCTGCTAAAGTTCCAGCAAAAAAGATCACCGCCGCGAGTAAAA

AGGCTCCAGCCCAGAAGGTTCCTGCCCAGAAAGCCACAGGCCAGAAAGCAGCGC

CTGCTCCAAAAGCTCAGAAGGGTCAAAAAGCTCCAGCCCAGAAAGCACCTGCTC

CAAAGGCATCTGGCAAGAAAGCATAAGTGGCAATCATAAAAAGTAATAAAGGTT

CTTTTTGACCTGTTAAAAAA

XI-49

GATCAACCTGGAGCTCTACGCCTCCTACGTTTACCTGTCCATGTCTTACTACTT

TGACCGCGATGATGTGGCTTTGAAGAACTTTGCCAAATACTTTCTTCACCAATC

TCATGAGGAGAGGGAACATGCTGAGAAACTGATGAAGCTGCAGAACCAACGAGG

TGGCCGAATCTTCCTTCAGGATATCAAGAAACCAGACTGTGATGACTGGGAGAG

CGGGCTGAATGCAATGGAGTGTGCATTACATTTGGAAAAAAATGTGAATCAGTC

ACTACTGGAACTGCACAAACTGGCCACTGACAAAAATGACCCCCATTTGTGTGA

CTTCATTGAGACACATTACCTGAATGAGCAGGTGAAAGCCATCAAAGAATTGGG

TGACCACGTGACCAACTTGCGCAAGATGGGAGCGCCCGAATCTGGCTTGGCGGA

ATATCTCTTTGACAAGCACACCCTGGGAGACAGTGATAATGAAAGCTAAGCCTC

GGGCTAATTTCCCCATAGCCGTGGGGTGACTTCCCTGGTCACCAAGGCAGTGCA

TGCATGTTGGGGTTTCCTTTACCTTTTCTATAAGTTGTACCAAAACATCCACTT

AAGTTCTTTGATTTGTACCATTCCTTCAAATAAAGAAATTTGGTACCC

XI-81

AGAGCAGCAGCCATGGCCCTACGCTACCTATGGCCGTGGGCCTCAACAAGGGC

CACAAAGTGACCAAGAACGTGAGCAAGCCCAGGCACAGCCGACGCCGCGGGCGT

CTGACCAAACACACCAAGTTCGTGCGGGACATGATTCGGGAGGTGTGTGGCTTT

GCCCCGTACGAGCGGCGCGCCATGGAGTTACTGAAGGTCTCCAAGGACAAACGG

GCCCTCAAATTTATCAAGAAAAGGGTGGGGACGCACATCCGCGCCAAGAGGAAG

CGGGAGGAGCTGAGCAACGTACTGGCCGCCATGAGGAAAGCTGCTGCCAAGAAA

GACTGAGCCCCTCCCCTGCCCTCTCCCTGAAATAAA

XII-35

CTCTCCTGTCAACAGCGGCCAGCCTCCCAACTACGAGATGCTCAAGGAGGAGCA

GGAAGTGGCTATGCTGGGGGCGCCCCACAACCCTGCTCCCCCGACGTCCACCGT

GATCCACATCCGCAGCGAGACCTCCGTGCCCGACCATGTCGTCTGGTCCCTGTT

CAACACCCTCTTCATGAACACCTGCTGCCTGGGCTTCATAGCATTCGCCTACTC

CGTGAAGTCTAGGGACAGGAAGATGGTTGGCGACGTGACCGGGGCCCAGGCCTA

TGCCTCCACCGCCAAGTGCCTGAACATCTGGGCCCTGATTTTGGGCATCTTCAT

GACCATTCTGCTCGTCATCATCCCAGTGTTGGTCGTCCAGGCCCAGCGATAGAT

CAGGAGGCATCATTGAGGCCAGGAGCTCTGCCCGTGACCTGTATCCCACGTACT

CTATCTTCCATTCCTCGCCCTGCCCCCAGAGGCCAGGAGCTCTGCCCTTGACCT

GTATTCCACTTACTCCACCTTCCATTCCTCGCCCTGTCCCCACAGCCGAGTCCT

GCATCAGCCCTTTATCCTCACACGCTTTTCTACAATGGCATTCAATAAAGTGTA

TATGTTTCTGGTGCTGCTGTGACTTCAA

XII-77

GTAAGAAAGCCCTTAAATAAAGAAGGTAAGAAACCTAGGACCAAAGCACCCAAG

ATTCAGCGTCTTGTTACTCCACGTGTCCTGCAGCACAAACGGCGGCGTATTGCT

CTGAAGAAGCAGCGTACCAAGAAAAATAAAGAAGAGGCTGCAGAATATGCTAAA

CTTTTGGCCAAGAGAATGAAGGAGGCTAAGGAGAAGCGCCAGGAACAAATTGCG

AAGAGACGCAGACTTTCCTCTCTGCGAGCTTCTACTTCTAAGTCTGAATCCAGT

CAGAAATAAGATTTTTTGAGTAACAAATAAATAAGATCAGACTCTGAAAAAAAA

AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

XIII-29

CTCGCTCACGCAGCACTCGTGGCAGTCCCTGAAGGACCGCTACCTCAAGCACCT

GCGGGGCCAGGAGCATAAGTACCTGCTGGGGGACGCGCCGGTGAGCCCCTCCTC

CCAGAAGCTCAAGCGGAAGGCGGAGGAGGACCCGGAGGCCGCGGATAGCGGGGA

ACCACAGAATAAGAGAACTCCAGATTTGCCTGAAGAAGAGTATGTGAAGGAAGA

AATCCAGGAGAATGAAGAAGCAGTCAAAAAGATGCTTGTGGAAGCCACCCGGGA

GTTTGAGGAGGTTGTGGTGGATGAGAGCCCTCCTGATTTTGAAATACATATAAC

TATGTGTGATGATGATCCACCCACACCTGAGGAAGACTCAGAAACACAGCCTGA

TGAGGAGGAAGAAGAAGAAGAAGAAAAAGTTTCTCAACCAGAGGTGGGAGCTGC

CATTAAGATCATTCGGCAGTTAATGGAGAAGTTTAACTTGGATCTATCAACAGT

TACACAGGCCTTCCTAAAAAATAGTGGTGAGCTGGAGGCTACTTCCGCCTTCTT

AGCGTCTGGTCAGAGAGCTGATGGATATCCCATTTGGTCCCGACAAGATGACAT

AGATTTGCAAAAAGATGATGAGGATACCAGAGAGGCATTGGTCAAAAAATTTGG

TGCTCAGAATGTAGCTCGGAGGATTGAATTTCGAAAGAAATAATTGGCAAGATA

ATGAGAAAAGAAAAAAGTCATGGTAGGTGAGGTGGTTAAAAAAAATTGTGACCA

ATGAACTTTAGAGAGTTCTTGCATTGGAACTGGCACTTATTTTCTGACCATCGC

TGCTGTTGCTCTGTGAGTCCTAGATT

XIII-84

ATTATCCTCAGTTCCCAAGAGCAATCATACTTTTCCACACATACCGTGTGTCTC

ATGTTAGGTAAATGTATTTTTACAATGAGCACCACTTCTGTGGAAAAAGTTCCC

TGCACGGGGAGGTCCAGCTTCCAGACTGCTCCATCGCATAAGGACTTCCCCATT

CCCCTAAATGCTGCTCTGTCAGAACCTGCCCAGGTAATGGTAATGACCCTAGAG

AGATGATTTCTGAACCGCAATTTTGAGCCCATTAGAAGGTGTGTGGTGGGCATT

TATTTCATCCTGATGCTCTGGTGAGAATCTTTGCAGACGCACTAGATCCAGAAG

CTGTTAATCTTGGTGCATTTATTTTCCTACCTAAAAGAACCAAGCAGCTCAGAG

GCAGTGACTGTACAGGATGCAGTGTTTATAATAATGCTGAGCTTGCTGGTCTGG

AACCCCACACTTCAGCAATCCCAGCATTGTTCCTGTTTATGAAGTTGACAAAGT

GACCAGGGCAAGGGGGTATTATCATTAAATACACTCTAGGAGAGGCAGAACACA

TGAGGGCAATGTTTTTCAGAGGTCTTTAGGCCACCGCATCAGATTCTCCTGGAG

CATAAAGCAAATGCTTTATGAGTCCAGGGCCCCTGCAGACCTACTGTATACTAG

TATACAGCTCCCTCTTAGTGGATCTCAAGCTTGTTTCCAAAAAGTCATTACACT

CCTTACCAAAGCCCATGACACATTCATACAGATTCATCCAGACATAACCCACTG

CATGGTCCAGTGCATGCTTGTGTGCTTAACTTATTATAGATCAAGTGTTATTTA

AGTCCAACATATTAAACGTGACTGAATATT

XV-49

AAGTCTGCCCAGAAAGCTCAGAAGGCTAAATGAATATTATCCCTAATACCTGCC

ACCCCACTCTTAATCAGTGGTGGAAGAACGGTCTCAGAACTGTTTGTTTCAATT

GGCCATTTAAGTTTAGTAGTAAAAGACTGGTTAATGATAACAATGCATCGTAAA

ACCTTCAGAAGGAAAGGAGAATGTTTTGTGGACCACTTTGGTTTTCTTTTTTGC

GTGTGGCAGTTTTAAGTTATTAGTTTTTAAAATCAGTACTTTTTAATGGAAACA

ACTTGACCAAAAATTTGTCACAGAATTTTGAGACCCATTAAAAAAGTTAAATGAG

XV-54

AAGAGCAGGTCTCTGGAGGCTGAGTTGCATGGGGCCTAGTAACACCAAGCCAGT

GAGCCTCTAATGCTACTGCGCCCTGGGGGCTCCCAGGGCCTGGGCAACTTAGCT

GCAACTGGCAAAGGAGAAGGGTAGTTTGAGGTGTGACACCAGTTTGCTCCAGAA

AGTTTAAGGGGTCTGTTTCTCATCTCCATGGACATCTTCAACAGCTTCACCTGA

CAACGACTGTTCCTATGAAGAAGCCACTTGTGTTTTAAGCAGAGGCAACCTCTC

TCTTCTCCTCTGTTTCGTGAAGGCAGGGGACACAGATGGGAGAGATTGAGCCAA

GTCAGCCTTCTGTTGGTTAATATGGTATAATGCATGGCTTTGTGCACAGCCCAG

TGTGGGATTACAGCTTTGGGATGACCGCTTACAAAGTTCTGTTTGGTTAGTATT

GGCATAGTTTTTCTATATAGCCATAAATGCGTATATATACCCATAGGGCTAGAT

CTGTATCTTAGTGTAGCGATGTATACATATACACATCCACCTACATGTTGAAGG

GCCTAACCAGCCTTGGGAGTATTGACTGGTCCCTTACCTCTTATGGCTAAGTCT

TTGACTGTGTTCATTTACCAAGTTGACCCAGTTTGTCTTTTAGGTTAAGTAAGA

CTCGAGAGTAAAGGCAAGGAGGGGGGCCAGCCTCTGAATGCGGCCACGGATGCC

TTGCTGCTGCAACCCTTTCCCCAGCTGTCCACTGAAACGTGAAGTCCTGTTTTG

AATGCCAAACCCACCATTCACTGGTGCTGACTACATAGAATGGGGTTGAGAGAA

GATCAGTTTGGGCTTCACAGTGTCATTTGAAAACGTTTTTTGTTTTGTTTTGTA

ATTATTGTGGAAAACTTTCAAGTGAACAGAAGGATGGTGTCCTACTGTGGATGA

GGGATGAACAAGGGGATGGCTTTGATCCAATGGAGCCTGGGAGGTGTGCCCAGA

AAGCTTGTCTGTAGCGGGTTTTGTGAGAGTGAACACTTTCCACTTTTTGACACC

TTATCCTGATGTATGGTTCCAGGATTTGGATTTTGATTTTCCAAATGTAGCTTG

AAATTTCAATAAACTTTGCTCTGTTTTTCTAAAAATAAAAAAAAAAAAAAAAAA

AAAAAAAA

XV-75

AGCAGATGACCCTTCGTGGCACCCTCAAGGGCCACAACGGCTGGGTAACCCAGA

TCGCTACTACCCCGCAGTTCCCGGACATGATCCTCTCCGCCTCTCGAGATAAGA

CCATCATCATGTGGAAACTGACCAGGGATGAGACCAACTATGGAATTCCACAGC

GTGCTCTGCGGGGTCACTCCCACTTTGTTAGTGATGTGGTTATCTCCTCAGATG

GCCAGTTTGCCCTCTCAGGCTCCTGGGATGGAACCCTGCGCCTCTGGGATCTCA

CAACGGGCACCACCACGAGGCGATTTGTGGGCCATACCAAGGATGTGCTGAGTG

TGGCCTTCTCCTCTGACAACCGGCAGATTGTCTCTGGATCTCGAGATAAAACCA

TCAAGCTATGGAATACCCTGGGTGTGTGCAAATACACTGTCCAGGATGAGAGCC

ACTCAGAGTGGGTGTCTTGTGTCCGCTTCTCGCCCAACAGCAGCAACCCTATCA

TCGTCTCCTGTGGCTGGGACAAGCTGGTCAAGGTATGGAACCTGGCTAACTGCA

AGCTGAAGACCAACCACATTGGCCACACAGGCTATCTGAACACGGTGACTGTCT

CTCCAGATGGATCCCTCTGTGCTTCTGGAGGCAAGGATGGCCAGGCCATGTTAT

GGGATCTCAACGAAGGCAAACACCTTTACACGCTAGATGGTGGGGACATCATCA

ACGCCCTGTGCTTCAGCCCTAACCGCTACTGGCTGTGTGCTGCCACAGGCCCCA

GCATCAAGATCTGGGATTTAGAGGGAAAGATCATTGTAGATGAACTGAAGCAAG

AAGTTATCAGTACCAGCAGCAAGGCAGAACCACCCCAGTGCACCTCCCTGGCCT

GGTCTGCTGATGGCCAGACTCTGTTTGCTGGCTACACGGACAACCTGGTGCGAG

TGTGGCAGGTGACCATTGGCACACGCTAGAAGTTTATGGCAGAGCTTTACAAAT

AAAAAAAAAACTGGCTTTTCTGACAAAAAAAAAA

XV-86

GCAAAATGTCGCAGCTGGAACGCAACATAGAGACCATCATCAACACCTTCCACC

AATACTCTGTGAAGCTGGGGCACCCAGACACCCTGAACCAGGGGGAATTCAAAG

AGCTGGTGCGAAAAGATCTGCAAAATTTTCTCAAGAAGGAGAATAAGAATGAAA

AGGTCATAGAACACATCATGGAGGACCTGGACACAAATGCAGACAAGCAGCTGA

GCTTCGAGGAGTTCATCATGCTGATGGCGAGGCTAACCTGGGCCTCCCACGAGA

AGATGCACGAGGGTGACGAGGGCCCTGGCCACCACCATAAGCCAGGCCTCGGGG

AGGGCACCCCCTAAGACCACAGTGGCCAAGATCACAGTGGCCACGGCCACGGCC

ACAGTCATGGTGGCCACGGCCACAGCCACTAATCAGGAGGCCAGGCCACCCTGCCT

CTACCCAACCAGGGCCCCGGGGCCTGTTATGTCAAACTGTCTTGGCTGTGGG

GCTAGGGGCTGGGGCCAAATAAAGTCTCTTCCTCCAAAAAAAAAAAAAAAAAAA

AAAAAAAAAAAAAAAAAAAAAA

XVI-74

CGCCGCCGCGCCGCCGTCGCTCTCCAACGCCAGCGCCGCCTCTCGCTCGCCGAG

CTCCAGCCGAAGGAGAAGGGGGGTAAGTAAGGAGGTCTCTGTACCATGGCTCGT

ACAAAGCAGACTGCCCGCAAATCGACCGGTGGTAAAGCACCCAGGAAGCAACTG

GCTACAAAAGCCGCTCGCAAGAGTGCGCCCTCTACTGGAGGGGTGAAGAAACCT

CATCGTTACAGGCCTGGTACTGTGGCGCTCCGTGAAATTAGACGTTATCAGAAG

TCCACTGAACTTCTGATTCGCAAACTTCCCTTCCAGCGTCTGGTGCGAGAAATT

GCTCAGGACTTTAAAACAGATCTGCGCTTCCAGAGCGCAGCTATCGGTGCTTTG

CAGGAGGCAAGTGAGGCCTATCTGGTTGGCCTTTTTGAAGACACCAACCTGTGT

GCTATCCATGCCAAACGTGTAACAATTATGCCAAAAGACATCCAGCTAGCACGC

CGCATACGTGGAGAACGTGCTTAAGAATCCACTATGATGGGAAACATTTCATTC

TCAAAAAAAAAAAAAAAAAATTTCTCTTCTTCCTGTTATTGGTAGTTCTGAACG

TTAGATATTTTTTTTCCATGGGGTCAAAAGGTACCTAAGTATATGATTGCGAGT

GGAAAAATAGGGGACAGAAATCAGGTATTGGCAGTTTTTCCATTTTCATTTGTG

TGTGAATTTTTAATATAAATGCGGAGACGTAAAGCATTAATGCAAGTTAAAATG

TTTCAGTGAACAAGTTTCAGCGGTTCAACTTTATAATAATTATAAATAAACCTG

TTAAATTTTTCTGGACAATGCCAGCATTTGGATTTTTTTAAAACAAGTAAATTT

CTTATTGATGGCAACTAAATGGTGTTTGTAGCATTTTTATCATACAGTAGATTC

CATCCATTCACTATACTTTTCTAACTGAGTTGTCCTACATGCAAGTACATGTTT

TTAATGTTGTCTGTCTTCTGTGCTGTTCCTGTAAGTTTGCTATTAAAATACATT

AAACTATAAAAAAAAAAAAAAAAAAA

XVII-77

CAGACACCCTGAACCAGGGGGAATTCAAAGAGCTGGTGCGAAAAGATCTGCAAA

ATTTTCTCAAGAAGGAGAATAAGAATGAAAAGGTCATAGAACACATCATGGAGG

ACCTGGACACAAATGCAGACAAGCAGCTGAGCTTCGAGGAGTTCATCATGCTGA

TGGCGAGGCTAACCTGGGCCTCCCACGAGAAGATGCACGAGGGTGACGAGGGCC

CTGGCCACCACCATAAGCCAGGCCTCGGGGAGGGCACCCCCTAAGACCACAGTG

GCCAAGATCACAGTGGCCACGGCCACGGCCACAGTCATGGTGGCCACGGCCACA

GCCACTAATCAGGAGGCCAGGCCACCCTGCCTCTACCCAACCAGGGCCCCGGGG

CCTGTTATGTCAAACTGTCTTGGCTGTGGGGCTAGGGGCTGGGGCCAAATAAAG

TCTCTTCCTCCAAAAAAA

xII-78无可得序列

表1：样本详细资料。0期，原位癌；I期，浸润性癌，肿瘤大小＜20mm；II期，浸润性癌，肿瘤大小＞20-50mm；III期，浸润性癌，肿瘤大小＞50mm。IV期，癌症传播至远部位。IDC，浸润性导管癌；DCIS，原位导管癌；ILC，浸润性小叶癌。n.a.，不可得。ND，未确定*。连续五周从同一女性取血液样本。

女性识别号	年龄	分期	组织学	分级	大小(mm)	淋巴结	其他疾病(如果存在)/注释	测定次数	最终预测
女性识别号	年龄	分期	组织学	分级	大小(mm)	淋巴结	其他疾病(如果存在)/注释	测定次数	最终预测	1	51	II	IDC	3	20	1/7	-	2	+
2	84	II	IDC	1	22	2/2	-	2	+	1	51	II	IDC	3	20	1/7	-	2	+
2	84	II	IDC	1	22	2/2	-	2	+	3	50	I	IDC(多病灶)	1	5×14	0	-	1	+
4	66	I	IDC	2	15	0	风湿性疾病	3	+	3	50	I	IDC(多病灶)	1	5×14	0	-	1	+
4	66	I	IDC	2	15	0	风湿性疾病	3	+	5	66	II	IDC	1	26	0	癫痫	1	+
6	47	I	IDC	2	15	0	-	2	ND	5	66	II	IDC	1	26	0	癫痫	1	+
6	47	I	IDC	2	15	0	-	2	ND	7	69	III	IDC+管状腺癌	2+1	50+3	2/19	-	2	ND
8	50	II	IDC	2	24	0	-	2	+	7	69	III	IDC+管状腺癌	2+1	50+3	2/19	-	2	ND
8	50	II	IDC	2	24	0	-	2	+	9	65	I	IDC	1	15	0	-	1	-
10	63	II	IDC	3	23	0	-	1	+	9	65	I	IDC	1	15	0	-	1	-
10	63	II	IDC	3	23	0	-	1	+	11	65	IV				锁骨上和锁骨下淋巴结转移	-	1	-
12	52	I	IDC	1	3	0	-	2	+	11	65	IV				锁骨上和锁骨下淋巴结转移	-	1	-
12	52	I	IDC	1	3	0	-	2	+	13	60	II	IDC	2	23	0	-	2	+
14	54	I	IDC	1	11	0	-	2	+	13	60	II	IDC	2	23	0	-	2	+
14	54	I	IDC	1	11	0	-	2	+	15	67	0	DCIS	2	20	0	-	3	+
16	n.a.	0	DCIS	2	9	0	-	1	-	15	67	0	DCIS	2	20	0	-	3	+
16	n.a.	0	DCIS	2	9	0	-	1	-	17	48	I	IDC	2	4	0	-	2	+
18	n.a.	I	IDC	2	14	0	银屑病	1	+	17	48	I	IDC	2	4	0	-	2	+
18	n.a.	I	IDC	2	14	0	银屑病	1	+	19	68	I	IDC	1	7	0	-	1	+
20	63	I	IDC	1	10	0	-	2	+	19	68	I	IDC	1	7	0	-	1	+
20	63	I	IDC	1	10	0	-	2	+	21	65	I	IDC	1	11	0	II型糖尿病	3	+
22	44	II	IDC	2	25	0	-	1	+	21	65	I	IDC	1	11	0	II型糖尿病	3	+
22	44	II	IDC	2	25	0	-	1	+	23	55	III	IDC	1	35	0	-	1	+
24	71	I	IDC	1	8	0	-	1	+	23	55	III	IDC	1	35	0	-	1	+

亚组A2：初始乳房X线照片异常的女性

女性识别号	年龄	乳腺异常	其他疾病(如果存在)/注释	测定次数	最终预测
女性识别号	年龄	乳腺异常	其他疾病(如果存在)/注释	测定次数	最终预测	25	44	良性密度	-	2	+
26	46	良性密度	-	2	+	25	44	良性密度	-	2	+
26	46	良性密度	-	2	+	27	53	良性微钙化	左膝包裹性(encapsulated)囊肿	2	+
28	52	良性微钙化	癌症，大肠，1992年	1	ND	27	53	良性微钙化	左膝包裹性(encapsulated)囊肿	2	+

29	45	良性密度	-	2	+
29	45	良性密度	-	2	+	30	59	良性肿瘤，纤维腺瘤	-	2	+
31	46	良性密度	-	2	+	30	59	良性肿瘤，纤维腺瘤	-	2	+
31	46	良性密度	-	2	+	32	46	良性密度	溃疡性结肠炎自1983年起	2	ND
33	50	良性密度	I型糖尿病	2	+	32	46	良性密度	溃疡性结肠炎自1983年起	2	ND
33	50	良性密度	I型糖尿病	2	+	34	47	良性微钙化	-	2	+
35	46	良性密度，囊肿	克隆病	2	+	34	47	良性微钙化	-	2	+
35	46	良性密度，囊肿	克隆病	2	+	36	n.a	良性密度	风湿病	1	+
37	44	良性微钙化	-	2	+	36	n.a	良性密度	风湿病	1	+
37	44	良性微钙化	-	2	+	38	47	良性密度	-	2	+
39	50	纤维化，良性	组织学大小60mm	1	+	38	47	良性密度	-	2	+
39	50	纤维化，良性	组织学大小60mm	1	+	40	45	良性密度	II型糖尿病	2	+
41	63	良性密度，囊肿	纤维肌痛	2	+	40	45	良性密度	II型糖尿病	2	+
41	63	良性密度，囊肿	纤维肌痛	2	+	42	44	良性密度	-	2	+
43	51	放射状疤痕	组织学大小10mm	1	+	42	44	良性密度	-	2	+

亚组A3：无乳腺异常的女性

女性识别号	年龄	注释	分析次数	最终预测
女性识别号	年龄	注释	分析次数	最终预测	44	22	-	2	+
45	34	怀孕，8个月	3	+	44	22	-	2	+
45	34	怀孕，8个月	3	+	46	27	怀孕，6个月	1	+
47^*	18	第1周	2	+	46	27	怀孕，6个月	1	+
		第1周	2	+	第2周	1	+
		第3周	1	+	第2周	1	+
		第3周	1	+	第4周	2	+
		第1周	1	+	第4周	2	+
		第1周	1	+	48	29	怀孕，9个月	1	-
49	30	哺乳	2	+	48	29	怀孕，9个月	1	-
49	30	哺乳	2	+	50	26	-	1	+
51	43	-	1	+	50	26	-	1	+
51	43	-	1	+	52	42	-	3	+
53	43	-	2	+	52	42	-	3	+
53	43	-	2	+	54	34	哺乳	3	+
55	-	-	1	+	54	34	哺乳	3	+
55	-	-	1	+	56	51	除慢性EBV感染外还有急性细菌感染	1	+

表2：通过Jackknife所选择的35个显著性基因的详细资料。显示了它们在阵列中的位置，克隆识别号，与其匹配的公共数据库中序列的登录号，及其已知或推定的细胞功能。

上调基因

克隆识别号	位置识别号	登录号	基因相似性	推定的生物学功能
克隆识别号	位置识别号	登录号	基因相似性	推定的生物学功能	III-2	6A	未查到	-	-
III-27	10M	AC096970	3号染色体克隆RP11-321A23；从序列号135183-135446	-	III-2	6A	未查到	-	-
III-27	10M	AC096970	3号染色体克隆RP11-321A23；从序列号135183-135446	-	III-60	14AC	NM_001665	Ras同源基因家族，成员G(rhoG)	信号转导，激酶抑制剂？(RhoH已被描述为一种激酶抑制剂)
IV-26	6N	BC016857	铁蛋白，重链多肽(heavypolypeptide)1	铁储存；防御ROS	III-60	14AC	NM_001665	Ras同源基因家族，成员G(rhoG)	信号转导，激酶抑制剂？(RhoH已被描述为一种激酶抑制剂)
IV-26	6N	BC016857	铁蛋白，重链多肽(heavypolypeptide)1	铁储存；防御ROS	IV-51	10Z	BC042655	上游转录因子2，USF2	转录调节因子
VI-44	14X	AC087441	11号染色体，从序列号116068-116692	-	IV-51	10Z	BC042655	上游转录因子2，USF2	转录调节因子
VI-44	14X	AC087441	11号染色体，从序列号116068-116692	-	VI-52	14AB	未查到	-	-
VII-15	27E	BC001431	S100钙结合蛋白A6(钙周期蛋白)	防御；抑制酪蛋白激酶II	VI-52	14AB	未查到	-	-
VII-15	27E	BC001431	S100钙结合蛋白A6(钙周期蛋白)	防御；抑制酪蛋白激酶II	VII-32	31M	M28697	人类低亲和力IgG Fc受体(α-Fc-γ-RII)	免疫反应
IX-24	31J	BC047681	S100钙结合蛋白A9(钙粒蛋白B)	防御；抑制酪蛋白激酶II	VII-32	31M	M28697	人类低亲和力IgG Fc受体(α-Fc-γ-RII)	免疫反应
IX-24	31J	BC047681	S100钙结合蛋白A9(钙粒蛋白B)	防御；抑制酪蛋白激酶II	IX-50	7Z	NM_007161	白细胞特异性转录物1	防御相关
XI-49	3AB	BC016857	转铁蛋白，重链多肽1，mRNA	铁储存；防御ROS	IX-50	7Z	NM_007161	白细胞特异性转录物1	防御相关
XI-49	3AB	BC016857	转铁蛋白，重链多肽1，mRNA	铁储存；防御ROS	XII-35	12Q	BC009696	干扰素诱导的跨膜蛋白2	免疫反应
XII-78	24K	-	-	-	XII-35	12Q	BC009696	干扰素诱导的跨膜蛋白2	免疫反应
XII-78	24K	-	-	-	XIII-84	16AP	AL391903	从序列号75875-76710	-
XV-54	24AA	BC018148	δ睡眠诱导肽，(sleepinducing peptide)免疫反应物(immunoreactor)	免疫反应？	XIII-84	16AP	AL391903	从序列号75875-76710	-
XV-54	24AA	BC018148	δ睡眠诱导肽，(sleepinducing peptide)免疫反应物(immunoreactor)	免疫反应？	XV-86	24AQ	BC047681	S100钙结合蛋白A9(钙粒蛋白B)	防御；抑制酪蛋白激酶II
XVI-74	5AK	BC066901	H3组蛋白，家族3B(H3.3B)	染色质重塑	XV-86	24AQ	BC047681	S100钙结合蛋白A9(钙粒蛋白B)	防御；抑制酪蛋白激酶II
XVI-74	5AK	BC066901	H3组蛋白，家族3B(H3.3B)	染色质重塑	XVII-77	20AN	BC047681	S100钙结合蛋白A9(钙粒蛋白B)	防御；抑制酪蛋白激酶II

下调基因

克隆识别号	位置识别号	登录号	基因相似性	推定的生物学功能
克隆识别号	位置识别号	登录号	基因相似性	推定的生物学功能	I-30	21O	BC009689	细胞周期蛋白D型结合蛋白	E2F介导的转录
IV-41	2V	BC010165	核糖体蛋白S2	核糖体生成	I-30	21O	BC009689	细胞周期蛋白D型结合蛋白	E2F介导的转录
IV-41	2V	BC010165	核糖体蛋白S2	核糖体生成	V-09	2G	BC053370	核糖体蛋白SA	核糖体生成
V-38	22S	NM 001016	核糖体蛋白S12	核糖体生成	V-09	2G	BC053370	核糖体蛋白SA	核糖体生成
V-38	22S	NM 001016	核糖体蛋白S12	核糖体生成	VI-49	2AB	NM 001023	核糖体蛋白S20(RPS20)
VII-48	31U	M22146	核糖体蛋白S4	核糖体生成	VI-49	2AB	NM 001023	核糖体蛋白S20(RPS20)
VII-48	31U	M22146	核糖体蛋白S4	核糖体生成	VII-76	15AK	AY495316	细胞色素c氧化酶亚基，COX1	线粒体电子传递链
IX-39	27R	BC001037	核糖体蛋白L35a	核糖体生成	VII-76	15AK	AY495316	细胞色素c氧化酶亚基，COX1	线粒体电子传递链
IX-39	27R	BC001037	核糖体蛋白L35a	核糖体生成	IX-46	23V	BC034149	核糖体蛋白S3	核糖体生成
X-77	19AM	BC000514	核糖体蛋白L13a	核糖体生成	IX-46	23V	BC034149	核糖体蛋白S3	核糖体生成
X-77	19AM	BC000514	核糖体蛋白L13a	核糖体生成	XI-13	19H	D87735	核糖体蛋白L14	核糖体生成
XI-81	3AR	AF077043	60S核糖体蛋白L36	核糖体生成	XI-13	19H	D87735	核糖体蛋白L14	核糖体生成
XI-81	3AR	AF077043	60S核糖体蛋白L36	核糖体生成	XII-77	20AK	BC035447	核糖体蛋白S6	核糖体生成
XIII-29	20N	BC004465	端粒重复序列结合因子2，相互作用的蛋白	端粒长度调控	XII-77	20AK	BC035447	核糖体蛋白S6	核糖体生成
XIII-29	20N	BC004465	端粒重复序列结合因子2，相互作用的蛋白	端粒长度调控	XV-49	4AA	BC018641	真核翻译延伸因子1αl，(EEF1A)	蛋白质翻译
XV-75	12AM	BC019093	鸟嘌呤核苷酸结合蛋白，β-多肽2样；RACKs(活化的C-激酶受体的)	蛋白质翻译	XV-49	4AA	BC018641	真核翻译延伸因子1αl，(EEF1A)	蛋白质翻译

表3乳腺癌的信息性探针-家族(i)和(ii)基因

探针号	Agilent识别号	寡核苷酸序列
探针号	Agilent识别号	寡核苷酸序列	2	A_23_P164011	ACTCCAGACTGGGAAGACCTTTCCATTTTCAGGATCGACGCTTCACGTTGAGGGGAGGGC
3	A_23_P94111	TTACCAAACTCAAAGCTTATTTGAGTAGAATGGGCTCATGGGCAATGTGATGTTCCCTGT	2	A_23_P164011
3	A_23_P94111		5	A_23_P155009	TGTTGGTTGGAGGACAAGTGGGCACTGAGACCCTGGTGACCCATGGAAAGGGTGGGCCTG
6	A_23_P84323	TGGAGAAAGGACCCTGGACCTGTGGGTCCATCGTCCGTTCCAGGAGCAGGCAGGCTGGGG	5	A_23_P155009
6	A_23_P84323		8	A_3_P121716	TGGACATTCGAACAGAGTTCAAGAAGCATTATGGCTATTCCCTATATTCAGCAATTAAAT
10	A_3_P111037	ATCAGAAGTCCACTGAACTGCTTATTCGTAAACTACCTTTCCAGCGCCTGGTGCGCGAGA	8	A_3_P121716
10	A_3_P111037		13	A_23_P75830	TTTGTGGAAACTGTGTGTTATACTTTGTGGTATAGACTGCCTGTTTAGTATGAAGGGGCG
16	A_23_P149936	CCTCCCAGCAGTTAAGTAACTTGTGTGAAGATGGGACCCTTGTTCCTAATGGTTCTAGAA	13	A_23_P75830
16	A_23_P149936		17	A_23_P134805	CTGAATCTGTTTTGTCTTCCTAATCTATCACAATTGCCACCCATCGGGTTTTGGGTGTGT
18	A_23_P154235	CCATGTTTCTGAATCTTCTTTGTTTCAAATGGTGCTGCATGTTTTCAACTACAATAAGTG	17	A_23_P134805
18	A_23_P154235		19	A_23_P2616	ATCATTCAGAATCTGAAAAGAAATTCTTCTTATTTTCTGGGGCTGTCAGATCCAGGGGGT
20	A_23_P333484	CCACCGAGCTGCTGATCAGAAAGCTGCCTTTTCAGCGTCTGGTGCGTGAGATCGCGCAGG	19	A_23_P2616
20	A_23_P333484		24	A_23_P259874	TCTCAGAAGAATGTTGGCCATGAGACTATCATTCAGAGGAGGAGGGGATTTCTCTCTTCA
26	A_23_P206568	AATCCTGTGATTCTGTGTGTGCCTGTGTGTGTATGCTGTTAATAAGATAAGGCTGCCCAT	24	A_23_P259874
26	A_23_P206568		27	A_23_P115091	GATGGCTGAAGGAGCTCTATGACCATGCTGAAGCCACGATCGTCGTCATGCTCGTGGGTA
28	A_23_P46718	TGCATGGGGAGTACATTCATCTGGAGGCTGCGTCCTGATGAATGTCCTGTCTGCTGGGGT	27	A_23_P115091
28	A_23_P46718		29	A_23_P218456	GTTTTTGAGTTTTTGCAGTTCAGTATCCCTCTGTCTATTCACACTTCGTGTTAGTGGTAA
31	A_23_P76610	CAGTTTATGGATGTCTGGGCAATCATAGCACTTGCCATTTAAAAACATGCTACAGGGGCA	29	A_23_P218456
31	A_23_P76610		32	A_23_P206396	ATTATCAACTCACTGGTAACAACAGTATTCATGCTCATCGTATCTGTGTTGGCACTGATA
34	A_23_P56091	GAAACCGGATCGCAAGCTTCCCAGGATTCCTCTTCGTGCTGCTGGGGGTGGGAAGCATGG	32	A_23_P206396
34	A_23_P56091		35	A_23_P55184	TCAATTTCAAGGCCTCCCTGCCTCTACTAGGCGCCTTAGCTCACTATGGGGAACCACTTG
37	A_23_P150974	CAAAATAGCTACATCCCTGAACACAGTCCGGAATATTACGGCCGGACCAGGGAATCGGGA	35	A_23_P55184
37	A_23_P150974		40	A_23_P111689	TTAATTCTATTGGCTCTTAGTCACTTGGAACTGATTAATTCTGACTTTCTGTCACTAAGC
41	A_23_P58937	GTCTCAAACAGCCGAAACCTGTCTTGCAATGGGGGGAGGGGGCGTTTCGCTTTCCTTCTT	40	A_23_P111689
41	A_23_P58937		42	A_23_P74828	TTGGCTTTTAGACATTATATATATTATCAGAGAAGTAGCCTAGTGGTCGTGGGGCACAGA
45	A_23_P42168	GGAACACTGTGAAAGTTACTTGGGGAGGGTGGGCCGGTGGGGCCGTAGCTCTCTACCTCT	42	A_23_P74828
45	A_23_P42168		47	A_23_P81278	TCAGACAGAGCTTGGTAAGTGACCCCTCTTAGAACTATTTCTCCTCAGGGCCGGGTCCAG

49	A_23_P251695	AGGTTGAACTCTTTTTTGTTGCTCAAGTTCTAGGAGTCCCTTTCCTGAATATATACTTGT
49	A_23_P251695		52	A_23_P393645	CTACTTTAGAGTCTTCTCCAATGTCCAAAAGGCTAGGGGGTTGGAGGTGGGGACTCTGGA
53	A_23_P208683	ATAGTCATGGGTGTCATGAAAAAATACCAAATGTAAGAGAACCTCCAAGTCAGGGCGCAG	52	A_23_P393645
53	A_23_P208683		55	A_23_P72016	GACATTGAGAAGGAAAACCGGGAGGTGGGAGACTGGCGCAAGAATATCGATGCACTAAGT
58	A_23_P16915	CATATTCCATTTTTAAGAAGAGGTGTTCCAGTTCTGCATCTGATACCGTCTCCTTTCCCT	55	A_23_P72016
58	A_23_P16915		60	A_23_P37076	GAAAATCCCTTGCTATGTCTTTCCTACTAGAAATGTTCTAGAATCGCTGGACGGTGGGGT
61	A_23_P66408	TGGTGGTGGATCCTGGAATTTTCTCACGCAGGAGCCATTGCTCTCCTAGAGGGGGTCTCA	60	A_23_P37076
61	A_23_P66408		63	A_23_P94501	GGCTCTTTGTGGAGGAAACTAAACATTCCCTTGATGGTCTCAAGCTATGATCAGAAGACT
67	A_23_P94230	TGAAGCTATTTCTGGGAGCCCAGAAGAAATGCTCTTTTGCTTGGAGTTTGTCATCCTACA	63	A_23_P94501
67	A_23_P94230		68	A_23_P154037	TTGGTTTCCTCTAGGGTGATATTCGTCATTACTCTGTCTCTTCAATCCATCCAGCTAAAT
69	A_23_P47938	AAGAAAACACACCTCGGCGACAATGTCTTGCTGCTCGGATTAGGTGGGGGATGGGCGACA	68	A_23_P154037
69	A_23_P47938		70	A_23_P90743	CTGAGTTTGCCTTGTTAATCTTCAATAGTTTTACCTACCCCAGTCTTTGGAACCCTAAAT
71	A_23_P171249	AAAGTGTCAAGTGATTAAGTGTGTATTTGTACCCTAGATGATATGAACCAGCAGTCTTGT	70	A_23_P90743
71	A_23_P171249		72	A_23_P142675	TGAGCTGTTCCCTTCTCTAAGCCATAATCTCTTAGTGGATTGAGCCCTCTTGGAAAGACT
73	A_23_153637	TGTTATTGGCCTAGAGCTACACGTATATGGGTTTGTCCTGAGTCCGTTTTCAAATGACCT	72	A_23_P142675
73	A_23_153637		76	A_23_P76749	CCTGTTCTGTTTTTGCTTTTCCTCTTCTTGACCAAAGCATCTGCCACTAGCTGTCCTTGA
80	A_23_P169061	TTGAAGGCAAAGATCATCAATATCTGCATCTGGCTGCTGTCGTCATCTGTTGGCATCTCT	76	A_23_P76749
80	A_23_P169061		91	A_23_P206253	CGAATTGGGAGGCTTATATTTTTCAGCAAAGAAATTTTGGGGGGTTTTGTGTTGTTGGGC
95	A_23_P151995	AATAAACAACTTTGATGATGTAACTTGACCTTCCAGAGTTATGGAAATTTTGTCCCCATG	91	A_23_P206253
95	A_23_P151995		97	A_23_P138011	AGAGACCTGCAGGGGCCTCGGCCCCTCACATCGTGTATGTCTCTCCTTGATTTGTGTTGT
100	A_23_P35912	GCCAAAGCTCAAATGCCCACCATAGAACGACTGTCCATGACAAGATATTTCTACCTCTTT	97	A_23_P138011
100	A_23_P35912		101	A_23_P99424	TGGCTCCCCATCATGTATCCTCCCGATTATTGCGTATTCTAAAATAGGAAACAAGACTTT
105	A_23_P418986	GATGACACTGCCACCTCTGACTTCTGCCTCTGGCCTTCCACTCTCAGTAAGAAGAGCCAG	101	A_23_P99424

表4乳腺癌的信息性探针-非家族(i)和(ii)基因

探针号	Agilent识别号
探针号	Agilent识别号		1	A_23_P366812	TTTACTTCTACCTGCTCTTCCCCAACTCCCTGAGCCTGAGTGAGCGTGTGGCCATCATCA
4	A_23_P389391	TGGGCCTCAAAATGGAGATGGATCCCAGGTCTTGTGGGACCCTGGGATGTTTGGGGACTT	1	A_23_P366812
4	A_23_P389391		7	A_23_P4096	TAATATCCCCAAACCTGAGATGAGCACTACGATGGCAGAGAGCAGCCTGTTGGACCTGCT
9	A_23_P15450	GACTGAAAAATCAGCTTTCTATTTACATGAAACACTTTGGGGGTCATGGGAGTGCACAGC	7	A_23_P4096
9	A_23_P15450		11	A_23_P379596	AGGGATAATTCAAACTGACAACCTGTGCAGTCCCGTGGAGGGTAGGGGAGTGTGGGTGAT
12	A_23_P391275	TAAATTATGATTTACTCTGTGCTGTTTCCAAATTGGGACCAGGAGAGAAATATGAACTTC	11	A_23_P379596
12	A_23_P391275		14	A_23_P124661	TCTATTATTTATAACTTCAGACTTGGGCCCCCTGTTCTTTCTTTCCCATTAACTTGAGTG
15	A_23_P44257	AACATTTTACTTCTGCGCTTCTATGTTTGGGAAACATTGCTCTGATAAAAAATAGCTGTC	14	A_23_P124661
15	A_23_P44257		21	A_23_P128183	CTGAGAGTTTTTGCAGAAATGGGGCAGAGGGACACCCTTTGGGCGTGGCTTCCTGGTGAT
22	A_23_P331211	CGAGTGGCTCACTCAGAATTCTTCATTGATGGGCTAGGGACCCTACTCGTGGGGTCATGC	21	A_23_P128183
22	A_23_P331211		23	A_23_P94932	TCTGTTGATGACCTTGGATGCTGTAAAGTGATTCGTCATAGTCTCTGGGGTACCCATGAT
25	A_23_P102122	AAGCGGCTGGCAACTGAAGGCTGGAACACTTGCTACTGGATAATCGTAGCTTTTAATGTT	23	A_23_P94932
25	A_23_P102122		3 0	A_23_P407654	GAGGAGCTCTTTTCTAGAGAGCCGGGAGTTGGGGAGGGGGTATTTATTTTGTTATTTATT
33	A_23_P392457	CCTCTGACTGCCTCCAACGTAAAAATGTAAATATAAATTTGGTTGAGATCTGGAGGGGGG	3 0	A_23_P407654
33	A_23_P392457		36	A_23_P406376	GCCACACTGGCTTTAGGACCTGTTGACACGGAGGGGGGTTTTTAATTTGGTTTTTAACAA
3 8	A_23_P22723	AACAAACTACAGTTTTACCGTGTGTTTGCCATTTGAGCTGTGTGGTGGGCAGGGGGCTGG	36	A_23_P406376
3 8	A_23_P22723		3 9	A_23_P70258	AGAGAGGATGGCTGTATTCCTATCCCAGCTCAAGCTGCCAGCAGCAATGTTGGCTGCCCA
43	A_23_P104005	AATTTTCAAGACTTCTTTTCACTCTTTGATTTGGATCTGGCAAATTGGGGAGGGGATGCT	3 9	A_23_P70258
43	A_23_P104005		44	A_23_P119652	TTGCCCAACTGACCGTGGGCTGAACACACGTTCTGCTTGACTCATTTAGGGGGGAGGGAA
46	A_23_P22957	ATGAGGTGATCACTGTGTTCAGTGTTGTTGGAATGGATTCAGACTGGCTAATGGGGGAAA	44	A_23_P119652
46	A_23_P22957		48	A_23_P8072	GGGGGAGATCAGAATCGTCCAGCTGGGCTTCGACTTGGATGCCCATGGAATTATCTACAC
50	A_23_P23346	AATCTTCTGAACGGCATAAGTCCTATTTTAGCCTTACCTCCTGCATTTGCAATACGTAAT	48	A_23_P8072
50	A_23_P23346		51	A_23_P92342	CGAACAAACAAAATACTTGGCGGGGCCCGAGAGGGCTCGTTTGGCCTATTCGTTGGGGAT
54	A_23_P153183	ACAGAAAACAGACTTGTAAAAAGCTTAGATCATCAAGTGTTTTGGATTGGGGGCCTCCCA	51	A_23_P92342
54	A_23_P153183		56	A_23_P157231	TGCAGAATGCATAAGATGAACATTGCATGACCGGATCATTTTAGTGTCTTTGCGTTAAAA
57	A_23_P103282	TGAAGATCATGAAGAAGCAGGGCCTCTACCTACAAAAGTGAATCTTGCTCATTCTGAAAT	56	A_23_P157231
57	A_23_P103282		59	A_23_P109462	CTGGATGTTTACCTGGAGACCGAGAGCCATGACGACAGTGTGGAGGGGCCCAAGGAATTT

62	A_23_P395460	TTAATGCTTTATACTGCCGAGTCTGGGGGGTTGTTTTGGTTTGGGGGCAGCCATCCTCCA
62	A_23_P395460		64	A_23_P418485	TCTAGGACTAATTCACACTGCAACAAAGGGGCTGATTAGAGCTTTTGAAGATGGGGGGAT
65	A_23_P215111	GACTTAACCACGTCAGAGGAAGGACTTTGGCAAGTGATATTGTCTTCATGTGGGGTATTA	64	A_23_P418485
65	A_23_P215111		66	A_23_P19543	CTGTCAAATTGCCACGATCTCACTAAAGGATTTCTATTTGCTGTCAGTTAAAAATAAAGC
74	A_23_P18317	TCATCTGCACTCAACATTTAATCGTGTCCTTGCTGTCTTTTTATTTTCCTTTTTGTTTGT	66	A_23_P19543
74	A_23_P18317		75	A_23_P89369	GCGGGAGGAGCGGCCGCTGATGGTGTTCAACGTCAAGTAGCGCCCGCGCAGGGCGGGGCA
77	A_23_P330561	CTGTCTCCCTGTTTGTGTAAACATACTAGAGTATACTGCGGCGTGTTTTCTGTCTACCCA	75	A_23_P89369
77	A_23_P330561		78	A_23_P206103	GAGAGTTTCTTTTAAATAATCAGCGGGTGTTGGTGATTTGTAGCCCTTCTGCCCTTAAAT
79	A_23_P98042	ATACTTTGTGAGTTCACCTGTCTTTATACTCAAAAGTTGCCCTTAATAGTGTCCTTGCCC	78	A_23_P206103
79	A_23_P98042		81	A_23_P166453	ACCTTTGAATTTGCGGATGCTGAGGAGGATGATGAGGTCAAGGTGTGAGGGGCTGGGGCA
82	A_23_P432554	TATTAGACTATGTCATCAATTTTTGCAAAGGTAAATTTGACTTCCTTGAACGGCTCTCAG	81	A_23_P166453
82	A_23_P432554		83	A_23_P368028	AAATACTGGGTGGCTTGGTTTAGAGCTAATTGTAGTGGAAGCCTGCAAGGTTGAGGGGTG
84	A_23_P213334	ACTCACTATGGCCAGAAAGCAATCTTGTTTCTCCCCCTGCCAGTCTCTTCTGATTAAAGA	83	A_23_P368028
84	A_23_P213334		85	A_23_P102113	AACAAATATTTATTTTGCACTCTCTTTGCGGCACTCTGGGGGCGGTGGGGTGCGTGGGGG
86	A_23_P319682	CAAGTTGTCACTGGAGATGCGCGCGGACTTGGCCCAAAACGTGCTTCTCTGCGGTGGGTC	85	A_23_P102113
86	A_23_P319682		87	A_23_P104471	GATTTCCCTGACCCAATTCAGAGATTCTTTATGCAAAAGTGAGTTCAGTCCATCTCTATA
88	A_23_P118749	GAAGGACTCGGTGATACCCACTGGGATCTTTTATCCTTTGTTGCAAAAGTGTGGACACTT	87	A_23_P104471
88	A_23_P118749		89	A_23_P420879	CAGGGCAACTCAAAGAATGTTCTGCTGGCATGTCCTATGAACATGTACCCGCATGGACGC
90	A_23_P29816	GAGAAAAGCAAAGCTCTTTCTTATTTTCCTCATAATCAGCTACCCTGGAGGGGAGGGAGA	89	A_23_P420879
90	A_23_P29816		92	A_23_P41992	TGAAATGCTGGAAGGGTTCTTCTCCCACAACCCCTGCCTCACGGAGGCCATTGCAGCTAA
93	A_23_P75479	AGACCTCGGTGATCACTGAGGGATTTCCGCGAGCTCGGCCTCACTTCTGCCCCGACTTGT	92	A_23_P41992
93	A_23_P75479		94	A_23_P307940	CTACAAGATTGGCAAAGAGATGCAGAATGCATAAGATGAACATTGCATGACCGGATCATT
96	A_23_P98910	AGGTTCTCAGAATGACCGTAAGATAGCTTACATTTCCTCTTTTTGCCTTTATCTCCCCAA	94	A_23_P307940
96	A_23_P98910		98	A_23_PP149736	CCGTTTTGTTTCTGCTCAGTAATATAGTCAAGCAAGTTTGTTCCAAGTGACCCATTGAGC
99	A_23_P320250	AAATTGGCGCTGGAATTTGGGCTGGGAAAAATCTTGTGGTTATTTCCTTTAAAAAGGAAC	98	A_23_PP149736
99	A_23_P320250		102	A_23_P55123	TCACGTTAACATATAGACACTGTTGGAAGCAGTTCCTTCTAAAAGGGTAGCCCTGGACTT
103	A_23_P251825	CTATGACACCTTTAAGGAGGTTCTTGGATCAGGGATGCAGTACCCACTTGCAGTCAAAAT	102	A_23_P55123
103	A_23_P251825		104	A_23_P109864	TGTGGGTGTCCAGCATCTTCTTCTTCCTTCCTGTCTTCTGTCTCACGGTCCTCTACAGTC
106	A_23_P428875	GTCGCCTGGGATTTTCATCCCTCGCACAAGGACTACGGGTTCACACGGTGAACTGGGGGA	104	A_23_P109864
106	A_23_P428875		107	A_23_P73468	GCCATAAGAAATTTGACAAGATGGTGGACACTCCTGCCTCCGAGCCTGCCCAAGCCTCCA
108	A_23_P106532	AAGGCCTTTGAGGTTGTGACTGTGGCTGGTATATCTGGCTGCCATTTTTCTGATGCATTT	107	A_23_P73468
108	A_23_P106532		109	A_23_P112251	AGAATTCTTAACTTCACAAGTGTTTTACTTCGACGATGTGCCTTTGATTTAATTTGGGAC
110	A_23_P313330	TCATTAGACATCGGGGATTTCACTCTGCAGAGTAATCCTGGAACTACATTAAAGTGGGGG	109	A_23_P112251
110	A_23_P313330		111	A_23_P27414	TGCGGGAAGCCTTTCAGCCACCGTTGCAACCTCAACGAGCACCAGAAGCGGCACGGGGGC
112	A_23_P210981	TTGTAGGACTTAATGGCTAAGAATTAGAACATAGCAAGGGGGCTCCTCTGTTGGAGTAAT	111	A_23_P27414

表5：乳腺癌的信息性探针-家族(i)和(ii)基因

探针号	登录号1	登录号2	基因相似性和推定的生物学功能
探针号	登录号1	登录号2	基因相似性和推定的生物学功能				转录因子(家族(i))
2	NM_006942	AB006867	SRY(性别决定区Y)-框20，转录因子的含SRY相关HMG框家族成员				转录因子(家族(i))
2	NM_006942	AB006867	SRY(性别决定区Y)-框20，转录因子的含SRY相关HMG框家族成员	3	NM_002095	X63469	通用转录因子IIE2(34kDa亚基)，RNA聚合酶II转录因子TFIIE的β亚基，为转录起始所所需，与激活子和DNA修复蛋白相互作用，在转录偶联的修复中起作用
6	NM_018942	M99587	H6同源框1，含同源域的DNA结合蛋白家族成员，为一种转录抑制因子，可拮抗小鼠NKx2-5介导的转录活化	3	NM_002095	X63469
6	NM_018942	M99587	H6同源框1，含同源域的DNA结合蛋白家族成员，为一种转录抑制因子，可拮抗小鼠NKx2-5介导的转录活化	26		BC026031.1	T-框6，T框DNA结合域的转录因子家族成员，可与胚胎轴旁中胚层形成和体质发生(somitogenesis)有关
45	NM_005586	U78313	MyoD家族抑制物，为一种推定的负调节肌形成的转录抑制物	26		BC026031.1	T-框6，T框DNA结合域的转录因子家族成员，可与胚胎轴旁中胚层形成和体质发生(somitogenesis)有关
45	NM_005586	U78313	MyoD家族抑制物，为一种推定的负调节肌形成的转录抑制物	69	NM_014212	AJ000041	同源框C11，一种含有同源域的转录因子，可能活化HNF1α(TCF1)依赖性转录，在肠的早期发育和分化中起作用；NUP98-HOXC11融合蛋白与骨髓恶性肿瘤(myeloid malignancies)有关
105	NM_004348		人runt相关转录因子2(RUNX2)，mRNA	69	NM_014212	AJ000041
105	NM_004348		人runt相关转录因子2(RUNX2)，mRNA				防御相关基因(家族(ii))
63	NM_000700	BC035993	膜联蛋白1，钙依赖性磷脂结合蛋白，其抑制磷脂酶A2并具有抗炎症活性，与应激反应有关；与食管癌和前列腺癌的早期肿瘤发生有关				防御相关基因(家族(ii))
63	NM_000700	BC035993		8	NM_005139	M63310	膜联蛋白A3(脂皮质蛋白III)，钙依赖性磷脂结合蛋白的膜联蛋白家族成员，其结合胆碱，帮助调节膜融合和渗透性及吞噬作用
13		BC007022.1	血清淀粉样蛋白A1，一种急性期载脂蛋白，在白细胞趋化作用中起作用，诱导基质金属蛋白酶，在类风湿性关节炎、动脉粥样硬化、反应性全身性AA淀粉样变(reactive systemic AA amyloidosis)，阿尔茨海默氏病和多发性硬化症中起作用	8	NM_005139	M63310	膜联蛋白A3(脂皮质蛋白III)，钙依赖性磷脂结合蛋白的膜联蛋白家族成员，其结合胆碱，帮助调节膜融合和渗透性及吞噬作用
13		BC007022.1		18	NM_004688	BC001268	N myc(和STAT)相互作用因子(interactor)，与N-myc(MYCN)和STAT蛋白相互作用的蛋白质，通过促进CBP/P300和STAT蛋白联合增进IL-2和IFNγ反应性转录，可有助于BCRA1抑制乳腺癌发生

19	NM_203503	AF325460	C-型(钙依赖性、糖识别域)凝集素超家族成员11，一种树突状细胞糖蛋白，其抑制干扰素α和β诱导，并介导启动T细胞依赖性免疫反应的抗原捕获
19	NM_203503	AF325460		27	NM_020387	AF274025	与Ras p21样小GTP结合蛋白11a(人RAB11A)高度相似的蛋白，为一种推定的GTP酶，与吞噬作用有关，可能与小泡运输有关，GTP结合蛋白Ras超家族成员
29	NM_012218	AJ271747	白细胞介素增强子结合因子3，NF-AT的亚基，作为正或负转录调节因子起作用，为T细胞IL2表达所需，可能与mRNA加工、翻译抑制、宿主防御和自身免疫有关	27	NM_020387	AF274025
29	NM_012218	AJ271747		32	NM_181640	BC004380	趋化因子样因子1，白细胞、嗜中性粒细胞、单核细胞及淋巴细胞的分泌性化学引诱物，刺激炎症反应和肌肉干细胞增殖和增殖，在肌形成(myogenesis)调节中起作用
37	NM_153633	X07495	同源框C4，DNA结合蛋白同源框家族成员，可能在淋巴细胞活化和血细胞生成过程的谱系确定的调节中起作用	32	NM_181640	BC004380
37	NM_153633	X07495	同源框C4，DNA结合蛋白同源框家族成员，可能在淋巴细胞活化和血细胞生成过程的谱系确定的调节中起作用	61	NM_020530	BC011589	制瘤素M，白细胞介素-6细胞因子家族成员，由活化的单核细胞和T淋巴细胞产生，通过活化JAK-STAT和MAPK途径调节细胞生长和分化，调节Kaposis肉瘤细胞生长
67	NM_015364	AB018549	MD-2蛋白，脂多糖受体复合物部分，参与脂多糖和Toll-样受体4(Tlr4)信号传导，可能在细胞防御反应中起作用	61	NM_020530	BC011589
67	NM_015364	AB018549	MD-2蛋白，脂多糖受体复合物部分，参与脂多糖和Toll-样受体4(Tlr4)信号传导，可能在细胞防御反应中起作用	80	NM_000912	L37362	κ阿片样受体1，通过抑制性G蛋白转导信号的G蛋白偶联受体，可介导感知觉，如疼痛；表达改变与阿尔茨海默氏病有关联；激动剂刺激可抑制HIV感染
95	NM_004049	U29680	BCL-2相关蛋白A1，细胞凋亡调节因子Bcl-2家族成员，抑制细胞凋亡，促进肿瘤发生，并可在炎症过程中起保护作用	80	NM_000912	L37362
95	NM_004049	U29680	BCL-2相关蛋白A1，细胞凋亡调节因子Bcl-2家族成员，抑制细胞凋亡，促进肿瘤发生，并可在炎症过程中起保护作用	17	NM_003580	BC041124	中性鞘磷脂酶(N-Smase)活化相关因子，介导N-Smase的肿瘤坏死因子受体CD40(TNFRSF5)诱导，与TNFα介导的细胞凋亡诱导有关，结合TNF受体TNF-R55(TNFRSF1A)
34	NM_144615	BC015655	含有免疫球蛋白(Ig)结构域的蛋白质，其可与蛋白-蛋白和蛋白-配体相互作用有关	17	NM_003580	BC041124
34	NM_144615	BC015655	含有免疫球蛋白(Ig)结构域的蛋白质，其可与蛋白-蛋白和蛋白-配体相互作用有关				染色质重塑(家族(ii))
10	NM_003529	BC067491	H3组蛋白家族成员A，连同核组蛋白H2A、H2B、H4和DNA一起作为核小体组分				染色质重塑(家族(ii))

20	NM_003536	BC062305	人组蛋白1，H3h(HIST1H3H)，mRNA
20	NM_003536	BC062305	人组蛋白1，H3h(HIST1H3H)，mRNA	31	NM_018282	AF090873	旁核斑蛋白(paraspeckle)1，推定含两个RNA结合(RRM)域的RNA结合蛋白，在旁核斑染色质间空间隔室与核仁之间移动，并以转录依赖性方式与核仁相互作用
			核糖体生物发生(biogenesis)(家族(i))	31	NM_018282	AF090873
			核糖体生物发生(biogenesis)(家族(i))	16		AK024156	功能未知的蛋白质，与酿酒酵母Bmslp区中度相似，与rRNA加工和40S核糖体亚基生物发生有关
			蛋白代谢(家族(i))	16		AK024156	功能未知的蛋白质，与酿酒酵母Bmslp区中度相似，与rRNA加工和40S核糖体亚基生物发生有关
			蛋白代谢(家族(i))	52	NM_139026	AY358118	人解联蛋白样及金属蛋白酶(reprolysin型)具有1型血小板反应蛋白基序，13(ADAMTS13)，转录变异体1，mRNA
72	NM_012100	AK001777	胞质天冬氨酰氨肽酶，金属蛋白酶M18家族成员，对N端天冬氨酰和谷氨酰残基有底物偏好，可与细胞内肽代谢有关	52	NM_139026	AY358118
72	NM_012100	AK001777	胞质天冬氨酰氨肽酶，金属蛋白酶M18家族成员，对N端天冬氨酰和谷氨酰残基有底物偏好，可与细胞内肽代谢有关	100	NM_001225	U28979	胱天蛋白酶4，ICE半胱氨酸蛋白酶家族成员，与细胞凋亡有关；牛痘病毒丝氨酸蛋白酶抑制蛋白CrmA抑制可通过抑制细胞凋亡促进感染
101	NM_003291	AK097678	三肽酰肽酶II，丝氨酸外肽酶，可在非蛋白酶体蛋白转换中起作用，神经肽和MHCI类抗原为底物，在志贺菌活化的细胞凋亡中起作用，在过量表达MYC的伯基特淋巴瘤细胞中上调	100	NM_001225	U28979
101	NM_003291	AK097678		5	NM_012265	BC002705	内在膜蛋白菱形(rhomboid)家族成员，含有UBA(泛素关联的)或TS-N结构域
55		M64247.1	与心肌肌钙蛋白I(小鼠Tnni3)具有极强相似性的蛋白，其为肌钙蛋白抑制性亚基，肌钙蛋白家族成员，调节钙诱导的肌肉收缩	5	NM_012265	BC002705	内在膜蛋白菱形(rhomboid)家族成员，含有UBA(泛素关联的)或TS-N结构域
55		M64247.1	与心肌肌钙蛋白I(小鼠Tnni3)具有极强相似性的蛋白，其为肌钙蛋白抑制性亚基，肌钙蛋白家族成员，调节钙诱导的肌肉收缩	76		BC036812	与UDP-N-乙酰基-α-D-半乳糖胺：多肽N-乙酰基半乳糖胺基转移酶(人GALNT2)具有高相似性，糖基转移酶家族2成员，含有2个QXW(ricin B)凝集素重复结构域
			氧化应激(家族(ii))	76		BC036812
			氧化应激(家族(ii))	58	NM_012413	X71125	谷氨酰基肽环环转移酶(cyclotransferase)(谷氨酰基环化酶)在脑垂体中表达，氧化应激过程中在晶状体上皮的表达下调
68	NM_001159	L11005	醛氧化酶，含钼黄素酶，与氧自由基、异生素及药物代谢有关；常染色体隐性遗传肌萎缩性侧索硬化病病因的侯选基因	58	NM_012413	X71125

60	NM_004873	AK023145	BCL2关联抗死亡基因(athanogene)5，含有BAG结构域，预测其可调节Hsc70/Hsp70蛋白(通过其BAG结构域结合H70/H70蛋白的ATP酶结构域)
60	NM_004873	AK023145					蛋白质分泌(蛋白质合成家族(i))
24	NM_012430	AF100749	Sec22同源物，SEC22家族小泡运输蛋白(vesicle trafficking protein)，可与自内质网至高尔基体的蛋白运输有关				蛋白质分泌(蛋白质合成家族(i))
24	NM_012430	AF100749		28		M65199	内皮缩血管肽2，血管活性肽激素家族成员，与血压调节有关，抑制催乳素分泌，可在心脏发育相关的细胞生长中起作用；基因座扩增(locus amplification)与高血压有关
35	NM_001661	L38490	ADP-核糖基化因子4-样，GTP酶，ADP-核糖基化因子家族成员，可与小泡的细胞内运输和蛋白质分泌有关	28		M65199
35	NM_001661	L38490	ADP-核糖基化因子4-样，GTP酶，ADP-核糖基化因子家族成员，可与小泡的细胞内运输和蛋白质分泌有关	41		BC028121	与转位链相关膜蛋白(translocating chain-associating membrane protein)(人TRAM)具有高相似性的蛋白质，为一种推定的内质网受体，其刺激分泌蛋白的转位，寿命保障蛋白(longevity assurance protein)(LAG1)家族成员
42	NM_030772	AF271261	间隙连接通道蛋白的连接蛋白(connexin)家族成员，其为分子的细胞间传递提供条件，与间隙连接通道蛋白α1(连接蛋白43，人GJA1)具有中度相似性，与内脏心房异位(viseroatrial heterotaxia)有关	41		BC028121
42	NM_030772	AF271261		49	NM_013248	AK026360	NTF2样输出蛋白1，结合RAN，在CRM1(XPO1)依赖性核输出通路中起作用
53	NM_012346		核孔糖蛋白p62，核孔的一种组分，可与核质运输有关，在脊髓灰质炎病毒感染过程中被作为降解目标	49	NM_013248	AK026360	NTF2样输出蛋白1，结合RAN，在CRM1(XPO1)依赖性核输出通路中起作用
53	NM_012346		核孔糖蛋白p62，核孔的一种组分，可与核质运输有关，在脊髓灰质炎病毒感染过程中被作为降解目标	73	NM_032139	AL136784	含有液泡分选蛋白9(vacuolar sorting protein 9，VPS9)结构域及8个锚蛋白(Ank)重复的蛋白质，具有与秀丽线虫(C.elegan)UNC-44的区域具有低相似性，为轴突的导向和合适的轴突成束(fasciculation)所需
91		AB010419.1	核心结合因子runt结构域α亚基2易位3，MTG8(ETO/CDR)蛋白家族成员，推定的转录因子；在急性髓细胞性白血病可见相应基因与RUNX1融合	73	NM_032139	AL136784
91		AB010419.1		97		AL137537	与氨基磷脂ATP酶运输体(家族性肝内胆汁郁积1，人ATP8B1)具有高相似性，与家族性肝内胆汁郁积有关，为卤酸脱卤酶或环氧化物水解酶家族成员

			B细胞形态发生(免疫反应，家族(ii))
			B细胞形态发生(免疫反应，家族(ii))	70	NM_002909	M27190	再生胰岛衍生1α(胰石蛋白(pancreatic stone protein))，包括胰腺β细胞再生，改善动物糖尿病，其异常表达与慢性钙化性胰腺炎及结肠癌发生有关
71	NM_001551	BC004137	免疫球蛋白结合蛋白1，可与IgG受体介导的B细胞信号转导有关	70	NM_002909	M27190
71	NM_001551	BC004137	免疫球蛋白结合蛋白1，可与IgG受体介导的B细胞信号转导有关	40		AC007032	前B细胞集落促进因子，一种在早期B系细胞中增强干细胞因子(KITLG)和白细胞介素7(IL7)的集落形成活性的细胞因子；在感染诱导的早产和原发性结肠直肠癌中起作用
			免疫反应(家族(ii))	40		AC007032
			免疫反应(家族(ii))	47	NM_152547	AK057097	与B7同源物3(人B7-H3)具有低相似性，为T细胞的共刺激分子，正调节增殖和干扰素-γ合成，并被炎症细胞因子所诱导
				47	NM_152547	AK057097	与B7同源物3(人B7-H3)具有低相似性，为T细胞的共刺激分子，正调节增殖和干扰素-γ合成，并被炎症细胞因子所诱导

登录号1和2提供了基因的可选登录号。相关序列可见NCBI数据库( www.ncbi.nlm.nih.gov)

表6：乳腺癌信息性基因-非家族(i)和家族(ii)基因

探针号	登录号1	登录号2	基因相似性和推定的生物学功能
探针号	登录号1	登录号2	基因相似性和推定的生物学功能				通道和泵
1	NM_001651	BC034356	人水通道蛋白5(AQP5)Y)，mRNA				通道和泵
1	NM_001651	BC034356	人水通道蛋白5(AQP5)Y)，mRNA	4	NM_005072	AF054506	人溶质载体家族12(钾/氯离子运输体)，成员4(SLC12A4)，mRNA
11	NM_004983	U52152	人内向整流钾通道，超家族J，成员9(KCNJ9)，mRNA	4	NM_005072	AF054506	人溶质载体家族12(钾/氯离子运输体)，成员4(SLC12A4)，mRNA
11	NM_004983	U52152	人内向整流钾通道，超家族J，成员9(KCNJ9)，mRNA	38		BC047580	质膜Ca²⁺转运ATP酶3，预测与钙转运有关，主要在脑中表达
107	NM_174873	AF260427	嘌呤能受体P2X2，细胞外ATP门控型阳离子通道，与钙离子运输和信号转导有关	38		BC047580	质膜Ca²⁺转运ATP酶3，预测与钙转运有关，主要在脑中表达
107	NM_174873	AF260427	嘌呤能受体P2X2，细胞外ATP门控型阳离子通道，与钙离子运输和信号转导有关	65	NM_130840	AK055789	ATP酶(H⁺转运)溶酶体的V0亚基A同工型4，液泡质子泵的非催化性附属亚基
44		AC004659	兴奋性氨基酸运输体4(溶质载体家族1成员6)，具有配体门控型氯离子通道活性的高亲和谷氨酸和天冬氨酸运输体，可能调节小脑中的兴奋性神经传递	65	NM_130840	AK055789	ATP酶(H⁺转运)溶酶体的V0亚基A同工型4，液泡质子泵的非催化性附属亚基
44		AC004659		74	NM_017836	AK000480	二价阳离子运输体家族成员，可转运M²⁺或其他二价阳离子至细胞内，与未定性的人DKFZP434K0427具有高相似性
			推定的激酶或激酶相互作用蛋白	74	NM_017836	AK000480	二价阳离子运输体家族成员，可转运M²⁺或其他二价阳离子至细胞内，与未定性的人DKFZP434K0427具有高相似性
			推定的激酶或激酶相互作用蛋白	48	NM_032454	L26260	丝氨酸苏氨酸激酶19，锰依赖性蛋白激酶，大多定位于细胞核
54		AK056549	膜相关鸟苷酸激酶相互作用蛋白1，与大鼠Maguin 1具有强相似性的蛋白质，含有SAM、PDZ及PH结构域，与突触支架(synaptic scaffolding)激酶S-SCAM和PSD-95/SAP90相互作用	48	NM_032454	L26260	丝氨酸苏氨酸激酶19，锰依赖性蛋白激酶，大多定位于细胞核
54		AK056549		66	NM_003137	BC038292	丝氨酸和精氨酸丰富的(SR)RNA剪接因子家族的蛋白激酶，可能控制细胞核中剪接因子的定位；可在决定对广泛使用的抗癌剂顺铂的敏感性上起作用
78	NM_015518	BC056423	含有蛋白激酶结构域的蛋白，与UNC-51样激酶1(小鼠ULK1)区具有中度相似性，是与小脑颗粒细胞(cerebellar granular cell)神经突延伸的早期阶段有关的蛋白激酶，并可在信号级联中起作用	66	NM_003137	BC038292

81	NM_007061	BC009356	骨髓间质内皮血清构成性蛋白，含有非激酶CRIB(Cdc42/Rac相互作用性结合)结构域，以GTP依赖性方式结合CDC42，在细胞骨架重构中起作用，可能在Rac蛋白信号转导中起作用
81	NM_007061	BC009356		109	NM_004125	BC016319	鸟嘌呤核苷酸结合蛋白γ亚基10，与信号转导有关的异源三聚体G蛋白复合体的推定成分，与G蛋白β1(GNB1)和G蛋白β2(GNB2)及鼠R激酶抑制剂相互作用
			代谢	109	NM_004125	BC016319
			代谢	7	NM_00717	M83670	碳酸酐酶IV，催化二氧化碳逆水合形成碳酸氢盐和质子，在PH调节中起作用，可在肾脏碳酸氢盐吸收中起作用，其缺乏可能与单纯近侧肾小管酸中毒有关
22	NM_153446	AJ517771	人β1，4-乙酰半乳糖胺基转移酶(GALGT2)，mRNA	7	NM_00717	M83670
22	NM_153446	AJ517771	人β1，4-乙酰半乳糖胺基转移酶(GALGT2)，mRNA	102	NM_001303	U09466	血红素A：法呢基转移酶，血红素A合成所需的一种法呢基转移酶；其基因缺失或破坏可与易患压迫性麻痹的遗传性神经病及I型Charoot Marie牙病有关
108	NM_130468	BC023653	皮肤素-4-磺基转移酶-1，在硫酸皮肤素的生物合成中催化硫酸根转移至皮肤素的N-乙酰半乳糖胺的C-4羟基上	102	NM_001303	U09466
108	NM_130468	BC023653	皮肤素-4-磺基转移酶-1，在硫酸皮肤素的生物合成中催化硫酸根转移至皮肤素的N-乙酰半乳糖胺的C-4羟基上				癌症相关的
21	NM_145897	D89667	Prefoldin 5，与向细胞质陪伴蛋白递送未折叠蛋白有关的Prefoldin陪伴蛋白复合体的成分，与MYC相互作用并可抑制MYC活性；常在癌症细胞被取代的侯选肿瘤抑制物				癌症相关的
21	NM_145897	D89667		56	NM_006136	BC005338	加帽蛋白Z-系(α2)，一种在细胞运动性中起作用的肌动蛋白结合蛋白的亚基；相应基因在恶性胶质瘤中扩增，可能与肿瘤发生有关
79	NM_004728.1		DEAD-H(天冬氨酸-谷氨酸-丙氨酸-天冬氨酸/组氨酸)(Asp-Glu-Ala-Asp/His)框多肽21，受抗癌症药物阿霉素抑制的RNA解旋酶，诱导ssRNA分子内二级结构的RNA折叠酶，西瓜形胃病的自身抗原	56	NM_006136	BC005338
79	NM_004728.1			83		AF010315	人肿瘤蛋白p53诱导的蛋白11(TP53I11)，mRNA
84	NM_033137	X65779	成纤维细胞生长因子1(酸性)，一种促分裂原和细胞凋亡抑制剂，与细胞迁移、胚胎发生、器官发育及血管发生有关	83		AF010315	人肿瘤蛋白p53诱导的蛋白11(TP53I11)，mRNA
84	NM_033137	X65779	成纤维细胞生长因子1(酸性)，一种促分裂原和细胞凋亡抑制剂，与细胞迁移、胚胎发生、器官发育及血管发生有关	85	NM_025216	AK024363	无翼型MMTV整合位点家族成员10，wnt家族成员，可与信号转导及癌发生有关；在某些食管癌、胃癌和结肠直肠癌中过量生成

93	NM_021070	AF318354	含有8个上皮生长因子(EGF)样结构域和2个TGF结合蛋白结构域的蛋白质，与潜伏性转化生长因子(latent transformmg growthfactor)结合蛋白3(小鼠Ltbp3)区具有强相似性
93	NM_021070	AF318354		103	NM_001550	BC001272	与大鼠Rn.3723具有强相似性的蛋白，由神经生长因子(NGF)诱导，在肌肉分化中起作用，并在增殖和分化组织中表达
104	NM_198407	U60179	生长激素促分泌素受体，一种结合生长激素释放肽(ghrelin)(GHRL)和合成的生长激素促分泌素的G蛋白偶联受体，可能调节生长激素分泌，表达提高可与内分泌肿瘤有关	103	NM_001550	BC001272	与大鼠Rn.3723具有强相似性的蛋白，由神经生长因子(NGF)诱导，在肌肉分化中起作用，并在增殖和分化组织中表达
104	NM_198407	U60179		88	NM_016041	BC010890	F-LAN-1，在肝癌中上调的蛋白质，与细胞增殖的正调节有关
			肌动蛋白相关的	88	NM_016041	BC010890	F-LAN-1，在肝癌中上调的蛋白质，与细胞增殖的正调节有关
			肌动蛋白相关的	25	NM_005731	U50523	肌动蛋白相关蛋白2/3复合体亚基2，Arp2/3复合体成分，与肌动蛋白细胞骨架装配有关，与ARPC4直接相互作用，在Arp2/3复合体形成中可能作为早期中间体
98	NM_006135	BX648738	加帽蛋白肌肉Z系-α1，一种肌动蛋白加帽蛋白，调节肌动蛋白聚合，并可促进钩状端(barbed-end)肌动蛋白加帽、细胞活动性、肌节组织及肌肉功能	25	NM_005731	U50523
98	NM_006135	BX648738		94	NM_006136	U03269	人加帽蛋白(细肌丝)肌肉Z-系，α2(CAPZA2)，mRNA
			细胞分化	94	NM_006136	U03269	人加帽蛋白(细肌丝)肌肉Z-系，α2(CAPZA2)，mRNA
			细胞分化	39	NM_001858	U09279	XIX型胶原的α1亚基，胶原FACIT家族成员，可与细胞分化有关；可选地在横纹肌肉瘤细胞中剪接
50	NM_006818	AK056089	1q染色体的ALL1融合基因，在胸腺、造血细胞和白血病细胞系中表达的蛋白质；相应基因在与MLL有关并导致急性髓性单核细胞白血病的染色体易位位点	39	NM_001858	U09279	XIX型胶原的α1亚基，胶原FACIT家族成员，可与细胞分化有关；可选地在横纹肌肉瘤细胞中剪接
50	NM_006818	AK056089		51	NM_006168		NK同源框家族6A，调节基因表达并参与细胞分化的调控的DNA结合蛋白的同源域家族成员，含有高保守NK十肽菌素和同源域
92	NM_001496	AY359037	GDNF家族受体α3，GDNF/neurturin/persephin受体家族的糖基磷脂酰肌醇(GPI)-连接的孤儿成员，在发育的周围神经系统中及成人感觉神经节和交感神经节中高表达	51	NM_006168		NK同源框家族6A，调节基因表达并参与细胞分化的调控的DNA结合蛋白的同源域家族成员，含有高保守NK十肽菌素和同源域
92	NM_001496	AY359037					其他功能
46	NM_016009	AK001954	SH3-结构域GRB2样吞蛋白(endophilin)B1，在C末端含有Src同源3(SH3)结构域，可作为BAX细胞凋亡信号途径的调节因子起作用				其他功能
46	NM_016009	AK001954		89	NM_021724	M24898	人核受体亚家族1，组D，成员1(NR1D1)，mRNA

96	NM_006152	U10485	淋巴限制性膜蛋白，内质网胞质面的膜蛋白
96	NM_006152	U10485	淋巴限制性膜蛋白，内质网胞质面的膜蛋白	90	NM_016364	BC009778	磷脂酰丝氨酸特异性磷脂酶A1，在磷脂酰丝氨酸和1-酰基-2溶血磷脂酰丝氨酸的sn-1位点水解脂肪酸，在磷脂酰丝氨酸或溶血磷脂酰丝氨酸介导的功能调节中起作用
87	NM_015900	BC047703	双特异性磷脂酶13，可使磷酸酪氨酸、磷酸丝氨酸及磷酸苏氨酸残基去磷酸，在睾丸胚细胞的减数分裂和/或分化的调节中起作用	90	NM_016364	BC009778
87	NM_015900	BC047703	双特异性磷脂酶13，可使磷酸酪氨酸、磷酸丝氨酸及磷酸苏氨酸残基去磷酸，在睾丸胚细胞的减数分裂和/或分化的调节中起作用				功能未知
9	NM_018286	AK095175	功能未知的蛋白				功能未知
9	NM_018286	AK095175	功能未知的蛋白	12	NM_013441	AF176117	人DOWN综合症关键区基因1样2(DSCR1L2)，mRNA
14	NM_148415		与SCA2(共济失调蛋白-2(Ataxin-2))具有中度相似性的蛋白质，与2型脊髓小脑性共济失调有关	12	NM_013441	AF176117	人DOWN综合症关键区基因1样2(DSCR1L2)，mRNA
14	NM_148415		与SCA2(共济失调蛋白-2(Ataxin-2))具有中度相似性的蛋白质，与2型脊髓小脑性共济失调有关	15	NM_017845	BC015145	功能未知的蛋白，与未定性的小鼠D5Buc26e具有高相似性
23	NM_015702	BC022859	功能未知的蛋白，与未定性的小鼠2010311D03Rik具有高相似性	15	NM_017845	BC015145	功能未知的蛋白，与未定性的小鼠D5Buc26e具有高相似性
23	NM_015702	BC022859	功能未知的蛋白，与未定性的小鼠2010311D03Rik具有高相似性	30	NM_173564	AK124773	人假设蛋白FLJ37538(FLJ37538)，mRNA
33	NM_002336	AK074543	人低密度脂蛋白受体相关蛋白6(LRP6)，mRNA	30	NM_173564	AK124773	人假设蛋白FLJ37538(FLJ37538)，mRNA
33	NM_002336	AK074543	人低密度脂蛋白受体相关蛋白6(LRP6)，mRNA	36	NM_152383	BC036113	人假设蛋白MGC42174(MGC42174)，mRNA
43	NM_020141	AF164793	功能未知的蛋白，与未定性的秀丽线虫K07F5.15具有高相似性	36	NM_152383	BC036113	人假设蛋白MGC42174(MGC42174)，mRNA
43	NM_020141	AF164793	功能未知的蛋白，与未定性的秀丽线虫K07F5.15具有高相似性	57	NM_004872	BC016374	功能未知的蛋白，与未定性的小鼠ORF18具有强相似性
59	NM_003678	AK025385	功能未知的蛋白，与未定性的小鼠Fmip具有极强相似性	57	NM_004872	BC016374	功能未知的蛋白，与未定性的小鼠ORF18具有强相似性
59	NM_003678	AK025385	功能未知的蛋白，与未定性的小鼠Fmip具有极强相似性	62	NM_004321	BX537556	人假设蛋白BC009491(LOC151568)，mRNA
64	NM_152587	BC029536	人假设蛋白MGC33948(MGC33948)，mRNA	62	NM_004321	BX537556	人假设蛋白BC009491(LOC151568)，mRNA
64	NM_152587	BC029536	人假设蛋白MGC33948(MGC33948)，mRNA	75		BC030200.1	功能未知的蛋白，与非特征性小鼠D430039N05Rik具有低相似性
77	NM_174918	BC035847	人假设蛋白LOC199675(LOC199675)，mRNA	75		BC030200.1	功能未知的蛋白，与非特征性小鼠D430039N05Rik具有低相似性
77	NM_174918	BC035847	人假设蛋白LOC199675(LOC199675)，mRNA	82	NM_174899	BC033935	人假设蛋白LOC130888(LOC130888)，mRNA
86	NM_178525	AY248901	人假设蛋白MGC33407(MGC33407)，mRNA	82	NM_174899	BC033935	人假设蛋白LOC130888(LOC130888)，mRNA
86	NM_178525	AY248901	人假设蛋白MGC33407(MGC33407)，mRNA	99	NM_025109	AL133017	人假设蛋白FLJ22865(FLJ22865)，mRNA

106	NM_152362	AK024161	人假设蛋白MGC17791(MGC17791)，mRNA
106	NM_152362	AK024161	人假设蛋白MGC17791(MGC17791)，mRNA	110	XM_088567	未知
111	NM_198458	AK126727	未知	110	XM_088567	未知
111	NM_198458	AK126727	未知	112	BC054888	未知

登录号如表5中所定义。

Claims

1.一种制作生物体癌症或其分期特征性的标准基因转录物模式的方法，其包括至少如下步骤：

a)从患有癌症或其分期的一种或多种生物体的样本的细胞分离mRNA，所述mRNA可任选地被逆转录为cDNA；

b)使步骤(a)的mRNA或cDNA与寡核苷酸探针组杂交，所述寡核苷酸探针组对于与所研究的生物体及其样本对应的生物体及其样本中的所述癌症或其分期是特异性的，其中所述探针组包括至少10种寡核苷酸，其中各寡核苷酸选自与来自下述的基因序列对应的寡核苷酸：

编码与蛋白质合成和/或稳定性有关的蛋白质的家族(i)基因；或

编码与防御调节和/或染色质重塑有关的蛋白质的家族(ii)基因；

或从所述序列衍生，或是具有互补序列的寡核苷酸，或功能上等同的寡核苷酸；及

c)评估与所述各探针杂交的mRNA或cDNA数量以产生特征性模式，所述特征性模式反映了癌症或其分期样本中所述寡核苷酸所结合的基因的基因表达水平。

2.一种制作待测基因转录模式的方法，其至少包括下述步骤：

b)使步骤(a)的mRNA或cDNA与权利要求1所定义的寡核苷酸探针组杂交，所述寡核苷酸探针组对于与所研究的生物体及其样本对应的生物体及其样本中的癌症或其分期是特异性的；及

c)评估与所述各探针杂交的mRNA或cDNA数量以产生所述模式，所述模式反映了在所述待测样本中所述寡核苷酸所结合的基因的基因表达水平。

3.一种诊断或鉴定或监测生物体的癌症或其分期的方法，其包括下述步骤：

a)从所述生物体的样本的细胞分离mRNA，所述mRNA可任选地被逆转录为cDNA；

b)使步骤(a)的mRNA或cDNA与权利要求1所定义的寡核苷酸探针组杂交，所述寡核苷酸探针组对于与所研究的生物体及其样本对应的生物体及其样本中的所述癌症或其分期是特异性的；

c)评估与各所述探针杂交的mRNA或cDNA数量以产生特征性模式，所述模式反映了在所述样本中所述寡核苷酸所结合的基因的基因表达水平；以及

d)将所述模式与根据权利要求1的方法使用与所研究的生物体及其样本对应的生物体的样本制作的标准诊断模式进行比较，以确定所研究的生物体中所述癌症或其分期的存在。

4.根据权利要求1至3任一项所述的方法，其中所述编码与蛋白合成和/或稳定性有关的蛋白质的家族(i)基因包括：

(a)编码核糖体蛋白和核糖体活化蛋白，优选编码下述蛋白质的基因：核糖体蛋白L1-L56、L7A、L10A、L13A、L18A、L23A、L27A、L35A、L36A、L37A、P0、P1、P2、S2-S29、S31、S33-S36、S3A、S15A、S18A、S18B、S18C、S27A、63、115(和假基因)，核糖体蛋白激酶、核糖核酸酶、推定的S1 RNA结合结构域蛋白质、真核翻译起始因子和鸟嘌呤核苷酸结合蛋白G；

(b)编码翻译抑制和起始因子，优选编码下述蛋白质的基因：真核翻译延伸因子、tRNA合成酶、RNA结合蛋白、聚腺苷酸化元件结合蛋白、酪氨酸磷酸酶、真核翻译起始因子，及RNA聚合酶I、III转录因子；以及

(c)编码转录或翻译的其他调节因子，优选编码细胞周期蛋白D-型结合蛋白和鸟嘌呤核苷酸结合蛋白的基因。

5.根据权利要求1至4任一项所述的方法，其中所述编码与防御调节和/或染色质重塑有关的蛋白质家族的家族(ii)基因包括：

(a)编码免疫应答相关蛋白，优选编码下述蛋白质的基因：T-细胞受体和相关组分，各种细胞因子，干扰素调节因子，制瘤素M，白血病抑制因子，趋化因子配体及受体家族，补体组分，干扰素刺激因子，MHC I类或II类(或相关组分)，黏着蛋白，B-细胞中κ多肽基因增强子的核因子，髓鞘碱性蛋白，组织蛋白酶，toll-样受体，蛋白体亚基，铁蛋白，蛋白激酶或磷酸酶及其活化物和抑制物，白细胞免疫球蛋白样受体，免疫球蛋白组分，防卫素，催产素，S100钙结合蛋白，凝集素及其受体和超家族，瘦蛋白，磷脂酶以及生长因子；

(b)编码TNF-诱导蛋白，优选编码下述蛋白质的基因：TNFα-诱导蛋白8，整联蛋白，B-细胞中κ轻链多肽基因增强子抑制物，TNF-相关因子2、5，B-细胞中κ轻链多肽基因增强子的核因子，MAP激酶，蛋白激酶C，遍在型激酶，钙黏着蛋白，胱天蛋白酶，细胞周期蛋白D1，超氧化物歧化酶及白细胞介素；

(c)编码低氧诱导蛋白，优选编码下述蛋白质的基因：sestrin，E1A结合蛋白p300，内皮缩血管肽，毛细血管扩张性共济失调和Rad3相关蛋白，己糖激酶2，TEK酪氨酸激酶，DNA断裂因子，胱天蛋白酶，纤溶酶原激活物，低氧诱导因子1及葡糖磷酸异构酶；

(d)编码氧化应激蛋白，优选编码下述蛋白质的基因：超氧化物歧化酶，谷胱甘肽合成酶，过氧化氢酶，乳过氧化物酶，甲状腺过氧化物酶，髓过氧化物酶，嗜酸性粒细胞过氧化物酶，氧抗性1，过氧化物氧还蛋白，细胞色素P450，清道夫受体，对氧磷酶，谷胱甘肽还原酶，NAD(P)H脱氢酶，谷胱甘肽 S-转移酶，联蛋白，谷氧还蛋白，热休克蛋白，促分裂原活化蛋白激酶，烯醇化酶，硫氧还蛋白还原酶及过氧化物氧还蛋白；以及

(e)编码染色质重塑有关蛋白的基因，优选为编码组蛋白置换蛋白的基因。

6.根据权利要求5所述的方法，其中：

(i)所述细胞因子为白细胞介素或其受体(优选IL-1、2、3、4、5、6、7、8、9、10、11、12、13、15、17、18、20、22或24)或肿瘤坏死因子或其受体或其超家族(优选TNF超家族成员2、3、4、5、6、7、8、9、11、12、13、14或15)；和/或

(ii)所述黏着蛋白为CD1A、CD1C、CD1D、CD3Z、6、8、11、14、18、24、27、28、29、40、44、50、54、59、74、79B、80、81、83、86、96或ICAM)；和/或

(iii)所述免疫球蛋白组分为重链或Fc片断，优选IgG、IgE或IgA或其超家族的重链或Fc片断；和/或

(iv)所述生长因子为内皮细胞生长因子或红细胞生成素。

7.根据权利要求1至6任一项所述的一种方法，其中由家族(ii)基因编码的所述免疫反应蛋白为黏着蛋白，白细胞介素、其受体或超家族，TNF、其受体或超家族，免疫球蛋白组分或红细胞生成素。

8.根据权利要求1至7任一项所述的方法，其中在癌症患者中，相对于正常患者，编码家族(i)的基因下调，编码家族(ii)的基因上调。

9.根据权利要求1至8任一项所述的方法，其中所述探针对应于系统地受所述癌症或其分期影响的基因。

10.根据权利要求1至9任一项所述的方法，其中所述基因为组成性中度或高度表达。

11.根据权利要求1至9任一项所述的方法，其中所述探针组包括来自家族(i)和家族(ii)的寡核苷酸的组合。

12.根据权利要求4至11任一项所述的方法，其中所述探针组包括来自家族(i)a、家族(ii)a和家族(ii)e的寡核苷酸。

13.根据权利要求1至12任一项所述的方法，其中所述组包括来自基因的寡核苷酸，所述基因编码一种或多种核糖体蛋白和任选的一种或多种组蛋白和任选的铁蛋白。

14.根据权利要求1至13任一项所述的方法，其中所述各寡核苷酸探针选自表2或3所列的寡核苷酸，或衍生自表2或3所述序列的寡核苷酸，或其互补序列。

15.根据权利要求14所述的方法，其中所述各寡核苷酸探针选自表2所列的寡核苷酸，或衍生自表2所述序列的寡核苷酸，或其互补序列。

16.根据权利要求14所述的方法，其中所述各寡核苷酸探针选自表3所列的寡核苷酸，或衍生自表3所述序列的寡核苷酸，或其互补序列。

17.根据权利要求14至16任一项所述的方法，其中所述组还包括一种或多种寡核苷酸探针，所述一种或多种寡核苷酸探针选自表4所列的寡核苷酸、或衍生自表4所述序列的寡核苷酸，或其互补序列。

18.根据权利要求14至17任一项所述的方法，其中所述表2、3或4的衍生的寡核苷酸分别为表2、5或6中其登录号所描述的基因的部分，或其互补序列。

19.根据权利要求1至18任一项所述的方法，其中所述组由10至500种探针组成。

20.根据权利要求1至19任一项所述的方法，其中所述探针组固定于一种或多种固体载体上。

21.根据权利要求1至20任一项所述的方法，其中所述细胞不是疾病细胞，未接触过疾病细胞，且非源自疾病部位。

22.根据权利要求1至21任一项所述的方法，其中所述样本从远离所述疾病部位的部位获得。

23.根据权利要求1至22任一项所述的方法，其中所述样本为组织、体液或身体废物。

24.根据权利要求23所述的方法，其中所述样本为外周血液。

25.根据权利要求1至24任一项所述的方法，其中所述癌症为胃、肺、乳腺、前列腺、肠、皮肤、结肠或卵巢癌，优选乳腺癌。

26.根据权利要求1至25任一项所述的方法，其中所述生物体为哺乳动物，优选人类。

27.根据权利要求1至26任一项所述的方法，其中所述探针组中的至少一种所述探针适于诊断、鉴定或监测至少两种所述癌症或其分期。

28.用于诊断、鉴定或监测生物体中两种或更多种癌症或其分期的根据权利要求3至27任一项所述的诊断、鉴定或监测方法，其中诊断方法步骤c)中产生的所述待测模式在步骤d)中与如权利要求1或4至27任一项所定义而制作的至少两种标准诊断模式进行比较，其中各标准诊断模式是对不同癌症或其分期生成的模式。

29.根据权利要求1至28任一项所述的寡核苷酸探针组。

30.一种实施权利要求1至28任一项所述方法的试剂盒，其包括权利要求29所定义的寡核苷酸探针组，所述寡核苷酸探针固定于一种或多种固体载体上。

31.根据权利要求30所述的试剂盒，其还包括详细说明应如何实施所述方法的说明书。

32.根据权利要求29至31任一项所定义的寡核苷酸探针组或试剂盒用于测定细胞的基因表达模式的用途，所述模式反映了所述寡核苷酸探针所结合的基因的基因表达水平，至少包括下述步骤：

(a)从所述细胞分离mRNA，所述mRNA可任选地逆转录为cDNA；

(b)使步骤(a)的mRNA或cDNA与权利要求29至31任一项所定义的寡核苷酸探针组或试剂盒杂交；及

(c)评估与所述各探针杂交的mRNA或cDNA的数量以产生所述模式。

33.制作生物体中癌症或其分期的特征性的标准基因转录物模式的方法，其至少包括下述步骤：

b)使所述目标多肽与一种或多种结合配偶体接触，其中每种结合配偶体对于标记多肽(或其片段)是特异性的，以使得所述结合配偶体可与所述目标多肽结合，所述标记多肽(或其片段)由权利要求1至27的任一项所定义的寡核苷酸所结合的基因所编码，且其中所述标记多肽对于与所研究的生物体及其样本对应的生物体及其样本中的所述癌症是特异性的；及

c)评估与所述结合配偶体结合的目标多肽以产生特征性模式，所述特征性模式反映了具有所述癌症或其分期的样本中表达所述标记多肽的基因的基因表达水平。

34.一种制作待测基因转录物模式的方法，其至少包括下述步骤：

a)从所述待测生物体的样本中释放出目标多肽；

35.一种诊断或鉴定或监测生物体中的癌症或其分期的方法，其包括下述步骤：

a)从所述检测生物体样本中释放出目标多肽；

c)评估与所述结合配偶体结合的目标多肽以产生特征性模式，所述模式反映了所述待测样本中表达所述标记多肽的基因的基因表达水平；及

d)将所述模式与根据权利要求33的方法使用与所研究的生物体和样本对应的生物体的样本制作的标准诊断模式进行比较，以确定相关程度，该相关程度表征所研究的生物体中所述癌症或其分期的存在。