CN1643163A - 关于癌症诊断的材料和方法 - Google Patents
关于癌症诊断的材料和方法 Download PDFInfo
- Publication number
- CN1643163A CN1643163A CN03806304.2A CN03806304A CN1643163A CN 1643163 A CN1643163 A CN 1643163A CN 03806304 A CN03806304 A CN 03806304A CN 1643163 A CN1643163 A CN 1643163A
- Authority
- CN
- China
- Prior art keywords
- large amount
- expression
- gene
- binding members
- expression product
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57407—Specifically defined cancers
- G01N33/57415—Specifically defined cancers of breast
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/566—Immunoassay; Biospecific binding assay; Materials therefor using specific carrier or receptor proteins as ligand binding reagents where possible specific carrier or receptor proteins are classified with their target compounds
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Immunology (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Urology & Nephrology (AREA)
- Hematology (AREA)
- Pathology (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Cell Biology (AREA)
- General Physics & Mathematics (AREA)
- Medicinal Chemistry (AREA)
- Food Science & Technology (AREA)
- Oncology (AREA)
- Hospice & Palliative Care (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Genetics & Genomics (AREA)
- Zoology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明提供了很多遗传鉴定者(基因套组),它们可以用作确定患者中乳腺癌的存在或风险的诊断工具。本发明也提供了可以用于基于其分子亚型对乳腺肿瘤细胞进行分类的基因套组。每一个所鉴定的基因套组可以用于生产用于乳腺肿瘤细胞的诊断和分类的常规特异性的核酸微阵列。
Description
本发明涉及诊断癌症,特别是乳腺癌的材料和方法。本发明尤其但不仅仅涉及使用遗传鉴定者诊断乳腺癌存在或风险的方法和试剂盒。
乳腺癌是全世界女性人群死亡的主要原因之一和主要疾病。尽管在理解乳腺癌发生的分子和基因事件和临床筛选程序的导入方面有了快速进步,但是不幸的是,这个疾病的发病率和死亡率仍保持在无法接受的高水平。实际上,对于世界上很多部分,乳腺癌仍是当地女性人群中生长最快的癌症之一(Chia et al.,2000)。乳腺癌的诊断和治疗中一个主要的挑战是其临床和分子异质性。个体乳腺癌可以显示出临床表现、疾病迅速蔓延性和治疗反应的巨大差异(Tavassoli和Schitt,1992),提示这个临床实体事实上可能表现为很多不同和有区别的癌症亚型的混合体。除了临床表现的差异,乳腺癌也可以在不同区域和人种群体显示出显著不同的发生模式。例如,在白种人群中,多数乳腺癌发生在平均和中值年龄分别是60和61岁的绝经后妇女(Giuliano,1998)。相比之下,亚洲人群的研究表明从40岁开始的双模式年龄的发生模式(Chia et al.,2000,见讨论)。因此,肿瘤生物学的一个突出问题是在遗传或环境因素基础上解释这些区域和人种差异,和确定使用白种人群获得的研究发现是否也可以在临床上转换给其它人种群体。
近来已经证明使用DNA微阵列的表达谱是研究肿瘤生物学多方面的极其有力和多用的方法。使用微阵列对乳腺癌的以前报道集中在新肿瘤亚型的鉴定,或在鉴定已知癌症亚组之间差异表达的基因(Perou etal.,2000,Gruvberger et al.,2001,Hedenfalk et al.,2001)。然而,因为这些研究主要集中于主要从白种人群获得的样品,所以这些报道描述的发现是否也将应用于来自其它人种群体的乳腺癌是一个悬而未决的问题。在分子谱的使用可以临床现实之前,也有很多其它关键问题需要探索。例如,目前几乎没有发表报道,其中一个机构的研究定义的表达标记和分子亚型被来自另一个中心的独立组独立证实。这种证实显然很重要,然而不同健康护理机构可能在很多方面不同,这将影响正在研究的肿瘤的表达谱,如在肿瘤样品的手术处理、阵列技术平台的选择和患者群体基础等方面。此外,因为在延长一段时期内抽取相同肿瘤样品通常不可行,所以通常不清楚使用这些方法定义的不同亚型是否真实地代表不同的生物学实体,或它们是否代表不同临床进展阶段中的单一肿瘤类型。如一个实例,在雌激素受体阴性(ER-)乳腺癌是否代表乳腺上皮的ER-祖细胞类型直接引起的生物学实体,或它们是否从最初ER+状态“进化”而来的领域,当前有相抵触的意见和资料(Kuukasjarri et al.,1996;Parl 2000;Gruvberger et al,2001)。
为了探索这些问题,发明人对得自亚洲患者的乳腺肿瘤进行了大规模表达谱方案。首先,使用监测和无监测聚类方法的组合,他们已能够定义一小组基因,当其组合使用时作为“遗传鉴定者”来区分中国人种血统患者的未知乳腺样品是正常或恶性的。这种“遗传鉴定者”的使用在特定患者人群分子诊断检测发展中有相当的应用。其次,使用主要成分分析(PCA),发明人表明正常乳腺组织的表达谱比肿瘤谱的变异小很多。这个发现支持目前的乳腺癌发生模型,其中第一个近似中正常乳腺组织可以认为是相对恒定的“基础状态”,和各个肿瘤相关的广泛变异表达谱可能是它们从这个“基础状态”通过很多不同和非常不同的肿瘤发生途径而产生的标志。
第三,通过将来自中国患者的一系列扩散性乳腺癌的表达谱与使用主要是白种人来源的患者样品的发表报道比较,发现存在尽管内部方法学差异包括阵列技术平台的选择,但是很多关键基因标记和分子亚型在两种患者群体中明显保守,这提示使用基于表达的基因组学定义的分子亚型实际上非常有力。就发明人的所知,这是报道的这个类型乳腺癌的首次交叉机构证实研究。
第四,通过研究一系列原发管癌(原发管癌,或DCIS)的表达谱,他们也发现DCIS肿瘤表达与其扩散性对应物相关的很多“特征”亚型特异性表达标记。由于DCIS癌当前代表常规组织病理学可检测到的最早非扩散性恶性损害,因此这些结果提示这些研究中定义的分子亚型可能产生于肿瘤发生的相对较早阶段(即扩散前)并且代表不同的生物学实体,而不是不同进化阶段的单一癌症类型。
除了提供乳腺癌时间进展的分子框架,发明人的结果也支持使用基于表达的基因组技术进行临床癌症诊断和在不同健康护理机构间分类的可行性。
因此,最基本,本发明提供了使用特殊遗传鉴定者确定患者中癌症,尤其是乳腺癌的存在或风险的新诊断方法。此外,发明人确定了乳腺癌的一系列多基因分类物。
在第一个情况,发明人确定了一组20个基因(“遗传鉴定者”),它们可以组合使用来预测未知乳腺组织样品是正常或恶性。
除了这第一个基因套组(它可以区分肿瘤和正常乳腺样品),发明人也确定了其它基因套组,它们可以用作遗传鉴定者将肿瘤样品分为亚型。这不仅从研究立场来看很重要,而且可以确保提供最适当的治疗。
因此,发明人确定了下列基因套组,它们可以用于预测乳腺肿瘤和/或肿瘤类型的存在。
1)表2中提供的基因套组,当其组合使用时,允许使用者预测未知乳腺组织样品是正常或恶性,尤其是使用斑点cDNA微阵列。
2)另一套组基因(表4a和4b)当组合使用时也可以用于区分正常和肿瘤乳腺组织样品。这个基因套组更优选用于使用市场可上买得到的技术平台如基因芯片,如Affymetrix U133A Genechips,获得的表达谱,但也可以采用1)所述斑点cDNA微阵列技术而利用。
3)一套组基因(表5a)当组合使用时可以预测所证实的乳腺肿瘤样品的雌激素受体状态。第二套组基因(表5b)当组合使用时可以预测所证实的乳腺肿瘤样品的ERBB2状态。
4)一套组基因(表6)当组合使用时可以用于预测乳腺肿瘤样品的根据下列5个种类的“分子亚型”:腔(Liminal),基底,ERBB2,正常样和ER-阴性亚型II。在本发明的这个实施方案中,发明人使用两个不同类型的分类算法,即(1)一对全(one-vs-all)(OVA)支持载体机器(SVM);和(2)基因算法(GA/最大可能判别式(MLHD))分析。不同组基因最佳地根据使用的分类算法类型来使用。因此,下面描述每个部分的不同套组基因。
5)组套基因(表7)当组合使用时可以用于预测亚洲乳腺癌患者的腔亚类。发明人确定了乳腺肿瘤的“腔”变异可以“分”成临床相关的两个不同亚型腔A和腔D。因此肿瘤已正式公认为本质是“腔”后,优选使用遗传鉴定者(表7)。当然这可以使用表6的多类预测者来完成。腔D肿瘤与也在高度蔓延性非腔肿瘤如ERBB2和基底型所发现的某些表达标记相关。这支持已知肿瘤亚型的临床重要性。
特定基因套组(遗传鉴定者)的确定允许根据组织中那些基因的表达模式将肿瘤样品分类(如肿瘤对正常)。例如,在第一个遗传鉴定者(肿瘤对正常)中,发明人确定了相对于正常细胞,在肿瘤细胞中通常上调的10个基因和相对于正常细胞,在肿瘤组织中通常下调的10个基因。通过研究这些特殊遗传鉴定者的表达模式,即测试样品中这些基因表达产物的混合水平,可能将样品分为恶性或正常。因此,表达产物能够提供可用于区分正常和恶性细胞的表达谱或“指纹图谱”。
在本发明的第一个方面,提供了创建乳腺肿瘤细胞的核酸表达谱的方法,包括步骤
(a)从所述乳腺肿瘤细胞和正常乳腺细胞分离表达产物;
(b)鉴定选自表2的大量基因的表达谱;对于肿瘤和正常细胞;
(c)比较肿瘤细胞和正常细胞的表达谱;和
(d)确定乳腺肿瘤细胞特征性的核酸表达谱。
为了诊断目的,获得肿瘤细胞特征性的表达谱很重要,即不同于等同正常细胞表达谱。根据第一个方面的方法确定了发明人鉴定作为乳腺肿瘤细胞“遗传鉴定者”的大量基因的表达谱(见表2)。
各个样品之间包含遗传鉴定者的各个基因的表达谱将轻微不同。然而,发明人认识到这些包含遗传鉴定者的特殊基因联合使用时的表达谱提供了肿瘤细胞中表达的特征性模式(表达谱),它可识别地不同于正常细胞中的模式。
通过创建来自很多已知肿瘤或正常样品的遗传鉴定者的很多表达谱,可能产生正常和肿瘤样品的谱文库。表达谱数量越多,越容易创建可在诊断试验中用作对照的可靠的特征性表达谱标准(即包括统计学变异)。因此,标准谱可以是从大量各个表达谱设计的和在统计学变异内设计来代表肿瘤或正常细胞谱的。
因此,根据本发明第一个方面的方法包括步骤
(a)从乳腺肿瘤细胞分离表达产物;将所述表达产物接触能够特异并独立结合选自表2的大量基因的表达产物的大量结合成员,由此创建肿瘤细胞的第一个表达谱;
(b)从正常乳腺细胞分离表达产物;所述表达产物接触步骤(a)使用的大量结合成员,由此创建正常乳腺细胞的可比较的第二个表达谱;
(c)比较第一个和第二个表达谱来确定乳腺肿瘤细胞特征性的表达谱。
优选表达产物是mRNA,或由所述mRNA产生的cDNA。或者,表达产物可以是表达的多肽。优选使用能够特异性鉴定表2鉴定基因的表达产物的结合成员实施表达谱的鉴定。例如,如果表达产物是cDNA,那么结合成员将是能够与该cDNA特异性杂交的核酸探针。
优选,表达产物或结合成员将被标记,使得可以检测两个成分的结合。优选选择标记使得能够检测表达产物的相对水平/量和/或绝对水平/量,使得能够基于包含遗传鉴定者的各个基因的上调或下调确定表达谱。换言之,优选结合成员不仅能够检测表达产物的存在,而且能够检测其相对丰度(即可获得产物的量)。
核酸表达谱的确定可以计算机化并且可以在某些以前设置参数内实施,来避免假阳性和假阴性。
计算机可以能够提供如上讨论的正常乳腺细胞和恶性乳腺细胞的特征性表达谱标准。确定的表达谱可以用于作为诊断方法将乳腺组织样品分为正常或恶性。
因此,在本发明的第二个方面,提供了包含正常和恶性乳腺细胞的大量基因表达谱的表达谱数据库,其中基因选自表2;可检存在于数据载体上。优选,该表达谱组成的数据库是根据第一方面的方法产生的。
根据特定遗传鉴定者的知识,可能设计确定细胞特定测试样品中基因表达模式或谱的很多方法。例如,使用标准分子生物学技术可以从细胞分离该表达的核酸(RNA、mRNA)。接着可以使用对该表达序列特异性的核酸引物在PCR中扩增对应于表2给出的遗传鉴定者的基因成员的表达核酸序列。如果分离的表达核酸是mRNA,那么这可以转换成cDNA使用标准方法进行PCR反应。
引物可以方便地将标记导入扩增的核酸,使得它可以被鉴定。理想地,该标记能够指示扩增事件后存在的核酸序列的相对量或比例,反映原始测试样品中存在的相对量或比例。例如,如果标记是荧光或放射性的,信号强度将指示表达序列的相对量/比例或甚至绝对量。每个遗传鉴定者的表达产物的相对量或比例将建立测试样品的特殊表达谱。通过将这个谱和已知谱或标准表达谱比较,可能确定测试样品来自正常乳腺组织或恶性乳腺组织。
或者,可以使用能够结合遗传鉴定者的表达产物的结合成员确定表达模式或谱,如mRNA、相应的cDNA或表达的多肽。通过标记表达产物或结合成员,可能鉴定表达产物的相对量或比例并确定遗传鉴定者的表达谱。这样通过将表达谱与已知谱或标准比较,样品可以分为正常或恶性。该结合成员可以是互补核酸序列或特异性抗体。下面更详细讨论了使用这种结合成员的微阵列试验。
在本发明的第三个方面,提供了确定患者乳腺癌存在或风险的方法,包括步骤
(a)获得从怀疑具有乳腺癌或具有患乳腺癌风险的患者的乳腺组织细胞的表达产物;
(b)将所述表达产物接触能够检测对应于表2鉴定的一个或多个基因的表达产物存在的一个或多个成员;和
(c)基于乳腺组织细胞的表达产物与一个或多个结合成员的结合谱来确定所述患者中乳腺癌的存在或风险。
优选该患者是有亚洲血统的妇女,如中国人种血统。
确定乳腺癌存在或风险的步骤可以通过计算机来实施,该计算机能够比较测试的乳腺组织细胞的表达产物的结合谱与肿瘤存在或风险特征性的其它以前获得的谱和/或以前确定的“标准”谱的数据库。该计算机可以被编程报道测试下的谱和标准谱之间的统计学相似性,使得可以作出诊断。
如上提及,本发明人鉴定了在肿瘤细胞中具有与乳腺正常细胞相反的不同表达模式的几个关键基因。集中来说,这些基因包括“遗传鉴定者”。发明人显示(见下)了属于“遗传鉴定者”的基因的组合表达模式用于区分正常和肿瘤细胞。因此,通过检测乳腺组织样品中遗传鉴定者的表达模式,可能预测细胞(正常或恶性)的状态和那个患者是否具有乳腺癌或处于发展为乳腺癌的风险。
表2给出了包含遗传鉴定者的基因。显示了20个基因,其中10个相对于正常细胞,在肿瘤细胞中通常高度表达,其中10个相对于正常细胞,在肿瘤细胞中通常降低表达。使用肿瘤活检组织和正常组织活检组织确定基因的差异表达。通过检测测试样品中这些基因的表达产物水平,基于产生的表达谱可能将细胞分为正常和恶性,即相对于正常细胞中见到的标准模式或谱,它们的表达增加或降低。
因此,在本发明的另一方面,提供了将乳腺组织样品分为正常或恶性的方法,所述方法包括步骤:
(a)从乳腺组织样品获得表达产物;
(b)将所述表达产物接触能够特异性结合选自表2的大量基因的表达产物的大量结合成员;和
(c)基于样品的表达产物和结合成员的结合谱,将该样品分为正常或恶性。
优选乳腺组织的样品来自亚洲血统妇女,如中国人种血统。
如前,表达产物可以为转录的核酸序列或表达的多肽。转录的核酸序列可以是RNA或mRNA。表达产物也可以是由所述mRNA产生的cDNA。
结合成员可以是在合适的杂交条件下能够特异性结合转录核酸序列的互补核酸序列。典型地,使用cDNA或寡核苷酸序列。
当表达产物是表达的蛋白时,优选结合成员是所述表达的多肽特异性的抗体,或包含抗体结合结构域的分子。
为了检测目的,可以使用本领域已知标准步骤标记结合成员。或者,可以在从测试的样品中分离后标记表达产物。优选的检测工具是使用可以通过光量器检测的荧光标记。可供选择的检测工具包括电子信号。例如,Motorola e-传感系统具有两个探针,自由浮动的“捕获探针”和与成对作为电极表面的固相表面连接的“发信号的探针”。两个探针都作为表达产物的结合成员。当发生结合时,两个探针开始彼此紧密接近,导致可检测的电子信号产生。
如上讨论,结合成员可以是用于PCR(如multi-plexed PCR)而特异性扩增遗传鉴定者的表达产物数量的寡核苷酸引物。接着可以在凝胶上分析产物。然而,优选,结合成员是固定到固相支持体上的单一核酸探针或抗体。该表达产物接着就可以通过固相支持体,因此使得它们接触结合成员。固相支持体可以是玻璃表面,如显微镜玻片;珠子(Lynx);或光学纤维。在珠子的情况下,每个结合成员可以固定到各个珠子上,接着它们在溶液中接触表达产物。
本领域存在确定特定基因套组表达谱的各种方法并且它们可以应用于本发明。基于珠子(Lynx)的方法或分子条码(Surromed)是已知技术。在这些情况下,每个结合成员与各自可读且自由浮动容易接触表达产物的念珠或“条码”连接。结合成员与表达产物(目标)的结合在溶液中完成,其后标记的念珠或条码通过装置(如流式细胞仪)并阅读。
确定表达谱的更多已知方法是由Illumina开发的器具,即光学纤维。在这种情况下,每个结合成员与光纤维电缆一端的特定“地址”连接。表达产物与结合成员的结合可以诱导荧光改变,它可以通过光纤电缆另一端的装置阅读。
本发明人成功使用了包含固定在固相支持体上的大量核酸序列的核酸微阵列。将代表表达基因的核酸序列如cDNA通过微阵列,它们能够产生来自乳腺组织的肿瘤细胞和正常细胞的表达产物特征性的结合谱。
本发明进一步提供了将乳腺组织样品分为恶性或正常的微阵列,包括收容有大量核酸序列的固相支持体,所述核酸序列能够特异性结合表2中鉴定的一个或多个基因的表达产物。样品的分类将得到患者乳腺癌的诊断。优选所述固相支持体将收容有能够特异并独立结合表2中鉴定的至少5个基因的表达产物的核酸序列,更优选,至少10个基因或至少15个基因。在最优选实施方案中,固相支持体将收容有能够特异并独立结合表2中鉴定的所有20个基因的表达产物的核酸序列。
典型地,高密度核酸序列,通常是cDNA或寡核苷酸,固定到固相支持体的很小的分散区域或点上。该固相支持体通常是显微镜玻片或滤膜,用基质包被(或芯片)。该核酸序列通常通过自动机系统传递(或印记)到包被的固相支持体上并接着固定到支持体上。
在优选实施方案中,典型地使用荧光标记来标记从样品得到的表达产物,接着将其接触固定的核酸序列。杂交后,使用检测器检测荧光标记,如高分辨率激光扫描仪。在可供选择的方法中,可以用非荧光标记如生物素,标记表达产物。杂交后,接着可以用结合第一个非荧光标记(如结合生物素的荧光标记的链霉抗生物素)的荧光染料“染”微阵列。
用数字图像软件分析每个分散点发射的信号而获得表示基因表达模式(表达模式或谱)的结合谱。接着实验样品的基因表达模式可以与对照的(即来自正常组织样品的表达谱)比较进行差异分析。
如上提及,对照或标准可以是以前判断为正常或恶性细胞特征性的一个或多个表达谱。这些一个或多个表达谱可以可获取地保存于数据载体上作为部分数据库。这在上面讨论过。然而,也可能将对照导入检测步骤。换句话说,测试样品可以“掺加”一种或多种“合成的肿瘤”或“合成的正常”表达产物,它可以用作待与测试样品中遗传鉴定者的表达水平相比的对照。
多数微阵列利用一种或两种荧光团。对于双色试验,典型地,最常使用的荧光团是Cy3(绿波激发)和Cy5(红波激发)。微阵列图像分析的目的是从每个表达产物提取杂交信号。对于单色试验,以给定目标(主要对于与单一样品杂交的阵列)的强度来测定信号。对于双色试验,以不同荧光标记的两个表达产物(如样品和对照(或者已知对照是“参照”))的比率来测定信号。
优选根据本发明的微阵列包含大量分散点,每个点含有一个或多个寡核苷酸并且每个点代表针对选自表2中的一个基因的表达产物的一个不同结合成员。在优选实施方案中,该微阵列将含有针对表2提供的20个基因中每一个的20个点。每个点将包含大量等同寡核苷酸,每个能够结合表2基因的表达产物,如mRNA或cDNA。
在本发明的另一方面,提供了将乳腺组织样品分为正常或恶性的试剂盒,所述试剂盒包括能够特异性结合表2中鉴定的一个或多个基因的表达产物的一个或多个结合成员,和检测工具。
优选,试剂盒中一个或多个结合成员(抗体结合结构域或核酸序列如寡核苷酸)固定到一个或多个固相支持体上,如用于微阵列或光纤维试验的单一支持体,或多个支持体如念珠。优选检测工具是标记测试下样品的表达产物的标记(放射性或染料,如荧光)。该试剂盒也可以包括检测和分析测试的表达产物的结合谱的工具。
或者,结合成员可以是能够结合表2中鉴定的基因的表达产物而使得它们可以在PCR中扩增的核苷酸引物。该引物可以进一步包括检测工具,即可以用于鉴定扩增序列和它们相对于其它扩增序列的丰度的标记。
该试剂盒也可以包括可获取的保存于数据载体上的用于与测试样品的表达谱进行比较的一个或多个标准表达谱。可以根据本发明的第一个方面产生一个或多个标准表达谱。
本发明进一步提供了诊断亚洲血统患者乳腺癌的存在或风险的方法,所述方法包括:
获得乳腺组织样品;
从所述样品分离表达产物;
标记所述表达产物;
所述标记的表达产物接触代表选自表2的大量基因的大量结合成员;
基于所述标记的表达产物和结合成员的结合谱,确定所述患者中乳腺癌的存在或风险。
乳腺组织样品可以切除的乳腺活检组织或细针抽出物获得。
再者,优选表达产物是mRNA或所述mRNA产生的cDNA。优选结合成员是固定到微阵列或念珠形式(见上)的一个或多个固相支持体上的寡核苷酸。优选通过能够检测用于标记表达产物的标记的检测器分析结合谱。通过比较样品的结合谱和对照如标准表达谱可以确定乳腺癌存在或风险。
在上述所有方面,优选使用能够特异性结合(和在核酸引物的情况下,扩增)所有20个遗传鉴定者的表达产物的结合成员。这是因为所有20个基因的表达水平构成测试下细胞特异性的表达谱。表达谱的分类越可靠,测试的基因表达水平数量越多。因此,优选估计5个以上选自表2的基因的表达水平,更优选,10个以上,甚至更优选,15个以上和最优选所有的20个基因。
上面提及的遗传鉴定者(表2)特别适合于斑点cDNA微阵列技术,其中已经特别为这个目的产生了微阵列(或其它类似技术)。然而,本发明人领会到本发明可以被改动使得可以使用市场上买得到的基因芯片,而不需烦琐地生产一个具体含有表2鉴定基因。想到这点,发明人鉴定了更多遗传鉴定者(表5a或5b),尽管使用上述微阵列技术可以利用它,但是它也可以在市场上买得到的基因芯片上应用,如Affymetrix U133A基因芯片。
因此,使用表4a或4b的基因套组代替表2的那些也可以实施上述本发明的方面,此外它们可以在市场上买得到的基因芯片如AffymetrixU133A基因芯片上应用,或使用上述微阵列技术而应用。
本发明人也鉴定了另组套基因(表5a),它可以用于基于雌激素受体(ER)状态对乳腺肿瘤进行分类。这在临床上很重要,因为ER+肿瘤可以用激素疗法(如他莫昔芬)治疗和ER-肿瘤典型地更具扩散性和对治疗更顽固。
同样,本发明人也鉴定了另组套基因(表5b),它可以用于将乳腺肿瘤基于ERBB2+状态分类。知晓乳腺肿瘤的ERBB2+状态在临床上也很重要,因为ERBB2+肿瘤典型地具有很高迅速蔓延性并具有很差的临床预后。ERBB2+肿瘤也是Herceptin(抗癌药物)治疗的候选情况。
通过使用Affymetrix U133A基因芯片产生一组乳腺肿瘤样品的表达谱来确定表5a和5b中提供的基因套组。一系列统计学算法用于鉴定在ER+对ER-样品以及ERBB2+对ERBB2-样品中差异表达的组套基因。因此,本发明进一步提供了可以用在根据ER和ERBB2状态对乳腺肿瘤分类的方法中的基因套组。
因此,在本发明的更多方面,提供了根据其ER和/或ERBB2状态对乳腺肿瘤进行分类的方法,包括:
a)从肿瘤细胞获得表达产物;
b)将所述表达产物接触能够特异性结合选自表5的大量基因的表达产物的大量结合成员;和
c)基于来自样品的表达产物和结合成员的结合谱,对肿瘤细胞进行基于ER和/或ERBB2状态的分类。
如同本发明的第一个方面,优选大量结合成员是核酸序列和更优选固定于固相支持体的核酸序列,例如作为核酸微阵列。该核酸序列可以是寡核苷酸探针或cDNA序列。
基于表5鉴定基因的表达可以对肿瘤细胞进行根据其ER和/或ERBB2状态的分类。表5鉴定了每个基因在ER+或ERBB2+肿瘤中上调(+)或下调(-)。根据这个信息,可能确定测试下的乳腺肿瘤细胞是ER-和ER+和/或ERBB2+或ERBB2-。
如本发明的所有方面,选自确定的基因套组(表2-7,除了表6b)的大量基因在实际数量上可以变化。为了实施本发明,优选使用至少5个基因,更优选至少10个基因。当然,已知微阵列和基因芯片技术允许待利用的大量结合成员。因此,更优选方法将是使用代表每个基因套组中所有基因的结合成员。然而,本领域技术人员将领会到这些基因的比例可以忽略,且该方法仍以可靠和统计学精确模方式实施。在多数情况下,将优选使用代表每个各基因套组中至少70%,80%或90%基因的结合成员。
在本发明的更多方面,提供了按照其分子亚型对乳腺肿瘤细胞进行分类的方法,包括:
a)从肿瘤细胞获得表达产物;
b)将所述表达产物接触能够特异性结合选自表6的大量基因的表达产物的大量结合成员;和
c)基于来自肿瘤细胞的表达产物和结合成员的结合谱,对肿瘤细胞进行按照其分子亚型的分类。
优选分子亚型是腔,ERBB2,基底,ER型II和正常/正常样的。这些亚型在下文定义。
实践中,使用表6(表6a或6b依赖于使用的分类算法类型)所述的基因套组确定待分类的肿瘤样品的表达谱。其次,表达谱将与“参照”(对照)谱的数据库进行比较,其中每个“参照”(对照)谱,每个“参照”谱对应于属于那个特定分子类型的“平均”肿瘤。在这种情况下,不是仅具有正常或肿瘤,或ER+和ER-,“对照”谱将对应于五个不同亚型。第三,通过使用合适的分类算法,未知的肿瘤样品可以被记为其表达谱有很好参照匹配的具体亚型。
在选择能够结合表6a的大量基因的表达产物的大量结合成员情况下,使用的结合成员的数量将控制测试的可靠性。换句话说,不是必须使用能够特异并独立结合表6a鉴定的所有基因的结合成员,但是使用的结合成员越多,测试越好。因此,大量,优选是至少50%,更优选至少70%和甚至更优选90%的上面提及的基因。
在本发明的另一方面,提供了将乳腺肿瘤细胞进一步细分为腔A和腔D亚型的方法,包括:
a)从肿瘤细胞获得表达产物;
b)将所述表达产物接触能够特异性结合选自表7的大量基因的表达产物的大量结合成员;和
c)基于来自肿瘤细胞和的表达产物和结合成员的结合谱,对肿瘤细胞进行按照其分子亚型的分类。
优选,对从已经被分为“腔”型的乳腺肿瘤细胞获得的表达产物实施该方法,如使用表6a或6b的遗传鉴定者。
按照表6b提供的基因套组,优选基因套组中的所有基因用于分类。基因数量减少将带走可靠结果的可能性。这是因为这个基因套组是使用遗传算法选择的。
本发明人提供了很多遗传鉴定者(表2至7),它们可以用于诊断和/或预测乳腺癌风险和,进一步,可用于对乳腺癌进行分类,尤其是对亚洲血统妇女。
这些遗传鉴定者的提供允许常规制作诊断工具如核酸微阵列并将其用于预测、诊断或对肿瘤进行亚分型。此外,这种诊断工具可以与计算机联合使用,该计算机被编程以确定用诊断工具(如微阵列)获得的表达谱,并根据使用的特定遗传鉴定者,将其与正常对肿瘤和/或分子亚型特征性的“标准”表达谱进行比较。实施过程中,计算机不仅给使用者提供了可以用于诊断患者中肿瘤的存在或类型的信息,同时该计算机还获得了更多表达谱,通过这些用表达谱确定“标准”表达谱并由此可以更新其自身数据库。
因此,本发明第一次允许制作含有对应于表2至7鉴定的基因套组的探针的专门芯片(微阵列)。该阵列的确切物理结构可以变化,范围从与2-二维固相基底连接的寡核苷酸探针至已被独特标记如“条码”“标记”的自由浮动探针。
可以创建对应各种生物学分类(如正常、肿瘤、分子亚型等)的数据库,它将由专门微阵列确定的各种乳腺组织的表达谱组成。接着可以处理和分析该数据库,使得它最终含有(i)对应于数据库中每个表达谱的数字数据,(ii)作为那个特定分类的正规谱的“标准”谱;和(iii)代表观察到的各个谱与“标准”谱的统计学变异的数据。
在实践中,为了估计患者样品,首先分离那个患者的乳腺细胞(通过切除活检组织或细针抽出物获得)的表达产物,和使用专门微阵列确定那个细胞的表达谱。为了对患者样品进行分类,将在上述数据库中再次查询那个患者样品的表达谱,查询可以以直接或间接方式进行。“直接”方式是患者的表达谱直接与数据库中其它个体的表达谱进行比较来确定哪个谱(并由此是哪个分类)递送了最佳匹配。或者,可以更“间接”地进行查询,例如,患者的表达谱可以与数据库中“标准”谱简单比较。间接方法的优点是“标准”谱,因为它们代表很多个体谱的集合体,数据不密集得多并可保存在相对廉价的计算机系统中,接着根据本发明可以形成试剂盒的一部分(即与微阵列联合)。在直接方法中,数据载体可能规模更大(如计算机服务器),由于不得不保存很多个体谱。
通过比较患者表达谱和标准谱(间接方法)及预先确定的人群中的统计学变异,也可能传递关于患者表达谱如何紧密匹配“标准”正规谱的“置信值”。这个值将给临床医师提供关于分类可信度,和例如是否应该重复分析的有价值信息。
如上提及,也可能将患者表达谱保存在数据库中,并且这些可以在任何时候用于更新数据库。
现在将通过实施例,参照附图说明本发明的方面和实施方案。更多方面和实施方案对本领域技术人员将很明显。本文提及的所有文件并入这里作为参考。
图1:正常和肿瘤乳腺样品的无监测区分。各个表达谱接受标准数据选择过滤(见本文),使用分级聚类对包括大约800个阵列目标的所得数据矩阵进行分类。正常样品(“xxxN”)被下划线,而肿瘤样品(“xxxT”)不被下划线。数字代表每个样品相关的NCC组织库的数量。树状分枝图分枝说明了生物学样品之间相似性的程度。正常和肿瘤样品单独分开,但仅在树状分枝图的二级水平。用于选择这个数据组的数据滤器上的微小变异也产生了高度相似的树状分枝图(P.Tan,未发表的观察结果)。
图2:使用组合的异常值(outlier)基因套组(COG)进行正常和肿瘤样品区分的改进。(A)定义了正常(左)和肿瘤(右)样品的独立异常值基因套组。每个聚类图由生物学样品(柱)对阵列目标(排)的矩阵组成,浅灰色代表上调,而深灰色代表下调(见材料和方法的选择标准)。正常样品的异常值基因套组由60个基因组成,而肿瘤样品的异常值基因套组由75个基因组成。下面每个聚类图列出了用于建立异常值基因套组的具体正常和肿瘤样品。被下划线的样品号码表示相互杂交,其中使用Cy5标记肿瘤/正常样品和用Cy3标记对照样品。(B)使用COG进行正常和肿瘤样品的区分。使用标准分级聚类,包含COG的108个独特阵列目标用于区分来自图1的肿瘤和正常样品。与图1相比,正常(xxxN)和肿瘤(xxxT)样品的区分现在观察为含2个错误分类的初级类型区分。
图3:使用最小的20元件遗传鉴定者进行正常和肿瘤样品的区分。来自COG(表2)的与肿瘤/正常类型区分最相关的20个阵列目标用于区分(A)来自图1和2b的训练组,和(B)10个正常和11个肿瘤的未经实验的测试组。在两种情况下,可以观察到在初级分类区分水平的正常和肿瘤样品的精确区分。
图4:正常和肿瘤样品的表达谱变异比较。使用图3a和3b的组合样品(总和=48个样品)建立各个正常和肿瘤数据组。使用PCA,这些数据组中大约8000个阵列目标的完整基因表达矩阵纳减为基本主要成分。Y轴描述了相对第1成分标准化的特征值标准化的每个成分的变异程度,x轴描述了主要成分号码,从第2成分开始(因为每组的第一成分是1)。为了观察信息“延迟”速度,每个数据组的成分以降级变异描述。与肿瘤相比,正常样品一致显示出它们成分之间较低的信息延迟速度。
图5:使用不同基因套组,由分级聚类分析的包括56个癌性和6个正常组织的62个样品的基因表达模式。基于基因表达(图例)的差异,样品被分成6个亚型,是:腔,(S1);ERBB2+/ER+(S2,ERBB2+/er-(S3),基底样(S4),ER阴性亚型II(S5),和正常/正常样(S6)。(a)使用1796个基因的数据组进行的无监测分级聚类。灰色下划线表示含有腔和ERBB2+/ER+样品混合物的类。(b)使用“共同内在基因套组”(CIS,292个基因)进行的半监测分级聚类。(c)使用CIS的完全聚类图。聚类图右侧的暗纹条代表基因聚类A-E(表3),是(A)具有ER的腔上皮基因。(B)“新”基因。(C)基底上皮基因。(D)正常乳腺样基因。(E)ERBB2相关基因。
图6(a)-(d):本研究使用的DCIS样品的代表性实例。两个样品显示(a)/(b),和(c)/(d)。通过检查样品((a)和(c),HE)的石蜡苏木精和曙红切片,以及检查表达谱处理的实际样品的冰冻切片((b)和(d),FS)证实每个样品的DCIS状态。(e)乳腺癌发展的“不同来源”和“进化”理论。“不同来源”假说提出不同分子亚型的癌症通过不同的肿瘤发生途径产生,因此组成不同的生物学实体。“进化”假说提出不同的分子亚型是由经历不同阶段表型发育的单一(或很少)癌症类型产生的。仅通过研究单一时间点获得的晚期扩散性癌症,不能区分两个假说之间的区别。
图7:DCIS样品表达晚期癌症亚型的特征基因。DCIS样品以黑竖线表示。基于CIS基因套组,十二个DCIS样品中有六个聚类在ERBB2+组(S2和S3),5个样品在腔组,和一个样品在正常样组。聚类图右侧的暗纹条表示图5所示的相同基因聚类。(A)具有ER的的腔上皮基因。(B)基底上皮基因。(C)正常乳腺样基因。(D)ERBB2。
图8:腔A和ERBB2+肿瘤亚型的途径特异性和重叠基因的总结。“U”表示上调基因和“D”表示下调基因。例如,正常/DCIS(腔)转变过程中有245个基因上调和705个基因下调。粗体码是两个基因组之间的重叠基因。a)基于5%假发现率(FDR)的结果。B)当仅比较前100个最明显上调的独特基因的结果。
图9:a)腔D亚型的发现。基于“增殖聚类”连接基因的分级聚类重新对一系列以前同源的腔A型肿瘤(由图5和7中CIS鉴定为亚型S1)进行分组。观察到两个大组,分别显示低(腔A)和高(腔D)“增殖聚类”表达水平。b)在其它蔓延性肿瘤类型中也观察到36个基因“增殖聚类”的高水平。腔D(17个样品中有15个,以样品号码下的黑条表示),基底(ER-)和ERBB2+ve样品全部强烈表达36个基因的“增殖聚类”(聚类图下的条,左分支),而腔A型(全部,除了一个边界情况),正常样和肿瘤显示低水平表达。浅灰/白色表示上调,而深灰/黑色表述下调。
材料和方法
乳腺组织样品
在从库研究所和人种委员会机构获得适当批准后,从NCC组织库获得原代乳腺组织。一般,手术切除肿瘤过程中同时收集所有肿瘤和相匹配的正常组织。手术切除后,立即在操作场所粗略切割样品,并冰冻于液氮中。随后由新加坡国立医院病理科提供肿瘤状态的组织学证实。样品保存于液氮中直到进行处理。除了来自印度患者的1肿瘤和匹配的正常样品对,所有其它样品来自中国患者。本报道使用的组织样品的DCIS状态证实通过常规苏木精和署红染色档案样品,以及进行表达谱处理的实际样品的直接冰冻切片而获得。
样品制备和微阵列杂交
对于包括Affymetrix基因芯片的杂交,使用Trizol试剂实际从组织提取RNA,通过Qiagen Spin柱纯化,并根据制造商的规程,接受Affymetrix基因芯片杂交处理。对于每个斑点cDNA微阵列杂交,在单轮线性扩增(Wang et al.,2000)后使用2-3μg总RNA。所有乳腺样品的斑点cDNA微阵列杂交与已经类似扩增的标准市场上买得到的mRNA对照库(strategene)相比较。标准步骤后制造cDNA微阵列(DeRisi etal.,1997),使用从各种商业销售商(Incyte,Research Genetics)获得的cDNA克隆。除了特别提及,使用Cy3染料荧光标记样品,而用Cy5标记对照。使用Affymetrix U133A基因芯片实施杂交。杂交后,使用基于CCD微阵列的扫描仪(Applied Precision,Inc)捕获微阵列图像。
数据处理和分析
对于斑点cDNA微阵列数据,对应于各个微阵列的荧光强度上载到集中的Oracle 8i数据库。使用标准SQL查询实施各种数据组和基因搜索的建立。使用程序Xcluster(斯坦福)实施分级聚类并使用程序Treeview(Eisen et al.,1998)显现。为了鉴定肿瘤和正常数据组中的异常值基因,选择对于正常数据组来说,在全部阵列的90%上,和对于肿瘤数据组来说,在全部阵列的80%上一致显示调节超过3倍的阵列元件。使用Golub et.al.(1999)采用的相似性尺度概念实施相关分析。简言之,计算每个基因的对应于正常/肿瘤类型区分的相似性尺度,接着基于它们相似性值的降级顺序对该基因进行分类。由它们与分类区分的正和负相关性分类后,选择每类型的前10个基因进行随后的聚类分析。通过将很多相关变量组成的基因表达矩阵线性转化为“较少”量不相关变量(主要成分)来实施PCA主要成分分析(PCA)。对于线性子空间的数据组,该数据可以不丢失太多信息同时简化了数据表示的方式进行压缩。第一主要成分解释了数据中的最大变异性,且每个后续成分解释了剩余变异性的部分。
对于Affymetrix基因芯片,使用市场上买得到的软件程序(Genedata Refiner)进行Raw Genechip扫描的质量控制并存放在中心数据保存设备中。通过除去在所有样品(即叫做“A”)中缺乏表达的基因,接受Log2转换,和用中值集中所有剩余基因和样品来标准化而过滤表达数据。接着使用基因数据表达软件分析包或使用常规电子表格申请实施数据分析。通过选择在所有很好测定的样品间显示标准差(SD)>1的基因建立表1中使用的1796个基因的无监测数据组。使用CLUSTER程序实施平均连接分级聚类,且使用TREEVIEW(9)显示结果。基本如Tusher et al.,(2001)(10)所述,使用2倍改变切割和适当的delta值覆盖5%(0.05)基因假发现率(FDR)实施微阵列的显著性分析(SAM)。
共同内在基因套组(CIS)的创建
以下列方式选择U133A基因芯片探针组和Perou et al.,(2000)定义的“内在”数据组的共同基因:由456个cDNA克隆组成的原始“内在”组中,428个可能使用斯坦福Source数据库(Unigene Build 156)被分配给特定单基因聚类。除去重复基因后,这个数字接着减为403个基因。接着使用这个列表,查询U133A基因芯片探针,产生292个匹配,或原始“内在”组的72.5%(仅计算独特基因)。
结果
使用无监测聚类区分正常和肿瘤乳腺标本
发明人使用大约13000个元件的cDNA微阵列对从主要是中国人种患者(见材料和方法)得到的一组26个粗略切割乳腺组织标本(14个肿瘤,12个正常)产生基因表达谱。杂交和扫描后,发现大约8000阵列元件显示出显著高于背景水平的荧光信号,这些元件用于随后的分析。初次,本发明人发现基于很多通常使用的数据滤器的无监测聚类方法(如选择在至少4-5个阵列间显示至少3倍调节的基因)(见Perou etal.,1999,Wang et al.,2000)产生了图1显示的阵列聚类图。具体来说,该样品组分为两个大组,每个组由肿瘤和正常标本的混合体组成。然而,每个组内,发明人发现肿瘤和正常组织有效分为非常独立的亚支。使用无监测聚类可区分肿瘤和正常组织的观察结果提示存在可有效区分肿瘤和正常样品的特定基因。然而,在无监测数据大组中,也很清楚这些基因仅能够区分相关树状分枝图亚支中的正常和肿瘤样品,而不是在原始分类区分水平上。在其它乳腺癌表达谱研究项目(Perou etal.,2000)中也报道了类似发现,提示在整个转录小体(transcriptosome)水平,其它基因的表达水平可以“代替”肿瘤/正常类型区分中的基因所编码的信息(见讨论)。
使用异常值基因套组对正常和肿瘤样品进行分类
发明人研究的主要目的之一是鉴定有明显诊断和治疗潜力的基因或基因亚组。要具有临床实用性的,需要鉴定可在原代水平,而不是次级,类型区分上准确预测未知乳腺组织样品是正常或恶性的基因类型。为了鉴定这些基因套组,或“遗传鉴定者”,以前已经描述了很多监测的学习策略,如邻近分析和人工神经网络(Golub et al.,1999,Khanet al.,2001)。然而,发明人使用了略微不同策略来鉴定这些元件,集中于使用高度可重复的异常值基因。在这个方法中,属于不同类型的样品最初鉴定为独立数据组。在每组内,接着鉴定在所有和接近所有阵列间一致上或下调(“异常值”)的基因。接着组合这些分开的“异常值组”,使用标准聚类方法估计基因组合组区分两种类型的能力。
发明人首次建立了正常和肿瘤群的异常值基因亚组。为了避免可能由荧光标记导入的偏差,它们也包括在每个组5个“相互”表达谱中,其中样品和对照RNA群相反标记。这个分析鉴定了正常组的60个高度可重复“异常值”基因,和肿瘤组的75个基因,它们在所有或接近所有阵列间一致上或下调(图2)。正常和肿瘤异常值组的交叉比较揭示两组间的很多共同基因(表1),产生108个基因的最终组合异常值基因组(称作COG)。
接着COG用于对26个乳腺组织样品进行聚类。与图1观察到的大规模聚类图相比,发明人发现使用COG中发现的基因来聚类可有效将大多数肿瘤和正常样品分为两个主要分支,带有2个错误分类(图2a)。具体是,1个正常样品和1个肿瘤样品被错误分配,在前者情况下,基因表达值的质量检查揭示这个样品伴有很多所谓的“缺失”值(聚类图中的灰条),它可能导致这个样品被错误分类。然而,多数样品被正确分组,这提示对于某些数据组,“异常值分析”可以用作在不同类型之间鉴定有区别基因的简单和有效方法。
乳腺组织中正常对肿瘤类型区分的最小遗传鉴定者的定义
尽管出现了最初数据组基因数量的剧大减少(8000至108),但是COG中包含的元件数量仍太大而不能可行地将其全部包括作为潜在诊断试验的一部分。理想地,诊断基因套组应该构成为i)最小数量元件,ii)高预测精确性,和iii)表现与有争论的类型区分正和负相关的基因的混合物。为进一步将组合异常值基因组减少至其最具信息性的元件,发明人使用相关分析鉴定和分级COG中与肿瘤/正常类型区分相关性最高的基因(见材料和方法)。接着估计10个最高度正和负相关的基因精确分类乳腺样品的能力。发明人发现了这个20个基因的最小组,称作“遗传鉴定者”,精确分类所有正常和肿瘤样品(图2b和表2)。组成“遗传预测者”的基因为已知包括在乳腺和肿瘤生物学中的基因,以及在肿瘤形成中的作用尚未描述过的其它基因(见讨论)。
20个基因的“遗传鉴定者”的预测能力
对这点进行的所有分析在26个乳腺样品的同一“训练”组上实施,并由此尚未探寻20个元件的基因套组的预测能力。为了估计这个“遗传鉴定者”的强效性,发明人遵循Golub et al(1999)的策略并测试了最小预测者鉴定另外22个乳腺样品的未经实验的“测试组”的能力,其中12个样品是肿瘤和剩余10个是非恶性。以对训练组类似的方式,它们发现20个基因的遗传鉴定者也能够完全精确分类未经实验的组(图3b)。因此,看来“遗传鉴定者”预测给定乳腺样品是正常或恶性的能力不局限于产生它的训练组。反而,这个基因套组中的元件数量,尽管很低,可能具有给出预测值的足够敏感性和信息力量。
估计正常和肿瘤乳腺组织之间变异的普遍水平
乳腺肿瘤的临床特征是在临床过程,疾病蔓延性和对药物治疗反应等方面的广泛变异。与这些广泛表型变异一致,已经发现个体乳腺肿瘤可显示出它们普遍基因表达模式的巨大变异(Perou et al.,2000)。解释这些广泛变异的一个通常假说是认为它们是肿瘤发生的多个独立途径的结果。然而,正常乳腺组织也具有高度环境和激素敏感性,而且特定患者的正常乳腺组织的具体状态常常依赖于很多人口学因素,如年龄、绝经状态和药物治疗史。因此,形式上肿瘤中观察到的表达状态的某些量的变异也可能可以反映在非恶性乳腺组织。由于发明人数据组由正常和恶性样品组成,它们能够比较正常和肿瘤样品彼此之间固有的变异性。为了实施这个比较,他们对8000个基因表达矩阵应用了主要成分分析(PCA),包括共22个非恶性和26个肿瘤标本。使用PCA,发明人将总基因组减为一系列不同“成分”,其中每个成分代表了在原始数据组之间有限量的基因表达变异。它们假定数据中观察到的变异可能产生于多个来源,如内在生物学变异,以及实验引入的变异(如样品收集、杂交和标记条件中的差异等)。然而,由于在他们的实验中,正常和肿瘤样品同等收集,处理和加工,因此两组间应该同等具有由于实验条件和操作造成的变异。因此,肿瘤和正常组之间变异的任何不同最可能归于内在生物学变异。
发明人将正常和肿瘤数据组中观察到的变异量针对它们的主要成分进行了制图(图4)。为了有效比较两个数据组,每个成分标准化至那个数据组中的第一个成分,产生了描述数据组间总变异如何“延迟于”每个后续主要成分的图(通过常规,通常取第一个主要成分代表显示数据组间最大变异的元件)。发明人观察到作为一般规律,对应于肿瘤数据组的每个成分始终比正常数据组的类似成分显示出更高变异。这个数据表明与肿瘤谱相比,正常乳腺样品的基因表达谱明显更“稳定”或“不变”,这支持了肿瘤中观察到的基因表达的广泛变异可能是乳腺肿瘤产生于多个肿瘤发生途径的假说。
不同人种群体间乳腺癌分子亚型的保守性
发明人接着使用Affmetrix基因芯片分析了从中国患者分离的56个扩散性乳腺癌和6个正常乳腺组织。粗表达谱扫描接受一轮质量控制,数据过滤和处理(见材料和方法),无监测分级聚类算法用于基于转录相似性,将标准化的谱彼此分级。使用1796个基因的数据组,它组成了在全部样品至少70%内测定良好的和在样品间显示出相当的转录变异的基因(如由具有高标准差反映)发明人观察到多数样品分成可能与特殊组织病理学参数相关的几个可辨别组。例如,很多ER+肿瘤聚类在一起((S1)条,图5a),如ERBB2+/ER-样品((S3)条)。正常乳腺样品也聚类为各个成员彼此显示很高相关性的可辨别的组,这提示正常乳腺组织与肿瘤相比具有较少转录变异。然而,很多样品不能通过无监测聚类算法(灰条)准确区分-可能这种“混合聚类”结果可能归因于原始组织样品中非恶性成分贡献的“噪声”,如正常乳腺上皮组织,淋巴细胞浸润物和反应性促结缔组织增生的组织。如前提及,使用cDNA微阵列平台获得类似观察,提示这个现象不依赖技术平台。
本研究的一个目的是确定以前发表的研究中定义的分子亚型和相伴表达标记是否在另外的患者群体中也可以检测到。发明人集中于将它们的表达结果与Perou et al(2000)的联系起来,后者是一个标志性研究,其中对来自美国和挪威患者的一系列乳腺癌标本实施了类似分析。简言之,在那个研究中和随后相关报道(Sorlie et al.,2001)中,作者确定了扩散性乳腺癌可被细分为至少5个不同分子亚型,基于表现为其转录变异主要由于恶性肿瘤成分造成的基因的“内在”基因套组。表1总结了代表每个特定亚型“特征”元件的特殊表达标记(以下这个数据组称作斯坦福研究)。斯坦福研究和发明人的工作之间,在方法和实验设计上有几个不同,如样品操作方案、患者群体和表达阵列平台(斯坦福研究中的2色cDNA微阵列相对于本发明研究的1色基因芯片,以及不同阵列探针序列)的不同。尽管存在这些不同,但是来自独立机构(斯坦福和本发明人)的两个不同乳腺癌表达数据组的可利用性由此允许本发明人检测一个机构的实验定义的分子亚型实际上是否足够强效以至可在另一个机构的研究中检测到。
为了实施本分析,发明人首次鉴定了Affymetrix U133A基因芯片上对应于属于斯坦福研究定义的“内在”组的基因的探针(见材料和方法)。斯坦福“内在”组中发现的403个独特基因中,292个基因,或内在组的72.5%,也在基因芯片阵列中发现。此后发明人将这个基因重叠组称作“共同内在组”(CIS)。重要的是,CIS仍含有很多“特征”基因,在斯坦福研究中它们的转录被报道可有效区分亚型,并且使用CIS,斯坦福肿瘤的重新聚类也产生了与使用全部内在组获得的分组(未显示数据)高度相似的分组。当发明人的系列的扩散性癌症基于CIS重新聚类时,他们观察到在区分模式中有突出改进,其中现在所有癌症样品分成非常不同的类型。接着本发明人对其研究中定义的分子亚型与斯坦福研究发现的那些(腔A,腔B/C,基底,正常样,和ERBB2+)进行比较(Perou et al.,2000;Sorlie et al.,2001)。
腔亚型:依靠常规免疫组织化学,这个组的所有癌症是ER+。斯坦福研究定义了至少两个腔肿瘤组-腔A和腔B/C,后者伴有较差的临床预后(腔B和C肿瘤作为单一类型治疗,因为(Sorlie et al.,2001)报道了将它们分成两个不同组很困难)。与斯坦福研究一致,本发明人也观察到与斯坦福研究的腔A亚型非常类似的强分子亚型的存在,因为这个亚型的特征是ER和相关基因如GATA3,HNF3a和X盒结合蛋白1(条(S1))的高水平表达。然而,他们不能清楚区分standford研究定义的腔B/C亚型是否也存在于它们的患者群体中,基于B/C亚型伴有ER相关基因表达水平中等,和腔C亚型也表达高水平“新”基因簇的标准。发明人也观察到第二个腔亚类(ER+/ERBB2+),它与腔A癌症不同在于这个其它亚类表达中等水平的ER相关基因(类似于腔B/C)和“新”簇中发现的基因(类似于腔C,条(S2))。然而,这个亚类也表达高水平ERBB2相关基因,并因此可能与斯坦福研究定义的腔C癌症不同,因为腔C癌症表达低水平的ERBB2基因簇。总之,发明人的结果表明腔A肿瘤(图5中的腔)构成可在不同患者群体中普遍发现的强分子亚型。相反,腔B/C和ER+/ERBB2+ve亚型可能代表不强的变异,它们的存在可能更明显受人种特异性、样品操作方案或阵列技术不同的影响。
如图5所见,属于腔类(S1亚型)的肿瘤在CIS基础上看来具有转录同源性。为了确定是否能够进一步细分属于这个亚型的肿瘤,发明人使用在以前报道中已经表明是组织细胞增殖状态标志的另一组套基因(Sorlie et al.,2001)对一大组腔肿瘤进行重新聚类。
在这些“增殖基因”基础上,它们发现腔肿瘤可以细分为两个不同类型,即,“纯”腔A和它们称作腔D亚型的另一个亚型(图9a)。可能腔A/D细分类在临床上有意义,因为在“增殖基因”基础上的不同组肿瘤的重新聚类产生了两个大的细分组,一个代表临床扩散性肿瘤(基底、ERBB2和腔D),和另一个代表临床上更容易处理的肿瘤(腔、正常/正常样)(图9b)。
基底样:斯坦福研究中报道了基底分子亚型的特征是高水平的两个表达标记-I)基底乳房上皮的标记物,如角蛋白5和17,和II)属于“新”簇的基因。与斯坦福研究一致,发明人也观察到基底亚型伴发类似表达标志(条(S4)),这表明基底分子亚型也非常强效。然而,此外,它们也检测了另一种亚型(条(S5))的明显存在,它不伴随斯坦福研究中所述的任何表达标记。
正常乳腺样:“正常样”亚型伴发在正常乳腺组织中也高度表达的基因簇表达,且包括基因如四和一半LIM结构域1,水通道蛋白,和乙醇脱氢酶2(I类)β。发明人系列中的很多肿瘤也与正常乳腺组织聚类并显示出这个表达标记(条(S6))。因此,“正常样”分子亚型也可以认为是强亚型。
ERBB2+:斯坦福研究也定义了最终ERBB2+亚型,其中这些肿瘤的特征是高水平的ERBB2相关基因的表达(柱E),中等水平的“新”簇(柱B),和缺乏ER相关基因的表达(柱A)。类似的ERBB2+亚型也清晰存在于发明人的系列中(条(S3))。与该表达数据一致,也通过常规免疫组织化学,他们随后也证实了属于这个分子亚型的肿瘤全部是ERBB2+。
总之,斯坦福研究定义的5个分子亚型中,发明人在他们自己的患者群体中清楚检测到至少4个亚型(腔A,基底样,正常乳腺样和ERBB2+)。使用CIS中的基因,他们不能清楚确定一个特定亚型(腔B/C)是否存在于它们的系列中,而且它们也检测到以前没有报道的2个另外亚型(ER+ERBB2+和ER-亚型II)的潜在存在。在发明人的研究中也清楚检测到多数(4/5)斯坦福分子亚型的发现提示尽管中心之间有很多方法差异,但是基于基因组的表达定义的分子亚型确实显著强效并且在不同患者群体之间很保守。
原发管癌(DCIS)表达扩散性癌症分子亚型的特征表达标记
以前的结果表明乳腺癌的分子类似亚型确实可以发生并在不同人种群体间检测到。然而,这些研究的一个局限是它通常很难跨越延长的一段时间分析相同的癌症。这样,常常产生的一个问题是这些分子变异体是否代表确实不同的生物学实体的亚型,或者是它们简单反映了不同进化阶段中的单个或很少亚型。由于这两个不同类型,分别称作“不同来源”和“进化”假说(图6e),对临床诊断和随后的进展和监测具有不同的意义,因此确定提出的这些机制中哪个是乳腺癌的情况很重要。不幸的是,仅通过研究在单一时间点取样的扩散性癌症不可能区分这两个模型,因为预期两个假说都产生类似于图5所示的结果。
在常规组织病理学中,原发管癌(或DCIS)长久以来被认为是扩散性乳腺癌的主要前体,并可能代表最早的形态学可检测的恶性非扩散性乳腺损伤。然而尽管它们的恶性状态,DCIS癌症在很多方面也与扩散性癌症不同。临床上,DCIS癌症治疗不同于扩散性癌症(DCIS病例主要用手术治疗,伴或不伴有辅助放疗)(Harris et al.,1997),和DCIS和扩散性癌症在它们的具体癌症类型分布上也不同(Barnes et al.,1992;Tan et al.,2002)。如这些不同增加了尽管DCIS病例是恶性,但是它们也可能在一些方面与更多晚期扩散性癌症在分子学上不同的可能性。发明人推论“不同来源”和“进化”假说可以通过分析一系列DCIS癌症和将它们的谱和它们扩散性对应体比较来检测。每个假说带有不同的预测。如果“不同来源”假说是真的,那么代表“早期”癌症的DCIS癌症应该表达与它们更多成熟的扩散性对应体相伴的很多特征表达标记,如果不是全部的话。或者,如果“进化”假说是正确的,那么可以预期DCIS谱彼此的相似程度大于与其扩散性对应物的相似程度。发明人获得了12个DCIS组织样品,使用处理的实际样品的常规苏木精的曙红染色以及冰冻切片证实了它们的组织病理状态(图2a和b)。
然后产生了DCIS样品的表达谱并与它们的扩散性副本进行比较。使用CIS作为起始数据组,发明人发现在各种扩散性癌症样品中DCIS样品分成不同类型。具体是,5个DCIS样品分为腔亚型,4个分为ER/ERBB2+亚型,2个分为ER+/ERBB2+亚型,和1个分成“正常乳腺样”亚型。重要的是,在每个亚型内,发现每个DICS癌症强烈表达其特定分子类型的特征表达标记。有趣的是,发现没有DCIS样品聚类于基底或ER+亚型II分子亚型,这与以前提出的这些亚型可以没有(或具有及其短暂的)DCIS成分而发展的理论一致(Barnes et al.,1992)。这些结果提示甚至在乳腺癌肿瘤发生的DCIS阶段存在不同乳腺癌分子亚型,支持该亚型代表确实不同的生物学实体的假说,可能通过不同肿瘤发生途径产生(“不同来源”假说)。
与正常/DCIS/扩散性癌症转变相关的基因暗示乳腺肿瘤发生中普通早期事件的Wnt信号错调以及腔A和ERBB2+癌症显示出类似的扩散程序
乳房肿瘤发生可以广泛分为两个主要步骤:第一,正常乳腺上皮组织通过各种细胞途径的一致去调节转变成恶性状态(Hahn and Weinberg,2002)。第二,为了进展为扩散性癌症,也可以进一步执行各种不同的生物学分步,包括周围基膜的渗透,癌症扩散到邻近正常基质,和肿瘤营养和维持的内皮血管的血管发生募集(Hanahan and Weinberg,2000)。给定乳腺癌的分子学异质性,本领域中一个重要的问题是控制这两个关键步骤的基因程序是亚型特异性或所有乳腺癌亚型共同享有的程度。
为了鉴定正常乳腺组织、DCIS癌症和它们的扩散性对应体之间表达水平明显不同的基因,发明人使用微阵列的显著性分析(SAM)-一种以前报道(Tusher et al.,2001)中用于鉴定显著调节的基因的强效统计学方法。他们集中于研究腔和ERBB2+癌症,因为研究中的多数DCIS样品属于这两个分子亚型。首先,他们检验和证实了假说-DCIS癌症,尽管表达很多扩散性癌症的特征,但转录仍与扩散性癌症不同。发明人将5个腔DCIS癌症与5个腔扩散性癌症相比,并使用2倍切断标准和5%假发现率(FDR)确定存在有222个显著调节的基因。相比之下,在这些严格条件下,仅比较已随机分入2组的扩散性腔A癌症的对照分析不能鉴定任何显著调节的基因。对DCIS和属于ERBB2+亚型的扩散性癌症也获得了类似结果(未显示数据),表明DCIS和属于腔A和ERBB2+亚型的扩散性癌症之间存在明显的转录差异。
然后SAM用于鉴定腔A和ERBB2分子亚型的正常/DCIS和DCIS/扩散性转变过程中显著调节的基因(FDR=5%)。图8a总结了结果。总之,对于腔A亚型,在正常/DCIS转变过程中与上调的相比,更大量基因显著下调(705个基因下调对245个基因上调),而对于DCIS/扩散性转变,与降低的相比,更多基因表达明显增加(56个基因降低对277个基因增加)。类似地,对于ERBB2亚型,在正常/DCIS转变过程中,367个基因显著下调和275个基因上调,而从DCIS向扩散性癌症转变过程中,113个基因下调和294个基因上调。
下面提供了如何确定表4,5,6和7的基因组的概要。
可区分正常对肿瘤乳腺样品的“遗传鉴定者”
方法:
数据库:95个乳腺组织样品(11个正常和84个肿瘤)
步骤1:通过中值集中5000荧光单位周围的每个表达谱使每个样品的数据标准化(基因芯片技术测定以荧光单位从0至65535表示的每个基因的表达丰度)。
步骤2:应用强度过滤,使得仅保留具有强度值在200至100000范围的基因。
步骤3:应用“有效值”过滤,使得保留选择正常或肿瘤或二者中至少70%存在(即超过最小阈值,通常大约200)的基因。
步骤4:实施统计学T检验来选择在正常对肿瘤中以p<0.00001的置信水平差异表达的基因。这使得选择了507个基因。
步骤5:在507个基因中,应用高倍数改变过滤来选择在正常和肿瘤样品之间的表达显示出大差异(2.5倍和以上)的基因。这使得分别鉴定了49个基因(肿瘤中上调)和81个基因(正常中上调)。这些基因列在表4a。
步骤6:为了以其能将未知乳腺样品分为肿瘤或正常组的重要性顺序对基因进行分级,使用支持载体机械基因分级法对130(49和81)个基因进行分级。实施之而得到可准确预测正常与肿瘤的一小亚组基因。前32个基因得到接近1%的错分。表4b给出了结果。
步骤7:检测32个基因套组预测正常对肿瘤样品分类的准确度,使用剩一交叉证实(leave-one-out cross-validation)(LVO CV)检验。没有观察到错分。
支持载体机械(SVM)基因分级法
这个方法用于根据能将未知样品分配到特定组的重要性,将数据组中的基因进行分级。典型地,数据组中的样品被分成(75%)训练和(25%)测试组。计算训练组的分隔两类型(如ER+对ER-)的最大边界超平面。
假定组中存在“m”基因,最大边界超平面的公式是
H=W1×G1+W2×G2+.......+Wi×Gi++Wm×Gm
其中Wi是重量和Gi是指变量(基因)。
使用对应于各种前“N”重量(重量是在基因分类中的重要性的标志)的基因,预测了测试组中所有样品类型。为变化的前N基因的组建立预测规律。上面步骤重复100次,平均基因级别和错分比例。
可预测乳腺肿瘤样品的雌激素受体状态和ERBB2受体状态的“遗传鉴定者”
方法:
数据组:55个扩散性乳腺肿瘤样品。基于IHC(免疫组织化学),将各个肿瘤分配到下列组中:
a)雌激素受体(ER)状态:35个ER阳性和20个ER阴性样品
b)c-erbB-2(ERBB2)状态:21个ERBB2阳性和34个ERBB2阴性样品。
步骤1:基因选择以鉴定在a)ER+对ER-肿瘤,和b)ERBB2+对ERBB2-样品之间差异表达的基因。使用三个独立的基因选择技术。
微阵列的显著性分析(SAM)-一种使用表达数据随机排列来估计“假发现率”,即特定基因被错认为差异表达的机会的统计学技术(Tusher et al.,2001)。接着用它们的“相对差异”对基因进行分级,类似于上面步骤6使用的分级。选择前100个显著性基因。
·噪声信号(S2N)策略用于基于与类型区分(ER+/ER-或ERBB2+/ERBB2-)的相关性对基因进行分级(Golub et al.,1999)。选择前100个基因。
·支持载体机械(SVM)分级策略用于根据将乳腺肿瘤样品分配为正确类别的重要性对基因进行分级(见下)。选择最佳基因套组(具最高准确率)。
步骤2:共同基因套组(CGS):集合来自3个独立分析的基因,选择用全部三个方法选择的共同基因。因此这些基因不依赖方法并足够强效以用作“遗传鉴定者”来预测乳腺肿瘤样品的ER或ERBB2状态。
结果:
对于ER分类,CGS含有25个独体基因(18个上调,7个下调)。
对于ERBB2分类,CGS含有26个独特基因(19个上调,7个下调)。
表5列出了属于每个CGS的基因。最后,使用LVO CV检验来估计每个CGS对于肿瘤分类的准确度。使用的分类算法是支持载体机械(SVM)。平均交叉验证错误率=对ER分类是7.286%(总体准确度92%),和对ERBB2分类是6.26%(总准确度是93%)。
可预测乳腺肿瘤样品的分子亚型的“遗传鉴定者”
方法
数据组:使用Affmetrix U133A基因芯片产生属于各种亚型的肿瘤的表达谱。上面描述了每个亚型特征性的特征表达标记。
a)腔(19)
b)ERBB2(19)
c)基底(7)
d)ER阴性类型2(5)
e)正常或正常样(12)
A.使用一对全支持载体机械方法鉴定分类的最小基因组
步骤1:通过中值集中1000荧光单位周围的每个表达谱使每个样品的数据标准化(基因芯片技术测定以荧光单位从0至65535表示的每个基因的表达丰度)。
步骤2:应用“有效值”过滤,使得选择所有样品中至少70%存在(即超过最小阈值,通常大约200)的基因。
步骤3:忽略上面提及组中的一个并组合剩余四组来产生五个不同的数据组(即“一对全”)。
数据组 | 说明 |
1 | 腔(19)对剩余(43) |
2 | ERBB2(19)对剩余(43) |
3 | 基底(7)对剩余(55) |
4 | ER阴性2型(5)对剩余(57) |
5 | 正常和正常样(12)对剩余(50) |
步骤4:对于5个数据组的每一个,选择在组间显示出最小2倍改变的基因(均数比率用于计算两组间倍数改变)。
结果如下
数据组 | 说明 | 差异调节(2倍) |
1 | 腔(19)对剩余(43) | 116 |
2 | ERBB2(19)对剩余(43) | 46 |
3 | 基底(7)对剩余(55) | 318 |
4 | ER阴性2型(5)对剩余(57) | 309 |
5 | 正常和正常样(12)对剩余(50) | 188 |
步骤5:对五个数据组的每一个实施支持载体机械基因分级分析来对基因进行分级,以将未知乳腺样品分配至适当类型(如ER或ERBB2状态,见上)的重要性为顺序。
对于数据组1,3,4和5,选择得到3%错分率的一个基因套组。在数据组2(ERBB2对剩余)的情况下,使用所有46个基因得到最小9.7的错误率。因此,所有46个用于预测组。表6显示了预测组。
数据组 | 说明 | 差异调节(2倍) | 前“N”基因 | 错误率 |
1 | 腔(19)对剩余(43) | 116 | 35 | 3 |
2 | ERBB2(19)对剩余(43) | 46 | 46 | 9.7 |
3 | 基底(7)对剩余(55) | 318 | 20 | 3 |
4 | ER阴性2型(5)对剩余(57) | 294 | 111 | 3 |
5 | 正常和正常样(12)对剩余(50) | 188 | 50 | 3 |
步骤6:样品全部组合为一个数据组并使用各种预测组实施一对全验证分析。使用75:25(训练:测试)随机分开的100个独立重复,产生了5.25%的总体交叉验证错误率(总体准确率94%)。
B.使用遗传算法/最大可能判别式(GA/MLHD)方法鉴定分类的最小基因套组
GA/MLHD方法是用作A中所述OVA SAM的另一种不同的分类算法(Ooi和Tan,2003)。
步骤1:样品分为下列类型:
类型 | 样品数量 |
ER-亚型II | 5 |
ERBB2+ | 19 |
正常和正常样 | 12 |
腔 | 19 |
基底 | 7 |
接着通过选择在所有样品中显示出最大标准差(SD)的基因建立1000个基因的截短数据组。
步骤2:基于表4描述的类型区分,对62个乳腺癌样品实施24次GA/MLHD算法。用交叉验证和独立检验研究来估计GA/MLHD算法所选择的预测组的准确度。
GA/MLHD详细特性:
(a)交叉率:0.7,0.8,0.9,1.0
(b)突变率:0.0005,0.001,0.002,0.0025,0.005,0.01
(c)一致的交叉
(d)选择:随机的抽样
(e)预测组大小范围:Rmin=1和Rmax=80。
获得了各自大小范围从13至17个基因的30个最佳预测组。每个预测组伴有62个样品中1个错误的分类准确度。(错误率1.61%,总体分类准确度98%)。30个预测组中有10个错误地将腔A样品980221T分为正常样品。对于其它20个预测组,19个错将ERBB2+样品990262T分为ER-亚型II样品,而1个预测组错误将相同的990262T样品分为基底型样品。最佳预测组中的两个显示于表6b。
亚洲乳腺癌人群中腔D亚类的鉴定
原来对白种人群实施的乳腺癌表达谱研究揭示存在高表达的雌激素受体相关基因如ESR1、GATA3和LIV-1为特征的“腔”亚型。此外,这些“腔”癌症可以进一步细分为至少另外两个亚型:腔A和腔B/C。而腔A肿瘤表达很高水平的ER相关基因,腔B/C癌症表达中等水平的ER基因簇。此外,腔C肿瘤也表达高水平的“新”基因簇。发现腔B/C肿瘤显示出比腔A肿瘤更坏的临床预后,证明这些亚型实际上有临床相关性。
在新加坡实施的对中国患者的乳腺癌的类似研究证实了腔A亚型也存在于亚洲患者群体。然而,没有检测到腔B/C亚型。这个差异的原因可能是两个研究之间的方法学差异或患者人群之间的真实差异。
发明人对原始的白种人研究的仔细检查揭示了腔C肿瘤也伴发高水平的基因簇,该基因簇的成员涉及细胞增殖。相比之下,这个“增殖簇”在腔A肿瘤中表达很低。“增殖簇”中的高表达基因可能在功能上导致与腔C肿瘤相关的更差临床预后,因为在属于临床扩散性ERBB2+和基底(ER-)亚型的肿瘤中也见到了这个簇的高表达水平。因此,尽管在亚洲乳腺癌人群中没有观察到腔B/C亚型,发明人假定这个“增殖”簇中的基因也可以用于将以前亚洲人群中发现的同源的腔A肿瘤细分为不同的腔亚型。
结果
在Affymetrix U133A基因芯片上鉴定“增殖簇”连接的基因
在发明人的研究中,使用市场上买得到的Affymetrix U133A基因芯片获得几种乳腺肿瘤的表达谱。接着从该基因芯片中选择对应于原始“增殖”簇成员的基因。在包括原始“增殖簇”的65个基因中,发明人确定了36个(55%)也存在于基因芯片阵列中。
亚洲腔肿瘤人群的“腔D”亚型的发现
发明人接着使用这个36个基因的套组对在他们以前分析中已经被同源分为腔A亚型的一组肿瘤进行重新聚类。如图1所见,36个基因组显著将肿瘤分成特征分别为36个基因组分别低和高水平表达的两个大组。前组自此以后称作真实“腔A”亚型,而后组称作“腔D”,因为其表达谱不同于以前鉴定的亚型。
在其它扩散性肿瘤亚型中也观察到36个基因的套组的高水平表达
为了确定腔D肿瘤是否也比腔A肿瘤更具临床扩散性,发明人接着通过使用仅36个基因的“增殖簇”对他们的一大组肿瘤进行重新聚类,确定了在扩散性肿瘤亚型中是否也观察到这个簇的高水平表达。如图2所见,腔D肿瘤与ERBB2+和基底亚型肿瘤混杂,而腔A肿瘤与正常和“正常样”肿瘤混杂。这个结果提示腔D肿瘤可能含有更高扩散性肿瘤的某些特征,和腔D亚型可能有临床相关性。
腔D亚型的“遗传鉴定者”
发明人接着进行开发腔D亚型的“遗传鉴定者”。在这个策略中,“遗传鉴定者”应该仅应用于已表征为腔性质的肿瘤,例如通过表5和6中所示的其它“遗传鉴定者”。
步骤1:通过中值集中1000个荧光单位周围的每个代表品使已表征为腔A的19个肿瘤的一系列表达谱标准化。
步骤2:应用“有效值”过滤,使得选择所有样品中至少70%存在(即超过最小阈值,通常大约200)的基因。
步骤3:为了以更强效方式分开样品,接着使用36增殖基因套组,用主要成分分析(PCA)确定腔A和腔D亚组(图3)。
步骤4:使用腔A(12个样品)对腔D(17个样品)分组,从在两组间显示最小2倍改变的完整表达谱中选择基因(均数比例用于计算两组之间的倍数改变)。在这个分析中鉴定了111个这样的基因。
步骤5:接着对111个基因数据组实施SVM基因分级分析,以将腔乳腺癌样品分为腔A或腔D亚型的重要性的顺序对基因进行分级。前45个基因得到最小的错误率(大约12%)。腔D中18个基因被上调和在腔D中27个被下调。表7中描述了这些基因。
步骤6:接着使用剩一交叉验证来估计45个基因的遗传鉴定者的准确度。没有观察到错分类。
讨论
后基因组时代的一个突出挑战是将各种基因组测序计划产生的巨大量粗序列数据转化为改善健康护理和疾病治疗的应用。可被这些新来源的可利用性革新化的一个领域是分子诊断学领域,其中组织的病理分类,补充了常规组织病理学,也基于一组信息性分子标记。重要的是,该分子方法的一个优点是基于分子数据的分类方案可敏感到足以检测当前常规光学显微镜方法不能判断的临床上相关疾病亚型(Ash et al.,2000,Bittner et al.,2000)。
然而,在可充分认识分子诊断学潜力之前,应该遇到和克服很多困难。首先,对于很多普通疾病,应该鉴定能够区分相关疾病亚型的关键的信息性基因。其次,为了利用作为临床检测的一部分的可行性,这些基因应该“削减”降至综合起来仍传递高预测准确度的最小组(“遗传鉴定者”)。第三,因为很多疾病的临床表现在不同人种组和人群中可以广泛变化,所以需要定义对于具体患者人群使用这些“遗传鉴定者”的适当限制。
为了探究这些问题,发明人从事了对来自亚洲患者的乳腺组织的大规模表达谱方案。以前的报道主要集中于使用来自主要是白种人来源的患者的样品(Perou et al.,2000,Gruvberger et al.,2000,Hedenfalk et al.,2000),确定从这些研究获得的发现是否可应用于其它人种群体很重要。由于这些不同人种组之间乳腺癌的流行病学和临床差异,情况尤其是这样。在白种人群体中,多数乳腺癌倾向于在绝经后妇女中发生。然而,在新加坡和日本,每年乳腺癌病例的绝对数量粗略是美国癌症的1/3,和这些人群中的乳腺癌发生率是双形式-第一峰,表示大多数乳腺癌发生于在40岁左右的绝经前妇女(Chia et al.,2000)。这第一个峰接着跟随在大约55-60岁的第二个峰。亚洲人群乳腺癌的较早发生率不可能是由于检测早,因为在这些国家的乳腺癌筛选程序与西方国家相比仍比较新颖。为了解释这些观察结果,一种可能性是这些组中观察到的乳腺癌可能代表由特殊基因和环境差异产生的不同异源亚型。例如,已知中国妇女的雌激素和孕激素水平倾向于基本上低于白种人(Lippman,1998)。
为了确保发明人分析中使用的表达谱的样本的最大多样性,发明人选择了从广泛人口学和临床背景的患者得到的样品,以及各种级别和外观的肿瘤。首先,发明人对什么可能是临床实用的最基本区别-即区别给定样品是“正常”或“恶性”鉴定了乳腺癌中的“遗传鉴定者”。尽管当前可以使用常规组织病理学由有资格的病理学家作出这个区别,但是这种分子检测仍在临床设置中有用,当需要快速诊断,或当病理学家可能不容易得到时有用。由集中于正常和肿瘤数据组中的高度可重复的“异常值”基因,发明人鉴定了明显能够准确预测相当样品量的训练组和未经实验组的未知乳腺样品是正常或恶性的20个基因的最小组。此外,使用主要成分分析,它们能够表明正常乳腺样品的表达谱是否看来比它们相应的肿瘤谱的变化少得多。在乳腺癌研究领域,使用DNA微阵列方法提供的相对无偏差方式直接探究区分正常和肿瘤组织的问题的文献的报道惊人地相对很少。在一个主要研究中,发现正常乳腺组织的表达谱足以相似使得使用无监测聚类方法可将它们共同区分(Perouet al.,2000)。然而,在那个报道中,发明人也发现了正常样品未分为不同于肿瘤样品的独立分支,反而分在“基底”或“肌上皮”的乳房上皮来源的广泛肿瘤类型。这个结果,最可能是由于在正常组织和这个亚类的肿瘤中表达基因的相似性,说明使用纯粹无监测方法来区分正常和肿瘤乳腺组织可能并非不重要。然而,尽管这看来是乳腺癌基因组学的一个问题,但是它不能应用于其它组织类型。例如,无监测聚类似乎能够区分正常和恶性结肠样品(Alon et al.,1999)。对此的一个原因可能是主要由APC/β-连环蛋白途径破坏产生的结肠肿瘤可能比乳腺肿瘤在遗传上更一致。
包括在20个基因的“遗传鉴定者”的基因属于很多不同的类型。如载脂蛋白D的基因是熟知的乳腺生物学中的终末分化基因,而MAGED2以前分离为在原始乳腺肿瘤中过度表达的基因,而不是在正常乳房组织或乳腺癌细胞系中(Kurt et al.,2000)。产生α-3/β-1整合蛋白的α-3亚基的另一个基因-ITA3已经表明与乳房肿瘤转移相关(Moriniet al.,2000)。以前也已经鉴定了将整合蛋白信号与Ras/ERK途径联系起来的CAV1蛋白是潜在的肿瘤抑制基因(Wary et al.,1998,Weichen et al.,2001),它可能解释其在正常乳腺组织而不是肿瘤中的表达。除了在乳腺和肿瘤生物学中作用已知的基因外,鉴定了在肿瘤发生中的作用不清楚和未知的其它吸引人的基因。例如,近来已经表明在凝血级联中熟知其作用的凝血酶抑制肿瘤细胞生长,它可能解释其在正常而不是肿瘤乳腺样品中的表达(Huang et al.,2000)。另一个实例是啤酒糖酵母(S.cerevisiae)PWP2基因的人类似物,它在酵母细胞生长和分裂中起着主要作用(Shafaatian et al.,1996)。
为了获得亚洲人群中乳腺癌分子亚型的多样性的知识,发明人接着产生并分析了一系列扩散性乳腺癌和DCIS癌症的表达谱。这项工作的目的是使用另一个乳腺癌表达数据组试图验证斯坦福研究定义的分子亚型分型方案。通过将它们的表达谱与以前发表的使用主要是白种人来源的患者样品实施的研究进行比较,他们发现多数分子亚型和特征表达标记在两系列之间强效保守。尽管近来对前列腺癌也报道了类似的验证研究(Rhodes et al.,2002),但是这个报道是首次对乳腺癌实施例了这种对比性分析。当认为研究之间存在很多方法学差异时,两个人群之间分子亚型的保守性是所有中更值得注意的。例如,一个重要的发现是发明人检测两个系列中类似亚型的能力,尽管阵列技术平台有差异。这个结果很重要,因为关于综合来自不同基因组表达技术的数据的可能性领域当前有冲突的数据。例如,Rhodes et al.,(2002)中,报道了来自斑点cDNA阵列的前列腺癌表达数据产生了与寡核苷酸阵列类似的数据。
相比之下,最近的另一个报道斑点和寡核苷酸阵列测定的细胞系表达谱的比较,其中报道了研究之间很低的相关性(Kuo et al.,2002)。发明人的结果提示来自不同技术平台的数据实际上可以比较,只要分析的亚型区分本质上相当强效。发明人的结果也提示尽管亚洲和白种人群之间乳腺癌有流行病学差异(见讨论部分的开头),但是人种组之间的乳腺癌具有第一接近的高度分子类似。
发明人也发现DCIS癌症强烈表达很多亚型特异性基因表达标记,提示甚至可在扩散前阶段辨别这些分子亚型。因此,这些亚型不太可能代表进化癌症类型,而可能是具有不同肿瘤发生来源的不同生物学实体。尽管在DCIS癌中有亚型特异性表达标记的表达(如本研究报道),但是本领域有其它证据表明DCIS癌症可能不同于扩散性癌症。例如,以前的回顾性报道已经表明多数低核级别的DCIS肿瘤经历了长期临床进化至扩散性癌症(Page et al.,1982;Betsill et al.,1978;和Rosen et al.,1980),提示在它们变为扩散性之前,应该发生另外的遗传事件。此外,组织病理学研究已发现DCIS癌症对扩散性癌症的肿瘤类型的组织病理分布中有重要差异,ERBB2+癌症出现于DCIS比扩散性病例多得多(Barnes et al.,1992)。然而,尚不清楚这个观察结果应该解释为是指ER-ERBB2-癌症缺乏DCIS成分,还是ERBB2+癌症将最终进化为ERBB2-状态。发明人系列中DCIS癌症的区别分开提示前者是真实的,因为ERBB2+癌症已经表达很多ERBB2+扩散性特征。
最后,通过综合正常、DCIS和属于腔A和ERBB2+亚型的扩散性癌症的表达谱,发明人能够定义在正常、DCIS和扩散性癌症转变过程中以共同和亚型特异性模式调节的基因套组。尽管在作出任何确定的结论前需要更多实验工作来支持这些分析的结果,但是有很多吸引人的观察结果。发明人发现对于两个亚型,在正常向DCIS的转变过程中,Wnt信号途径的很多成分被普遍调节,暗示Wnt信号的去调节是乳腺癌形成中的重要共同事件。尽管以前的报道已经报道了Wnt途径参与人乳腺癌形成(Smalley et al.,2001),但是这是早期或晚期事件仍不够清楚。发明人的结果提示前种可能性更可能。其次,两个亚型之间从DCIS至扩散性阶段被调节基因的显著共同特性提示细胞扩散、促结缔组织增生的反映、基质重建等的很多遗传过程可能很平常并且在不同乳腺癌亚型都具有。最后,发明人的结果也提示两个癌症亚型在代谢上可能非常不同,ERBB2+肿瘤更依赖离子相关过程,而腔A肿瘤可能处于慢性代谢压力状态下。这些结果极其重要,例如,腔A肿瘤的代谢负荷增加可能解释了为什么ER+肿瘤比ER-肿瘤更具有放射敏感性(Villalobos et al.,1996),和钙信号可能在ERBB2+受体控制的肿瘤细胞能动性中起作用(Feldner和Brandt(2002)。
参考文献
Alon,U.,N.Barkai,D.A.Notterman,K.Gish,S.Ybarra,D.Mack,and A.J.Levine(1999)Broad patterns of geneexpression revealed by clustering analysis of tumour andnormal colon tissues probed by oligonucleotide arrays.Proc Natl Acad Sci 96,
Ash,A.A.,M.B.Eisen,R.E.Davis,C.Ma,I.S.Lossos,A.Rosenwald,J.C.Boldrick,H.Sabet,T.Truc,Y.Xin,J.I.Powell,L.Yang,G.E.Marti,T.Moore,J.Hudson,L.Lisheng,D.B.Lewis,R.Tibshirani,G.Sherlock,W.C.Chan,T.C.Greiner,D.D.Weisenburger,J.O.Armitage,R.Warnke,R.Levy,W.Wilson,M.R.Grever,J.C.Byrd,D.Botstein,P.O.Brown,and L.M.Staudt(2000)Distincttypes of diffuse large B-cell lymphoma identified by geneexpression profiling.Nature 403,503-511Barnes,D.M.,J.Bartkova,R.S.Champlejon,W.J.Gullick,P.J.Smith,and R.R.Millis(1992)Overexpression of c-erbB2 Oncoprotein:Why does this occurmore frequently in ductal carcinoma in situ than ininvasive mammary carcinoma and is this of prognosticsignificance?Eur J Cancer 28,644-648Betsill,W.L.J.,P.P.Rosen,P.H.Lieberman,and G.F.Robbins(1978)Intraductal carcinoma.Long-term follow-upafter treatment by biopsy alone.JAMA 239,1863-1867Bittner,M.,P.Meltzer,Y.Chen,Y.Jiang,E.Seftor,M.Hendeix,M.Radmacher,R.Simon,Z.Yakhini,A.Ben-Dor,N.Sampas,E.Dougherty,E.Wang,F.Marincola,C.Gooden,J.Lueders,A.Glatfelter,P.Pollock,J.Carpten,E.Gillanders,D.Leja,K.Dietrich,C.Beaudry,M.Berens,D.Alberts,V.Sondak,N.Hayward,and J.Trent(2000)Molecular classification of cutaneous malignant melenoma bygene expression profiling.Nature 406,536-540Chia,K.S.,A.Seow,H.P.Lee,and K.Shanmugaratnam(2000)Cancer Incidence in Singapore,1993-1997.In(Singapore Cancer Registry)
DeRisi,J.L.,V.R.Iyer,and P.O.Brown(1997)Exploringthe Metabolic and Genetic Control of Gene Expression on aGenomic Scale.Science 278,680-686
Eisen,M.B.,P.T.Spellman,P.O.Brown,and D.Botstein(1998)Cluster analysis and display of genome-wideexpression patterns.Proc Natl Acad Sci 95,14863-14868Feldner,J.C.and B.H.Brandt(2002)Cancer cell motility-on the road from c-erbB-2 receptor steered signaling toactin reorganization.Exp Cell Res 272,93-108Giuliano,A.E.(1998)Breast.In Current Medical Diagnosisand Treatment,37,Ed.Tierney,L.M.S.J.McPhee and M.A.Papadakis(Appleton and Lange,Stamford)666-690Golob,T.R.,D.K.Slonim,P.Tamayo,C.Huard,J.P.Gaasenbeek,H.Coller,M.L.Loh,J.R.Downling,M.A.Caligiuri,C.D.Bloomfield,and E.S.Lander(1999)Molecular Classification of Cancer:Class Discovery andClass Prediction by Gene Expression Monitoring.Science286,531-537
Gruvberger,S.,M.Ringner,Y.Chen,S.Panavally,L.H.Saal,A.Borg,M.Ferno,C.Peterson,and P.Meltzer(2001)Estrogen Receptor Status in Breast Cancer is Associatedwith Remarkably Distinct Gene Expression Patterns.CancerResearch 61,5979-5984
Hahn,W.C.and R.A.Weinberg(2002)Rules for makinghuman tumor cells.N Engl J Med 347,1593-1603
Harris,J.R.,M.Morrow,and L.Norton(1997)MalignantTumors of the Breast.In Cancer:Principles and Practice ofOncology,Ed.Devita,V.T.S.Hellman and S.A.Rosenberg(Lippincott-Raven,Philadelphia/New York).
Hanahan,D.and R.A.Weinberg(2000)The hallmarks ofCancer.Cell 100,57-70
Hedenfalk,I.,D.Duggan,Y.Chen,M.Radmacher,M.Bittner,R.Simon,P.Meltzer,B.Gusterson,M.Esteller,O.P.Kallioniemi,M.Wilfond,A.Borg,and J.Trent(2001)Gene Expression Profiles in Hereditary Breast Cancer.NEJM344,539-548
Huang,Y.,J.Li,and S.Karpatkin(2000)Thrombin inhibitstumour cell growth in association with up-regulation ofp21(wafl/cipl)and Caspases via a p53-independent,STAT-l-dependent pathway.J.Biol.Chem.275,6462-6488
Khan,J.,J.s.Wei,M.Ringner,L.H.Saal,M.Ladanyi,F.Westermann,F.Berthold,M.Schwab,C.R.Antonescu,C.Peterson,and P.S.Meltzer(2001)Classification anddiagnostic prediction of cancers using gene expressionprofiling and artificial neural networks.Nature Med 7,673-679
Kurt,R.A.,W.J.Urba,and D.D.Schoof(2000)Isolationof genes overexpressed in freshly isolated breast cancerspecimens.Breast Cancer Res.Treat.59,41-48
Kuo,W.P.,T.K.Jenssen,A.J.Butte,L.O.Machado,andI.S.Kohane(2002)Analysis of measured mRNA measurementsfrom two different microarray technologies.Bioinformatics18,405-412
Kuukasjarvi,T.,J.Kononen,H.Helin,K.Holli,and J.Isola(1996)Loss of estrogen receptor in recurrent breastcancer is asociated with poor response to endocrinetherapy.J.Clin.Oncol.14,2584-2589
Lippman(1998)Breast Cancer.In Harrison′s Principles ofInternal Medicine,91,Ed.Fauci,A.S.E.BraunwaldK.J.IsselbacherJ.D.WilsonJ.B.MartinD.L.KasperS.L.Hauserand D.L.Longo(McGraw-Hill,New York)562-568Morini,M.,M.Mottolese,N.Ferrari,G.Ghiorzo,S.Buglioni,R.Mortarini,D.M.Noonon,P.G.Natali,and A.Albini(2000)The alpha-3 beta l integrin is associatedwith mammary carcinoma cell metastasis,invation,andgelatinase B(MMP-9)activity.Int J Cancer 87,336-342
Ooi C.H.and Patrick Tan(2003).Genetic algorithms appliedto multi-class prediction for the analysis of geneexpression data.Bioinformatics.19,37-44.
Page,D.,W.Dupont,L.Rogers,and M.Landenberger(1982)Intraductal carcinoma of the breast:follow-up after biopsyonly.Cancer 49,751-758.
Parl,F.F.(2000)Estrogens,Estrogen Receptor,and BreastCancer.(IOS Press)
Perou,C.M.,S.S.Jeffrey,M.van de Rijn,C.A.Rees,M.B.Eisen,D.T.Ross,A.Pergemenschikov,C.F.Williams,S.X.Zhu,J.C.F.Lee,D.Lashkari,D.Shalon,P.O.Brown,and D.Botstein(1999)Distinctive gene expressionpatterns in human mammary epithelial cells and breastcancers.Proc Natl Acad Sci 96,9212-9217
Perou,C.M.,T.Sorlie,M.B.Eisen,v.d.R.M.,S.S.Jeffrey,C.A.Rees,J.R.Pollack,D.T.Ross,H.Johnsen,L.A.Akslen,O.Fluge,A.Pergamenschikov,C.Williams,S.X.Zhu,P.E.Lonning,A.L.Borresen-Dale,P.O.Brown,and D.Botstein(2000)Molecular Portraits of Human BreastTumours.Nature 406,747-752
Rhodes,D.R.,T.R.Barrette,M.A.Rubin,D.Ghosh,andA.M.Chinnaiyan(2002)Meta-analysis of Microarrays:Interstudy Validation of Gene Expression Profiles RevealsPathway Dysregulation in Prostate Cancer.Cancer Research62,4427-4433
Rosen,P.,D.Braun,and D.Kinne(1980)The clinicalsignificance of pre-invasive breast carcinoma.Cancer 46,919-925
Shafaatian,R.,M.A.Payton,and J.D.Reid(1996)PWP2,amember of the WD-repeat family of proteins,is an essentialSaccharomyces cerevisiae gene involved in cell separation.Mol Gen Genet.252,101-114
Smalley,M.J.and T.C.Dale(2001)Wnt signaling andmammary tumorigenesis.J Mammary Gland Biol Neoplasia 6,37-52
Sorlie,T.,C.M.Perou,R.Tibshirani,T.Aas,S.Geisler,H.Johnsen,T.Hastie,M.B.Eisen,M.van de Rijn,S.S.Jeffrey,T.Thorsen,H.Quist,J.C.Matese,P.O.Brown,D.Botstein,P.E.Lonning,and A.L.Borresen-Dale(2001)Gene Expression Patterns of Breast Carcinomas DistinguishTumor Subclasses with Clinical Implications.Proc.Natl.Acad.Sci.98,10879-10874
Tan,P.H.,K.L.Chuah,G.Chiang,C.Y.Wong,F.Dong,and B.H.Bay(2002)Correlation of p53 and cerbB2expression and hormonal receptor status withclinicopathological parameters in ductal carcinoma in situof the breast.Oncology Reports 9,1081-1086
Tavassoli,F.A.and S.J.Schnitt(1992)Pathology of theBreast.In(Elsevier)
Tusher,V.G.,R.Tibshirani,and G.Chu(2001)Significance Analysis of Microarrays Applied to theIonizing Radiation Response.Proc.Natl.Acad.Sci.98,5116-5121
van′t Veer,L.J.,H.Dai,M.J.van de Vijver,Y.D.He,A.A.M.Hart,M.Mao,H.L.Peterse,K.van der Kooy,M.J.Marton,A.T.Witteveen,G.J.Schreiber,R.M.Kerkhoven,C.Roberts,P.S.Linsley,R.Bernards,and S.H.Friend(2002)Gene expression profiling predictsclinical outcome of breast cancer.Nature 415,530-536
Villalobos,M.,d.Becerra,M.I.Nunez,M.T.Valenzuela,E.Siles,N.Olea,V.Pedraza,and J.M.Ruiz de Almodovar(1996)Radiosensitivity of human breast cancer cell linesof different hormonal responsiveness.Modulatory effects ofoestradiaol.Int J Radiat Biol 70,161-169
Wang,E.,L.D.Miller,G.A.Ohnmacht,E.T.Liu,and F.M.Marincola(2000)High-fidelity mRNA amplification forgene profiling.Nature Biotech.18,457-459
Wary,K.K.,A.Mariotti,c.Zurzolo,and F.G.Giancotti(1998)A requirement for caveolin-1 and associated kinaseFyn in integrin signaling and anchorage-dependent cellgrowth.Cell 94,625-634
Wiechen,K.,L.Diatchenko,A.Agoulnik,K.M.Scharff,H.Schober,K.Arlt,B.Zhumabayeva,P.D.Siebert,M.Dietel,R.Schafer,and C.Sers(2001)Caveolin-1 is down-regulatedin human ovarian carcinoma and acts as a candidate tumoursuppressor gene.Am J Pathol.159,1635-1643
表1:正常和肿瘤数据组中的共同基因
NCC ID | Unigene ID | 登记号NO | 基因名称 | 注解 |
291440129570013080701308080130822013085601311930131748013296301339090134013013404301343730134513013610001361730136191013767201381220139552014021001 | Hs.151738Hs.50758Hs.279009Hs.98428Hs.211573Hs.156110Hs.78045Hs.95972Hs.153952Hs.572Hs.155421Hs.25817Hs.78771Hs.56205Hs.30743Hs.10842Hs.337764Hs.274184Hs.914Hs.19710Hs.2055 | NM_004994BF239180BF679062NM_018952NM_005529AW404507NM_001615BE892678AW072424X02544AA334619AW195430AI525579AW663903AI017284AF052578AB038162AF207550X03100H60423AA232386 | MMP9SMC4L1MGPHOXB6HSPG2IGKCACTG2SILVNT5ORM1AFPBTBD2PGK1INSIG1PRAMERANNATFE3AGLSLC17A2UBE1 | 基质金属蛋白酶9(明胶酶B,92kD明胶酶,92KD IV型胶原酶)SMC4(染色体4的结构维持,酵母)样1基质Gla蛋白同源框B6类肝素硫酸蛋白聚糖2(基底膜聚糖)免疫球蛋白κ恒定区肌动蛋白,γ2,平滑肌,肠银(小鼠同系物)样5’核苷酸酶(CD73)血清类粘蛋白1α-胎蛋白含结构域的BTB(POZ)2磷酸甘油酸激酶1胰岛素诱导的基因1优先在黑素瘤中表达的抗原RAN,RAS癌基因家族成员三叶草因子1结合IGHM增强子的转录因子3SB II类组织相容性抗原α链的人mRNA溶解载体家族17(磷酸钠),成员2遍在蛋白质活化酶E1 |
表2:最小乳腺癌遗传鉴定者中的基因
NCC ID | Unigene ID | 登记号 | 基因名称 | 注解 | 在肿瘤中出现 |
29209012933601293480129361012987501304120131106013119401314370134013012919801293050129612013048301 | Hs.76530Hs.278411Hs.79380Hs.1940Hs.75736Hs.295944Hs.74034Hs.184411Hs.156346Hs.155421Hs.177766Hs.265829Hs.4437Hs.4943 | AU121309AB014509AP001753AV733563J02611BG621010BG541572AL558086NM_001067AA334619BE740909D01038AU131942BE891065 | F2NCKAP1PWP2HCRYABAPODTFPI2CAV1ALBtop2AAFPADPRTITGA3RPL28MAGED2 | 凝固因子II(凝血酶)NCK相关蛋白1PWP2同系物晶体蛋白,αB载脂蛋白D组织因子途径抑制剂2小窝蛋白1,小窝蛋白,22kD白蛋白拓扑异构酶(DNA)IIα(170kD)α-胎蛋白ADP-核糖基转移酶(NAD+;聚(ADP-核糖)聚合酶)整合蛋白,α3(抗原CD49C,VLA-3受体的α3亚基)核糖体蛋白L2B肝细胞癌相关蛋白;乳腺癌相关基因1 | NNNNNNNNNNYYYY |
309560131193013124401313410131930013296401 | Hs.156110Hs.78045Hs.145279Hs.73885Hs.84298Hs.183601 | AW404507NM_001615NM_003011U88244BE741354U70426 | IGKCACTG2SETHLA-GCD74RGS16 | 免疫球蛋白κ恒定区肌动蛋白,γ2,平滑肌,肠SET易位(骨髓白血病相关的)HLA-G组织相容性抗原,I类,GCD74抗原(主要组织相容性复合体的不变多肽,II类抗原相关的)G蛋白信号调节剂16 | YYYYYY |
基因根据它们与肿瘤/正常类型区分的相关性来排序。
表3:与乳腺肿瘤亚型相关的表达标记的表格。亚类包括腔A((L-A_,腔B(L-B),腔C(L-C_,基底(Bas),正常样(Nor),ERBB2(ERB)。表达水平用H(高表达),I(中等表达)和A(无表达)表示。
表达标记 | Unigene | 肿瘤亚型 | |||||
L-A | L-B | L-C | Bas | Nor | ERB | ||
腔上皮 | H | I | I | A | A | A | |
雌激素受体1 | Hs.1657 | ||||||
GATA结合蛋白3 | Hs.169946 | ||||||
LIV-1 | Hs.79136 | ||||||
X盒结合蛋白1 | Hs.149923 | ||||||
肝细胞核因子3α | Hs.299867 | ||||||
基底上皮 | A | A | A | H | H | A | |
角蛋白5 | Hs.195850 | ||||||
角蛋白17 | Hs.2785 | ||||||
层粘连蛋白γ2 | Hs.54451 | ||||||
脂肪酸结合蛋白7 | Hs.26770 | ||||||
erbb2相关基因 | A | A | A | A | A | H | |
c-ERB-B2 | Hs.323910 | ||||||
GRB7 | Hs.86859 | ||||||
TIAF1 | Hs.75822 | ||||||
TRAF4 | Hs.8375 | ||||||
正常乳腺样 | A | A | A | A | H | A | |
CD36抗原胶原I型受体 | Hs.75613 | ||||||
四又二分之一LIM结构域1 | Hs.239069 | ||||||
血管粘附蛋白1 | Hs.198241 | ||||||
1类乙醇脱氢酶2 | Hs.4 | ||||||
新的 | A | A | H | H | A | I | |
驱动蛋白样5有丝分裂驱动蛋白样蛋白1 | Hs.270845 | ||||||
推定的整合膜转运蛋白 | Hs.296398 | ||||||
γ-谷氨酰基水解酶轭合酶 | Hs.78619 | ||||||
角鲨烯环氧酶 | Hs.71465 |
表4a:在肿瘤中上调的49个基因和在正常中上调的81个基因的套组在肿瘤中上调的在肿瘤中上调的
探针221730_at205483_s_at201422_at202311_s_at214290_s_at204170_s_at204620_s_at201261_x_at221731_x_at203936_s_at213909_at204619_s_at213905_x_at203362_s_at209596_at217762_s_at212353_at221729_at202503_s_at200660_at210046_s_at218039_at200838_at208850_s_at215438_x_at213274_s_at214352_s_at208691_at211161_s_at200887_s_at222077_s_at212057_at222039_at202391_at222158_s_at214435_x_at208998_at205436_s_at209218_at219148_at | 基因说明胶原,V型,α2干扰素刺激的蛋白,15kDa干扰素,γ诱导型蛋白30胶原,I型,α1H2A组蛋白家族,成员0CDC28蛋白激酶2软骨素硫酸蛋白聚糖2(多能聚糖)二聚糖软骨素硫酸蛋白聚糖2(多能聚糖) )e基质金属蛋白酶9(明胶酶B,92kD胶原酶,92kD IV型胶原酶)人cDNA FLJ12280 fis,克隆MAMMA1001744软骨素硫酸蛋白聚糖2(多能聚糖)二聚糖MAD2有丝分裂停滞缺陷样1(酵母)adlican-RAB31,成员RAS癌基因家族硫酸酯酶FP胶原,V型,α2KIAA0101基因产物S100钙结合蛋白A11(calgizzarin)异柠檬酸脱氢酶2(NADP+),线粒体核仁蛋白ANKT组织蛋白酶BThy-1细胞表面抗原G1至S期转换1组织蛋白酶Bv-Ki-ras2 Kirsten大鼠肉瘤2病毒癌基因同系物转铁蛋白受体(p90,CD71)胶原,III型,α1(埃-当二氏综合征IV型,常染色体显性)信号转导和转录活化剂1,91kDRac GTP酶活化蛋白1KIAA0l82蛋白假定蛋白FLJ11029脑富含,膜连接的信号蛋白1CG1-146蛋白V-ral猿白血病病毒癌基因同系物A(ras相关的)解偶联蛋白2(线粒体,质子载体)H2A组蛋白家族,成员X角鲨烯环氧酶T-LAK细胞来源的蛋白激酶 | UniGeneHs.82985Hs.833Hs.14623Hs.172928Hs.795Hs.83758Hs.81800Hs.821Hs.81800Hs.151738Hs.288467Hs.81800Hs.821Hs.79078Hs.72157Hs.223025Hs.70823Hs.82985Hs.81892Hs.256290Hs.5337Hs.279905Hs.297939Hs.125359Hs.2707Hs.297939Hs.351221Hs.77356Hs.119571Hs.21486Hs.23900Hs.75909Hs.274448Hs.79516Hs.42409Hs.288757Hs.80658Hs.147097Hs.71465Hs.104741 | GeneBankNM_000393.1NM_005101.1NM_006332.1NM_000088.1AA451996NM_001827.1NM_004385.1BC002416.1J02814.1NM_004994.1AU147799BF590263AA845258NM_002358.2AF245505.1BE789881AW043713NM_000393.1NM_014736.1NM_005620.1U52144.1NM_016359.1NM_001908.1AL558479BE906054BE875786BF673699BC001188.1AF130082.1NM_007315.1AU153848D80004.1AA292789NM_006317.1AF229834.1NM_005402.1U94592.1NM_002105.1AF098865.1NM_018492.1 | 正常-中值2989.343440.124216.082309.88270.532364.58494.233832.7410044.242908.932270.331679.695025.391126.739872.986239.53298.138089.94140.819359.816598.832649.438903.13334.943749.345290.888905.9710599.3416874.9811865.12198.495085.42985.616613.732670.291882.2410979.984050.784862.95783.67 | 肿瘤-中值22050.3819587.8722685.3411583.1834668.829307.9731700.614200.2436814.7510635.998261.755982.2217320.393794.731833.5120080.0510610.4725965.713277.6760412.8420503.18088.1726015.649742.2810880.7815121.9225327.6830095.2447522.9833057.826100.3514109.592733.218202.027278.075097.7129619.7910910.2112883.732061.19 | Fold change(normal/tumor)0.1355686390.1756250170.1858504210.1994098340.2385581630.2540296110.2679517110.2699067060.2728319490.2734987530.2748001330.2807803790.2901430050.2969220230.3101442470.3107312980.3108373140.3115610210.3118619460.3204585320.3218454770.3275685350.3422210640.3423161720.3445837520.3498814970.3516299160.3521932370.3550909480.3589196140.3603875190.3604229460.3606066150.363351430.3668953450.3692324590.3706974290.3712834130.3774489220.380202698 | P-值6.53E-082.89E-095.13E-115.47E-080.0000112.44E-091.64E-102.96E-101.97E-091.4E-062.93E-074.7E-076.45E-104.29E-079.57E-068.96E-072.29E-071.79E-088.17E-091.37E-082.19E-064.71E-085.79E-091.02E-072.4E-079.49E-104.28E-131.63E-064.8E-072.31E-071.65E-089.01E-066.79E-061.85E-061.63E-062.9E-092.5E-082.31E-082.68E-061.27E-05 |
214710_s_at202736_s_at201954_atAFFX-HUMISGF3A/M97935_3_at202954_at209945_s_at213553_x_at210004_at208091_s_at | 细胞周期蛋白B1U6 snRNA相关Sm样蛋白肌动蛋白相关蛋白2/3复合体,亚基1B(41kD)信号转导物和转录活化剂1,91kD遍在蛋白质接合酶E2C糖原合成酶激酶3β载脂蛋白C-1氧化的低密度脂蛋白(凝集素样)受体1假定蛋白DKFZp564K0822 | Hs.23960Hs.76719Hs.11538Hs.21486Hs.93002Hs.78802Hs.268571Hs.77729Hs.4750UniGeneHs.7306Hs.10587Hs.81665Hs.169470Hs.34853Hs.34853Hs.7306Hs.2820Hs.235445Hs.19368Hs.44Hs.137569Hs.108924Hs.162211Hs.12372Hs.33287Hs.326416Hs.173859Hs.174185Hs.162209Hs.74034Hs.342874Hs.23467Hs.139851Hs.26176Hs.4980Hs.184222Hs.132821 | BE407516NM_012321.1NM_005720.1M97935NM_007019.1BC000251.1W79394AF035776.1NM_030796.1GeneBankNM_003012.2AK026420.1NM_000222.1NM_004010.1NM_001546.1NM_001546.1AI332407NM_000916.2AW575493NM_002380.2BC005916.1AF091627.1NM_015385.1NM_007231.1NM_015271.1BC001283.1AL110126.1NM_003507.1L35594.1AL049977.1NM_001753.2NM_003243.1NM_018162.1BF197655NM_018043.1NM_001290.1NM_004414.2BC005894.1 | 1750.123258.865792.328912.273982.352414.336342.73929.497908.33正常-中值59365.6646331.2630870.319702.276037.0919487.358226.4714315.0715578.7711301.2519118.7415557.74.7983.633443.968892.8451664.4831908.6719052.3812733.378208.215611.1412204.2612668.2811789.612822.637116.8121019.7217812.59 | 4576.648432.1114857.0222688.4110133.976121.1615981.272322.5219735.4肿瘤-中值5359.354401.763453.961267.79864.392908.021233.992188.792719.592099.93681.293073.131692.15767.462088.212407.427680.264610.753091.991993.783827.363072.83289.493069.883377.191895.625602.524796.43 | 0.3824028110.386482150.3898709160.3928115720.3929703760.3944236060.3968852290.4002075330.400717999倍数改变(norr)11.0770261310.525621578.9376570667.6528999286.9842200866.7012434586.6665613176.5401751655.7283524355.3818038955.1934892395.0625063054.7180391814.4874781754.2586150754.163998644.1546340884.1321650494.1181795544.116903574.0788271813.9717065873.8511380183.84041073.7968340543.7543442253.7518331043.713718328 | 1.41E-067.8E-071.98E-097.83E-081.13E-064.26E-086.13E-069.33E-064.32E-09p值7.16E-111.72E-121.28E-115.88E-178.13E-117.26E-091.2E-052.48E-151.21E-132.25E-071.98E-095.23E-121.17E-123.52E-065.46E-073.45E-061.19E-103.3E-079.92E-107.3E-071.67E-125.14E-062.24E-081E-151.74E-061.03E-97.5E-073.49E-08 | |
在正常中上调的 | ||||||||
Gene Name202037_s_at212730_at205051_s_at203881_s_at209292_at209291_at202035_s_at206825_at218706_s_at202350_s_at211737_x_at209863_s_at218087_s_at219795_at202342_s_at209290_s_at213029_at203706_s_at209392_at214598_at203065_s_at204731_at218330_s_at203323_at218804_at206481_s_at208370_s_at211726_s_at | 基因名称分泌的卷曲相关蛋白1KIAA0353蛋白V-kit Hardy-Zuckerman 4猫肉瘤病毒癌基因同系物肌营养不良蛋白(肌肉营养不良,Duchenne和Becker型)DNA结合抑制剂4,显性失活螺旋-环-螺旋蛋白DNA结合抑制剂4,显性失活螺旋-环-螺旋蛋白分泌的卷曲相关蛋白1催产素受体假定蛋白FLJ21313matrilin 2pleiotrophin(肝素结合生长因子B,轴突生长促进因子1)肿瘤蛋白p63SH3-结构域蛋白5(ponsin)溶解载体家族6(神经递质转运者),成员14三重含基序2核因子I/B人mRNA;cDNA DKFZp564H1916(来自克隆DKFZp564H1916)卷曲同系物7(果蝇)核苷酸外焦磷酸酶/磷酸二酯酶2(自体毒素)claudin 8小窝蛋白1,小窝蛋白,22kD转化生长因子,β受体III(β聚糖,300kD)在成神经细胞瘤中诱导的视黄酸小窝蛋白2假定蛋白FLJ10261LIM结构域结合2唐氏综合征临界区域基因1含黄素的单加氧酶2 |
201012_at212097_at209170_s_at209160_at202746_at209894_at203324_s_at204719_at203549_s_at206115_at219935_at201656_at205463_s_at823_at213032_at217047_s_at209465_x_at207808_s_at209289_at209185_s_at202552_s_at203688_at222162_s_at211685_s_at213900_at222372_at201540_at212254_s_at213353_at205498_at215016_x_at208944_at210839_s_at218901_at209466_x_at200795_at202973_x_at218723_s_at213375_s_at | 膜联蛋白A1小窝蛋白1,小窝蛋白,22kD糖蛋白M6B醛-酮还原酶家族1,成员C3(3-α羟类固醇脱氢酶,II型)整体膜蛋白2Aleptin受体小窝蛋白2ATP结合盒,亚家族A(ABC1),成员3脂蛋白脂酶早期生长反应3具有血小板反应蛋白1型基序的非整合蛋白样和金属蛋白reprolysin型),5(aggrecanase-2)整合蛋白,α6血小板衍化的生长因子α多肽小可诱导细胞因子亚家族D(Cys-X3-Cys),成员1(fractalkine,neurotactin)人mRNA;cDNA DKFZp564H1916(来自克隆DKFZp564H1916)KIAA0914基因产物pleiotrophin(肝素结合生长因子8,轴突生长促进因子1)蛋白S(α)核因子I/B胰岛素受体底物2富含半胱氨酸运动神经元1多囊肾疾病2(常染色体显性)具有血小板反应蛋白G1型基序的非整合蛋白样和金属蛋白(reprolysin型),1神经钙蛋白δ遗传性共济失调区域基因X123ESTs,略类似于ALU1_HUMAN ALU SUBFAMILY JSEQUENCE CONTAMINATION WARNING ENTRY[人]四又二分之一LIM结构域1类天疱疮抗原1(230/240kD)ATP结合盒,亚家族A(ABC1),成员5生长激素受体类天疱疮抗原1(230/240kD)转化生长因子,β受体II(70-80kD)核苷酸外焦磷酸酶/磷酸二酯酶2(自体毒素)磷脂scram lase 4pleiotrophin(肝素结合生长因子8,轴突生长促进因子1)SPARC样1(mast9,hevin)KIAA0914基因产物PGC32蛋白假定基因CG018 | Hs.78225Hs.74034Hs.5422Hs.78183Hs.17109Hs.226627Hs.139851Hs.38095Hs.180878Hs.74088Hs.58324Hs.227730Hs.37040Hs.80420Hs.326416Hs.177664Hs.44Hs.64016Hs.33287Hs.143648Hs.19280Hs.82001Hs.8230Hs.90063Hs.77889Hs.291289Hs.239069Hs.198689Hs.180513Hs.125180Hs.198689Hs.82028Hs.174185Hs.182538Hs.44Hs.75445Hs.177664Hs.76640Hs.22174 | NM_000700.1AU147399AF016004.1AB018580.1AL021786U50748.1NM_001233.1NM_007168.1NM_000237.1NM_004430.1NM_007038.1NM_000210.1NM_002607.1U84487AL110126.1AK027138.1AL565812NM_000313.1AI700518AF073310.1NM_016441.1NM_000297.1AK023795.1AF251061.1AA524029AW971248NM_001449.1BG253119BF693921NM_000163.1BC004912.1D50683.1D45421.1NM_020353.1M57399.1NM_004684.1NM_014883.1NM_014059.1N80918 | 41241.8523596.768790.16068.714250.793660.946068.914833.5710789.0112017.19376.249626.268648.2412990.2112729.99278.127512.25027.7543037.819990.698386.557543.9710496.229352.3211954.688049.2617627.8919972.785730.627384.7919089.8218938.867024.748923.6218099.8262309.1511301.8913133.059894.2 | 11106.896367.192373.921643.093939.271016.431715.261388.043131.463516.092753.52893.952619.443946.333880.972871.792334.461573.1513478.566334.22721.462462.413485.943133.914037.32718.486015.256991.032019.342603.426747.396698.522493.073169.646464.7322325.594053.464722.253571.88 | 3.7131771363.7059927533.7027785273.6934677953.6176220473.6017630333.5381866313.4822987813.445360953.417745283.4052079173.3263394323.3015606393.2917191423.2800820413.2307794093.2179604713.1959762263.1930562323.1559928643.0816363283.0636530883.011015682.9842337532.9610581332.9609414082.9305332282.8569152192.8378678182.8365726622.8292154452.8273200652.8177066832.8153418052.7997797282.7909296012.7882080992.7811001112.770025869 | 3.91E-103.08E-152.01E-072.12E-072.69E-105.5E-112.97E-105.56E-089.05E-115.81E-063.35E-124.04E-073.12E-128.6E-078.56E-065.28E-097.53E-081.7E-093.62E-061.39E-068.31E-093.73E-103.81E-061.78E-081.26E-114.62E-064.28E-081.32E-093.71E-104.63E-063.72E-097.59E-124.26E-131.56E-104.27E-084.78E-074.1E-072.13E-072.77E-09 |
221841_s__at218276_s_at212463_at213486_at206306_at212675_s_at200762_at207480_s_at219091_s_at219304_s_at207542_s_at211998_at204115_at202016_at | Kruppel-样因子4(肠)WW45蛋白人mRNA;cDNA DKFZp564J0323(来自克隆DKFZp564J0323)假定蛋白DKFZp761N09121利阿诺定受体3KIAA0582蛋白二氢嘧啶酶样2Meisl,骨髓亲嗜性病毒整合位点1同系物2(小鼠)EMILIN样蛋白EndoGlyx-1脊柱衍生的生长因子B水通道蛋白1(通道形成整合蛋白,28kD)H3组蛋白,家族3B(H3.3B)鸟嘌呤核苷酸结合蛋白11中胚层特异性转录物同系物(小鼠) | Hs.356370Hs.288906Hs.99766Hs.6421Hs.9349Hs.79507Hs.173381Hs.104105Hs.127216Hs.112885Hs.74602Hs.180877Hs.83381Hs.79284 | BF514079NM_021818.1BE379006BF435376NM_001036.1AB011154.1NM_001386.1NM_020149.1NM_024756.1NM_025208.1NM_000385.2NM_005324.1NM_004126.1NM_002402.1 | 17464.666994.9723386.734412.932449.436645.4824509.975180.766277.3310905.828557.3210030.865852.1421998.29 | 6347.922552.328711.131649.6926.732532.19355.962010.232442.044319.063405.563995.832337.158805.67 | 2.7512413512.7406320522.6846953272.6751515522.6430891412.6244935032.6197172712.5771976342.57052712.5250448012.5127497392.5103320212.503964232.498196049 | 1.3E-064.14E-092.02E-082.78E-143.38E-094.88E-121.4E-082.37E-074.58E-139.33E-108.69E-078.65E-062.41E-071.05E-07 |
探针=Affymetrix探针序列说明=基因名称和注解Unigene=Unigene号(NCBI)GenBank=GenBank登记号 | 中值=正常或肿瘤中的表达值中值倍数改变=表达值比率(正常/肿瘤)p值=t检验显著性 |
表4b对正常相对肿瘤进行分类的最小基因组
探针201954_at213905_x_at201261_x_at202391_at205483_s_at221729_at211161_s_at201422_at203936_s_at210004_at208998_at222039_at探针209160_at201012_at204719_at221841_s_at210839_s_at209392_at201540_at202342_s_at209185_s_at209894_at206481_s_at202016_at209290_s_at218901_at209466_x_at211737_x_at202037_s_at205051_s_at212730_at218330_s_at | 在肿瘤中上调的基因说明肌动蛋白相关蛋白2/3复合体,亚基1B(41kD)二聚糖二聚糖脑富含,膜连接的信号蛋白1干扰素刺激的蛋白,15kDa胶原,V型,α2胶原,III型,α1(埃-当综合征IV型,常染色体显性)干扰素,γ诱导型蛋白30基质金属蛋白9(明胶酶B,92kD明胶酶,92kD IV型胶原酶)氧化低密度脂蛋白(凝集素样)受体1非偶联蛋白2(线粒体,质子载体)假定蛋白FLJ11029 | UniGeneHs.11538Hs.821Hs.821Hs.79516Hs.833Hs.82985Hs.119571Hs.14623Hs.151738Hs.77729Hs.80658Hs.274448 | GeneBankNM_005720.1AA845258BC002416.1NM_006317.1NM_005101.1NM_000393.1AF130082.1NM_006332.1NM_004994.1AF035776.1U94592.1AA292789 |
在正常中上调的基因说明 | UniGene | GeneBank | |
醛-酮还原酶家族1,成员C3(3-α羟类固醇脱氢酶,II型)膜联蛋白A1ATP结合盒,亚家族A(ABC1),成员8Kruppel样因子4(肠)核苷酸外焦磷酸酶/磷酸二酯酶2(自体毒素)核苷酸外焦磷酸酶/磷酸二酯酶2(自体毒素)四又二分之-LIM结构域1三重含基序2胰岛素受体底物2leptin受体LIM结构域结合2中胚层特异性转录物同系物(小鼠)核因子I/B磷脂scramblase 4pleiotrophin(肝素结合生长因子8,轴突生长促进因子1)pleiotrophin(肝素结合生长因子8,轴突生长促进因子1)分泌的卷曲相关蛋白1V-kit Hardy-Zuckerman 4猫肉瘤病毒癌基因同系物KIAA0353蛋白在成神经细胞瘤中诱导的视黄酸 | Hs.78183Hs.78225Hs.38095Hs.356370Hs.174185Hs.174185Hs.239069Hs.12372Hs.143648Hs.226627Hs.4980Hs.79284Hs.33287Hs.182538Hs.44Hs.44Hs.7306Hs.81665Hs.10587Hs.23467 | AB018580.1NM_000700.1NM_007168.1BF514079D45421.1L35594.1NM_001449.1NM_015271.1AF073310.1U50748.1NM_001290.1NM-002402.1BC001283.1NM_020353.1M57399.1BC005916.1NM_003012.2NM_000222.1AK026420.1NM_018162.1 |
表5A:ER和ERBB2分类的CGS
ER分类的基因
探针205225_at203963_at209602_s_at214164_x_at202089_s_at212956_at214440_at206754_s_at222212_s_at218195_at205882_at212195_at208882_s_at202342_s at209459_s_at201037_at203571_s_at214088_s_at201976_s_at218502_s_at203221_at207002_s_at207030_s_at204623_at205009_at | 基因名称雌激素受体1碳脱水酶XIIGATA结合蛋白3连接器相关蛋白复合体1,γ1亚基LIV-1蛋白,雌激素调节的KIAA0882蛋白N-乙酰基转移酶1(芳胺N-乙酰基转移酶)细胞色素p450,亚家族IIB(苯巴比妥诱导型),多肽6LAG1确保长存同系物2(啤酒糖酵母)假定蛋白FLJ12910KIAA0575基因产物人sRNA;cDNA DKFZp564F053(来自克隆DKFZp564F053)黑素瘤抗原,D家族,2含基序的三重2NPD009蛋白磷酸果糖激酶,血小板脂肪特异性2岩藻糖酰基转移酶3(半乳糖苷3(4)-L-岩藻糖酰基转移酶,Lewis血型包括的)肌球蛋白Xtrichortinophalangeal综合征1转导素样增强子分类1(E(sp1)同系物,果蝇)多形腺瘤基因样1富含半胱氨酸和甘氨酸的蛋白2三叶草因子3(小肠)三叶草1(乳腺癌,雌激素诱导序列表达) | UnigeneHs.1657Hs.5338Hs.169946Hs.5344Hs.79136Hs.90419Hs.155956Hs.1360Hs.285976Hs.15929Hs.193914Hs.71968Hs.4943Hs.12372Hs.283675Hs.99910Hs.74120Hs.169238Hs.61638Hs.26102Hs.28935Hs.75825Hs.10526Hs.352107Hs.350470 | GenBankNM_000125.1NM-001218.2AI796169BF752277NM_012319.2AB020689.1NM_000662.1NM_000767.2AK001105.1NM_024573.1NM_014668.1AL049265.1AF126181.1NM_015271.1AF237813.1NM_002627.1NM_006829.1AW080549NM_012334.1NM_014112.1AI951720NM_002656.1NM_001321.1NM_003226.1NM_003225.1 | 调节+++++++++++++-+-+--+---++ |
调节=在ER+肿瘤中存在(+)或不存在(-) |
表5b:ERBB2分类基因
探针216836_s_at210761_s_at202991_at55616_at214203_s_at213557_at220149_at215659_at219233_s_at203497_at219226_at202712_s_at204285_s_at205225_at214614_at202917_s_at219429_at206614_s_at204029_at216401_x_at203685_at216576_x_at211138_s_at202039_at203627_at204863_s_at | 基因名称v-erb-b2成红细胞白血病病毒癌基因同系物2,神经/恶性胶质瘤衍生的癌基因同系物(鸟)Iomolog生长因子受体结合的蛋白7类同醇生成的急性调节蛋白相关的假定基因MGC9753脯氨酸脱氢酶(氧化酶)1KIAA0904蛋白假定蛋白FLJ22671人cDNA:FLJ21521 fis,克隆COL05880假定蛋白PR02521PPAR结合蛋白CDC2相关蛋白激酶7肌酸激酶,线粒体1(遍在的)佛波醇-12-豆蔻酸盐-13-乙酸盐诱导的蛋白1雌激素受体1同源框HB9S100钙结合蛋白AB(calgranulinA)脂肪酸羟化酶细丝蛋白B,β(肌动蛋白结合蛋白278)钙粘着蛋白,EGF LAG七代G-型受体2(红鹤同系物,果蝇)人免疫球蛋白κ链可变区的部分IGKV基因,克隆38B细胞CLL/淋巴瘤2人分离供体N克隆N88K免疫球蛋白κ轻链可变区mRNA,部分cds犬尿氨酸3单氧合酶(犬尿氨酸3-羟化酶)TGFB1诱导的抗调亡因子1胰岛素样生长因子1受体白介素6信号转导剂(gp130,制瘤素M受体) | UnigeneHs.323910Hs.86859Hs.77628Hs.91668Hs.343874Hs.278346Hs.193745Hs.306777Hs.19054Hs.15589Hs.123073Hs.153998Hs.96Hs.1657Hs.37035Hs.100000Hs.249163Hs.81008Hs.57652Hs.307136Hs.79241Hs.247910Hs.107318Hs.75822Hs.239176Hs.82065 | GenBankX03363.1AB008790.1NM_006804.1AI703342AA074145AW305119NM_024861.1AK025174.1NM_018530.1NM_004774.1NM_016507.1NM_020990.2AI857639NM_000125.1AI738662NM_002964.2NM_024306.1M62994.1NM_001408.1AJ408433NM_000633.1AF103529.1BC005297.1NM_004740.1NM_000875.2BE856546 | 调节++++++++++++--+++--+-+++-- |
表6a:使用OVA SVM的分子亚型预测组
腔A
探针201030_x_at201525_at201688_s_at201754_at202376_at202555_s_at202746_at202991_at203627_at203749_s_at204198_s_at204304_s_at205225_at205471_s_at206378_at208711_s_at209016_s_at209290_s_at209292_at209351_at209396_s_at209465_x_at209863_s_at211538_s_at211726_s_at211737_x_at211958_at211959_at212730_at213564_x_at216836_s_at217762_s_at217838_s_at218532_s_at221765_at | 基因说明乳酸脱氢酶B载脂蛋白D肿瘤蛋白D52细胞色素c氧化酶亚基V1c丝氨酸(或半胱氨酸)蛋白酶抑制剂,A支(α1抗蛋白酶,抗胰蛋白酶),成员3肌球蛋白,轻多肽激酶整合膜蛋白2A类固醇生成的急性调节蛋白相关的胰岛素样生长因子1受体视黄酸受体α小矮相关转录因子3prominin-样1(小鼠)雌激素受体1猎狗同系物(果蝇)分泌球蛋白,家族2A,成员2细胞周期蛋白D1(PRAD1:甲状旁腺腺瘤病1)角蛋白7核因子I/BDNA结合抑制剂4,显性失活的螺旋-环螺旋蛋白角蛋白14(单纯大疱性表皮松解,Dowling-Meara,Koebner)壳多糖酶3样1(软骨糖蛋白39)pleitrophin(肝素结合生长因子8,轴突生长促进因子1)肿瘤蛋白p63热休克70kD蛋白2含黄素单氧合酶2pleitrophin(肝素结合生长因子8,轴突生长促进因子1)人,克隆IMAGE:4183312,mRNA,部分cds人,克隆IMAGE:4183312,mRNA,部分cdsKIAA0353蛋白乳酸脱氢酶Bv-erb-b2成红细胞白血病病毒癌基因同系物2,神经/恶性胶质瘤衍生的癌基因同系物(鸟)RAB31,RAS癌基因家族成员RNB6假定蛋白FLJ20152人mRNA全长插入物cDNA克隆EUROIMAGE 1287006 | UniGeneHs.234489Hs.75736Hs.2384Hs.351875Hs.234726Hs.211582Hs.17109Hs.77628Hs.239176Hs.250505Hs.170019Hs.112360Hs.1657Hs.63931Hs.46452Hs.82932Hs.23881Hs.33287Hs.34853Hs.117729Hs.75184Hs.44Hs.137569Hs.75452Hs.132821Hs.44Hs.180324Hs.180324Hs.10587Hs.234489Hs.323910Hs.223025Hs.241471Hs.82273Hs.23703 | GeneBankNM_002300.1NM_001647.1BE974098NM_004374.1NM_001085.2NM_005965.1AL021786NM_006804.1NM_000875.2AI806984AA541630NM_006017.1NM_000125.1AW772082NM_002411.1BC000076.1BC002700.1BC001283.1NM_001546.1BC002690.1M80927.1AL565812AF091627.1U56725.1BC005894.1BC005916.1L27560.1L27560.1AK026420.1BE042354X03363.1BE789881NM_016337.1NM_019000.1BF970427 |
ER亚型II | UniGene | GeneBank | |
探针200099_s_at37892_at39248_at200606_at200706_s_at200749-at200811_at200823_x_at200853_at200925_at200935_at201054_at201080_at201131_s_at201134_x_at201291_s_at201349_at201431_s_at201552_at201688_s_at201689_s_at201830_s_at201890_at201892_s_at201903_at201925_s_at201946_s_at202071_at202088_at202291_s_at202376_at202489_s_at | 基因说明染色体10上来自克隆RP11-486022的人DNA序列含有KIAA1128蛋白的基因的3部分,新的假基因,类似于RPS3A(核糖体蛋白S3A)的蛋白的基因,ESTs,STSs,GSSs和CpG岛胶原,XI型,α1水通道蛋白3桥粒斑蛋白(DPI,DPII)LPS诱导的TNF-α因子RAN,RAS癌基因家族成员寒冷诱导型RNA结合蛋白核糖体蛋白L29H2A组蛋白家族,成员Z细胞色素C氧化酶亚基VIa多肽1肌钙网蛋白异源核核糖核蛋白A0磷脂酰肌醇-4-磷酸盐5激酶,II型,β钙粘着蛋白1,I型,E-钙粘着蛋白(上皮)细胞色素C氧化酶亚基VIIc拓扑异构酶(DNA)IIα(170kD)溶解载体家族9(钠/氢交换子),同工型3调节因子1二氢嘧啶酶样3溶酶体相关膜蛋白1肿瘤蛋白D52肿瘤蛋白D52神经上皮细胞转化基因1核糖核苷酸还原酶M2多肽IMP(肌苷单磷酸盐)脱氢酶2Ubiquinol-细胞色素C还原酶核心蛋白1补体延迟加速因子(CD55,Cromer血型系统)含陪伴蛋白的TCP1,亚基2(β)多配体蛋白聚糖4(两性聚糖,ryudocan)LIV-1蛋白,雌激素调节的基质Gla蛋白丝氨酸(或半胱氨酸)蛋白酶抑制剂,A支(α1抗蛋白酶,抗胰蛋白酶),成员3含FXYD结构域的离子转运调节剂3 | Hs.307132Hs.82772Hs.234642Hs.349499Hs.76507Hs.10842Hs.119475Hs.350068Hs.119192Hs.180714Hs.16488Hs.77492Hs.6335Hs.194657Hs.3462Hs.156346Hs.184276Hs.74566Hs.150101Hs.2384Hs.2384Hs.25155Hs.75319Hs.75432Hs.119251Hs.1369Hs.6456Hs.252189Hs.79136Hs.365706Hs.234726Hs.301350 | AL356115J04177N74607NM_004415.1NM_004862.1BF112006NM_001280.1NM-000992.1NM_002106.1NM_004373.1NM_004343.2BE966599BF338509NM-004360.1NM_001867.1NM_001067.1NM_004252.1NM_001387.1NM_005561.2BE974098BE974098NM_005863.1NM_001034.1NM_000884.1NM_003365.1NM_000574.1AL545982NM_002999.1AI635449NM_000900.1NM_001085.2BC005238.1 |
202704_at203202-at203627_at203628_at203789_s_at203892_at203915_at203929_s_at203963_at204018_x_at204031_s_at204320_at204457_s_at205225_at205428_s_at205453_at205887_x_at205941_s_at206211_at206916_x_at207721_x_at208702_x_at208703_s_at208711_s_at208764_s_at208791_at208792_s_at208826_x_at208950_s_at209035_at209069_s_at209112_at209116_x_at209143_s_at | ERBB2的转运剂,1HIV-1 rev结合蛋白2胰岛素样生长因子1受体胰岛素样生长因子1受体sema结构域,免疫球蛋白结构域(Ig),短基本结构域,分泌的,(semaphorin)3CWAP四二硫化物核心结构域2γ干扰素诱导的单核因子人cDNA FLJ31424 fis,克隆NT2NE2000392碳脱水酶XII血红蛋白,α1聚(rC)结合蛋白2胶原,XI型,α1生长停滞特异性1雌激素受体1钙结合蛋白2,(29kD,钙视网膜蛋白)同源框B2mutS同系物3(大肠杆菌)胶原,X型,α1(Schmid metaphyseal软骨发育不良)选择素E(内皮细胞粘附分子1)酪氨酸氨基转移酶组氨酸三联核苷酸结合蛋白1淀粉样蛋白β(A4)前体样蛋白2淀粉样蛋白β(A4)前体样蛋白2细胞周期蛋白D1(PRAD1:甲状旁腺腺瘤病1)ATP合成酶,H+转运,线粒体FD复合体,亚基c(亚基9),同工型2clusterin(补体溶解抑制剂,SP-40,40,硫酸糖蛋白2,睾酮-抑制前列腺信使2载脂蛋白J)clusterin(补体溶解抑制剂,SP-40,40,硫酸糖蛋白2,睾酮-抑制前列腺信使2载脂蛋白J)组氨酸三联核苷酸结合蛋白1乙醛脱氢酶7家族,成员A1midkine(轴突生长促进因子2)H3组氨酸,家族3B(H3.3B)细胞周期蛋白依赖性激酶抑制剂1B(p27,Kipl)血红蛋白,β氯通道,核苷酸敏感性,1A | Hs.178137Hs.154762Hs.239176Hs.239176Hs.171921Hs.2719Hs.77367Hs.101174Hs.5338Hs.272572Hs.63525Hs.82772Hs.65029Hs.1657Hs.106857Hs.2733Hs.42674Hs.179729Hs.89546Hs.161640Hs.256697Hs.279518Hs.279518Hs.82932Hs.89399Hs.75106Hs.75106Hs.256697Hs.74294Hs.82045Hs.180877Hs.238990Hs.155376Hs.84974 | AA675892AI950314NM_000875.2NM_000875.2NM_006379.1NM_006103.1NM_002416.1NM_016835.1NM_001218.2NM_000558.2NM_005016.1NM_001854.1NM_002048.1NM_000125.1NM_001740.2NM_002145.1NM_002439.1AI376003NM_000450.1NM_000353.1NM_005340.1BC000373.1BC000373.1BC000076.1D13119.1M25915.1M25915.1U27143.1BC002515.1M69148.1BC001124.1BC001971.1M25079.1AF005422.1 |
209351_at209369_at209403_at209602_s_at210163_at210387_at210511_s_at210715_s_at210764_s_at211113_s_at211404_s_at211696_x_at211745_x_at211935_at212328_at212492_s_at212692_s_at212942_s_at212956_at213557_at213764_s_at213765_at214079_at214414_x_at214836_x_at215224_at215867_x_at217014_s_at217428_s_at217704_x_at217753_s_at218237_s_at218302_at218388_at218468_s_at | 角蛋白14(单纯大疱性表皮松解,Dowling-Meara,Koebner)膜联蛋白A3假定蛋白DKFZp434P2235GATA结合蛋白3小诱导型细胞因子亚家族B(Cys-X-Cys),成员11H2B组蛋白家族,成员A抑制素,βA(活化素A,活化素ABα多肽)丝氨酸蛋白酶抑制剂,Kunitz型,2富含半胱氨酸,血管生成诱导剂,61ATP结合盒,亚家族G(WHITE),成员1淀粉样蛋白β(A4)前体样蛋白2血红蛋白,β血红蛋白,α2ADP核糖基化因子样6相互作用蛋白KIAA1102蛋白KIAA0876蛋白含囊泡运输,靠岸和固定KIAA1199蛋白KIAA0882蛋白KIAA0904蛋白微丝相关糖蛋白2微丝相关糖蛋白2人cDNA FLJ20338 fis,克隆HEP12179血红蛋白,α2免疫球蛋白κ恒定区人cDNA;FLJ21547 fis,克隆COL06206转接器相关蛋白复合体1,γ1亚基来自7q22-q31.1的人PAC克隆RP4-604G5胶原,X型,α1(Schmid metaphyseal软骨发育不良)ESTs,中等类似于ALU7_人ALU亚家族,因此序列污染警告进入[人]核糖体蛋白S26溶解载体家族38,成员1特征未知的造血干/祖细胞蛋白MDS0336-磷酸葡糖酸内酯酶半胱氨酸结亚家族1,BMP拮抗剂1 | AMINATION WARNING | Hs.117729Hs.1378Hs.105891Hs.169946Hs.103982Hs.352109Hs.727Hs.31439Hs.8867Hs.10237Hs.279518Hs.155376Hs.347939Hs.75249Hs.202949Hs.301011Hs.62354Hs.50081Hs.90419Hs.278346Hs.300946Hs.300946Hs.152677Hs.347939Hs.156110Hs.322680Hs.5344Hs.307354Hs.179729Hs.310806Hs.299465Hs.18272Hs.54960Hs.100071Hs.40098 | BC002690.1M63310.1AL136860.1AI796169AF030514.1BC001131.1M13436.1AF027205.1AF003114.1U34919.1BC004371.1AF349114.1BC005931.1D31885.1AK027231.1AW237172W60686AB033025.1AB020689.1AW305119AW665892AW665892AK000345.1T50399BG536224AK025200.1AL050025.1AC004522X98568AI820796NM_001029.1NM_030674.1NM_018468.1NM_012088.1AF154054.1 |
218469_at 半胱氨酸结亚家族1,BMP拮抗剂1 Hs.40098 NM_013372.1
219087_at asportin(LRR 1类) Hs.10760 NM_017680.1
219454_at EGF样结构域,多个6 Hs.12844 NM_015507.2
219734_at 假定蛋白FLJ20174 Hs.114556 NM_017699.1
219773_at NADPH氧化酶4 Hs.93847 NM_016931.1
220149_at 假定蛋白FLJ22671 Hs.193745 NM_024861.1
220864_s_at 细胞死亡调节蛋白GRIM19 Hs.279574 NM_015965.1
221434_s_at 假定蛋白DC50 Hs.324521 NM_031210.1
221473_x_at 肿瘤差异表达的1 Hs.272168 U49188.1
221541_at 假定蛋白DKFZp434B044 Hs.262958 AL136861.1
基底探针202342_s_at202345_s_at202412_s_at203780_at204580_at205066_s_at206042_x_at206102_at209205_s_at209212_s_at209351_at212236_x_at212592_at213664_at213668_s_at213680_at217744_s_at218499_at218593_at222039_at | 基因说明含三重基序的2脂肪酸结合蛋白5(牛皮癣相关的)遍在蛋白质特异性蛋白酶1上皮V样抗原1基质金属蛋白12(巨噬细胞弹性蛋白酶)外核苷酸焦磷酸酶/磷酸二酯酶1SNRPN上游阅读框架KIAA0186基因产物仅LIM结构域4Krupel样因子5(小肠)角蛋白14(单纯大疱性表皮松解,Dowling-Meara,Koebner)角蛋白17人,克隆MGC:24130 IMAGE:4692359,mRNA,完全cds溶解载体家族1(神经/上皮高亲和力谷氨酸盐转运者,系统Xag),成员1SRY(性决定区域Y)盒4角蛋白6Bp53诱导蛋白PIGPC1Mst3和SOK1相关激酶假定蛋白FLJ10377假定蛋白FLJ11029 | UniGeneHs.12372Hs.153179Hs.35086Hs.116651Hs.1695Hs.11951Hs.58606Hs.36232Hs.3844Hs.84728Hs.117729Hs.2785Hs.76325Hs.91139Hs.83484Hs.335952Hs.303125Hs.23643Hs.274263Hs.274448 | GeneBankNM_015271.1NM_001444.1AW499935AF275945.1NM_002426.1NM_006208.1NM_022804.1NM_021067.1BC003600.1AB030824.1BC002690.1Z19574AV733266AW235061AI989477AI831452NM_022121.1NM_016542.1NM_018077.1AA292789 |
ERBB2Probe55616_at201388_at201525_at202035_s_at202036_s_at202145_at202218_s_at202376_at202991_at203355_s_at203404-at203439_s_at203628_at203685_at204734_at204942_s_at205225_at205306_x_at206165_s_at206378_at207076_s_at207131_x_at208180_s_at208614_s_at209016_s_at209603_at210163_at210519_s_at210761_s_at211138_s_at211430_s_at211641_x_at211645_x_at211657_at212218_s_at212281_s_at214451_at214669_x_at215176_x_at216557_x_at216836_s_at217157_x_at | 基因说明假定基固MGC9753蛋白酶体(prosome,macropain)26S亚基,非ATP酶,3载脂蛋白D分泌的卷曲相关蛋白1分泌的卷曲相关蛋白1淋巴细胞抗原6复合体,位点E脂肪酸去饱和酶2丝氨酸(或半胱氨酸)蛋白酶抑制剂,A支(α1抗蛋白酶,抗胰蛋白酶),成员3类固醇生成的急性调节蛋白相关的KIAA0942蛋白犰狳重复蛋白ALEX2stanniocaicin 2胰岛素样生长因子1受体B细胞CLL/淋巴瘤2角蛋白15乙醛脱氢酶3家族,成员B2雌激素受体1犬尿氨酸3单氧合酶(犬尿氨酸3-羟化酶)氯通道,钙活化的,家族成员2分泌球蛋白,家族2A,成员2精胺琥珀酸盐合成酶γ-谷氨酰基转移酶1H4组蛋白家族,成员H细丝蛋白B,β(肌动蛋白结合蛋白278)角蛋白7GATA结合蛋白3小诱导型细胞因子亚家族B(Cys-X-Cys),成员11黄递酶(NADHNADPH)(细胞色素b-5还原酶)生长因子受体结合蛋白7犬尿氨酸3单氧合酶(犬尿氨酸3-羟化酶) | UniGeneHs.91668Hs.9736Hs.75736Hs.7306Hs.7306Hs.77667Hs.184641Hs.234726Hs.77628Hs.6763Hs.48924Hs.155223Hs.239176Hs.79241Hs.80342Hs.87539Hs.1657Hs.107318Hs.241551Hs.46452Hs.160786Hs.284380Hs.93758Hs.81008Hs.23881Hs.169946Hs.103982Hs.80706Hs.86859Hs.107318Hs.300697 | GeneBankAI703342NM_002809.1NM_001647.1AI332407AF017987.1NM_002346.1NM_004265.1NM_001085.2NM_006804.1NM_015310.1NM_014782.1BC000658.1NM_000875.2NM_000633.1NM_002275.1NM_000695.2NM_000125.1AI074145NM_006536.2NM_002411.1NM_000050.1NM_013430.1NM_003543.2M62994.1BC002700.1AI796169AF030514.1BC000906.1AB008790.1BC005297.1M87789.1L06101.1M85256.1M18728.1NM_012347.1L19183.1NM_003221.1BG485135AW404894U92706X03363.1AF103530.1 |
免疫球蛋白重链恒定区γ3(G3m标记)gb:L06101.1/DEF=人IG VH-区域基因,完整cds./FEA=mRNA/GEN=IGHS/PROD=免疫球蛋白重链V区/DB_XREF=gi:185526gb:M85256.1/DEF=人免疫球蛋白κ链VK-1(IgK)mRNA,完整cds./FEA=mRNA/GEN=IgK/PROD=免疫球蛋白κ链VK-1/DB_XREF=gi:186008gb:M18728.1/DEF=人非特异性交叉反应抗原mRNA,完整cds./FEA=mRNA/GEN=NCA;NCA;NCA/PROD=非特异性交叉反应抗原/DB_XREF=gl:189084 | |||
仅F盒蛋白9假定蛋白转录因子AP-2β(活化增强子结合蛋白2β)人分离供体N克隆N168K免疫球蛋白κ轻链可变区mRNA,部分cds免疫球蛋白κ恒定区人单链抗体的mRNA,完整cdsv-erb-b2成红细胞白血病病毒癌基因同系物2,神经/恶性胶质瘤衍生的癌基因同系物(鸟)人分离供体N克隆N8K免疫球蛋白κ轻链可变区mRNA,部分cds | Hs.11050Hs.199695Hs.33102Hs.306357Hs.156110Hs.249245Hs.323910Hs.247911 |
217388_s_at217480_x_at219768_at220038_at | 犬尿氨酸酶(L-犬尿氨酸水解酶)人κ免疫球蛋白生殖系假基因(cos118)可变区(亚组Vκ1)假定蛋白FLJ22418血清/糖皮质激素调节的激酶样 | Hs.169139Hs.278448Hs.36563Hs.279696 | D55639.1M20812NM_024626.1NM_013257.1 |
正常/正常样 | UniGeneHs.234489Hs.118397Hs.274404Hs.7306Hs.184641Hs.238272Hs.17109Hs.111244Hs.274230Hs.334562Hs.146428Hs.79241Hs.173859Hs.36708Hs.171921Hs.155324Hs.77367Hs.6566Hs.40499Hs.342874Hs.30464Hs.270833Hs.241579Hs.75106Hs.75106Hs.24950Hs.71465Hs.34853Hs.34853Hs.44Hs.237356Hs.80706Hs.44Hs.2785Hs.198689Hs.76325Hs.10587Hs.795Hs.323910Hs.179729 | GeneBankNM_002300.1NM_001129.2NM_000930.1NM_003012.2NM_004265.1NM_002223.1AL021786NM_019058.1AW299958AL524035AI130969NM_000633.1NM_003507.1NM_001211.2NM_006379.1NM_005940.2NM_002416.1NM_004237.1NM_012242.1NM_003243.1NM_004702.1NM_001657.1NM_004353.1NM_018407.1M25915.1M25915.1AF159570.1AF098865.1NM_001546.1NM_001546.1AL565812U19495.1BC000906.1M18728.1BC005916.1Z19574BG253119AV733266AK026420.1AA451996X03363.1X98568 | |
探针201030_x_at201792_at201860_s_at202037_s_at202218_s_at202662_s_at202746_at202887_s_at203058_s_at203213_at203325_s_at203685_at203706_s_at203755_at203789_s_at203878_s_at203915_at204033_at204602_at204731_at205034_at205239_at207714_s_at208029_s_at208791_at208792_s_at209071_s_at209218_at209291_at209292_at209465_x_at209687_at210519_s_at211657_at211737_x_at212236_x_at212254_s_at212592_at212730_at214290_s_at216836_s_at217428_s_at | Gene Description乳酸脱氢酶BAE结合蛋白1纤溶酶原活化剂,组织分泌的卷曲相关蛋白1脂肪酸饱和酶2肌醇1,4,5-三磷酸受体,2型整合膜蛋白2AHIF-1反应性RTP8013’磷酸腺苷5’-磷酸硫酸盐合成酶2细胞分裂周期2,G1至S和G2至M胶原,V型,α1B细胞CLL/淋巴瘤2卷曲同系物7(果蝇)苯并咪唑1不抑制的BUB1发芽同系物1β(酵母)sema结构域,免疫球蛋白结构域(Ig),短基本结构域,分泌的,(semaphorin)3C基质金属蛋白11(stromelysin3)γ干扰素诱导的单核因子甲状腺激素受体相互作用蛋白13dickkopf同系物1(爪蟾)转化生长因子,β受体III(β聚糖,300kD)细胞周期蛋白E2双调蛋白(shcwannoma衍生生长因子)丝氨酸(或半胱氨酸)蛋白酶抑制剂,H支(热休克蛋白47),成员1,(胶原结合蛋白1)gb:NM-018407.1/DEF=人推定的整合膜转运者(LC27),mRNA./FEA=mRNA/GEN=LC27/PROD=推定的整合膜转运者/DB-XREF=gi:8923827clusterin(补体溶解抑制剂,SP-40,40,硫酸糖蛋白2,睾酮-抑制前列腺信使2载脂蛋白J)clusterin(补体溶解抑制剂,SP-40,40,硫酸糖蛋白2,睾酮-抑制前列腺信使2载脂蛋白J)G蛋白信号的调节剂5角鲨烯环氧酶DNA结合4抑制剂,显性失活螺旋-环-螺旋蛋白DNA结合4抑制剂,显性失活螺旋-环-螺旋蛋白pleiotrophin(肝素结合生长因子8,轴突生长促进因子1)基质细胞衍生因子1黄递酶(NADHNADPH)(细胞色素b-5还原酶)gb:M18728.1/DEF=人非特异性交叉反应抗原mRNA完整cds./FEA=mRNA/GEN=NCA;NCA;NCA/PROD=非特异性交叉反应抗原/DB-XREF=gi:189084pleiotrophin(肝素结合生长因子8,轴突生长促进因子1)角蛋白17类天疱疮抗原1(230/240kD)人克隆MGC:24130 IMAGE:4692359 mRNA,完整cdsKIAA0353蛋白H2A组蛋白家族,员0v-erb-b2红细胞白血病病毒癌基因同系物2神经/恶性胶质瘤衍生癌基因同系物(鸟)胶原,X型,α1(Schmid metaphyseal软骨发育不良) |
218087_s_at219115_s_at219197_s_at219215_s_at219304_s_at219768_at220038_at222155_s_at | SH3结构域蛋白5(ponsin)白介素20受体,αCEGP1蛋白溶解载体家族39(锌转运者),成员1脊柱衍生的生长因子B假定蛋白FlJ22418血清/糖皮质激素调节的激酶样假定蛋白FLJ11856 | Hs.108924Hs.21814Hs.222399Hs.352415Hs.112885Hs.36563Hs.279696Hs.6459 | NM_015385.1NM_014432.1AI424243NM_017767.1NM_025208.1NM_024626.1NM_013257.1AK021918.1 |
表6b:使用GA/MLHD算法的最佳预测组
基因套组1 | UnigeneHs.3463Hs.1657Hs.149923Hs.279518Hs.24391Hs.75722Hs.274472Hs.326456Hs.2248Hs.1334Hs.119122Hs.301947Hs.283761Hs.78888Hs.180714UnigeneHs.82985Hs.2667Hs.180884Hs.179661Hs.3833Hs.157850Hs.79136Hs.169946Hs.75432Hs.76152Hs.10247Hs.323910 | GeneBankNM_001025.1NM_000125.1NM_005080.1NM_001642.1BC002449.1AI560720AF283771.2NM_017627.1NM_001565.1NM_005375.1BF942308AL590118.1AV711904NM_020548.1NM_004373.1GeneBankNM_000393.1NM_005951.1NM_001871.1BC001002.1AF033026.1NM_000661.1AI635449BC003070.1NM_000884.1AF138302.1NM_001627.1X03363.1 | |
探针200926_at205225_at200670_at208248_x_at209343_at213399_x_at214938_x_at207783_x_at204533_at204798_at212790_x_at217276_x_at213975_s_at202428_x_at200925_at探针221729_at206461_x_at205509_at212320_at209043_at200032_s_at202088_at209604_s_at201892_s_at211896_s_at201952_at216836_s_at | 基因核糖体蛋白S23雌激素受体1X盒结合蛋白1淀粉样蛋白β(A4)前体样蛋白2假定蛋白FLJ13612核糖体结合糖蛋白II高迁移组(非组蛋白染色体)蛋白1假定蛋白FLJ20030小诱导型细胞因子亚家族B(Cys-X-Cys),成员10v-myb成髓细胞性白血病病毒癌基因同系物(鸟)核糖体蛋白L13a丝氨酸水解酶样具有PCTAIRE2的tudor重复相关子安定结合抑制剂(GABA受体调节剂,酰基-辅酶A结合蛋白)细胞色素C氧化酶亚基V1a多肽1基因套组2基因Unigene GenBank胶原,X型,α2金属硫蛋白1H羧肽酶B1(组织)微管蛋白,β多肽3’-磷酸腺苷5’-磷酸硫酸盐合成酶1核糖体蛋白L9LIV-1蛋白,雌激素调节的GATA结合蛋白3IMP(肌苷单磷酸盐)脱氢酶2核心蛋白聚糖活化的白血病粘附分子v-erb-b2成红细胞性白血病病毒癌基因同系物2,神经/恶性胶质瘤衍生的癌基因同系物(鸟) |
表7
基因名称201422_at201577_at201884_at201946_s_at202433_at202779_s_at203628_at204566_at204868_at211762_s_at211958_at211959_at217755_at218585_s_at218732_at219493_at222039_at222231_s_atGene Name201667_at201939_at202291_s_at203143_s_at203892_at203917_at204942_s_at205381_at205590_at208798_x_at209189_at212708_at212927_at213089_at213605_s_at214020_x_at | 在腔D中上调标题干扰素γ诱导型蛋白30在非转移细胞1表达的蛋白(NM23A)胚胎癌抗原相关细胞粘附分子5含陪伴蛋白的TCP1,亚基2(β)UDP-半乳糖转运者相关的遍在蛋白质载体蛋白胰岛素样生长因子1受体蛋白磷酸酶1D镁依赖性,δ同工型不成熟结肠癌转录物1karyopherinα2(RAG群1,importin α1)人,克隆IMAGE:4183312,mRNA,部分cds人,克隆IMAGE:4183312,mRNA,部分cds血液和神经表达的1RA调节的核基质相关蛋白CG1-147蛋白假定蛋白FLJ22009假定蛋白FLJ11029假定蛋白PR01855在腔D中下调标题缝隙连接蛋白,α1,43kD(连接蛋白43)血清诱导型激酶基质Gla蛋白KIAA0040基因产物WAP四二硫化物核心结构域2柯萨奇病毒和腺病毒受体乙醛脱氢酶3家族,成员B237kD的富含亮氨酸重复(LRR)蛋白RAS脒基释放蛋白1(钙和DAG调节的)golgin-67v-fos FBJ小鼠骨肉瘤病毒癌基因同系物人mRNA;cDNA DKF Zp586B1922(来自克隆DKFZp586B1922)KIAA0594蛋白ESTs,与T17212假定蛋白DKFZp434P211.1[人]高度同源人mNA;cDNA DKFZp564F112(来自克隆DKFZp564F112)整合蛋白β5 | Unigene_登记号Hs.14623Hs.118638Hs.220529Hs.6456Hs.154073Hs.174070Hs.239176Hs.100980Hs.9078Hs.159557Hs.180324Hs.180324Hs.109706Hs.126774Hs.12677Hs.123253Hs.274448Hs.283558Unigene_登记号[A]Hs.74471Hs.3838Hs.365706Hs.158282Hs.2719Hs.79187Hs.87539Hs.155545Hs.182591Hs.182982Hs.25647Hs.184779Hs.103283Hs.352339Hs.166361Hs.149846 | 序列来自NM_006332.1NM_000269.1NM_004363.1AL545982NM_005827.1NM_014501.1NM_000875.2NM_003620.1NM_001545.1BC005978.1L27560.1L27560.1NM_016185.1NM_016448.1NM_016077.1NM_024745.1AA292789AK025328.1序列来自NM_000165.2NM_006622.1NM_000900.1T79953NM_006103.1NM_001338.1NM_000695.2NM_005824.1NM_005739.2AF204231.1BC004490.1AV721987AB011166.1AU158490AL049987.1AI335208 |
214053_at214218_s_at214657_s_at214705_at215071_s_at215470_at217838_s_at218312_s_at218330_s_at218344_s_a218398_at | 人克隆23736mRNA序列人cDNA FLJ30298 fis,克隆BRACE2003172多个内分泌瘤形成1PDZ结构域蛋白(果蝇inaD样)H2A组蛋白家族,成员L人染色体5q13.1克隆5G8mRNARNB6假定蛋白FLJ12895在成神经细胞瘤中诱导的视黄酸假定蛋白FLJ10876线粒体核糖体蛋白S30 | Hs.7888Hs.351546Hs.240443Hs.321197Hs.28777Hs.14658Hs.241471Hs.235390Hs.23467Hs.94042Hs.28555 | AW772192AV699347AU134977AJ001306.1AL353759U21915.1NM_016337.1NM_023926.1NM_018162.1NM_018254.1NM_016640.1 |
Claims (66)
1.一种创建乳腺肿瘤细胞特征性的表达谱的方法,所述方法包括步骤
(a)从所述乳腺肿瘤细胞和正常乳腺细胞分离表达产物;
(b)将所述肿瘤和正常乳腺细胞的表达产物接触能够特异性结合选自表2的一个或多个基因的表达产物的大量结合成员;由此创建对于肿瘤细胞和正常细胞的那些基因的表达谱;
(c)比较肿瘤细胞和正常细胞的表达谱;和
(d)确定乳腺肿瘤细胞特征性的表达谱。
2.一种创建乳腺肿瘤细胞特征性的表达谱的方法,所述方法包括步骤
(a)从乳腺肿瘤细胞分离表达产物,将所述表达产物接触能够特异并独立结合选自表2的大量基因的表达产物的大量结合成员;由此创建肿瘤细胞的第一个表达谱;
(b)从正常乳腺细胞分离表达产物,将所述表达产物接触步骤(a)使用的大量结合成员,由此创建正常乳腺细胞的可比较的第二个表达谱;及
(c)比较第一个和第二个表达谱来确定乳腺肿瘤细胞特征性的表达谱。
3.一种创建乳腺肿瘤细胞的核酸表达谱的方法,所述方法包括步骤:
(a)从第一个乳腺肿瘤细胞分离表达产物,将所述表达产物接触能够特异并独立结合选自表2的大量基因的表达产物的大量结合成员;由此创建第一个表达谱;
(b)对来自至少第二个乳腺肿瘤细胞的表达产物重复步骤(a),由此创建至少第二个表达谱;
(c)比较至少第一个和第二个表达谱而创建乳腺肿瘤细胞特征性的标准核酸表达谱。
4.根据前述权利要求任一项的方法,其中结合成员能够特异并独立结合选自表2的五个或更多基因。
5.根据前述权利要求任一项的方法,其中结合成员能够特异并独立结合表2提供的每个基因。
6.根据前述权利要求任一项的方法,其中表达产物是mRNA或cDNA。
7.根据前述权利要求任一项的方法,其中结合成员是核酸探针。
8.根据权利要求1-5任一项的方法,其中表达产物是多肽。
9.根据权利要求8的方法,其中结合成员是抗体结合结构域。
10.根据前述权利要求任一项的方法,其中结合成员被标记。
11.根据权利要求1-9任一项的方法,其中表达产物被标记。
12.一种确定个体中乳腺癌的存在或风险的方法,所述方法包括
(a)从怀疑具有乳腺癌或具有患乳腺癌风险的个体的乳腺组织细胞获得表达产物;
(b)将所述表达产物接触能够特异并独立结合对应于表2鉴定的大量基因的表达产物的结合成员;和
(c)基于所述乳腺组织细胞的表达产物与一个或多个结合成员的结合,确定所述个体中乳腺癌的存在或风险。
13.根据权利要求12的方法,其中结合成员能够结合对应于表2鉴定的至少五个基因的表达产物。
14.根据权利要求12或权利要求13的方法,其中结合成员能够结合对应于表2鉴定的每个基因的表达产物。
15.根据权利要求12-14任一项的方法,其中通过将测试的乳腺组织细胞的表达产物的结合与乳腺肿瘤细胞特征性的表达谱比较来实施对所述个体中乳腺癌存在或风险的确定。
16.根据权利要求15的方法,其中所述乳腺肿瘤细胞特征性的表达谱由根据权利要求1-11任一项的方法创建。
17.根据权利要求12-16任一项的方法,其中个体是亚洲血统。
18.一种创建乳腺肿瘤细胞特征性的核酸表达谱的方法,所述方法包括步骤:
(a)从所述乳腺肿瘤细胞和正常乳腺细胞分离表达产物;
(b)将所述肿瘤和正常乳腺细胞的表达产物接触能够特异性结合选自表4a的大量基因的表达产物的大量结合成员;由此创建对于肿瘤细胞和正常细胞的那些基因的表达谱;
(c)比较肿瘤细胞和正常细胞的表达谱;和
(d)确定乳腺肿瘤细胞特征性的核酸表达谱。
19.一种创建乳腺肿瘤细胞特征性的核酸表达谱的方法,所述方法包括步骤:
(a)从乳腺肿瘤细胞分离表达产物;将所述表达产物接触能够特异并独立结合选自表4a的大量基因的表达产物的大量结合成员;由此创建肿瘤细胞的第一个表达谱;
(b)从正常乳腺细胞分离表达产物;将所述表达产物接触步骤(a)使用的大量结合成员;由此创建正常乳腺细胞的第二个可比较的表达谱;
(c)比较第一个和第二个的表达谱来确定乳腺肿瘤细胞特征性的表达谱。
20.根据权利要求18或权利要求19的方法,其中所述大量基因选自表4b。
21.根据权利要求19的方法,其中至少五个基因选自表4a。
22.根据权利要求19的方法,其中至少二十个基因选自表4a。
23.根据权利要求19的方法,其中大量基因至少包括表4b提供的那些。
24.根据权利要求18-23任一项的方法,其中表达产物是mRNA或cDNA。
25.根据权利要求18-23任一项的方法,其中结合成员是核酸探针。
26.根据权利要求18-23任一项的方法,其中表达产物是多肽。
27.根据权利要求26的方法,其中结合成员是抗体结合结构域。
28.根据权利要求18-27任一项的方法,其中结合成员被标记。
29.根据权利要求18-27任一项的方法,其中表达产物被标记。
30.一种确定个体中乳腺癌的存在或风险的方法,所述方法包括
(a)从怀疑具有乳腺癌或具有患乳腺癌风险的个体的乳腺组织细胞获得表达产物;
(b)将所述表达产物接触能够结合对应于表4a鉴定的大量基因的表达产物的结合成员;和
(c)基于所述乳腺组织细胞的表达产物与一个或多个结合成员的结合,确定所述个体中乳腺癌的存在或风险。
31.根据权利要求30的方法,其中至少五个基因选自表4a。
32.根据权利要求30的方法,其中至少二十个基因选自表4a。
33.根据权利要求23的方法,其中大量基因至少是表4b鉴定的那些。
34.根据权利要求30-33任一项或权利要求24的方法,其中通过将测试下的乳腺组织细胞表达产物的结合与乳腺肿瘤细胞特征性的表达谱比较来实施对所述个体中乳腺癌的存在或风险的确定。
35.根据权利要求34的方法,其中所述乳腺肿瘤细胞特征性的表达谱由根据权利要求18-29任一项的方法创建。
36.根据权利要求30-35任一项的方法,其中使用通过肿瘤细胞和正常细胞的各自的表达谱来区分它们的算法计算确定乳腺癌的存在或风险。
37.一种为了确定乳腺癌存在和/或类型的特征性的标准表达谱而获得大量基因表达谱的方法,所述方法包括:
a)从大量乳腺肿瘤样品获得细胞;
b)破坏所述细胞以暴露基因表达产物;
c)将所述基因表达产物接触与选自表2的一个或多个基因的表达产物特异的大量结合成员;和
d)对各所述大量乳腺肿瘤样品基于所述表达产物与所述结合成员的结合确定乳腺癌的存在和/或类型特征性的基因表达谱。
38.一种为了确定乳腺癌存在和/或类型的特征性标准表达谱而获得大量基因表达谱的方法,所述方法包括:
a)从大量乳腺肿瘤样品获得细胞;
b)破坏所述细胞以暴露基因表达产物;
c)将所述基因表达产物接触与选自表4a的一个或多个基因的表达产物特异的大量结合成员;和
d)对各所述大量乳腺肿瘤样品基于所述表达产物与所述结合成员的结合确定乳腺癌的存在和/或类型特征性的基因表达谱。
39.一种为了确定乳腺癌存在和/或类型的特征性标准表达谱而获得大量基因表达谱的方法,所述方法包括
a)从大量乳腺肿瘤样品获得细胞;
b)破坏所述细胞以暴露基因表达产物;
c)将所述基因表达产物接触与选自表4b的一个或多个基因的表达产物特异的大量结合成员;和
d)对各所述大量乳腺肿瘤样品基于所述表达产物与所述结合成员的结合确定乳腺癌的存在和/或类型特征性的基因表达谱。
40.一种为了确定乳腺癌存在和/或类型的特征性标准表达谱而获得大量基因表达谱的方法,所述方法包括
a)从大量乳腺肿瘤样品获得细胞;
b)破坏所述细胞以暴露基因表达产物;
c)将所述基因表达产物接触与选自表5的一个或多个基因的表达产物特异的大量结合成员;和
d)对各所述大量乳腺肿瘤样品基于所述表达产物与所述结合成员的结合确定乳腺癌的存在和/或类型特征性的基因表达谱。
41.一种为了确定乳腺癌存在和/或类型的特征性标准表达谱而获得大量基因表达谱的方法,所述方法包括
a)从大量乳腺肿瘤样品获得细胞;
b)破坏所述细胞以暴露基因表达产物;
c)将所述基因表达产物接触与选自表6a的一个或多个基因的表达产物特异的大量结合成员;和
d)对各所述大量乳腺肿瘤样品基于所述表达产物与所述结合成员的结合确定乳腺癌的存在和/或类型特征性的基因表达谱。
42.一种为了确定乳腺癌存在和/或类型的特征性标准表达谱而获得大量基因表达谱的方法,所述方法包括
a)从大量乳腺肿瘤样品获得细胞;
b)破坏所述细胞以暴露基因表达产物;
c)将所述基因表达产物接触与选自表7的一个或多个基因的表达产物特异的大量结合成员;和
d)对各所述大量乳腺肿瘤样品基于所述表达产物与所述结合成员的结合确定乳腺癌的存在和/或类型特征性的基因表达谱。
43.一种为了确定乳腺癌存在和/或类型的特征性标准表达谱而获得大量基因表达谱的方法,所述方法包括
a)从大量乳腺肿瘤样品获得细胞;
b)破坏所述细胞以暴露基因表达产物;
c)将所述基因表达产物接触能够特异且独立结合表6b鉴定的基因的表达产物的大量结合成员;
d)对各所述大量乳腺肿瘤样品基于所述表达产物与所述结合成员的结合确定乳腺癌的存在和/或类型特征性的基因表达谱。
44.根据权利要求37-43任一项的方法,进一步包括产生含有从所述大量乳腺肿瘤样品获得的大量表达谱的数据库的步骤。
45.根据权利要求37-43任一项的方法,进一步包括确定大量表达谱之间统计学变异的步骤。
46.由根据权利要求37或权利要求45的方法产生的包含乳腺癌或乳腺癌类型的特征性表达谱的数据库。
47.根据权利要求46的数据库,其中表达谱是核酸表达谱。
48.根据权利要求46的数据库,其中表达谱是蛋白表达谱。
49.一种基于雌激素受体(ER)状态对乳腺肿瘤细胞进行分类的方法,所述方法包括
(a)从乳腺肿瘤细胞获得表达产物;
(b)将所述表达产物接触能够结合对应于表5a鉴定的基因的表达产物的结合成员;和
(c)基于所述乳腺肿瘤细胞的表达产物与一个或多个结合成员的结合,对乳腺肿瘤进行基于ER状态的分类。
50.一种基于ERBB2状态对乳腺肿瘤细胞进行分类的方法,所述方法包括
(a)从乳腺肿瘤细胞获得表达产物;
(b)将所述表达产物接触能够结合对应于表5b鉴定的基因的表达产物的结合成员;和
(c)基于所述乳腺肿瘤细胞的表达产物与一个或多个结合成员的结合,对乳腺肿瘤进行基于ERBB2状态的分类。
51.一种基于其分子亚型对乳腺肿瘤细胞进行分类的方法,所述方法包括:
(a)从乳腺肿瘤细胞获得表达产物;
(b)将所述表达产物接触能够结合对应于表6a鉴定的大量基因的表达产物的结合成员;和
(c)基于所述肿瘤细胞的表达产物与结合成员的结合,对肿瘤细胞进行关于分子亚型方面的分类。
52.根据权利要求51的方法,其中结合成员能够特异且独立结合表6a中鉴定的至少5个基因。
53.根据权利要求51的方法,其中结合成员能够特异且独立结合表6a中鉴定的至少二十个基因。
54.根据权利要求51的方法,其中结合成员能够特异且独立结合至少表6b中鉴定的基因。
55.根据权利要求51-54任一项的方法,其中分子亚型选自腔、ERBB2、基底、ER型II和正常/正常样的。
56.一种基于其腔亚类对乳腺肿瘤细胞进行分类的方法,所述方法包括:
(a)从乳腺肿瘤细胞获得表达产物;
(b)将所述表达产物接触能够结合对应于表7鉴定的大量基因的表达产物的结合成员;和
(c)基于所述肿瘤细胞的表达产物与结合成员的结合谱,对肿瘤细胞进行基于其腔亚类的分类。
57.根据权利要求56的方法,其中所述肿瘤细胞以前已经被根据权利要求51-55任一项的方法分为腔分子亚型。
58.根据权利要求56或权利要求57的方法,其中腔亚类是腔D或腔A。
59.包含能特异且独立结合选自表4a的大量基因的表达产物的大量结合成员的诊断工具,所述大量结合成员固定到固相支持体上。
60.包含能特异且独立结合选自表4b的大量基因的表达产物的大量结合成员的诊断工具,所述大量结合成员固定到固相支持体上。
61.包含能特异且独立结合选自表5a的大量基因的表达产物的大量结合成员的诊断工具,所述大量结合成员固定到固相支持体上。
62.包含能特异且独立结合选自表5b的大量基因的表达产物的大量结合成员的诊断工具,所述大量结合成员固定到固相支持体上。
63.包含能特异且独立结合选自表6a的大量基因的表达产物的大量结合成员的诊断工具,所述大量结合成员固定到固相支持体上。
64.包含能特异且独立结合选自表7的大量基因的表达产物的大量结合成员的诊断工具,所述大量结合成员固定到固相支持体上。
65.包含能特异且独立结合选自表6b鉴定的基因的表达产物的大量结合成员的诊断工具,所述大量结合成员固定到固相支持体上。
66.根据权利要求59-65任一项的诊断工具,其中所述结合成员是cDNA或寡核苷酸。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0203998.0 | 2002-02-20 | ||
GB0203998A GB0203998D0 (en) | 2002-02-20 | 2002-02-20 | Materials and methods relating to cancer diagnosis |
JP130927/2002 | 2002-05-02 | ||
JP2002130927 | 2002-05-02 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1643163A true CN1643163A (zh) | 2005-07-20 |
Family
ID=27758831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN03806304.2A Pending CN1643163A (zh) | 2002-02-20 | 2003-02-20 | 关于癌症诊断的材料和方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20050170351A1 (zh) |
EP (1) | EP1476568A2 (zh) |
KR (1) | KR20040096595A (zh) |
CN (1) | CN1643163A (zh) |
AU (1) | AU2003205913A1 (zh) |
CA (1) | CA2477096A1 (zh) |
WO (1) | WO2003070979A2 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102864219A (zh) * | 2011-07-05 | 2013-01-09 | 中国人民解放军军事医学科学院放射与辐射医学研究所 | 一种用多重pcr矩阵法进行高通量基因表达谱检测的方法 |
CN110904195A (zh) * | 2019-12-24 | 2020-03-24 | 益善生物技术股份有限公司 | 一种cd55基因表达检测试剂盒 |
CN111983231A (zh) * | 2020-07-13 | 2020-11-24 | 复旦大学附属中山医院 | Rps3a分子在预测肿瘤内免疫细胞浸润、免疫检查点分子表达水平及预测模型中的应用 |
CN112996444A (zh) * | 2018-08-31 | 2021-06-18 | 西诺医疗器械股份有限公司 | 基于超声和/或光声(oa/us)特征确定癌症分子亚型的方法和系统 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1608255A4 (en) * | 2003-04-01 | 2008-06-25 | Univ Johns Hopkins Med | MODELS FOR THE EXPRESSION OF MAMMARY ENDOTHELIAL CELLS |
GB0323225D0 (en) * | 2003-10-03 | 2003-11-05 | Ncc Technology Ventures Pte Lt | Materials and methods relating to breast cancer classification |
GB0323226D0 (en) * | 2003-10-03 | 2003-11-05 | Ncc Technology Ventures Pte Lt | Materials and methods relating to breast cancer diagnosis |
US20050208499A1 (en) * | 2004-02-04 | 2005-09-22 | Graff Jonathan M | Markers for diagnosing and treating breast and ovarian cancer |
US20060183893A1 (en) * | 2005-01-25 | 2006-08-17 | North Don A | Nucleic acids for apoptosis of cancer cells |
US20080193938A1 (en) * | 2005-04-01 | 2008-08-14 | Yu Kun | Materials And Methods Relating To Breast Cancer Classification |
US20080228700A1 (en) | 2007-03-16 | 2008-09-18 | Expanse Networks, Inc. | Attribute Combination Discovery |
US20090043752A1 (en) | 2007-08-08 | 2009-02-12 | Expanse Networks, Inc. | Predicting Side Effect Attributes |
US20100311106A1 (en) * | 2008-01-25 | 2010-12-09 | Hartmann Lynn C | Quantitation of lobular involution for breast cancer risk prediction |
EP2088432A1 (en) * | 2008-02-11 | 2009-08-12 | MorphoSys AG | Methods for identification of an antibody or a target |
KR100969887B1 (ko) * | 2008-02-26 | 2010-07-13 | 충남대학교산학협력단 | 유방암 진단장치를 위한 한국인 표준체형 수치팬텀작성방법 |
US8481273B2 (en) * | 2008-06-20 | 2013-07-09 | University Of Delaware | Perlecan fragments as biomarkers of bone stromal lysis |
US8108406B2 (en) | 2008-12-30 | 2012-01-31 | Expanse Networks, Inc. | Pangenetic web user behavior prediction system |
US8386519B2 (en) | 2008-12-30 | 2013-02-26 | Expanse Networks, Inc. | Pangenetic web item recommendation system |
US20150079078A1 (en) * | 2012-04-13 | 2015-03-19 | Erasmus University Medical Center Rotterdam | Biomarkers for triple negative breast cancer |
EP2876445A1 (en) | 2013-11-22 | 2015-05-27 | Institut de Cancérologie de l'Ouest | Method for in vitro diagnosing and prognosing of triple negative breast cancer recurrence |
KR101874716B1 (ko) * | 2016-12-14 | 2018-07-04 | 연세대학교 산학협력단 | 유방암 분자아형 분류방법 및 이를 이용한 유방암 분자아형 분류 디바이스 |
KR102288592B1 (ko) * | 2019-08-06 | 2021-08-11 | 울산과학기술원 | 치주염 진행 정도 예측 방법 및 치주염 진행 정도 예측 장치 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7625697B2 (en) * | 1994-06-17 | 2009-12-01 | The Board Of Trustees Of The Leland Stanford Junior University | Methods for constructing subarrays and subarrays made thereby |
US6271000B1 (en) * | 1996-12-13 | 2001-08-07 | Eli Lilly And Company | Streptococcus pneumoniae gene sequence mraY |
US6550474B1 (en) * | 1997-01-29 | 2003-04-22 | Cns, Inc. | Microencapsulated fragrances and methods of coating microcapsules |
ATE503023T1 (de) * | 2001-06-18 | 2011-04-15 | Rosetta Inpharmatics Llc | Diagnose und prognose von brustkrebspatientinnen |
US7171311B2 (en) * | 2001-06-18 | 2007-01-30 | Rosetta Inpharmatics Llc | Methods of assigning treatment to breast cancer patients |
-
2003
- 2003-02-20 WO PCT/GB2003/000755 patent/WO2003070979A2/en active Application Filing
- 2003-02-20 EP EP03702794A patent/EP1476568A2/en not_active Withdrawn
- 2003-02-20 KR KR10-2004-7013019A patent/KR20040096595A/ko not_active Application Discontinuation
- 2003-02-20 CA CA002477096A patent/CA2477096A1/en not_active Abandoned
- 2003-02-20 CN CN03806304.2A patent/CN1643163A/zh active Pending
- 2003-02-20 US US10/505,626 patent/US20050170351A1/en not_active Abandoned
- 2003-02-20 AU AU2003205913A patent/AU2003205913A1/en not_active Abandoned
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102864219A (zh) * | 2011-07-05 | 2013-01-09 | 中国人民解放军军事医学科学院放射与辐射医学研究所 | 一种用多重pcr矩阵法进行高通量基因表达谱检测的方法 |
CN112996444A (zh) * | 2018-08-31 | 2021-06-18 | 西诺医疗器械股份有限公司 | 基于超声和/或光声(oa/us)特征确定癌症分子亚型的方法和系统 |
CN110904195A (zh) * | 2019-12-24 | 2020-03-24 | 益善生物技术股份有限公司 | 一种cd55基因表达检测试剂盒 |
CN110904195B (zh) * | 2019-12-24 | 2023-09-19 | 益善生物技术股份有限公司 | 一种cd55基因表达检测试剂盒 |
CN111983231A (zh) * | 2020-07-13 | 2020-11-24 | 复旦大学附属中山医院 | Rps3a分子在预测肿瘤内免疫细胞浸润、免疫检查点分子表达水平及预测模型中的应用 |
CN111983231B (zh) * | 2020-07-13 | 2023-05-16 | 复旦大学附属中山医院 | Rps3a分子在预测肿瘤内免疫细胞浸润、免疫检查点分子表达水平及预测模型中的应用 |
Also Published As
Publication number | Publication date |
---|---|
KR20040096595A (ko) | 2004-11-16 |
US20050170351A1 (en) | 2005-08-04 |
WO2003070979A3 (en) | 2004-03-18 |
AU2003205913A1 (en) | 2003-09-09 |
EP1476568A2 (en) | 2004-11-17 |
CA2477096A1 (en) | 2003-08-28 |
WO2003070979A2 (en) | 2003-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1643163A (zh) | 关于癌症诊断的材料和方法 | |
Pusztai et al. | Gene expression profiles obtained from fine-needle aspirations of breast cancer reliably identify routine prognostic markers and reveal large-scale molecular differences between estrogen-negative and estrogen-positive tumors | |
Montel et al. | Expression profiling of primary tumors and matched lymphatic and lung metastases in a xenogeneic breast cancer model | |
Porter et al. | Molecular markers in ductal carcinoma in situ of the breast | |
Pascal et al. | Correlation of mRNA and protein levels: cell type-specific gene expression of cluster designation antigens in the prostate | |
JP5405110B2 (ja) | 原発不明がんの原発巣を同定するための方法および材料 | |
Van de Rijn et al. | Applications of microarrays to histopathology | |
WO2003060470A2 (en) | Breast cancer expression profiling | |
US20040146921A1 (en) | Expression profiles for colon cancer and methods of use | |
CN105368925B (zh) | 用于肺癌预后的生物标志物及其用途 | |
US20080182246A1 (en) | Methods of predicting distant metastasis of lymph node-negative primary breast cancer using biological pathway gene expression analysis | |
CN1957256A (zh) | 用于子宫颈疾病检测的方法和组合物 | |
PT2138848E (pt) | Método de diagnóstico e/ou prognóstico do cancro da bexiga | |
CN1890381A (zh) | 诊断乳腺癌的方法 | |
TW200526958A (en) | Materials and methods relating to breast cancer classification | |
US9952221B2 (en) | Methods for screening, predicting and monitoring prostate cancer | |
US20060240441A1 (en) | Gene expression profiles and methods of use | |
CN101068936A (zh) | 用于实体瘤预后及治疗的方法和系统 | |
CN101057144A (zh) | 用于评价乳腺癌预后的方法和组合物 | |
US20130023574A1 (en) | Method for generating data set for integrated proteomics, integrated proteomics method using data set for integrated proteomics that is generated by the generation method, and method for identifying causative substance using same | |
US20050100933A1 (en) | Breast cancer survival and recurrence | |
Hellmann et al. | Gene expression profiling of cultured human bronchial epithelial and lung carcinoma cells | |
CN110283907A (zh) | 甲状腺恶性肿瘤的特异性基因标志物及其应用 | |
US20090215058A1 (en) | Methods for screening, predicting and monitoring prostate cancer | |
US20090215024A1 (en) | Biomarkers upregulated in prostate cancer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1080907 Country of ref document: HK |
|
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1080907 Country of ref document: HK |