CN101506379A - 检测方法 - Google Patents

检测方法 Download PDF

Info

Publication number
CN101506379A
CN101506379A CNA2007800278087A CN200780027808A CN101506379A CN 101506379 A CN101506379 A CN 101506379A CN A2007800278087 A CNA2007800278087 A CN A2007800278087A CN 200780027808 A CN200780027808 A CN 200780027808A CN 101506379 A CN101506379 A CN 101506379A
Authority
CN
China
Prior art keywords
affymetrix probe
probe number
detected gene
gene
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007800278087A
Other languages
English (en)
Inventor
L·C·拉普安特
R·邓恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Commonwealth Scientific and Industrial Research Organization CSIRO
Clinical Genomics Pty Ltd
Original Assignee
Commonwealth Scientific and Industrial Research Organization CSIRO
Clinical Genomics Pty Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Commonwealth Scientific and Industrial Research Organization CSIRO, Clinical Genomics Pty Ltd filed Critical Commonwealth Scientific and Industrial Research Organization CSIRO
Publication of CN101506379A publication Critical patent/CN101506379A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Pathology (AREA)
  • Microbiology (AREA)
  • Data Mining & Analysis (AREA)
  • Cell Biology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明总体上涉及核酸分子阵列,所述核酸分子的表达谱表征了大肠内的细胞或细胞的群体的解剖学来源。更具体地,本发明涉及核酸分子的阵列,所述核酸分子的表达谱表征了大肠内的细胞或细胞的群体的近端或远端来源。本发明的表达谱的应用包括但不限于确定源自大肠的细胞或细胞的群体的解剖学来源。更进一步,由于正常细胞向肿瘤状态的进展通常以表型去分化为特征,本发明的方法还提供了一种鉴定细胞异常性的手段,其基于相对于当对象细胞位于它们在结肠内的解剖学位置时被认为所应该表达的表达谱而言表达错误表达谱。因此,本发明的这一方面提供了鉴定存在大肠结肠细胞的重要手段,这些细胞表明大肠内的异常性,例如疾病(如结直肠肿瘤)的发生或发生倾向性。

Description

检测方法
技术领域
本发明总体上涉及核酸分子阵列,所述核酸分子的表达谱表征了大肠内的细胞或细胞的群体的解剖学来源。更具体地,本发明涉及核酸分子的阵列,所述核酸分子的表达谱表征了大肠内的细胞或细胞的群体的近端或远端来源。本发明的表达谱的应用包括但不限于确定源自大肠的细胞或细胞的群体的解剖学来源。更进一步,由于正常细胞向肿瘤状态的进展通常以表型去分化为特征,本发明的方法还提供了一种鉴定细胞异常性的手段,其基于相对于当对象细胞位于它们在结肠内的解剖学位置时被认为所应该表达的表达谱而言表达错误表达谱。因此,本发明的这一方面提供了鉴定存在大肠结肠细胞的重要手段,这些细胞表明大肠内的异常性,例如疾病(如结直肠肿瘤)的发生或发生倾向性。
背景技术
本说明书中按照作者姓名引用的出版物的详细信息以字母顺序汇集在说明书的最后。
本说明书中对任何现有技术的引用均不是并且也不应该被认为是承认或以任何形式提示该现有技术在澳大利亚构成公知常识的一部分。
腺瘤是上皮来源的良性肿瘤,它们源自腺体组织或展现出清楚的腺状结构。一些腺瘤显示出可识别的组织特征,例如纤维组织(纤维腺瘤),而其他一些,例如支气管腺瘤,产生活性化合物导致出现临床综合征。特定器官的肿瘤,包括垂体腺在内,通常通过它们的组织学染色亲和力而分类,例如嗜酸性、嗜碱性和拒染性腺瘤。
腺瘤可以变成恶性,称为腺癌。因此,腺癌被定义为来源于腺体结构(体内绝大多数器官的组成部分)的恶性上皮肿瘤。该术语也适用于显示出腺样生长模式的肿瘤。可以根据这些肿瘤所产生的物质(例如粘液分泌型和浆液型腺癌)或它们的细胞在显微镜下排列成的方式(例如乳头状和滤泡状腺癌)而将它们分为亚型。这些癌症可以是实体性的或囊性的(囊腺癌)。各个器官抗产生多种组织类型的肿瘤,例如卵巢可产生粘液性和囊腺癌。一般而言,腺瘤的总体癌变发生率大约为5%。不过,这与大小相关,虽然癌变在小于1厘米的腺瘤中极少发生,但在大于4厘米的绒毛状病灶中估计为40至50%。具有更高程度的发育异常(dysplasia)的腺瘤具有更高的癌变发生率。一旦出现散发的腺瘤,在26个月内出现新腺瘤的机会大约为30%。
结直肠腺瘤是这类腺瘤的发病率逐渐增加,特别是在较富裕的国家。引起腺瘤及其转变为腺癌的原因仍然是热门研究课题。目前认为除了遗传易感性以外,环境因素(例如饮食)在该病的发生中也起作用。大多数研究指出有关的环境因素涉及饮食中的高脂肪、低纤维和大量精制碳水化合物。
结肠腺瘤发育异常的上皮细胞(它们原本是平坦的)的局部增殖。通过大体的外观可将它们分为无柄(平坦)腺瘤或有柄(具有茎)腺瘤。尽管小腺瘤(小于0.5毫米)具有平滑的褐色表面,但有柄腺瘤的头部具有鹅卵石状或分叶状的红棕色表面。无柄腺瘤具有更加细致的绒毛状表面。有柄腺瘤更可能是管状或绒毛管状的,而无柄病灶更可能是绒毛状的。无柄腺瘤最常见于盲肠和直肠,而总的有柄腺瘤则在乙状结肠-直肠与大肠的其余部分之间各占一半。
腺瘤通常是无症状的,因此难以早期诊断和治疗。从技术上讲,无法基于腺瘤的大体外观预测是否存在癌症,不过认为较大的腺瘤较较小的腺瘤具有更高的癌变率。无柄腺瘤较同等大小的有柄腺瘤具有更高的癌变率。一些腺瘤导致产生显微镜下便血。但是,由于便血也可以由非腺瘤性病变引起且在没有癌变的情况下通常观察不到梗阻症状,因此在不进行高创伤性方法例如活检分析的情况下很难准确诊断腺瘤。因此,长期以来不仅需要阐明腺瘤及其癌变的原因,还需要开发更具指示性的诊断方案,特别是那些能够实现在早期快速、常规和准确诊断腺瘤和腺癌(例如癌变前期)的方案。为此,对于结直肠腺癌的研究已经提示在近端与远端肿瘤之间存在不同的发病率、组织病理学和预后。
就这条研究路线而言,基因表达谱方法的出现使得对肠粘膜的发育有了进一步的了解。例如,微阵列基因表达分析使得对参与产生并保持从隐窝基底到内腔的径向-轴平衡(radial-axis balance)的转录因子的调变以及那些导致上皮细胞分化的转录因子的调变有了更多的了解[Peifer,2002,Nature 420:274-5,277;Traber,1999,Adv Exp Med Biol 470:1-14]。类似地,对胚胎肠道发育过程中的程序化基因事件,特别是那些造成小肠与大肠之间局部上皮细胞的差异的分子调控机制有了进一步的了解[de SantaBarbara et al.,2003,Cell Mol Life Sci 60:1322-1332;Park et al.,2005,Genesis41:1-12]。另一方面,关于沿大肠纵向轴线的近端-远端基因表达的不同则所知甚少[Bates et al.2002,Gastroenterology 122:1467-1482]。结直肠腺癌的流行病学研究为近端和远端肿瘤之间的具有不同的发病率、组织病理学和预后提供了支持[Bonithon-Kopp and Benhamiche,1999,Eur J Cancer Prev 8Suppl 1:S3-12;Bufill,1990,Ann Intern Med 113:779-788;Deng et al.,2002,Br J Cancer 86:574-579;Distler and Holt,1997,Dig Dis 15:302-311]。因此,对位置特异性变化的了解能够为那些具有沿着结直肠分布的特征性分布模式的疾病(包括结直肠癌)提供有价值的认识[Birkenkamp-Demtroder etal.,2005,Gut 54:374-384;Caldero et al.,1989,Virchows Arch A Pathol AnatHistopathol 415:347-356;Garcia-Hirschfeld Garcia et al.,1999,Rev EspEnferm Dig 91:481-488]。
出于临床医学的方便,通常将结直肠(也称为大肠)分为6个解剖学区域,从回肠末端区域开始分别为:盲肠;升结肠;横结肠;降结肠;乙状结肠;和直肠。或者,可将这些区段分组以便将大肠分为两个区域模式,包括近端和远端大肠。近端(“右侧”)区域通常认为包括盲肠、升结肠、和横结肠,而远端(“左侧”)区域包括脾曲、降结肠、乙状结肠和直肠。这些区域具有不同的胚胎性个体发生,它们的连接处在沿横结肠三分之二处,且由不同的动脉为各区域提供血供,这些都支持这种划分。虽然近端大肠从胚胎中肠发育而来,由肠系膜上动脉供应,但远端大肠却从胚胎后肠发育而来,并由肠系膜下动脉供应[Yamada and Alpers,2003,Textbook ofGastroenterology,2 Vol.Set.]。关于近端远端之间差异的全面综述可参见文献[Iacopetta,2002,Int J Cancer 101:403-408]。
在产生本发明的工作中,发现一组基因在人类大肠的近端和远端部分之间被差异性表达。因此,这便能够开发出用于确定源于大肠的感兴趣的细胞是近端来源的或远端来源的的手段。因此这就能够就其在大肠内的解剖学来源而常规地表征来自正常大肠的细胞或组织。更进一步,由于大多数疾病状态的特征在于发生疾病的细胞在表型谱或基因转录方面有一些改变,对于倾向于出现或者已经具有肿瘤性的细胞尤为如此,因此,本发明的方法提供了用于鉴定异常细胞或者倾向于变为异常的细胞的便捷手段。更具体地,如果来源于已知的大肠解剖学来源的细胞表达一或多种并非该位置处特征性的基因或基因谱,则所述细胞可归类为异常,且可进行进一步分析以阐明该异常性的性质。
发明内容
在本说明书和权利要求书中,除非前后文有不同的要求,否则,“包含”(“comprise”)及其不同变化形式如“包含”(“comprises”和“comprising”),应理解为意味着纳入所述的事物或步骤或事物的组或步骤的组,但不排除任何其他的事物或步骤或事物的组或步骤的组。
在本文中,术语“源自”应该理解为指的是从所述的种类起源的特定事物或事物的组,但其不一定是从所述来源直接得到的。此外,在本文中,单数形式的“a”、“an”和“the”包括复数个指代物,除非前后文明确指示有其他情况。
除非另有说明,本文中所用的所有技术和科技术语具有与本发明所属技术领域的技术人员所通常理解的含义相同的含义。
本发明的一个方面涉及用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包含测量来自所述个体的生物学样品中的选自以下的一或多个基因的表达水平:
(i)通过Affymetrix探针号:218888_s_at而检测到的基因
通过Affymetrix探针号:225290_at而检测到的基因
通过Affymetrix探针号:226432_at而检测到的基因
通过Affymetrix探针号:231576_at而检测到的基因
通过Affymetrix探针号:235733_at而检测到的基因
通过Affymetrix探针号:236894_at而检测到的基因
通过Affymetrix探针号:239656_at而检测到的基因
通过Affymetrix探针号:242059_at而检测到的基因
通过Affymetrix探针号:242683_at而检测到的基因
ABHD5,       FAM3B,    IGFBP2,     POPDC3,
ADRA2A,      FLJ10884, KCNG1,      REG1A,
APOBEC1,     FLJ22761, KIFAP3,     SLC14A2,
C10orf45,    FTHFD,    LOC375295,  SLC20A1,
C10orf58,    GCNT1,    ME3,        SLC23A3,
CCL8,        HAS3,     MEP1B,      SLC38A2,
CLDN15,      HOXB6,    NPY6R,      SLC9A3,
DEFA5,       HOXD4,    NR1H3,      TBCC,
EYA2,        HSD3B2,   HR1H4,      ZNF493,
OSTα,
PAP,
AFARP1或通过Affymetrix探针号:202234_s_at而检测到的基因,
ANPEP或通过Affymetrix探针号202888_s_at而检测到的基因,
CCL13或通过Affymetrix探针号:206407_s_at而检测到的基因
CRYL1或通过Affymetrix探针号:220753_s_at而检测到的基因,
CYP2B6或通过Affymetrix探针号:206754_s_at而检测到的基因,
CYP2C18或通过Affymetrix探针号:208126_s_at而检测到的基因,
CYP2C9或通过Affymetrix探针号:214421_x_at或220017_x_at而检测到的基因,
EPB41L3或通过Affymetrix探针号:211776_s_at而检测到的基因
ETNK1或通过Affymetrix探针号:222262_s_at或224453_s_at而检测到的基因,
FAM45A或通过Affymetrix探针号:221804_s_at或222955_s_at而检测到的基因,
FGFR2或通过Affymetrix探针号:203639_s_at而检测到的基因,
GBA3或通过Affymetrix探针号:219954_s_at而检测到的基因,
GSPT2或通过Affymetrix探针号:205541_s_at而检测到的基因,
GULP1或通过Affymetrix探针号:215913_s_at而检测到的基因,
HOXA9或通过Affymetrix探针号:205366_s_at或214551_s_at而检测到的基因,
HOXC6或通过Affymetrix探针号:206858_s_at而检测到的基因,
HOXD3或通过Affymetrix探针号:206601_s_at而检测到的基因,
ME2或通过Affymetrix探针号:210153_s_at而检测到的基因,
MESP1或通过Affymetrix探针号:224476_s_at而检测到的基因,
MOCS1或通过Affymetrix探针号:213181_s_at而检测到的基因,
MSCP或通过Affymetrix探针号:218136_s_at或221920_s_at而检测到的基因,
NETO2或通过Affymetrix探针号:222774_s_at而检测到的基因,
OASL或通过Affymetrix探针号:210757_s_at而检测到的基因,
PITX2或通过Affymetrix探针号:207558_s_at而检测到的基因,
PRAP1或通过Affymetrix探针号:243669_s_at而检测到的基因,
SCUBE2或通过Affymetrix探针号:219197_s_at而检测到的基因,
SEC6L1或通过Affymetrix探针号:225457_s_at而检测到的基因,
SLC16A1或通过Affymetrix探针号:202236_s_at或209900_s_at而检测到的基因,
UGT1A3或通过Affymetrix探针号:208596_s_at而检测到的基因,
UGT1A8或通过Affymetrix探针号:221305_s_at而检测到的基因
(ii)通过Affymetrix探针号:230105_at而检测到的基因
通过Affymetrix探针号:230269_at而检测到的基因
通过Affymetrix探针号:238378_at而检测到的基因
通过Affymetrix探针号:239814_at而检测到的基因
通过Affymetrix探针号:239994_at而检测到的基因
通过Affymetrix探针号:240856_at而检测到的基因
通过Affymetrix探针号:242414_at而检测到的基因
通过Affymetrix探针号:244553_at而检测到的基因
ACACA,    FMOD,     LOC151162,  S100P,
C13orf11, FRMD3,    MCF2L,      SCGB2A1,
C20orf56, GALNT5,   MMP28,      SCNN1B,
CAPN13,   GARNL4,   MUC11,      SHANK2,
CLDN8,    GCG,      MUC12,      SIAT2,
COLM,     GNE,      MUC17,      SIAT4C,
CRIP1,    HGD,      MUC5B,      SIAT7F,
DNAJC12,  HOXB13,   NEDD4L,     SIDT1,
FAM3C,    INSL5,    PARP8,      SLC13A2,
FBX025,   IRS1,     PCDH21,     SLPI,
FLJ20366, ISL1,     PI3,        SPINK5,
FLJ20989, KIAA0703, PRAC,     SST,
KIAA0830, PRAC2,    TFF1,
KIAA1913, PTTG1IP,  TNFSF11,
LAMA1,    QPRT,     TPH1,
LGALS2,   QSCN6,    WFDC2,
RBM24,
ARF4或通过Affymetrix探针号:201097_s_at而检测到的基因,
BTG3或通过Affymetrix探针号:213134_x_at或205548_s_at而检测到的基因,
CHST5或通过Affymetrix探针号:221164_x_at或223942_x_at而检测到的基因,
CMAH或通过Affymetrix探针号:205518_s_at而检测到的基因,
CRYBA2或通过Affymetrix探针号:220136_s_at而检测到的基因
CTSE或通过Affymetrix探针号:205927_s_at而检测到的基因,
DKFZp761N1114或通过Affymetrix探针号:242372_s_at而检测到的基因,
EPB41L4A或通过Affymetrix探针号:228256_s_at而检测到的基因,
EPHA3或通过Affymetrix探针号:206070_s_at而检测到的基因,
FAS或通过Affymetrix探针号:204781_s_at而检测到的基因,
FER1L3或通过Affymetrix探针号:201798_s_at或211864_s_at而检测到的基因,
FLJ20152或通过Affymetrix探针号:218532_s_at或218510_x_at而检测到的基因,
FLJ23548或通过Affymetrix探针号:218187_s_at而检测到的基因,
FN1或通过Affymetrix探针号:211719_s_at或210495_x_at或212464_at或216442_x_at而检测到的基因,
FOXA2或通过Affymetrix探针号:210103_s_at而检测到的基因,
FRZB或通过Affymetrix探针号:203698_s_at而检测到的基因,
GDF15或通过Affymetrix探针号:221577_x_at而检测到的基因,
GJB3或通过Affymetrix探针号:205490_s_at而检测到的基因,
HOXD13或通过Affymetrix探针号:207397_s_at而检测到的基因,
INSM1或通过Affymetrix探针号:206502_s_at而检测到的基因,
MGC4170或通过Affymetrix探针号:212959_s_at而检测到的基因,
MLPH或通过Affymetrix探针号:218211_s_at而检测到的基因,
NEBL或通过Affymetrix探针号:203962_s_at而检测到的基因,
PLA2G2A或通过Affymetrix探针号:203649_s_at而检测到的基因,
PTPRO或通过Affymetrix探针号:208121_s_at而检测到的基因,
PYY或通过Affymetrix探针号:207080_s_at或211253_x_at而检测到的基因,
SH3BP4或通过Affymetrix探针号:222258_s_at而检测到的基因,
SLC28A2或通过Affymetrix探针号:207249_s_at而检测到的基因,
SLC2A10或通过Affymetrix探针号:221024_s_at而检测到的基因,
SPON1或通过Affymetrix探针号:213994_s_at或209437_s_at而检测到的基因,
STS或通过Affymetrix探针号:203769_s_at而检测到的基因
TM4SF11或通过Affymetrix探针号:204519_s_at而检测到的基因,
TUSC3或通过Affymetrix探针号:213432_s_at或209228_x_at而检测到的基因,
其中组(i)的基因表达水平相对于正常远端大肠对照水平更高,则表明是近端大肠来源,而组(ii)的基因表达水平相对于正常近端大肠对照水平更高,则表明是远端大肠来源。
在另一个方面本发明提供用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包含测量来自所述个体的生物学样品中的选自以下的一或多个基因的表达水平:
(i)PITX2或通过Affymetrix探针号207558_s_at而检测到的基因,
ETNK1或通过Affymetrix探针号222262_s_at或224453_s_at而检测到的基因,
FAM3B,
CYP2C18或通过Affymetrix探针号208126_s_at而检测到的基因,
GBA3或通过Affymetrix探针号219954_s_at而检测到的基因,
MEP1B,
ADRA2A,
HSD3B2,
CYP2B6或通过Affymetrix探针号206754_s_at而检测到的基因,
SLC14A2或通过Affymetrix探针号226432_s_at而检测到的基因,
CYP2C9或通过Affymetrix探针号231576_s_at而检测到的基因,
DEFA5,
OASL或通过Affymetrix探针号210797_s_at而检测到的基因,
SLC37A3,
REG1A,
MEP1B,
NR1H4;或
(ii)DKFZp761N1114或通过Affymetrix探针号242374_s_at而检测到的基因,
PRAC,
INSL5,
HOXB13或
WFDC2
其中组(i)的基因表达水平相对于正常远端大肠对照水平更高,则表明是近端大肠来源,而组(ii)的基因表达水平相对于正常近端大肠对照水平更高,则表明是远端大肠来源。
在另一个方面,本发明提供用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包括:
访问训练数据,包括代表源自大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的表达训练数据和代表所述细胞或细胞群体与所述近端-远端来源的关联的近端-远端来源训练数据;
使用多变量分析来处理所述训练数据以产生分类数据,所述分类数据用于基于代表源自大肠的另外的细胞或细胞群体中的基因表达的进一步的表达数据而产生表明所述另外的细胞或细胞群体的近端-远端来源的近端-远端来源数据。
本发明还提供用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的检测方法,所述方法包括:
访问代表源自至少一个大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的第一表达数据;
使用多变量分析处理所述第一表达数据以产生多变量模型数据,所述多变量模型数据代表所述第一表达数据与所述细胞或细胞群体的近端-远端来源之间的关联;
访问代表源自个体的大肠的细胞或细胞群体中的基因表达的第二表达数据;和
处理所述第二表达数据和所述多变量模型数据以产生代表所述细胞或细胞群体的近端-远端来源的近端-远端来源数据。
优选地,访问第一表达数据的步骤包括访问第三表达数据,所述第一表达数据是所述第三表达数据的亚组,且所述方法包括处理所述第三表达数据以选择所述第三表达数据的亚组,所述亚组对应于沿着所述大肠的近端-远端轴线以单独或组合方式被差异表达的基因亚组,所选择的亚组是所述第一表达数据。
本发明还提供用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包括:
访问代表源自大肠的已知大肠近端-远端来源的细胞或细胞群体内的基因表达的第一表达数据;
使用内核方法处理所述第一表达数据以产生分类数据,所述分类数据用于处理代表大肠的至少一种第二细胞或细胞群体中的所述基因的表达的第二表达数据以产生代表所述至少一种第二细胞或细胞群体的近端-远端来源的近端-远端来源数据。
本发明还提供用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的检测方法,所述方法包括:
访问代表源自大肠的已知大肠近端-远端来源的细胞或细胞群体内的基因表达的第一表达数据;
使用主成分分析法处理所述第一表达数据以产生对应于所述基因的表达的至少一种线性组合的主成分数据,所述主成分数据表明所述细胞或细胞群体的至少一种所述近端-远端来源。
本发明还提供用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包括:
访问代表源自至少一个大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的表达数据;和
使用规范变量分析法处理所述表达数据以产生规范变量数据,所述规范变量数据表明所述细胞或细胞群体的至少一种所述近端-远端来源。
本发明还提供用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包括:
访问训练数据,包括代表源自至少一个大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的表达训练数据和代表所述细胞或细胞群体与所述近端-远端来源的关联的近端-远端来源训练数据;
处理所述训练数据以产生代表所述基因的表达水平的线性或非线性组合的分类数据,所述分类数据被用于基于代表取自大肠的另外的细胞或细胞亚群中所述基因的表达的进一步的表达数据而产生进一步的近端-远端来源数据,所述进一步的近端-远端来源数据表明所述另外的细胞或细胞亚群的近端-远端来源。
本发明还提供检测系统,其具有用于实施上述任一方法的成分。
本发明还提供计算机可读形式的存储介质,其具有存储于其上的用于实施上述任一方法的程序指令。
本发明还提供检测系统,其包括:
用于访问训练数据的装置,所述训练数据包括代表源自至少一个大肠的细胞或细胞群体中的基因表达的表达训练数据和代表所述细胞或细胞群体与所述近端-远端来源的关联的近端-远端来源训练数据;
用于处理所述训练数据以产生代表所述基因的表达水平的线性或非线性组合的分类数据的装置,所述分类数据被用于基于代表取自大肠的另外的细胞或细胞亚群中所述基因的表达的进一步的表达数据而产生近端-远端来源数据,所述近端-远端来源数据表明所述另外的细胞或细胞亚群的近端-远端来源。
在另一个方面本发明提供确定大肠中的细胞异常性或以大肠中的细胞异常性为特征的疾病的发生或发生倾向性的方法,所述方法包括,根据如前所述的方法之一,确定源自大肠中的已知近端或远端来源的生物学样品的近端-远端基因表达谱,其中检测到与正常的近端-远端大肠基因表达谱不一致的基因表达谱表明表达所述谱的细胞或细胞群体的异常性。
本发明的一个有关方法提供核酸阵列,所述阵列包含多个:
(i)包含对应于如前所述的任何一种位置标记物基因的核苷酸序列或与之具有至少80%相同性的序列的核酸分子或所述核酸分子的功能性衍生物、片段、变体或同源物;或
(ii)包含能够在低严格性条件下在42℃与(i)的任何一或多种序列杂交的核苷酸序列的核酸分子或所述核酸分子的功能性衍生物、片段、变体或同源物;
(iii)核酸探针或寡核苷酸,其包含能够在低严格性条件下在42℃与(i)的任何一或多种序列杂交的核苷酸序列或所述核酸分子的功能性衍生物、片段、变体或同源物;
(iv)由(i)或(ii)的核酸分子编码的蛋白质或其衍生物、片段、变体或同源物,
其中所述核酸的表达水平表明源自所述大肠的细胞或细胞亚群的所述近端-远端来源。
附图说明
图1所示为当近端和远端区域的分界被移动时差异探针组的数量比较的图示。
图2所示为在近端和远端大肠处升高的转录产物的相对数量的图示。
图3所示为双基因模型的典型实例的图示。
图4所示为沿结直肠显示出逐渐改变的转录产物的表达逐渐增加的相对方向的图示。
图5所示为具有5节段模型行为的基因的图示。
图6a所示为对Discover数据集的所有44,928个探针组进行主成分分析(PCA)所产生的第一和第二主成分的典型实例,发现极少(如果有的话)结构;
图6b所示为通过对来自盲肠和直肠(即,大肠的最近端和最远端)的组织样品中各自被差异表达的115个探针组的亚组进行PCA所产生的第一和第二主成分,发现有两类对应于大肠的近端和远端部分;
图7A显示的是作为沿大肠的近端-远端轴线的组织定位的函数的图6A的第一主成分;
图7B显示的是作为沿大肠的近端-远端轴线的组织定位的函数的图6B的第一主成分;
图8A显示的是通过表达谱分析(profile analysis)而产生的第一和第二规范变量;
图8B显示的是作为沿大肠的近端-远端轴线的组织定位的函数的图8A的第一规范变量;
图9显示的是作为各亚组内基因数量的函数的从相应基因亚组所产生的支持向量(support vectors)的交叉验证误差估计值;
图10是检测系统的一个优选实施方式的框图;和
图11是通过检测系统而实施的检测方法的优选实施方式的流程图。
发明详述
本发明的产生部分基于阐明了能够就近端来源与远端来源而言表征来自大肠的细胞或细胞群体的解剖学来源的基因表达谱。这一发现现已促成开发出用于按照其解剖学来源而表征源自大肠的细胞群体的常规手段。更进一步,由于一些细胞异常的特征在于,相对于相应的正常细胞而言,患病细胞的基因表达谱发生改变,因此,本发明还提供常规筛选源自大肠内已知解剖学部位的大肠细胞中那些预期应该在该特定部位表达的基因表达谱是否发生改变的手段。如果没有观察到正确的基因表达谱,则所述细胞即表现出异常性,并应该通过对所述异常性的具体情况进行诊断以便进一步评价。具体而言,本领域人员能够理解,肿瘤细胞或有肿瘤倾向的细胞有时进行去分化——其证据为细胞的基因表达表型转变为较低分化的表型。因此,近端或远端来源的大肠细胞特征性的基因表达谱的任何改变均可能表示出现或倾向于出现大肠肿瘤,例如腺瘤或腺癌。本发明还提供用于本发明的方法的核酸阵列,例如微阵列。
因此,本发明的一个方面涉及用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包含测量来自所述个体的生物学样品中的选自以下的一或多个基因的表达水平:
(i)通过Affymetrix探针号:218888_s_at而检测到的基因
通过Affymetrix探针号:225290_at而检测到的基因
通过Affymetrix探针号:226432_at而检测到的基因
通过Affymetrix探针号:231576_at而检测到的基因
通过Affymetrix探针号:235733_at而检测到的基因
通过Affymetrix探针号:236894_at而检测到的基因
通过Affymetrix探针号:239656_at而检测到的基因
通过Affymetrix探针号:242059_at而检测到的基因
通过Affymetrix探针号:242683_at而检测到的基因
ABHD5,      FAM3B,     IGFBP2,     POPDC3,
ADRA2A,     FLJ10884,  KCNG1,      REG1A,
APOBEC1,    FLJ22761,  KIFAP3,     SLC14A2,
C10orf45,   FTHFD,     LOC375295,  SLC20A1,
C10orf58,   GCNT1,     ME3,        SLC23A3,
CCL8,       HAS3,      MEP1B,      SLC38A2,
CLDN15,     HOXB6,     NPY6R,      SLC9A3,
DEFA5,      HOXD4,     NR1H3,      TBCC,
EYA2,       HSD3B2,    HR1H4,      ZNF493,
OSTα,
PAP,
AFARP1或通过Affymetrix探针号:202234_s_at而检测到的基因,
ANPEP或通过Affymetrix探针号202888_s_at而检测到的基因,
CCL13或通过Affymetrix探针号:206407_s_at而检测到的基因
CRYL1或通过Affymetrix探针号:220753_s_at而检测到的基因,
CYP2B6或通过Affymetrix探针号:206754_s_at而检测到的基因,
CYP2C18或通过Affymetrix探针号:208126_s_at而检测到的基因,
CYP2C9或通过Affymetrix探针号:214421_x_at或220017_x_at而检测到的基因,
EPB41L3或通过Affymetrix探针号:211776_s_at而检测到的基因
ETNK1或通过Affymetrix探针号:222262_s_at或224453_s_at而检测到的基因,
FAM45A或通过Affymetrix探针号:221804_s_at或222955_s_at而检测到的基因,
FGFR2或通过Affymetrix探针号:203639_s_at而检测到的基因,
GBA3或通过Affymetrix探针号:219954_s_at而检测到的基因,
GSPT2或通过Affymetrix探针号:205541_s_at而检测到的基因,
GULP1或通过Affymetrix探针号:215913_s_at而检测到的基因,
HOXA9或通过Affymetrix探针号:205366_s_at或214551_s_at而检测到的基因,
HOXC6或通过Affymetrix探针号:206858_s_at而检测到的基因,
HOXD3或通过Affymetrix探针号:206601_s_at而检测到的基因,
ME2或通过Affymetrix探针号:210153_s_at而检测到的基因,
MESP1或通过Affymetrix探针号:224476_s_at而检测到的基因,
MOCS1或通过Affymetrix探针号:213181_s_at而检测到的基因,
MSCP或通过Affymetrix探针号:218136_s_at或221920_s_at而检测到的基因,
NETO2或通过Affymetrix探针号:222774_s_at而检测到的基因,
OASL或通过Affymetrix探针号:210757_s_at而检测到的基因,
PITX2或通过Affymetrix探针号:207558_s_at而检测到的基因,
PRAP1或通过Affymetrix探针号:243669_s_at而检测到的基因,
SCUBE2或通过Affymetrix探针号:219197_s_at而检测到的基因,
SEC6L1或通过Affymetrix探针号:225457_s_at而检测到的基因,
SLC16A1或通过Affymetrix探针号:202236_s_at或209900_s_at而检测到的基因,
UGT1A3或通过Affymetrix探针号:208596_s_at而检测到的基因,
UGT1A8或通过Affymetrix探针号:221305_s_at而检测到的基因
(ii)通过Affymetrix探针号:230105_at而检测到的基因
通过Affymetrix探针号:230269_at而检测到的基因
通过Affymetrix探针号:238378_at而检测到的基因
通过Affymetrix探针号:239814_at而检测到的基因
通过Affymetrix探针号:239994_at而检测到的基因
通过Affymetrix探针号:240856_at而检测到的基因
通过Affymetrix探针号:242414_at而检测到的基因
通过Affymetrix探针号:244553_at而检测到的基因
ACACA,    FMOD,     LOC151162,   S100P,
C13orf11, FRMD3,    MCF2L,       SCGB2A1,
C20orf56, GALNT5,   MMP28,       SCNN1B,
CAPN13,   GARNL4,   MUC11,       SHANK2,
CLDN8,    GCG,      MUC12,       SIAT2,
COLM,     GNE,      MUC17,       SIAT4C,
CRIP1,    HGD,      MUC5B,       SIAT7F,
DNAJC12,  HOXB13,   NEDD4L,      SIDT1,
FAM3C,    INSL5,    PARP8,       SLC13A2,
FBX025,   IRS1,     PCDH21,      SLPI,
FLJ20366, ISL1,     PI3,         SPINK5,
FLJ20989, KIAA0703, PRAC,        SST,
KIAA0830, PRAC2,    TFF1,
KIAA1913, PTTG1IP,  TNFSF11,
LAMA1,    QPRT,     TPH1,
LGALS2,   QSCN6,    WFDC2,
RBM24,
ARF4或通过Affymetrix探针号:201097_s_at而检测到的基因,
BTG3或通过Affymetrix探针号:213134_x_at或205548_s_at而检测到的基因,
CHST5或通过Affymetrix探针号:221164_x_at或223942_x_at而检测到的基因,
CMAH或通过Affymetrix探针号:205518_s_at而检测到的基因,
CRYBA2或通过Affymetrix探针号:220136_s_at而检测到的基因
CTSE或通过Affymetrix探针号:205927_s_at而检测到的基因,
DKFZp761N1114或通过Affymetrix探针号:242372_s_at而检测到的基因,
EPB41L4A或通过Affymetrix探针号:228256_s_at而检测到的基因,
EPHA3或通过Affymetrix探针号:206070_s_at而检测到的基因,
FAS或通过Affymetrix探针号:204781_s_at而检测到的基因,
FER1L3或通过Affymetrix探针号:201798_s_at或211864_s_at而检测到的基因,
FLJ20152或通过Affymetrix探针号:218532_s_at或218510_x_at而检测到的基因,
FLJ23548或通过Affymetrix探针号:218187_s_at而检测到的基因,
FN1或通过Affymetrix探针号:211719_s_at或210495_x_at或212464_at或216442_x_at而检测到的基因,
FOXA2或通过Affymetrix探针号:210103_s_at而检测到的基因,
FRZB或通过Affymetrix探针号:203698_s_at而检测到的基因,
GDF15或通过Affymetrix探针号:221577_x_at而检测到的基因,
GJB3或通过Affymetrix探针号:205490_s_at而检测到的基因,
HOXD13或通过Affymetrix探针号:207397_s_at而检测到的基因,
INSM1或通过Affymetrix探针号:206502_s_at而检测到的基因,
MGC4170或通过Affymetrix探针号:212959_s_at而检测到的基因,
MLPH或通过Affymetrix探针号:218211_s_at而检测到的基因,
NEBL或通过Affymetrix探针号:203962_s_at而检测到的基因,
PLA2G2A或通过Affymetrix探针号:203649_s_at而检测到的基因,
PTPRO或通过Affymetrix探针号:208121_s_at而检测到的基因,
PYY或通过Affymetrix探针号:207080_s_at或211253_x_at而检测到的基因,
SH3BP4或通过Affymetrix探针号:222258_s_at而检测到的基因,
SLC28A2或通过Affymetrix探针号:207249_s_at而检测到的基因,
SLC2A10或通过Affymetrix探针号:221024_s_at而检测到的基因,
SPON1或通过Affymetrix探针号:213994_s_at或209437_s_at而检测到的基因,
STS或通过Affymetrix探针号:203769_s_at而检测到的基因
TM4SF11或通过Affymetrix探针号:204519_s_at而检测到的基因,
TUSC3或通过Affymetrix探针号:213432_s_at或209228_x_at而检测到的基因,
其中组(i)的基因表达水平相对于正常远端大肠对照水平更高,则表明是近端大肠来源,而组(ii)的基因表达水平相对于正常近端大肠对照水平更高,则表明是远端大肠来源。
如前所详述,本发明的方法是基于确定了如下事实,即可通过基因表达谱来断定大肠内的细胞的远端与近端部位,所述基因表达谱是这些部位的每一个所特有的。因此,提到确定“源自大肠的”细胞或细胞群体的“解剖学来源”或“解剖学部位”,应该理解为指的是确定所讨论的细胞是否起源于大肠的远端区域或大肠的近端区域。此外,“来源”或“部位”指的是所研究的细胞在被从大肠收集到那一刻之前所述细胞所处的位置,或者,如果所述细胞是从大肠自然脱离的(例如,细胞脱离并出现于粪便样品中),则指的是所述细胞从大肠脱离之前那一刻所处的位置。无意于使本发明受到任何理论或作用方式的约束,大肠不具有消化功能,因此,其仅从自小肠而来的未消化食物中吸收大量的水和电介质。蠕动运动以规则的节律将脱水的内容物(粪便)送向直肠。为了临床上的方便,通常从回肠末端区域开始将大肠分为6个解剖学区域,它们是:
(i)盲肠;
(ii)升结肠;
(iii)横结肠;
(iv)降结肠;
(v)乙状结肠;和
(vi)直肠。
也可将这些节段分组,从而将大肠分为包括近端和远端大肠的两区域模型。通常认为近端区域包括盲肠和升结肠,而远端区域包括脾曲、降结肠、乙状结肠和直肠。大肠的近端和远端区域之间的分界被认为大约位于沿横结肠的三分之二处。支持这种划分的是,这些区域具有不同的胚胎性个体发生,它们的连接处位于沿横结肠的三分之二处,而且各区域由不同的动脉供血。因此,横结肠的组织可以是近端的或远端的,这取决于其来源部位位于该连接处的哪一侧。应该理解,尽管本发明的方法不一定表明细胞来源于近端或远端大肠的哪一部分,但其能够提供有关该组织究竟是近端来源还是远端来源的重要信息。虽然近端大肠从胚胎中肠发育而来并由肠系膜上动脉供应,远端大肠却发育自胚胎后肠并由肠系膜下动脉供应。
Figure A200780027808D00441
因此,提到大肠的“近端”区域,应该理解为指的是包括盲肠和升结肠的一段大肠,而提到大肠的“远端”区域,应该理解为指的是脾曲、降结肠、乙状结肠和直肠。横结肠区域既包括近端区域也包括远端区域,其相对比例取决于近端和远端组织的连接处位于何处。具体而言,根据肝曲和脾曲之间的距离,横结肠的组织可以来自近端区域或远端区域。
根据本发明,已经确定前面段落(i)和(ii)中所逐一列出的基因根据表达该基因的细胞是位于大肠的近端区域还是大肠的远端区域之不同,而以其表达水平的差异性改变的形式被调变。为了引用方便,这些基因及其mRNA转录产物以斜体字表示,而其蛋白质表达产物以非斜体字表示。这些基因总称“位置标记物”。
前面亚段落(i)和(ii)中所逐一列出的各个基因及其编码的蛋白质表达产物均是本领域人员已知的。通过使用Affymetrix HG133A或HG133B基因芯片进行差异性表达分析将这些基因鉴定为结直肠(大肠)细胞位置的标记物。为此,每一基因芯片具有大约45,000个探针组,其可检测从大约35,000个基因转录而来的RNA。平均大约11个探针对检测单独一个基因的RNA转录产物的重叠或连续区域。一般来说,能够被Affymetrix探针鉴定到RNA转录产物的基因均是熟知的且被充分表征的基因。不过,对于一些探针检测到的尚不清楚的RNA转录产物,这些基因被表示为“通过Affymetrix探针x而检测到的基因”。在一些情况中单独一种探针能够检测到多个基因。对此也在适当之处给予说明。不过,应该理解,这无意于作为对如何检测到对象基因表达水平的限制。首先,应该理解所述对象基因转录产物也可通过可能存在于Affymetrix基因芯片上的其他探针而检测。提到单个的探针只是将其作为感兴趣的基因转录产物的标识符。不过,在实际筛选转录产物时,可使用针对转录产物任何区域的探针,而非仅针对Affymetrix探针通常所针对的末端600bp的转录产物区域。
因此,提到前面逐一列出的每一基因及其转录和翻译表达产物应该被理解为提到的是所有形式的这些分子及其片段。突变体或变体。领域人员能够理解,已知一些基因在个体之间存在等位基因变异。因此,本发明应该被理解为包括此类变体,就本发明的诊断用途而言,这些变体可达到相同的结果,尽管不同个体的真实核酸序列之间存在小的遗传变异。因此,本发明应该被理解为包括通过选择性剪接或任何其他突变、多态性或等位基因变异而产生的所有RNA(如mRNA、初级RNA转录产物、miRNA、tRNA、rRNA等等)、cDNA和肽异构体。也应该理解其包括可能产生的任何亚单位多肽,例如前体形式,无论其形式是单体、多聚体、融合蛋白或其他复合体。
无意于使本发明受到任何理论或作用方式的约束,虽然前面所述的各个基因(单独地或组合地)在远端和近端大肠的细胞之间是差异性表达的,且因此对任何给定细胞样品的解剖学来源具有诊断意义,这些基因中的一些基因的表达表现出特别显著的敏感性、特异性、阳性预测值和/或阴性预测值的水平。因此,在优选的实施方式中,应该筛选和评价一或多个这些基因的表达水平。
因此,本发明优选地提供用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包含测量来自所述个体的生物学样品中的选自以下的一或多个基因的表达水平:
(i)PITX2或通过Affymetrix探针号:207558_s_at而检测到的基因,
ETNK1或通过Affymetrix探针号:222262_s_at或224453_s_at而检测到的基因,
FAM3B,
CYP2C18或通过Affymetrix探针号:208126_s_at而检测到的基因,
GBA3或通过Affymetrix探针号:219954_s_at而检测到的基因,
MEP1B,
ADRA2A,
HSD3B2,
CYP2B6或通过Affymetrix探针号:206754_s_at而检测到的基因,
SLC14A2或通过Affymetrix探针号:226432_s_at而检测到的基因,
CYP2C9或通过Affymetrix探针号:231576_s_at而检测到的基因,
DEFA5,
OASL或通过Affymetrix探针号:210797_s_at而检测到的基因,
SLC37A3,
REG1A,
MEP1B,
NR1H4;或
(ii)DKFZp761N1114或通过Affymetrix探针号:242374_s_at而检测到的基因,
PRAC,
INSL5,
HOXB13或
WFDC2
其中组(i)的基因表达水平相对于正常远端大肠对照水平更高,则表明是近端大肠来源,而组(ii)的基因表达水平相对于正常近端大肠对照水平更高,则表明是远端大肠来源。
优选地,所述基因是ETNK1和/或GBA3和/或PRAC。
本发明的检测方法可在任何合适的生物学样品上进行。为此,提到“生物学样品”应该理解为指的是源自动物的任何生物学样品,例如但不限于,细胞材料、生物流体(如血液)、粪便、组织活检物标本、手术标本或经引入动物体内随后再移除的流体(例如,灌肠洗液的回收液)。根据本发明的方法进行测试的生物学样品可以直接测试或在测试之前需要某种形式的处理。例如,活检或手术样品在测试之前需要匀浆化或需要切片以便原位检测各个基因的定量表达水平。或者,细胞样品需要在测试之前进行通透化。此外,对于非流体形式的生物学样品(如果需要测试此类形式的话),需要加入试剂例如缓冲液以便使得样品流动。
对于生物学样品中的位置标记物基因,可直接测试生物学样品或在测试之前分离生物学样品中的全部或部分核酸物质。在另一个实例中,可在分析之前对样品进行部分纯化或富集。例如,对于包含非常多样性的细胞群体的生物学样品,可以富集特别感兴趣的亚群。本发明包括在测试之前对靶细胞群体或源自其中的分子进行预处理,例如,灭活活的病毒活在凝胶上进行电泳。还应该理解,生物学样品可以是测试之前新鲜收集的或者是储存的(例如通过冷冻),或在测试之前进行处理的(例如进行培养)。
选择何种类型的样品最适合于根据本发明的方法进行测试将取决于具体的情况。优选地,所述样品是粪便样品、灌肠洗液、手术切除物或组织活检物。
如前所详述,本发明被设计为用于表征源自大肠的细胞或细胞群体在大肠内的解剖学来源。因此,提到“细胞或细胞群体”,应该理解为指的是单个细胞或细胞的组。所述细胞的组可以是散在的细胞群体、细胞悬液、包囊化的细胞群体或组织形式的细胞群体。
提到“表达”,应该理解为指的是核酸分子的转录和/或翻译。就此而言,通过筛选RNA转录产物(如初级RNA,mRNA,miRNA,tRNA,rRNA)形式的位置标记物来例证本发明。提到"RNA"应该理解为指的是任何形式的RNA,例如初级RNA,mRNA,miRNA,tRNA或rRNA。无意于以任何形式限制本发明,导致RNA合成增加或降低的基因转录调变也与某些此类RNA转录产物(例如mRNA)翻译产生表达产物相关联。因此,本发明也包括这样的检测方法,其目的在于筛选这些位置标记物表达产物被调变的表达水平或模式,以其作为细胞或细胞群体的近端或远端来源的指示物。尽管一种方法筛选的是mRNA转录产物和/或相应的蛋白质表达产物,但应该理解,本发明并不限于此方面,而是包括筛选任何其他形式的位置标记物,例如,初级RNA转录产物。本领域人员有能力确定哪种筛选靶最适合于任一给定的情况。优选地,蛋白质表达产物是分析的亚组。
提到“核酸分子”,应该理解为既指脱氧核糖核酸分子也指核糖核酸分子。因此本发明既包括直接筛选生物学样品中的mRNA水平也包括筛选已经从感兴趣的mRNA群体逆转录得到的互补cDNA。本领域人员有能力设计用于筛选DNA或RNA的方法。如上所详述,本发明的方法也包括筛选从对象mRNA翻译得到的蛋白质表达产物。
本发明的方法是基于生物学样品中位置标记物的表达水平与这些标记物的正常近端和远端水平之间的关联而产生的。“正常水平”大肠内近端来源的细胞或细胞群体所表达的标记物的水平和远端来源的细胞或细胞群体所表达的标记物的水平。因此,与本发明的检测方法有关的正常水平值有两种。应该理解,这些正常水平值是基于源自大肠的细胞的表达水平而计算出的,所述细胞没有表现出有可能改变这些标记物的表达水平或模式的异常性或其倾向性。
可使用源自作为测试对象的同一个体的组织来确定正常水平。不过,应该理解,这样做对于有关个体而言可能相当具有创伤性,因此,更加方便的可能是通过将测试结果与反映来自健康个体(而非所研究的患者)的单个或汇总结果的标准结果相比较来分析。后一种分析形式实际上是优选的分析方法,因为其能够满足设计出需要收集并分析作为感兴趣的测试样品的单个生物学样品的试剂盒的需要。可通过本领域人员熟知的任何合适的方式计算出用于提供近端和远端正常参照水平的标准结果。例如,可就本发明的位置标记物的表达水平来评价正常组织群体,由此提供标准值或标准值范围,用于分析以后所有的测试样品。还应该理解,可从特定一组对象中确定近端和远端的正常参照水平并用于来自该组的测试样品。因此,可以确定多种正常值或范围,它们对应于具有例如不同年龄、性别、种族或健康状况等特征的组。所述“正常水平”可以是不同的水平或水平范围。优选地将被测试的生物学样品的结果同时与近端和远端正常参照水平进行评价。前面所述的组(i)中的基因的表达相对于正常远端水平升高表示测试组织是近端来源的,而前面所述的组(ii)中的基因的表达相对于正常近端水平升高表示组织是远端来源的。不过,也应该理解,还可以从确定所得到的结果是否与正常近端或远端水平相同这一角度出发来分析所得到的结果从而推进所述关联性步骤,由此指出测试样品是否与其所比较的正常参照水平样品具有相同的来源。
应该理解,作为测试对象的“个体”可以是任何灵长类动物。优选地,所述灵长类动物是人。
如前所详述,应该理解,尽管本发明以检测核酸分子为例证,但其也包括基于测试对象位置标记物的表达产物的检测方法。本发明应该被理解为指的是基于鉴定一或多种生物学样品中的蛋白质产物或核酸物质的检测方法。不过,应该理解,一些位置标记物可涉及不编码蛋白质表达产物的基因或基因片段。因此,对于这种情况将不可能检测表达产物,而是必须基于核酸表达谱评价对象标记物。
术语“蛋白质”应该被理解为包括肽、多肽和蛋白质。蛋白质可以是糖基化的或非糖基化的和/或可含有一些与所述蛋白质相融合的、连接的、结合的或其他形式相关联的其他的分子,例如氨基酸、脂质、碳水化合物或其他的肽、多肽或蛋白质。本文提到的“蛋白质”包括包含氨基酸序列的蛋白质以及与其他分子例如氨基酸、脂质、碳水化合物或其他的肽、多肽或蛋白质相关联的蛋白质。
本发明的位置标记物蛋白可以是多聚体形式,这意味着两个或多个分子结合在一起。如果是同样的蛋白质分子结合在一起,该复合体是同多聚体。同多聚体的实例是同二聚体。如果至少一种标记物蛋白与至少一种非标记物蛋白相结合,则该复合体是异多聚体,例如异二聚体。
提到“片段”,应该理解为指的是对象核酸分子的一部分。与此特别相关的是筛选粪便样品中的被调变的RNA水平,因为这种对象RNA很可能在肠道环境内已经被降解或片段化。因此实际上可以检测这种对象RNA分子的片段,所述片段可通过使用合适的特异性探针来鉴定。
在另一个方面,本发明提供用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包括:
访问训练数据,包括代表源自大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的表达训练数据和代表所述细胞或细胞群体与所述近端-远端来源的关联的近端-远端来源训练数据;
使用多变量分析处理所述训练数据以产生分类数据,所述分类数据用于基于代表源自大肠的另外的细胞或细胞群体中的基因表达的进一步的表达数据而产生表明所述另外的细胞或细胞群体的近端-远端来源的近端-远端来源数据。
本发明还提供用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的检测方法,所述方法包括:
访问代表源自至少一个大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的第一表达数据;
使用多变量分析处理所选择的表达数据以产生多变量模型数据,所述多变量模型数据代表所选择的表达数据与所述细胞或细胞群体的近端-远端来源之间的关联;
接收代表源自个体的大肠的细胞或细胞群体中的基因表达的第二表达数据;和
处理所述第二表达数据和所述多变量模型数据以产生代表所述细胞或细胞群体的近端-远端来源的近端-远端来源数据。
优选地,访问第一表达数据的步骤包括访问第三表达数据,所述第一表达数据是所述第三表达数据的亚组,且所述方法包括处理所述第三表达数据以选择所述第三表达数据的亚组,所述亚组对应于沿着所述大肠的近端-远端轴线以单独或组合方式被差异表达的基因亚组,所选择的亚组是所述第一表达数据。
优选地,所述方法包括处理所述进一步的表达数据和所述多变量分类数据以产生代表所述近端-远端来源的所述近端-远端来源数据。
最优选地,所选择的表达数据对应于选自以下的基因:
通过Affymetrix探针号:218888_s_at而检测到的基因
通过Affymetrix探针号:225290_at而检测到的基因
通过Affymetrix探针号:226432_at而检测到的基因
通过Affymetrix探针号:231576_at而检测到的基因
通过Affymetrix探针号:235733_at而检测到的基因
通过Affymetrix探针号:236894_at而检测到的基因
通过Affymetrix探针号:239656_at而检测到的基因
通过Affymetrix探针号:242059_at而检测到的基因
通过Affymetrix探针号:242683_at而检测到的基因
通过Affymetrix探针号:230105_at而检测到的基因
通过Affymetrix探针号:230269_at而检测到的基因
通过Affymetrix探针号:238378_at而检测到的基因
通过Affymetrix探针号:239814_at而检测到的基因
通过Affymetrix探针号:239994_at而检测到的基因
通过Affymetrix探针号:240856_at而检测到的基因
通过Affymetrix探针号:242414_at而检测到的基因
通过Affymetrix探针号:244553_at而检测到的基因
通过Affymetrix探针号:217320而检测到的基因
通过Affymetrix探针号:236141而检测到的基因
通过Affymetrix探针号:236513而检测到的基因
通过Affymetrix探针号:238143而检测到的基因
ABHD5,    FAM3B,     IGFBP2,    POPDC3,
ADRA2A,   FLJ10884,  KCNG1,     REG1A,
APOBEC1,  FLJ22761,  KIFAP3,    SLC14A2,
C10orf45, FTHFD,     LOC375295, SLC20A1,
C10orf58,    GCNT1,     ME3,      SLC23A3,
CCL8,        HAS3,      MEP1B,    SLC38A2,
CLDN15,      HOXB6,     NPY6R,    SLC9A3,
DEFA5,       HOXD4,     NR1H3,    TBCC,
EYA2,        HSD3B2,    HR1H4,    ZNF493,
OSTα,
PAP,
AFARP1或通过Affymetrix探针号:202234_s_at而检测到的基因,
ANPEP或通过Affymetrix探针号202888_s_at而检测到的基因,
CCL13或通过Affymetrix探针号:206407_s_at而检测到的基因
CRYL1或通过Affymetrix探针号:220753_s_at而检测到的基因,
CYP2B6或通过Affymetrix探针号:206754_s_at而检测到的基因,
CYP2C18或通过Affymetrix探针号:208126_s_at而检测到的基因,
CYP2C9或通过Affymetrix探针号:214421_x_at或220017_x_at而检测到的基因,
EPB41L3或通过Affymetrix探针号:211776_s_at而检测到的基因
ETNK1或通过Affymetrix探针号:222262_s_at或224453_s_at而检测到的基因,
FAM45A或通过Affymetrix探针号:221804_s_at或222955_s_at而检测到的基因,
FGFR2或通过Affymetrix探针号:203639_s_at而检测到的基因,
GBA3或通过Affymetrix探针号:219954_s_at而检测到的基因,
GSPT2或通过Affymetrix探针号:205541_s_at而检测到的基因,
GULP1或通过Affymetrix探针号:215913_s_at而检测到的基因,
HOXA9或通过Affymetrix探针号:205366_s_at或214551_s_at而检测到的基因,
HOXC6或通过Affymetrix探针号:206858_s_at而检测到的基因,
HOXD3或通过Affymetrix探针号:206601_s_at而检测到的基因,
ME2或通过Affymetrix探针号:210153_s_at而检测到的基因,
MESP1或通过Affymetrix探针号:224476_s_at而检测到的基因,
MOCS1或通过Affymetrix探针号:213181_s_at而检测到的基因,
MSCP或通过Affymetrix探针号:218136_s_at或221920_s_at而检测到的基因,
NETO2或通过Affymetrix探针号:222774_s_at而检测到的基因,
OASL或通过Affymetrix探针号:210757_s_at而检测到的基因,
PITX2或通过Affymetrix探针号:207558_s_at而检测到的基因,
PRAP1或通过Affymetrix探针号:243669_s_at而检测到的基因,
SCUBE2或通过Affymetrix探针号:219197_s_at而检测到的基因,
SEC6L1或通过Affymetrix探针号:225457_s_at而检测到的基因,
SLC16A1或通过Affymetrix探针号:202236_s_at或209900_s_at而检测到的基因,
UGT1A3或通过Affymetrix探针号:208596_s_at而检测到的基因,
UGT1A8或通过Affymetrix探针号:221305_s_at而检测到的基因
ACACA,    FMOD,    LOC151162,   S100P,
C13orf11, FRMD3,   MCF2L,       SCGB2A1,
C20orf56, GALNT5,  MMP28,       SCNN1B,
CAPN13,   GARNL4,  MUC11,       SHANK2,
CLDN8,    GCG,     MUC12,       SIAT2,
COLM,     GNE,     MUC17,       SIAT4C,
CRIP1,    HGD,     MUC5B,       SIAT7F,
DNAJC12,  HOXB13,  NEDD4L,      SIDT1,
FAM3C,    INSL5,   PARP8,       SLC13A2,
FBX025,   IRS1,    PCDH21,      SLPI,
FLJ20366, ISL1,    PI3,         SPINK5,
FLJ20989, KIAA0703,PRAC,        SST,
KIAA0830, PRAC2,   TFF1,
KIAA1913, PTTG1IP, TNFSF11,
LAMA1,    QPRT,    TPH1,
LGALS2,   QSCN6,    WFDC2,
RBM24,
ARF4或通过Affymetrix探针号:201097_s_at而检测到的基因,
BTG3或通过Affymetrix探针号:213134_x_at或205548_s_at而检测到的基因,
CHST5或通过Affymetrix探针号:221164_x_at或223942_x_at而检测到的基因,
CMAH或通过Affymetrix探针号:205518_s_at而检测到的基因,
CRYBA2或通过Affymetrix探针号:220136_s_at而检测到的基因
CTSE或通过Affymetrix探针号:205927_s_at而检测到的基因,
DKFZp761N1114或通过Affymetrix探针号:242372_s_at而检测到的基因,
EPB41L4A或通过Affymetrix探针号:228256_s_at而检测到的基因,
EPHA3或通过Affymetrix探针号:206070_s_at而检测到的基因,
FAS或通过Affymetrix探针号:204781_s_at而检测到的基因,
FER1L3或通过Affymetrix探针号:201798_s_at或211864_s_at而检测到的基因,
FLJ20152或通过Affymetrix探针号:218532_s_at或218510_x_at而检测到的基因,
FLJ23548或通过Affymetrix探针号:218187_s_at而检测到的基因,
FN1或通过Affymetrix探针号:211719_s_at或210495_x_at或212464_at或216442_x_at而检测到的基因,
FOXA2或通过Affymetrix探针号:210103_s_at而检测到的基因,
FRZB或通过Affymetrix探针号:203698_s_at而检测到的基因,
GDF15或通过Affymetrix探针号:221577_x_at而检测到的基因,
GJB3或通过Affymetrix探针号:205490_s_at而检测到的基因,
HOXD13或通过Affymetrix探针号:207397_s_at而检测到的基因,
INSM1或通过Affymetrix探针号:206502_s_at而检测到的基因,
MGC4170或通过Affymetrix探针号:212959_s_at而检测到的基因,
MLPH或通过Affymetrix探针号:218211_s_at而检测到的基因,
NEBL或通过Affymetrix探针号:203962_s_at而检测到的基因,
PLA2G2A或通过Affymetrix探针号:203649_s_at而检测到的基因,
PTPRO或通过Affymetrix探针号:208121_s_at而检测到的基因,
PYY或通过Affymetrix探针号:207080_s_at或211253_x_at而检测到的基因,
SH3BP4或通过Affymetrix探针号:222258_s_at而检测到的基因,
SLC28A2或通过Affymetrix探针号:207249_s_at而检测到的基因,
SLC2A10或通过Affymetrix探针号:221024_s_at而检测到的基因,
SPON1或通过Affymetrix探针号:213994_s_at或209437_s_at而检测到的基因,
STS或通过Affymetrix探针号:203769_s_at而检测到的基因
TM4SF11或通过Affymetrix探针号:204519_s_at而检测到的基因,
TUSC3或通过Affymetrix探针号:213432_s_at或209228_x_at而检测到的基因,
AQP8         LGALS2          EFNA1          ORF51E2
CCL11        C6ORF105        EMP1           PROM1
CLDN8        CCL11           FST            REG3A
MMP12        CD69            GHR            SCNN1B
P2RY14       CLC             HLA-DRB4       ST3GAL4
CCL18        CPM             HOXD10         ST6GALNAC6
ACSL1        DEFA6           HSD17B2
AGR2         DHRS9           HSPCA
ASPN                         IGHD
                             MT1M
SCD或通过Affymetrix探针号:200832_s_at而检测到的基因,
ABCB1或通过Affymetrix探针号:211994_s_at而检测到的基因,
BTBD3或通过Affymetrix探针号:202946_s_at而检测到的基因,
CA1或通过Affymetrix探针号:205950_s_at而检测到的基因,
DHRS9或通过Affymetrix探针号:224009_x_at或223952_x_at而检测到的基因,
DKFZP564I1171或通过Affymetrix探针号:225457_s_at而检测到的基因,
EIF5A或通过Affymetrix探针号:201123_s_at而检测到的基因,
IGHD或通过Affymetrix探针号:214973_x_at而检测到的基因,
PCK1或通过Affymetrix探针号:208383_s_at而检测到的基因,
RBP4或通过Affymetrix探针号:219140_s_at而检测到的基因,
TRPM6或通过Affymetrix探针号:224412_s_at而检测到的基因,
UGT1A6或通过Affymetrix探针号:215125_s_at而检测到的基因。
本发明还提供用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包括:
访问代表源自至少一个大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的第一表达数据;和
使用内核方法处理所述第一表达数据以产生分类数据,所述分类数据用于处理代表大肠的至少一种第二细胞或细胞群体中的所述基因的表达的第二表达数据以产生代表所述至少一种第二细胞或细胞群体的近端-远端来源的近端-远端来源数据。
优选地,所述方法包括处理所述第二表达数据和所述分类数据以产生代表所述位置的近端-远端来源数据。
优选地,所述内核方法包括支持向量机(SVM)。
更优选地,所述分类数据代表选自以下的基因:
通过Affymetrix探针号:218888_s_at而检测到的基因
通过Affymetrix探针号:225290_at而检测到的基因
通过Affymetrix探针号:226432_at而检测到的基因
通过Affymetrix探针号:231576_at而检测到的基因
通过Affymetrix探针号:235733_at而检测到的基因
通过Affymetrix探针号:236894_at而检测到的基因
通过Affymetrix探针号:239656_at而检测到的基因
通过Affymetrix探针号:242059_at而检测到的基因
通过Affymetrix探针号:242683_at而检测到的基因
通过Affymetrix探针号:230105_at而检测到的基因
通过Affymetrix探针号:230269_at而检测到的基因
通过Affymetrix探针号:238378_at而检测到的基因
通过Affymetrix探针号:239814_at而检测到的基因
通过Affymetrix探针号:239994_at而检测到的基因
通过Affymetrix探针号:240856_at而检测到的基因
通过Affymetrix探针号:242414_at而检测到的基因
通过Affymetrix探针号:244553_at而检测到的基因
通过Affymetrix探针号:217320而检测到的基因
通过Affymetrix探针号:236141而检测到的基因
通过Affymetrix探针号:236513而检测到的基因
通过Affymetrix探针号:238143而检测到的基因
ABHD5,      FAM3B,     IGFBP2,     POPDC3,
ADRA2A,     FLJ10884,  KCNG1,      REG1A,
APOBEC1,    FLJ22761,  KIFAP3,     SLC14A2,
C10orf45,   FTHFD,     LOC375295,  SLC20A1,
C10orf58,   GCNT1,     ME3,        SLC23A3,
CCL8,       HAS3,      MEP1B,      SLC38A2,
CLDN15,     HOXB6,     NPY6R,      SLC9A3,
DEFA5,      HOXD4,     NR1H3,      TBCC,
EYA2,       HSD3B2,    HR1H4,      ZNF493,
OSTα,
PAP,
AFARP1或通过Affymetrix探针号:202234_s_at而检测到的基因,
ANPEP或通过Affymetrix探针号:202888_s_at而检测到的基因,
CCL13或通过Affymetrix探针号:206407_s_at而检测到的基因
CRYL1或通过Affymetrix探针号:220753_s_at而检测到的基因,
CYP2B6或通过Affymetrix探针号:206754_s_at而检测到的基因,
CYP2C18或通过Affymetrix探针号:208126_s_at而检测到的基因,
CYP2C9或通过Affymetrix探针号:214421_x_at或220017_x_at而检测到的基因,
EPB41L3或通过Affymetrix探针号:211776_s_at而检测到的基因
ETNK1或通过Affymetrix探针号:222262_s_at或224453_s_at而检测到的基因,
FAM45A或通过Affymetrix探针号:221804_s_at或222955_s_at而检测到的基因,
FGFR2或通过Affymetrix探针号:203639_s_at而检测到的基因,
GBA3或通过Affymetrix探针号:219954_s_at而检测到的基因,
GSPT2或通过Affymetrix探针号:205541_s_at而检测到的基因,
GULP1或通过Affymetrix探针号:215913_s_at而检测到的基因,
HOXA9或通过Affymetrix探针号:205366_s_at或214551_s_at而检测到的基因,
HOXC6或通过Affymetrix探针号:206858_s_at而检测到的基因,
HOXD3或通过Affymetrix探针号:206601_s_at而检测到的基因,
ME2或通过Affymetrix探针号:210153_s_at而检测到的基因,
MESP1或通过Affymetrix探针号:224476_s_at而检测到的基因,
MOCS1或通过Affymetrix探针号:213181_s_at而检测到的基因,
MSCP或通过Affymetrix探针号:218136_s_at或221920_s_at而检测到的基因,
NETO2或通过Affymetrix探针号:222774_s_at而检测到的基因,
OASL或通过Affymetrix探针号:210757_s_at而检测到的基因,
PITX2或通过Affymetrix探针号:207558_s_at而检测到的基因,
PRAP1或通过Affymetrix探针号:243669_s_at而检测到的基因,
SCUBE2或通过Affymetrix探针号:219197_s_at而检测到的基因,
SEC6L1或通过Affymetrix探针号:225457_s_at而检测到的基因,
SLC16A1或通过Affymetrix探针号:202236_s_at或209900_s_at而检测到的基因,
UGT1A3或通过Affymetrix探针号:208596_s_at而检测到的基因,
UGT1A8或通过Affymetrix探针号:221305_s_at而检测到的基因
ACACA,    FMOD,    LOC151162,   S100P,
C13orf11, FRMD3,   MCF2L,       SCGB2A1,
C20orf56, GALNT5,  MMP28,       SCNN1B,
CAPN13,   GARNL4,  MUC11,       SHANK2,
CLDN8,    GCG,     MUC12,       SIAT2,
COLM,     GNE,     MUC17,       SIAT4C,
CRIP1,    HGD,     MUC5B,       SIAT7F,
DNAJC12,  HOXB13,  NEDD4L,      SIDT1,
FAM3C,    INSL5,   PARP8,       SLC13A2,
FBX025,   IRS1,    PCDH21,      SLPI,
FLJ20366, ISL1,    PI3,         SPINK5,
FLJ20989, KIAA0703,PRAC,        SST,
KIAA0830, PRAC2,   TFF1,
KIAA1913, PTTG1IP, TNFSF11,
LAMA1,    QPRT,    TPH1,
LGALS2,   QSCN6,   WFDC2,
RBM24,
ARF4或通过Affymetrix探针号:201097_s_at而检测到的基因,
BTG3或通过Affymetrix探针号:213134_x_at或205548_s_at而检测到的基因,
CHST5或通过Affymetrix探针号:221164_x_at或223942_x_at而检测到的基因,
CMAH或通过Affymetrix探针号:205518_s_at而检测到的基因,
CRYBA2或通过Affymetrix探针号:220136_s_at而检测到的基因
CTSE或通过Affymetrix探针号:205927_s_at而检测到的基因,
DKFZp761N1114或通过Affymetrix探针号:242372_s_at而检测到的基因,
EPB41L4A或通过Affymetrix探针号:228256_s_at而检测到的基因,
EPHA3或通过Affymetrix探针号:206070_s_at而检测到的基因,
FAS或通过Affymetrix探针号:204781_s_at而检测到的基因,
FER1L3或通过Affymetrix探针号:201798_s_at或211864_s_at而检测到的基因,
FLJ20152或通过Affymetrix探针号:218532_s_at或218510_x_at而检测到的基因,
FLJ23548或通过Affymetrix探针号:218187_s_at而检测到的基因,
FN1或通过Affymetrix探针号:211719_s_at或210495_x_at或212464_at或216442_x_at而检测到的基因,
FOXA2或通过Affymetrix探针号:210103_s_at而检测到的基因,
FRZB或通过Affymetrix探针号:203698_s_at而检测到的基因,
GDF15或通过Affymetrix探针号:221577_x_at而检测到的基因,
GJB3或通过Affymetrix探针号:205490_s_at而检测到的基因,
HOXD13或通过Affymetrix探针号:207397_s_at而检测到的基因,
INSM1或通过Affymetrix探针号:206502_s_at而检测到的基因,
MGC4170或通过Affymetrix探针号:212959_s_at而检测到的基因,
MLPH或通过Affymetrix探针号:218211_s_at而检测到的基因,
NEBL或通过Affymetrix探针号:203962_s_at而检测到的基因,
PLA2G2A或通过Affymetrix探针号:203649_s_at而检测到的基因,
PTPRO或通过Affymetrix探针号:208121_s_at而检测到的基因,
PYY或通过Affymetrix探针号:207080_s_at或211253_x_at而检测到的基因,
SH3BP4或通过Affymetrix探针号:222258_s_at而检测到的基因,
SLC28A2或通过Affymetrix探针号:207249_s_at而检测到的基因,
SLC2A10或通过Affymetrix探针号:221024_s_at而检测到的基因,
SPON1或通过Affymetrix探针号:213994_s_at或209437_s_at而检测到的基因,
STS或通过Affymetrix探针号:203769_s_at而检测到的基因
TM4SF11或通过Affymetrix探针号:204519_s_at而检测到的基因,
TUSC3或通过Affymetrix探针号:213432_s_at或209228_x_at而检测到的基因,
AQP8         LGALS2       EFNA1        ORF51E2
CCL11        C6ORF105     EMP1         PROM1
CLDN8        CCL11        FST          REG3A
MMP12        CD69         GHR          SCNN1B
P2RY14       CLC          HLA-DRB4     ST3GAL4
CCL18        CPM          HOXD10       ST6GALNA
ACSL1        DEFA6        HSD17B2      C6
AGR2         DHRS9        HSPCA
ASPN                      IGHD
                          MT1M
SCD或通过Affymetrix探针号:200832_s_at而检测到的基因,
ABCB1或通过Affymetrix探针号:211994_s_at而检测到的基因,
BTBD3或通过Affymetrix探针号:202946_s_at而检测到的基因,
CA1或通过Affymetrix探针号:205950_s_at而检测到的基因,
DHRS9或通过Affymetrix探针号:224009_x_at或223952_x_at而检测到的基因,
DKFZP564I1171或通过Affymetrix探针号:225457_s_at而检测到的基因,
EIF5A或通过Affymetrix探针号:201123_s_at而检测到的基因,
IGHD或通过Affymetrix探针号:214973_x_at而检测到的基因,
PCK1或通过Affymetrix探针号:208383_s_at而检测到的基因,
RBP4或通过Affymetrix探针号:219140_s_at而检测到的基因,
TRPM6或通过Affymetrix探针号:224412_s_at而检测到的基因,
UGT1A6或通过Affymetrix探针号:215125_s_at而检测到的基因。
进一步更优选地,所述分类数据代表13个基因的亚组。
最优选地,所述13个基因是:
PRAC,
CCL11,
FRZB或通过Affymetrix探针号:203698_s_at而检测到的基因,
GDF15或通过Affymetrix探针号:221577_x_at而检测到的基因,
CLDN8,
SEC6L1或通过Affymetrix探针号:221577_x_at而检测到的基因,
GBA3或通过Affymetrix探针号:279954_s_at而检测到的基因,
DEFA5,
SPINK5,
OSTα,
ANPEP或通过Affymetrix探针号:202888_s_at而检测到的基因,和
MUC5。
本发明还提供用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的检测方法,所述方法包括:
访问代表源自至少一个大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的第一表达数据;
使用主成分分析法处理所述第一数据以产生对应于所述基因的表达的至少一种线性组合的主成分数据,所述主成分数据表明所述细胞或细胞群体的至少一种所述近端-远端来源。
优选地,所述访问第一表达数据的步骤包括访问第三表达数据,所述第一表达数据是所述第三表达数据的亚组,且所述方法包括处理所述第三表达数据以选择对应于沿着所述大肠的近端-远端轴线被差异表达的基因亚组的所选择的第三表达数据的亚组,所选择的亚组是所述第一表达数据。
优选地,所选择的表达数据对应于选自以下的基因:
通过Affymetrix探针号:218888_s_at而检测到的基因
通过Affymetrix探针号:225290_at而检测到的基因
通过Affymetrix探针号:226432_at而检测到的基因
通过Affymetrix探针号:231576_at而检测到的基因
通过Affymetrix探针号:235733_at而检测到的基因
通过Affymetrix探针号:236894_at而检测到的基因
通过Affymetrix探针号:239656_at而检测到的基因
通过Affymetrix探针号:242059_at而检测到的基因
通过Affymetrix探针号:242683_at而检测到的基因
通过Affymetrix探针号:230105_at而检测到的基因
通过Affymetrix探针号:230269_at而检测到的基因
通过Affymetrix探针号:238378_at而检测到的基因
通过Affymetrix探针号:239814_at而检测到的基因
通过Affymetrix探针号:239994_at而检测到的基因
通过Affymetrix探针号:240856_at而检测到的基因
通过Affymetrix探针号:242414_at而检测到的基因
通过Affymetrix探针号:244553_at而检测到的基因
通过Affymetrix探针号:217320而检测到的基因
通过Affymetrix探针号:236141而检测到的基因
通过Affymetrix探针号:236513而检测到的基因
通过Affymetrix探针号:238143而检测到的基因
ABHD5,    FAM3B,     IGFBP2,    POPDC3,
ADRA2A,     FLJ10884,  KCNG1,     REG1A,
APOBEC1,    FLJ22761,  KIFAP3,    SLC14A2,
C10orf45,   FTHFD,     LOC375295, SLC20A1,
C10orf58,   GCNT1,     ME3,       SLC23A3,
CCL8,       HAS3,      MEP1B,     SLC38A2,
CLDN15,     HOXB6,     NPY6R,     SLC9A3,
DEFA5,      HOXD4,     NR1H3,     TBCC,
EYA2,       HSD3B2,    HR1H4,     ZNF493,
OSTα,
PAP,
AFARP1或通过Affymetrix探针号:202234_s_at而检测到的基因,
ANPEP或通过Affymetrix探针号:202888_s_at而检测到的基因,
CCL13或通过Affymetrix探针号:206407_s_at而检测到的基因
CRYL1或通过Affymetrix探针号:220753_s_at而检测到的基因,
CYP2B6或通过Affymetrix探针号:206754_s_at而检测到的基因,
CYP2C18或通过Affymetrix探针号:208126_s_at而检测到的基因,
CYP2C9或通过Affymetrix探针号:214421_x_at或220017_x_at而检测到的基因,
EPB41L3或通过Affymetrix探针号:211776_s_at而检测到的基因
ETNK1或通过Affymetrix探针号:222262_s_at或224453_s_at而检测到的基因,
FAM45A或通过Affymetrix探针号:221804_s_at或222955_s_at而检测到的基因,
FGFR2或通过Affymetrix探针号:203639_s_at而检测到的基因,
GBA3或通过Affymetrix探针号:219954_s_at而检测到的基因,
GSPT2或通过Affymetrix探针号:205541_s_at而检测到的基因,
GULP1或通过Affymetrix探针号:215913_s_at而检测到的基因,
HOXA9或通过Affymetrix探针号:205366_s_at或214551_s_at而检测到的基因,
HOXC6或通过Affymetrix探针号:206858_s_at而检测到的基因,
HOXD3或通过Affymetrix探针号:206601_s_at而检测到的基因,
ME2或通过Affymetrix探针号:210153_s_at而检测到的基因,
MESP1或通过Affymetrix探针号:224476_s_at而检测到的基因,
MOCS1或通过Affymetrix探针号:213181_s_at而检测到的基因,
MSCP或通过Affymetrix探针号:218136_s_at或221920_s_at而检测到的基因,
NETO2或通过Affymetrix探针号:222774_s_at而检测到的基因,
OASL或通过Affymetrix探针号:210757_s_at而检测到的基因,
PITX2或通过Affymetrix探针号:207558_s_at而检测到的基因,
PRAP1或通过Affymetrix探针号:243669_s_at而检测到的基因,
SCUBE2或通过Affymetrix探针号:219197_s_at而检测到的基因,
SEC6L1或通过Affymetrix探针号:225457_s_at而检测到的基因,
SLC16A1或通过Affymetrix探针号:202236_s_at或209900_s_at而检测到的基因,
UGT1A3或通过Affymetrix探针号:208596_s_at而检测到的基因,
UGT1A8或通过Affymetrix探针号:221305_s_at而检测到的基因
ACACA,    FMOD,    LOC151162,   S100P,
C13orf11, FRMD3,   MCF2L,       SCGB2A1,
C20orf56, GALNT5,  MMP28,       SCNN1B,
CAPN13,   GARNL4,  MUC11,       SHANK2,
CLDN8,    GCG,     MUC12,       SIAT2,
COLM,     GNE,     MUC17,       SIAT4C,
CRIP1,    HGD,     MUC5B,       SIAT7F,
DNAJC12,  HOXB13,  NEDD4L,      SIDT1,
FAM3C,    INSL5,   PARP8,       SLC13A2,
FBX025,   IRS1,    PCDH21,      SLPI,
FLJ20366, ISL1,    PI3,         SPINK5,
FLJ20989, KIAA0703,PRAC,        SST,
KIAA0830, PRAC2,   TFF1,
KIAA1913, PTTG1IP, TNFSF11,
LAMA1,    QPRT,    TPH1,
LGALS2,   QSCN6,   WFDC2,
RBM24,
ARF4或通过Affymetrix探针号:201097_s_at而检测到的基因,
BTG3或通过Affymetrix探针号:213134_x_at或205548_s_at而检测到的基因,
CHST5或通过Affymetrix探针号:221164_x_at或223942_x_at而检测到的基因,
CMAH或通过Affymetrix探针号:205518_s_at而检测到的基因,
CRYBA2或通过Affymetrix探针号:220136_s_at而检测到的基因
CTSE或通过Affymetrix探针号:205927_s_at而检测到的基因,
DKFZp761N1114或通过Affymetrix探针号:242372_s_at而检测到的基因,
EPB41L4A或通过Affymetrix探针号:228256_s_at而检测到的基因,
EPHA3或通过Affymetrix探针号:206070_s_at而检测到的基因,
FAS或通过Affymetrix探针号:204781_s_at而检测到的基因,
FER1L3或通过Affymetrix探针号:201798_s_at或211864_s_at而检测到的基因,
FLJ20152或通过Affymetrix探针号:218532_s_at或218510_x_at而检测到的基因,
FLJ23548或通过Affymetrix探针号:218187_s_at而检测到的基因,
FN1或通过Affymetrix探针号:211719_s_at或210495_x_at或212464at或216442_x_at而检测到的基因,
FOXA2或通过Affymetrix探针号:210103_s_at而检测到的基因,
FRZB或通过Affymetrix探针号:203698_s_at而检测到的基因,
GDF15或通过Affymetrix探针号:221577_x_at而检测到的基因,
GJB3或通过Affymetrix探针号:205490_s_at而检测到的基因,
HOXD13或通过Affymetrix探针号:207397_s_at而检测到的基因,
INSM1或通过Affymetrix探针号:206502_s_at而检测到的基因,
MGC4170或通过Affymetrix探针号:212959_s_at而检测到的基因,
MLPH或通过Affymetrix探针号:218211_s_at而检测到的基因,
NEBL或通过Affymetrix探针号:203962_s_at而检测到的基因,
PLA2G2A或通过Affymetrix探针号:203649_s_at而检测到的基因,
PTPRO或通过Affymetrix探针号:208121_s_at而检测到的基因,
PYY或通过Affymetrix探针号:207080_s_at或211253_x_at而检测到的基因,
SH3BP4或通过Affymetrix探针号:222258_s_at而检测到的基因,
SLC28A2或通过Affymetrix探针号:207249_s_at而检测到的基因,
SLC2A10或通过Affymetrix探针号:221024_s_at而检测到的基因,
SPON1或通过Affymetrix探针号:213994_s_at或209437_s_at而检测到的基因,
STS或通过Affymetrix探针号:203769_s_at而检测到的基因
TM4SF11或通过Affymetrix探针号:204519_s_at而检测到的基因,
TUSC3或通过Affymetrix探针号:213432_s_at或209228_x_at而检测到的基因,
AQP8         LGALS2      EFNA1        ORF51E2
CCL11        C6ORF105    EMP1         PROM1
CLDN8        CCL11       FST          REG3A
MMP12        CD69        GHR          SCNN1B
P2RY14       CLC         HLA-DRB4     ST3GAL4
CCL18        CPM         HOXD10       ST6GALNA
ACSL1        DEFA6       HSD17B2      C6
AGR2         DHRS9       HSPCA
ASPN                     IGHD
                         MT1M
SCD或通过Affymetrix探针号:200832_s_at而检测到的基因,
ABCB1或通过Affymetrix探针号:211994_s_at而检测到的基因,
BTBD3或通过Affymetrix探针号:202946_s_at而检测到的基因,
CA1或通过Affymetrix探针号:205950_s_at而检测到的基因,
DHRS9或通过Affymetrix探针号:224009_x_at或223952_x_at而检测到的基因,
DKFZP564I1171或通过Affymetrix探针号:225457_s_at而检测到的基因,
EIF5A或通过Affymetrix探针号:201123_s_at而检测到的基因,
IGHD或通过Affymetrix探针号:214973_x_at而检测到的基因,
PCK1或通过Affymetrix探针号:208383_s_at而检测到的基因,
RBP4或通过Affymetrix探针号:219140_s_at而检测到的基因,
TRPM6或通过Affymetrix探针号:224412_s_at而检测到的基因,
UGT1A6或通过Affymetrix探针号:215125_s_at而检测到的基因。
本发明还提供用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包括:
访问代表源自至少一个大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的第一表达数据;和
使用规范变量分析法处理所述表达数据以产生规范变量数据,所述规范变量数据表明所述细胞或细胞群体的至少一种所述近端-远端来源。
优选地,所述规范变量分析法包括表达谱分析。
优选地,所述基因亚组包括选自以下的基因:
通过Affymetrix探针号:218888_s_at而检测到的基因
通过Affymetrix探针号:225290_at而检测到的基因
通过Affymetrix探针号:226432_at而检测到的基因
通过Affymetrix探针号:231576_at而检测到的基因
通过Affymetrix探针号:235733_at而检测到的基因
通过Affymetrix探针号:236894_at而检测到的基因
通过Affymetrix探针号:239656_at而检测到的基因
通过Affymetrix探针号:242059_at而检测到的基因
通过Affymetrix探针号:242683_at而检测到的基因
通过Affymetrix探针号:230105_at而检测到的基因
通过Affymetrix探针号:230269_at而检测到的基因
通过Affymetrix探针号:238378_at而检测到的基因
通过Affymetrix探针号:239814_at而检测到的基因
通过Affymetrix探针号:239994_at而检测到的基因
通过Affymetrix探针号:240856_at而检测到的基因
通过Affymetrix探针号:242414_at而检测到的基因
通过Affymetrix探针号:244553_at而检测到的基因
通过Affymetrix探针号:217320而检测到的基因
通过Affymetrix探针号:236141而检测到的基因
通过Affymetrix探针号:236513而检测到的基因
通过Affymetrix探针号:238143而检测到的基因
ABHD5,     FAM3B,     IGFBP2,    POPDC3,
ADRA2A,    FLJ10884,  KCNG1,     REG1A,
APOBEC1,   FLJ22761,  KIFAP3,    SLC14A2,
C10orf45,  FTHFD,     LOC375295, SLC20A1,
C10orf58,  GCNT1,     ME3,       SLC23A3,
CCL8,      HAS3,      MEP1B,     SLC38A2,
CLDN15,    HOXB6,     NPY6R,     SLC9A3,
DEFA5,     HOXD4,     NR1H3,     TBCC,
EYA2,      HSD3B2,    HR1H4,     ZNF493,
OSTα,
PAP,
AFARP1或通过Affymetrix探针号:202234_s_at而检测到的基因,
ANPEP或通过Affymetrix探针号:202888_s_at而检测到的基因,
CCL13或通过Affymetrix探针号:206407_s_at而检测到的基因
CRYL1或通过Affymetrix探针号:220753_s_at而检测到的基因,
CYP2B6或通过Affymetrix探针号:206754_s_at而检测到的基因,
CYP2C18或通过Affymetrix探针号:208126_s_at而检测到的基因,
CYP2C9或通过Affymetrix探针号:214421_x_at或220017_x_at而检测到的基因,
EPB41L3或通过Affymetrix探针号:211776_s_at而检测到的基因
ETNK1或通过Affymetrix探针号:222262_s_at或224453_s_at而检测到的基因,
FAM45A或通过Affymetrix探针号:221804_s_at或222955_s_at而检测到的基因,
FGFR2或通过Affymetrix探针号:203639_s_at而检测到的基因,
GBA3或通过Affymetrix探针号:219954_s_at而检测到的基因,
GSPT2或通过Affymetrix探针号:205541_s_at而检测到的基因,
GULP1或通过Affymetrix探针号:215913_s_at而检测到的基因,
HOXA9或通过Affymetrix探针号:205366_s_at或214551_s_at而检测到的基因,
HOXC6或通过Affymetrix探针号:206858_s_at而检测到的基因,
HOXD3或通过Affymetrix探针号:206601_s_at而检测到的基因,
ME2或通过Affymetrix探针号:210153_s_at而检测到的基因,
MESP1或通过Affymetrix探针号:224476_s_at而检测到的基因,
MOCS1或通过Affymetrix探针号:213181_s_at而检测到的基因,
MSCP或通过Affymetrix探针号:218136_s_at或221920_s_at而检测到的基因,
NETO2或通过Affymetrix探针号:222774_s_at而检测到的基因,
OASL或通过Affymetrix探针号:210757_s_at而检测到的基因,
PITX2或通过Affymetrix探针号:207558_s_at而检测到的基因,
PRAP1或通过Affymetrix探针号:243669_s_at而检测到的基因,
SCUBE2或通过Affymetrix探针号:219197_s_at而检测到的基因,
SEC6L1或通过Affymetrix探针号:225457_s_at而检测到的基因,
SLC16A1或通过Affymetrix探针号:202236_s_at或209900_s_at而检测到的基因,
UGT1A3或通过Affymetrix探针号:208596_s_at而检测到的基因,
UGT1A8或通过Affymetrix探针号:221305_s_at而检测到的基因
ACACA,    FMOD,    LOC151162,  S100P,
C13orf11, FRMD3,   MCF2L,      SCGB2A1,
C20orf56, GALNT5,  MMP28,      SCNN1B,
CAPN13,   GARNL4,  MUC11,      SHANK2,
CLDN8,    GCG,     MUC12,      SIAT2,
COLM,     GNE,     MUC17,      SIAT4C,
CRIP1,    HGD,     MUC5B,      SIAT7F,
DNAJC12,  HOXB13,  NEDD4L,     SIDT1,
FAM3C,    INSL5,   PARP8,      SLC13A2,
FBX025,    IRS1,     PCDH21,    SLPI,
FLJ20366,  ISL1,     PI3,       SPINK5,
FLJ20989,  KIAA0703, PRAC,      SST,
KIAA0830,  PRAC2,    TFF1,
KIAA1913,  PTTG1IP,  TNFSF11,
LAMA1,     QPRT,     TPH1,
LGALS2,    QSCN6,    WFDC2,
RBM24,
ARF4或通过Affymetrix探针号:201097_s_at而检测到的基因,
BTG3或通过Affymetrix探针号:213134_x_at或205548_s_at而检测到的基因,
CHST5或通过Affymetrix探针号:221164_x_at或223942_x_at而检测到的基因,
CMAH或通过Affymetrix探针号:205518_s_at而检测到的基因,
CRYBA2或通过Affymetrix探针号:220136_s_at而检测到的基因
CTSE或通过Affymetrix探针号:205927_s_at而检测到的基因,
DKFZp761N1114或通过Affymetrix探针号:242372_s_at而检测到的基因,
EPB41L4A或通过Affymetrix探针号:228256_s_at而检测到的基因,
EPHA3或通过Affymetrix探针号:206070_s_at而检测到的基因,
FAS或通过Affymetrix探针号:204781_s_at而检测到的基因,
FER1L3或通过Affymetrix探针号:201798_s_at或211864_s_at而检测到的基因,
FLJ20152或通过Affymetrix探针号:218532_s_at或218510_x_at而检测到的基因,
FLJ23548或通过Affymetrix探针号:218187_s_at而检测到的基因,
FN1或通过Affymetrix探针号:211719_s_at或210495_x_at或212464_at或216442_x_at而检测到的基因,
FOXA2或通过Affymetrix探针号:210103_s_at而检测到的基因,
FRZB或通过Affymetrix探针号:203698_s_at而检测到的基因,
GDF15或通过Affymetrix探针号:221577_x_at而检测到的基因,
GJB3或通过Affymetrix探针号:205490_s_at而检测到的基因,
HOXD13或通过Affymetrix探针号:207397_s_at而检测到的基因,
INSM1或通过Affymetrix探针号:206502_s_at而检测到的基因,
MGC4170或通过Affymetrix探针号:212959_s_at而检测到的基因,
MLPH或通过Affymetrix探针号:218211_s_at而检测到的基因,
NEBL或通过Affymetrix探针号:203962_s_at而检测到的基因,
PLA2G2A或通过Affymetrix探针号:203649_s_at而检测到的基因,
PTPRO或通过Affymetrix探针号:208121_s_at而检测到的基因,
PYY或通过Affymetrix探针号:207080_s_at或211253_x_at而检测到的基因,
SH3BP4或通过Affymetrix探针号:222258_s_at而检测到的基因,
SLC28A2或通过Affymetrix探针号:207249_s_at而检测到的基因,
SLC2A10或通过Affymetrix探针号:221024_s_at而检测到的基因,
SPON1或通过Affymetrix探针号:213994_s_at或209437_s_at而检测到的基因,
STS或通过Affymetrix探针号:203769_s_at而检测到的基因
TM4SF11或通过Affymetrix探针号:204519_s_at而检测到的基因,
TUSC3或通过Affymetrix探针号:213432_s_at或209228_x_at而检测到的基因,
AQP8        LGALS2      EFNA1       ORF51E2
CCL11       C6ORF105    EMP1        PROM1
CLDN8       CCL11       FST         REG3A
MMP12       CD69        GHR         SCNN1B
P2RY14      CLC         HLA-DRB4    ST3GAL4
CCL18       CPM         HOXD10      ST6GALNA
ACSL1       DEFA6       HSD17B2     C6
AGR2        DHRS9       HSPCA
ASPN                     IGHD
                         MT1M
SCD或通过Affymetrix探针号:200832_s_at而检测到的基因,
ABCB1或通过Affymetrix探针号:211994_s_at而检测到的基因,
BTBD3或通过Affymetrix探针号:202946_s_at而检测到的基因,
CA1或通过Affymetrix探针号:205950_s_at而检测到的基因,
DHRS9或通过Affymetrix探针号:224009_x_at或223952_x_at而检测到的基因,
DKFZP564I1171或通过Affymetrix探针号:225457_s_at而检测到的基因,
EIF5A或通过Affymetrix探针号:201123_s_at而检测到的基因,
IGHD或通过Affymetrix探针号:214973_x_at而检测到的基因,
PCK1或通过Affymetrix探针号:208383_s_at而检测到的基因,
RBP4或通过Affymetrix探针号:219140_s_at而检测到的基因,
TRPM6或通过Affymetrix探针号:224412_s_at而检测到的基因,
UGT1A6或通过Affymetrix探针号:215125_s_at而检测到的基因。
本发明还提供用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包括:
访问训练数据,包括代表源自至少一个大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的表达训练数据和代表所述细胞或细胞群体与所述近端-远端来源的关联的近端-远端来源训练数据;
处理所述训练数据以产生代表所述基因的表达水平的线性或非线性组合的分类数据,所述分类数据被用于基于代表取自大肠的另外的细胞或细胞亚群中所述基因的表达的进一步的表达数据而产生进一步的近端-远端来源数据,所述进一步的近端-远端来源数据表明所述另外的细胞或细胞亚群的近端-远端来源。
有利地,所述处理可包括使用GeneRave处理所述训练数据。
优选地,所述基因亚组包括选自以下的基因:
通过Affymetrix探针号:218888_s_at而检测到的基因
通过Affymetrix探针号:225290_at而检测到的基因
通过Affymetrix探针号:226432_at而检测到的基因
通过Affymetrix探针号:231576_at而检测到的基因
通过Affymetrix探针号:235733_at而检测到的基因
通过Affymetrix探针号:236894_at而检测到的基因
通过Affymetrix探针号:239656_at而检测到的基因
通过Affymetrix探针号:242059_at而检测到的基因
通过Affymetrix探针号:242683_at而检测到的基因
通过Affymetrix探针号:230105_at而检测到的基因
通过Affymetrix探针号:230269_at而检测到的基因
通过Affymetrix探针号:238378_at而检测到的基因
通过Affymetrix探针号:239814-at而检测到的基因
通过Affymetrix探针号:239994_at而检测到的基因
通过Affymetrix探针号:240856_at而检测到的基因
通过Affymetrix探针号:242414_at而检测到的基因
通过Affymetrix探针号:244553_at而检测到的基因
通过Affymetrix探针号:217320而检测到的基因
通过Affymetrix探针号:236141而检测到的基因
通过Affymetrix探针号:236513而检测到的基因
通过Affymetrix探针号:238143而检测到的基因
ABHD5,      FAM3B,    IGFBP2,    POPDC3,
ADRA2A,     FLJ10884, KCNG1,     REG1A,
APOBEC1,    FLJ22761, KIFAP3,    SLC14A2,
C10orf45,   FTHFD,    LOC375295, SLC20A1,
C10orf58,   GCNT1,    ME3,       SLC23A3,
CCL8,       HAS3,     MEP1B,     SLC38A2,
CLDN15,     HOXB6,    NPY6R,     SLC9A3,
DEFA5,      HOXD4,    NR1H3,     TBCC,
EYA2,       HSD3B2,   HR1H4,     ZNF493,
OSTα,
PAP,
AFARP1或通过Affymetrix探针号:202234_s_at而检测到的基因,
ANPEP或通过Affymetrix探针号:202888_s_at而检测到的基因,
CCL13或通过Affymetrix探针号:206407_s_at而检测到的基因
CRYL1或通过Affymetrix探针号:220753_s_at而检测到的基因,
CYP2B6或通过Affymetrix探针号:206754_s_at而检测到的基因,
CYP2C18或通过Affymetrix探针号:208126_s_at而检测到的基因,
CYP2C9或通过Affymetrix探针号:214421_x_at或220017_x_at而检测到的基因,
EPB41L3或通过Affymetrix探针号:211776_s_at而检测到的基因
ETNK1或通过Affymetrix探针号:222262_s_at或224453_s_at而检测到的基因,
FAM45A或通过Affymetrix探针号:221804_s_at或222955_s_at而检测到的基因,
FGFR2或通过Affymetrix探针号:203639_s_at而检测到的基因,
GBA3或通过Affymetrix探针号:219954_s_at而检测到的基因,
GSPT2或通过Affymetrix探针号:205541_s_at而检测到的基因,
GULP1或通过Affymetrix探针号:215913_s_at而检测到的基因,
HOXA9或通过Affymetrix探针号:205366_s_at或214551_s_at而检测到的基因,
HOXC6或通过Affymetrix探针号:206858_s_at而检测到的基因,
HOXD3或通过Affymetrix探针号:206601_s_at而检测到的基因,
ME2或通过Affymetrix探针号:210153_s_at而检测到的基因,
MESP1或通过Affymetrix探针号:224476_s_at而检测到的基因,
MOCS1或通过Affymetrix探针号:213181_s_at而检测到的基因,
MSCP或通过Affymetrix探针号:218136_s_at或221920_s_at而检测到的基因,
NETO2或通过Affymetrix探针号:222774_s_at而检测到的基因,
OASL或通过Affymetrix探针号:210757_s_at而检测到的基因,
PITX2或通过Affymetrix探针号:207558_s_at而检测到的基因,
PRAP1或通过Affymetrix探针号:243669_s_at而检测到的基因,
SCUBE2或通过Affymetrix探针号:219197_s_at而检测到的基因,
SEC6L1或通过Affymetrix探针号:225457_s_at而检测到的基因,
SLC16A1或通过Affymetrix探针号:202236_s_at或209900_s_at而检测到的基因,
UGT1A3或通过Affymetrix探针号:208596_s_at而检测到的基因,
UGT1A8或通过Affymetrix探针号:221305_s_at而检测到的基因
ACACA,    FMOD,    LOC151162,  S100P,
C13orf11, FRMD3,   MCF2L,      SCGB2A1,
C20orf56, GALNT5,  MMP28,      SCNN1B,
CAPN13,   GARNL4,  MUC11,      SHANK2,
CLDN8,    GCG,     MUC12,      SIAT2,
COLM,     GNE,     MUC17,      SIAT4C,
CRIP1,    HGD,     MUC5B,      SIAT7F,
DNAJC12,  HOXB13,  NEDD4L,     SIDT1,
FAM3C,    INSL5,   PARP8,      SLC13A2,
FBX025,   IRS1,    PCDH21,     SLPI,
FLJ20366, ISL1,    PI3,        SPINK5,
FLJ20989, KIAA0703,PRAC,       SST,
KIAA0830, PRAC2,   TFF1,
KIAA1913, PTTG1IP, TNFSF11,
LAMA1,    QPRT,    TPH1,
LGALS2,   QSCN6,   WFDC2,
RBM24,
ARF4或通过Affymetrix探针号:201097_s_at而检测到的基因,
BTG3或通过Affymetrix探针号:213134_x_at或205548_s_at而检测到的基因,
CHST5或通过Affymetrix探针号:221164_x_at或223942_x_at而检测到的基因,
CMAH或通过Affymetrix探针号:205518_s_at而检测到的基因,
CRYBA2或通过Affymetrix探针号:220136_s_at而检测到的基因
CTSE或通过Affymetrix探针号:205927_s_at而检测到的基因,
DKFZp761N1114或通过Affymetrix探针号:242372_s_at而检测到的基因,
EPB41L4A或通过Affymetrix探针号:228256_s_at而检测到的基因,
EPHA3或通过Affymetrix探针号:206070_s_at而检测到的基因,
FAS或通过Affymetrix探针号:204781_s_at而检测到的基因,
FER1L3或通过Affymetrix探针号:201798_s_at或211864_s_at而检测到的基因,
FLJ20152或通过Affymetrix探针号:218532_s_at或218510_x_at而检测到的基因,
FLJ23548或通过Affymetrix探针号:218187_s_at而检测到的基因,
FN1或通过Affymetrix探针号:211719_s_at或210495_x_at或212464_at或216442_x_at而检测到的基因,
FOXA2或通过Affymetrix探针号:210103_s_at而检测到的基因,
FRZB或通过Affymetrix探针号:203698_s_at而检测到的基因,
GDF15或通过Affymetrix探针号:221577_x_at而检测到的基因,
GJB3或通过Affymetrix探针号:205490_s_at而检测到的基因,
HOXD13或通过Affymetrix探针号:207397_s_at而检测到的基因,
INSM1或通过Affymetrix探针号:206502_s_at而检测到的基因,
MGC4170或通过Affymetrix探针号:212959_s_at而检测到的基因,
MLPH或通过Affymetrix探针号:218211_s_at而检测到的基因,
NEBL或通过Affymetrix探针号:203962_s_at而检测到的基因,
PLA2G2A或通过Affymetrix探针号:203649_s_at而检测到的基因,
PTPRO或通过Affymetrix探针号:208121_s_at而检测到的基因,
PYY或通过Affymetrix探针号:207080_s_at或211253_x_at而检测到的基因,
SH3BP4或通过Affymetrix探针号:222258_s_at而检测到的基因,
SLC28A2或通过Affymetrix探针号:207249_s_at而检测到的基因,
SLC2A10或通过Affymetrix探针号:221024_s_at而检测到的基因,
SPON1或通过Affymetrix探针号:213994_s_at或209437_s_at而检测到的基因,
STS或通过Affymetrix探针号:203769_s_at而检测到的基因
TM4SF11或通过Affymetrix探针号:204519_s_at而检测到的基因,
TUSC3或通过Affymetrix探针号:213432_s_at或209228_x_at而检测到的基因,
AQP8         LGALS2      EFNA1       ORF51E2
CCL11        C6ORF105    EMP1        PROM1
CLDN8        CCL11       FST         REG3A
MMP12        CD69        GHR         SCNN1B
P2RY14       CLC         HLA-DRB4    ST3GAL4
CCL18        CPM         HOXD10      ST6GALNA
ACSL1        DEFA6       HSD17B2     C6
AGR2         DHRS9       HSPCA
ASPN                     IGHD
MT1M
SCD或通过Affymetrix探针号:200832_s_at而检测到的基因,
ABCB1或通过Affymetrix探针号:211994_s_at而检测到的基因,
BTBD3或通过Affymetrix探针号:202946_s_at而检测到的基因,
CA1或通过Affymetrix探针号:205950_s_at而检测到的基因,
DHRS9或通过Affymetrix探针号:224009_x_at或223952_x_at而检测到的基因,
DKFZP564I1171或通过Affymetrix探针号:225457_s_at而检测到的基因,
EIF5A或通过Affymetrix探针号:201123_s_at而检测到的基因,
IGHD或通过Affymetrix探针号:214973_x_at而检测到的基因,
PCK1或通过Affymetrix探针号:208383_s_at而检测到的基因,
RBP4或通过Affymetrix探针号:219140_s_at而检测到的基因,
TRPM6或通过Affymetrix探针号:224412_s_at而检测到的基因,
UGT1A6或通过Affymetrix探针号:215125_s_at而检测到的基因。
有利地,所述基因亚组可包括7个基因。
优选地,所述7个基因是SEC6L1,PRAC,SPINK5,SEC6L1,ANPEP,DEFA5,和CLDN8。
在另一个优选实施方式中,所述基因亚组是一或多个以下亚组:
(i)SCD或通过Affymetrix探针号:200832_s_at而检测到的基因,
MMP12
P2RY14
CLDN8
ETNK1(ii)PCP4
SLC28A2或通过Affymetrix探针号:207249_s_at而检测到的基因,
CCL18
RBP4或通过Affymetrix探针号:219140_s_at而检测到的基因,
DKFZP564I1171
PRAC
(iii)EIF5A或通过Affymetrix探针号:201123_s_at而检测到的基因,
IGFBP2
GDF15或通过Affymetrix探针号:221577_s_at而检测到的基因,
DKFZP564I1171或通过Affymetrix探针号:225457_s_at而检测到的基因,
MUC12
(iv)HLA-DRB4
HOXB13
INSL5
ETNK1或通过Affymetrix探针号:222262_s_at而检测到的基因,
(v)ANPEP或通过Affymetrix探针号:202888_s_at而检测到的基因,
DEFA5
CHST5或通过Affymetrix探针号:221164_x_at而检测到的基因,
通过Affymetrix探针号:226432_at而检测到的基因
COLM
(vi)SCNN1B
FN1或通过Affymetrix探针号:211719_x_at而检测到的基因,
ETNK1或通过Affymetrix探针号:224453_s_at而检测到的基因,
通过Affymetrix探针号:225290_at而检测到的基因
OSTα
HOXD10
探针号:230269
(vii)SLC20A1
HSPCA
通过Affymetrix探针号:217320_at而检测到的基因
CCL18
HOXB13
(viii)CD69
OLFM4或通过Affymetrix探针号:212768_s_at而检测到的基因,
UGT1A6或通过Affymetrix探针号:215125_s_at而检测到的基因,
CHST5或通过Affymetrix探针号:223942_x_at而检测到的基因,
通过Affymetrix探针号:231576_at而检测到的基因
MUC11
(ix)PLA2G2A或通过Affymetrix探针号:203649_s_at而检测到的基因,
REG3A
CCL13或通过Affymetrix探针号:206407_s_at而检测到的基因,
GCG
UGT1A3或通过Affymetrix探针号:208596_s_at而检测到的基因,
FN1或通过Affymetrix探针号:210485_x_at而检测到的基因,
MT1M
OR51E2
(x)SLC16A1或通过Affymetrix探针号:202236_s_at而检测到的基因,
WFDC2
S100P
PTPRO或通过Affymetrix探针号:208121_s_at而检测到的基因,
CCL11
ASPN
FAM3B
(xi)EMP1
NEBL或通过Affymetrix探针号:203962_s_at而检测到的基因,
TFF1
CMAH或通过Affymetrix探针号:205518_s_at而检测到的基因,
PYY或通过Affymetrix探针号:207080_s_at而检测到的基因,
ECAT11
NETO2或通过Affymetrix探针号:222774_s_at而检测到的基因,
(xii)HSD17B2
HGD
CA1或通过Affymetrix探针号:205950_s_at而检测到的基因,
CPM
LGALS2
IGHD或通过Affymetrix探针号:214973_x_at而检测到的基因,
FN1或通过Affymetrix探针号:216442_xs_at而检测到的基因,
(xiii)CLC
DEFA6
FN1或通过Affymetrix探针号:212464_s_at而检测到的基因,
FST
通过Affymetrix探针号:236513_at而检测到的基因
通过Affymetrix探针号:240856_at而检测到的基因
ETNK1
(xiv)PITX2或通过Affymetrix探针号:207558_s_at而检测到的基因,
DHRS9或通过Affymetrix探针号:224009_x_at而检测到的基因,
DKFZp761N1114
KIAA1913
(xv)GHR
HSD3B2
MEP1B
HOXA9或通过Affymetrix探针号:213651_s_at而检测到的基因,
TRPM6或通过Affymetrix探针号:224412_s_at而检测到的基因,
通过Affymetrix探针号:239994_at而检测到的基因
(xvi)SPINK5
PCK1或通过Affymetrix探针号:208383_s_at而检测到的基因,
ADRA2A
NQO1或通过Affymetrix探针号:210519_s_at而检测到的基因,
GBA3
通过Affymetrix探针号:228004_at而检测到的基因
(xvii)SCGB2A1
NR1H4
NETO2或通过Affymetrix探针号:218888_s_at而检测到的基因,
ST6GALNAC6
(xviii)NEBL
PROM1或通过Affymetrix探针号:204304_s_at而检测到的基因,
AGR2
REG1A
UGT1A8或通过Affymetrix探针号:221305_s_at而检测到的基因,
DKFZp761N1114或通过Affymetrix探针号:242372_s_at而检测到的基因,
(xix)ACSL1
ST3GAL4
GBA3或通过Affymetrix探针号:219954_s_at而检测到的基因,
SLC2A10或通过Affymetrix探针号:221024_s_at而检测到的基因,
DHRS9或通过Affymetrix探针号:223952_s_at而检测到的基因,
LAMA1
(xx)EFNA1
BTBD3或通过Affymetrix探针号:202946_s_at而检测到的基因,
PI3
ABCB1或通过Affymetrix探针号:209994_s_at而检测到的基因,
C10orf45·
BCMP11
C6orf105
CAPN13
CPM
通过Affymetrix探针号:236141_at而检测到的基因
通过Affymetrix探针号:238143_at而检测到的基因。
提到“近端-远端来源”应该理解为指的是近端来源或远端来源的细胞或表达数据。提到“细胞或细胞亚群”、“大肠”、“近端”、“远端”、“来源”、“位置”、“基因”和“表达”,应该理解为具有前面所给出的含义。
本发明还提供检测系统,其具有用于实施上述任一方法的成分。
本发明还提供计算机可读形式的存储介质,其具有存储于其上的用于实施上述任一方法的程序指令。
本发明还提供检测系统,其包括:
用于访问训练数据的装置,所述训练数据包括代表源自至少一个大肠的细胞或细胞群体中的基因表达的表达训练数据和代表所述细胞或细胞群体与所述近端-远端来源的关联的近端-远端来源训练数据;
使用多变量分析处理所述训练数据以产生代表所述基因的表达水平的线性或非线性组合的分类数据的装置,所述分类数据被用于基于代表取自大肠的另外的细胞或细胞亚群中所述基因的表达的进一步的表达数据而产生近端-远端来源数据,所述近端-远端来源数据表明所述另外的细胞或细胞亚群的近端-远端来源。
如前所详述,本发明的方法用于根据以下事实鉴定异常细胞,即远端或近端来源的细胞不表达该解剖学来源特征性的基因表达谱,而是表现出异常的表达谱,因此应该进行进一步分析以确定所述异常性的程度和性质。例如,某些结直肠腺瘤或腺癌细胞由于发生细胞肿瘤性转化所特有的去分化事件而表现出错误的近端-远端大肠表达谱。
因此,在另一个方面本发明提供确定大肠中的细胞异常性或以大肠中的细胞异常性为特征的疾病的发生或发生倾向性的方法,所述方法包括,根据如前所述的方法之一,确定源自大肠中的已知近端或远端来源的生物学样品的近端-远端基因表达谱,其中检测到与正常的近端-远端大肠基因表达谱不一致的基因表达谱表明表达所述谱的细胞或细胞群体的异常性。
提到“基因表达谱”应该理解为指的是前面所述的单变量或多变量基因表达结果。例如,所述的“谱(profile)”可与前面讨论的一或多种标记物基因的表达水平相关联或与前面所述的基因或基因的组的多变量分析结果相关联。因此,提到“近端-远端基因表达谱”,指的是近端大肠来源细胞特征性的基因表达谱和远端大肠来源细胞特征性的基因表达谱。
应该理解,作为本发明的分析对象的细胞具有已知的近端或远端来源。该信息可通过任何合适的方法而确定,但最简便的方法是通过活检从大肠内确定位置处分离所述生物学样品。不过,不排除其他合适的收集或确定生物学样品解剖学来源的方法。
生物学样品中细胞或细胞群体的异常性是基于检测到与其具体近端或远端来源处的细胞正常情况下特有的基因表达谱不一致的基因表达谱。“不一致”意味着所分析的一或多种基因的表达水平与在正常对照物中通常观察到的情况不符合。
本发明的方法可作为一次式测试(one off test)或作为对那些被认为具有发生疾病的风险的个体进行持续监测的方法,或作为治疗性或预防性处理方案(例如消除那些以异常基因表达谱为特征的患病细胞)之有效性的监测方法。在这些情况中,绘制出任何一或多种类型的生物学样品中的位置标记物表达水平或表达谱的调变是个体状态或目前使用的治疗性或预防性方案之有效性的重要指标。因此,本发明的方法应该被理解为包括监测个体的位置标记物水平或表达谱相对于正常水平(如前面所定义的)或相对于从所述个体的生物学样品中测定的一或多种早期标记物水平或表达谱的调变情况。
用于测试生物学样品中所表达的位置标记物的手段可通过本领域人员熟知的任何合适的方法而实现,例如但不限于:
(i)体内检测
可在施用能够揭示肠道组织中标记物的表达发生改变的成像探针或试剂之后进行分子成像。
分子成像(Moore et al.,BBA,1402:239-249,1988;Weissleder et al.,Nature Medicine 6:351-355,2000)是分子表达的体内成像,其与目前使用“经典的”诊断成像技术,例如X-线、计算机体层成像(CT)、MRI、正电子发射体层成像(PET)或内窥镜,所观察的宏观特征相关联。
(ii)通过荧光原位杂交(FISH)检测细胞内RNA表达的上调或通过例如定量性逆转录酶聚合酶链反应(QRTPCR)或流式细胞术定量竞争性RT-PCR产物(Wedemeyer et al.,Clinical Chemistry 48:91398-1405,2002)等方法检测细胞提取物内RNA表达的上调。
(iii)评价来自细胞提取物的RNA表达谱,例如通过阵列技术(Alonet al.,Proc.Natl.Acad.Sci.USA:96,6745-6750,June 1999)。
“微阵列”是在固相支持物表面形成的线性或多维阵列,优选地具有离散的区域(discrete regions),各区域具有限定的范围。离散区域在微阵列上的密度取决于单个固相支持物表面上待检测的靶多核苷酸的总数,优选地至少为大约50/cm2、更优选地至少为大约100/cm2、甚至更优选地至少为大约500/cm2、且进一步更优选地至少为大约1,000/cm2。在本文中,DNA微阵列是置于芯片或其他表面上的用于扩增或克隆靶多核苷酸的寡核苷酸探针阵列。由于各特定探针组在阵列中的位置是已知的,因此可基于靶多核苷酸与微阵列中的特定位置的结合而确定其性质。
DNA微阵列技术的新进展使得能够在单个固相支持物上对多个靶核酸分子进行大规模测定。美国专利5,837,832(Chee et al.)和有关专利申请公开了固定化用于杂交并检测样品内的特定核酸序列的寡核苷酸探针阵列。将从感兴趣的组织分离到的感兴趣的靶多核苷酸与DNA芯片杂交,并基于靶多核苷酸与离散的探针位置相杂交的优先性和程度而检测特定序列。阵列的一个重要用途是用于分析差异性基因表达,其中比较不同细胞或组织(通常是感兴趣的组织和对照组织)的基因表达谱并鉴定相应组织之间基因表达的任何差别。此类信息可用于鉴定特定组织类型中表达的基因类型以及基于所述表达谱而诊断疾病。
在一个实例中,对来自感兴趣的样品的RNA进行逆转录以获得标记的cDNA。见美国专利6,410,229(Lockhart et al.)。然后将cDNA与以已知顺序排布在芯片或其他表面上的具有已知序列的寡核苷酸或cDNA杂交。在另一个实例中,RNA分离自生物学样品并与上面锚定了cDNA探针的芯片杂交。标记的cDNA与之相杂交的寡核苷酸提供了cDNA的序列信息,而标记的杂交RNA或cDNA的量提供了相对代表感兴趣的RNA或cDNA的估计值。见Schena,et al.Science 270:467-470(1995)。例如,DeRisi,et al.(Nature Genetics 14:457-460(1996))公开了使用cDNA微阵列来分析人类癌症的基因表达模式。
在优选的实施方式中,制备对应于对象核酸的核酸探针。附着于生物芯片上的核酸探针被设计为与生物学样品中的核酸基本上互补,以便靶序列与本发明的探针发生特异性杂交。这种互补性不必是完全性的,因为可以有任意数量的可能干扰靶序列与本发明的单链核酸之间的杂交的碱基对错配。预期基因在核苷酸水平的总体同源性可能为大约40%或更高,可能为大约60%或更高,且甚至更可能为大约80%或更高;并且,此外还应该有大约8-12个核苷酸或更长的相应的连续序列。不过,如果突变的数量如此之大以致于即便在杂交的最低严格性条件下仍不发生杂交,则该序列不是互补性靶序列。因此,“基本上互补”在此指的是探针与靶序列的互补性足以使得在正常反应条件下、特别是在高严格性条件下实现杂交。
核酸探针通常是单链的,但也可以是部分单链和部分双链的。探针的链性(strandedness)取决于靶序列的结构、组成和特性。通常而言,寡核苷酸探针的长度为大约6,8,10,12,15,20,30至大约100个碱基,优选地为大约10至大约80个碱基,特别优选地为15至大约40个碱基。也就是说,通常不会将这个基因用作探针。在一些实施方式中,可以使用多达数百个碱基的更长的探针。探针要具有足够的特异性,以便在本领域人员已知的条件下与互补靶序列杂交。在杂交过程中,探针序列与其所杂交的互补模板(靶)序列之间的错配通常不超过15%,通常不超过10%,且优选地不超过5%(经BLAST确定(默认设置))。
寡核苷酸探针可包括核酸中常见的天然存在的杂环碱基(尿嘧啶、胞嘧啶、胸腺嘧啶、腺嘌呤和鸟嘌呤)以及修饰的碱基和碱基类似物。适合探针与靶序列杂交任何修饰的碱基或碱基类似物均可用于本发明。探针的糖或糖苷可包括脱氧核糖、核糖、和/或这些糖的修饰形式,例如,2′-O-烷基核糖。在优选的实施方式中,所述糖部分是2′-脱氧核糖;不过,任何适合于探针与靶序列杂交的糖部分均可使用。
在一个实施方式中,探针的核苷酸单元通过磷酸二酯键连接,这是本领域人员已知的。在另外的实施方式中,核苷酸间的连键可包括本领域人员已知的适合于探针特异性杂交的任何连键,包括但不限于硫代磷酸酯、甲基膦酸酯(methylphosphonate)、氨基磺酸酯(如美国专利5,470,967)和聚酰胺(即,肽核酸)。肽核酸请参见Nielsen et al.(1991)Science 254:1497-1500、美国专利5,714,331、和Nielsen(1999)Curr.Opin.Biotechnol.10:71-75。
在某些实施方式中,探针可以是嵌合分子;即,在同一引物内可包含多于一种类型的碱基或糖亚基、和/或多于一种类型的连键。探针可包含促进其与靶序列杂交的部分,这是本领域人员已知的,例如,嵌入剂和/或小沟结合物。碱基、糖和核苷酸间连键等的变化以及探针上存在的任何吊链(pendant group)均适合于探针以序列特异性方式与其靶序列相结合的能力。在这一范围内可进行大量的结构性修饰。有利地,本发明的探针可具有使其允许进行信号扩增的结构特征,此类结构特征是,例如,分支的DNA探针,例如Urdea et al.(Nucleic Acids Symp.Ser.,24:197-200(1991))或欧洲专利EP-0225,807中所述的那些特征。此外,制备用于形成探针的各种杂环碱基、糖、核苷以及核苷酸的合成方法,以及具有特定的预定序列的寡核苷酸的制备,均是本领域人员熟知的。用于合成寡核苷酸的优选方法包括美国专利5,419,966的教导。
可为特定靶核酸设计多个探针以便将靶核酸的多态性和/或二级结构、数据的冗余性等等均考虑在内。在一些实施方式中,如果对每个序列使用多于一种的探针,可使用重叠探针或者是针对单一靶基因的不同部分的探针。也就是说,可使用两种、三种、四种或者更多种探针以便为特定靶建立冗余性。探针可以是重叠的(即,具有部分相同的序列),或是对基因的不同序列具有特异性。如果要根据本发明检测多个靶多核苷酸,对应于特定靶多核苷酸的每种探针或探针组可被置于所述微阵列的离散区域。
探针可以是在溶液中,例如位于孔或微阵列的表面,或附着于固相支持物。可使用的固相支持物材料的实例包括塑料、陶瓷、金属、树脂、凝胶和膜。固相支持物的可用类型包括板、珠、磁性材料、微珠、杂交芯片、膜、晶体、陶瓷和自组装单层。一个实例包括二维或三维基质,例如具有多个探针结合位点的凝胶或杂交芯片(Pevzner et al.,J.Biomol.Struc.&Dyn.9:399-410,1991;Maskos and Southern,Nuc.Acids Res.20:1679-84,1992)。可使用杂交芯片来构建非常大的探针阵列,然后用于与靶核酸杂交。对芯片的杂交模式进行分析可有助于鉴定靶核苷酸序列。可采用手工或计算机分析模式,但通过杂交进行位置性测序这一方式显然导致使用计算机分析和自动化。在另一个实例中,可组合使用固相结构支持物上的Affymetrix芯片和基于荧光珠的方法。在另一个实例中,可使用cDNA微阵列。就此而言,Lockkart et al(即,在固相原位Affymetrix合成探针)所公开的寡核苷酸是特别优选的,即光刻技术(photolithography)。
本领域人员能够理解,可使用多种方法将核酸附着于或固定化于固相支持物。“固定化”在此指的是核酸探针与固相支持物之间的结合足以在结合、洗涤、分析和移除等条件下保持稳定。结合可以是共价的或非共价的。“非共价结合”及其语法上的等同形式在此指的是一或多种静电、亲水性和疏水性相互作用。非共价结合包括分子,例如抗生蛋白链菌素,共价附着于支持物,而生物素化的探针非共价结合于抗生蛋白链菌素。“共价结合”及其语法上的等同形式在此指的是固相支持物和探针这两个部分经至少一种键相附着,这包括σ键、π键和配位键。共价键可在探针与固相支持物之间直接形成,或可通过交联剂或通过在固相支持物或探针或两者上纳入特异性反应基团而形成。固定化也可包括共价和非共价相互作用的组合。
核酸探针可通过共价结合(例如通过缀合于偶联剂)或通过共价或非共价结合(例如静电相互作用、氢键或抗体-抗原偶联)或通过它们的组合而附着于固相支持物。典型的偶联剂包括生物素/抗生物素蛋白、生物素/抗生蛋白链菌素、金黄色葡萄球菌(Staphylococcus aureus)蛋白A/IgG抗体Fc片段和抗生蛋白链菌素/蛋白A嵌合体(T.Sano and C.R.Cantor,Bio/Technology 9:1378-81(1991))、或它们的衍生物或其组合。核酸可通过光致断裂键(photocleavable bond)、静电键、二硫键、肽键、二酯键或这些类型的键的组合而附着于固相支持物。阵列还可通过选择性释放型键附着于固相支持物,所述选择性释放型键例如为4,4′-二甲氧三苯甲基或其衍生物。可用的衍生物包括3或4[双-(4-甲氧苯基)]-甲基-苯甲酸、N-琥铂酰亚胺基-3或4[双-(4-甲氧苯基)]-甲基-苯甲酸、N-琥铂酰亚胺基-3或4[双-(4-甲氧苯基)]-羟甲基-苯甲酸、N-琥铂酰亚胺基-3或4[双-(4-甲氧苯基)]-氯甲基-苯甲酸、以及这些酸的盐。
通常而言,探针以多种方式附着于生物芯片,这是本领域人员所能够理解的。如本文所述,核酸可以先合成并随后附着于生物芯片,或者可直接在生物芯片上合成。
生物芯片包括合适的固相基材。“基材”或“固相支持物”或其他语法上的等同形式在此指的是任何这样的材料,其可被修饰以便含有适合于核酸探针的附着或结合的离散的各个位点且适合用于至少一种检测方法。本发明的固相支持物可以是适合于支持核苷酸的杂交和合成的任何固体材料。优选地,固相支持物包含至少一种基本上刚性的表面,其上可固定化引物并进行逆转录酶反应。多核苷酸微阵列元件与之稳定结合的基材可由多种材料制造,包括塑料、陶瓷、金属、丙烯酰胺、纤维素、硝酸纤维素、玻璃、聚苯乙烯、聚乙烯乙酸乙烯酯、聚丙烯、聚甲基丙烯酸酯、聚乙烯、聚氧化乙烯、聚硅酸盐、聚碳酸酯、Teflon
Figure A200780027808D0090104043QIETU
、碳氟化合物、尼龙、硅橡胶、聚酐、聚乙醇酸、聚乳酸、多正酯类、polypropylfumerate、胶原、葡糖氨基聚糖类、和聚氨基酸。基材可以是二维的或三维的形式,例如凝胶、膜、薄膜、玻璃、板、圆筒、珠、磁珠、光学纤维、织物纤维等等。阵列的优选形式是三维阵列。优选的三维阵列是经标记的珠的集合。各个标记的珠上附着了不同的引物。标记物可通过信号手段(例如颜色)(Luminex,Illumina)和电磁场(Pharmaseq)手段来检测。标记物可通过信号手段来检测,并可远程检测标记的珠上的信号(例如使用光导纤维)。固相支持物的大小可以是用于DNA微阵列技术的任何标准微阵列的大小,且其大小可以裁剪以适合用于进行本发明的反应的具体仪器。通常而言,基材允许进行光学检测且不发出可感知的荧光。
在一个实施方式中,可使用化学官能团对生物芯片的表面和探针进行衍生化以便随后使两者附着。因此,例如,可用于对生物芯片进行衍生化的化学官能团包括,但不限于,氨基、羧基、氧基(oxo groups)和巯基,其中特别优选氨基。使用这些官能团,探针可通过官能团附着于生物芯片。例如,含有氨基的核酸可例如使用本领域已知的连接物附着于包含氨基的表面;例如,同双官能连接物或异双官能理解为是已知的(检1994 PierceChemical Company目录,交联技术一节,第155-200页,通过引用并入本申请)。此外,在一些情况中,可使用其他的连接物,例如烷基(包括取代的和杂烷基)。
在这种实施方式中,按照现有技术已知的方式合成寡核苷酸,然后附着于固相支持物的表面。本领域人员已知,可将5′或3′末端附着于固相支持物,或可通过内部核苷实现附着。在另一个实施方式中,在固相支持物上的固定化可以很强,但却是非共价的。例如,可制备生物素化的寡核苷酸,其与包被的抗生蛋白链菌素的表面共价结合,以产生附着。
可使用任何方便的技术产生阵列,例如制备多核苷酸微阵列元件并将其稳定地结合在表面。或者,可按照本领域已知的方式在表面合成寡核苷酸。多种不同的阵列构造和方法均是本领域人员已知的并可参见WO95/25116和WO 95/35505(光刻技术)、美国专利5,445,934(通过光刻技术原位合成)、美国专利5,384,261(机械方式指导的流体通路原位合成);和美国专利5,700,637(通过点样、印刷或偶联而合成);在此通过引用将上述文献的全文并入本申请。另一种将DNA偶联于珠的方法是使用附着于DNA末端的特异性配体,使之连接于附着于珠的配体结合分子。可能的配体结合配偶体对包括生物素-抗生物素蛋白/抗生蛋白链菌素、或各种抗体/抗原对例如地高辛-抗地高辛抗体(Smith et al.,Science 258:1122-1126(1992))。通过使用标准的偶联剂将DNA的5′-磷酸通过氨基磷酸酯连接于包被的微球,可实现将DNA共价化学附着于支持物。将寡核苷酸固定化于固态基材的方法是已知的。参见Pease et al.,Proc.Natl.Acad.Sci.USA91(11):5022-5026(1994)。将寡核苷酸附着于固态基材的优选的方法见Guoet al.,Nucleic Acids Res.22:5456-5465(1994)。可通过原位DNA合成(Maskos and Southern,见上)或通过化学合成的寡核苷酸的共价附着(Guo etal.,见上)并与机器人阵列技术相组合而实现固定化。
除了以生物芯片为代表的固相技术,还可利用液相阵列来定量基因表达。此类系统之一是动态聚合酶链反应(PCR)。动态PCR运行同时扩增和定量特异性核酸序列。这种特异性源自合成的寡核苷酸引物,所述引物被设计为优先附着于靶位点的侧翼单链核酸序列。这对寡核苷酸引物在各条靶序列链上形成特异性的非共价结合的复合体。这些复合体促进双链DNA在相对的方向上进行体外转录。对反应混合物进行的温度循环产生了连续的引物结合、转录、以及核酸再次解链为单个链的循环。结果是靶dsDNA产物呈对数级增加。可通过使用嵌入型染料或序列特异性探针对产物进行实时定量。SYBR(r)Green 1是嵌入型染料的一个实例,其优先结合dsDNA,导致荧光信号随之增加。序列特异性探针例如TaqMan
Figure A200780027808D0090104043QIETU
技术所用的探针,由共价结合于寡核苷酸的相对末端的荧光染料和淬火分子组成。探针被设计为选择性结合所述两条引物之间的靶DNA序列。如果PCR反应过程中合成了DNA链,则聚合酶的核酸外切酶活性可将荧光染料从探针上裂解下来,产生信号淬灭(signal dequenching)。探针信号方法与嵌入型染料方法相比更具特异性,但在各种情况中,信号强度与产生的dsDNA产物成比例。各类型的定量方法可在多孔液相阵列中使用,每个孔代表对感兴趣的核酸具有特异性的引物和/或探针。如果使用的是来自组织或细胞系的信使RNA制备物,探针/引物反应的阵列可同时定量多种感兴趣的基因产物的表达。见Germer et al.,Genome Res.10:258-266(2000);Heid et al.,Genome Res.6:986-994(1996)。
(iv)测定细胞提取物中位置标记物蛋白水平的改变,例如通过免疫测定法。
可采用本领域人员所熟知的多种合适的方法中的任一种来测试生物学样品中的蛋白源性位置标记物表达产物。合适的方法的实例包括,但不限于,使用抗体对组织切片进行筛选、活检标本或体液样品。
对于使用基于抗体的诊断方法,可采用多种方式确定标记物蛋白的存在,例如通过免疫印迹、ELISA或流式细胞术方法。当然,这些方法包括单位点和双位点或“三明治”测定法(非竞争性类型以及常规竞争性结合测定法)。这些测定法还包括标记的抗体与靶直接结合。
三明治测定法是最有用和常用的测定法之一,适合用于本发明。三明治测定技术有多种变化形式,均可用于本发明。简言之,在典型的正向测定法中,将未标记的抗体固定化于固相基材并将待测试的样品与结合的分子相接触。经过一段合适的温育阶段之后,该段时间足以允许形成抗体-抗原复合物,然后加入对抗原具有特异性的第二抗体,其标记了能够产生可检测信号的报告分子,并温育,温育时间使得足以形成另一种抗体-抗原-标记的抗体的复合物。将任何未反应的物质洗去,并通过观察报告分子产生的信号而确定抗原的存在。可通过简单观察可视的信号而对结果进行定性,或者可通过与对照样品进行比较而对结果进行定量。正向测定法的变化形式包括同时测定,其中将样品和标记的抗体同时添加给所述的结合的抗体。这些技术是本领域人员熟知的,并包括任何显而易见的小的变化。
在典型的正向三明治测定法中,对标记物或其抗原性部分具有特异性的第一抗体被共价地或被动地结合于固相表面。固相表面典型地是玻璃或聚合物,最常用的聚合物是纤维素、聚丙烯酰胺、尼龙、聚苯乙烯、聚氯乙烯或聚丙烯。固相支持物可以是管、珠、微板的盘、或其他适合于进行免疫测定的表面。结合方法是本领域已知的且通常包括交联、共价结合或物理吸附,在制备测试样品时要洗涤聚合物-抗体复合物。然后将测试量的待测样品加入至固相复合物并温育一段时间,该段时间(例如2-40分钟)足以在合适的条件下(例如25℃)允许存在于抗体内的任何亚基结合。温育阶段之后,洗涤抗体亚单位固相并干燥,并与对抗原的部分具有特异性的第二抗体温育。第二抗体连接于报告分子,后者可用于指示第二抗体与抗原的结合。
一种替代性方法包括将生物学样品中的靶分子固定化,然后将固定化的靶暴露于特异性抗体,该抗体可标记有或未标记报告分子。根据靶的量以及报告分子信号的强度,通过直接标记所述抗体可以来检测所结合的靶。或者,将特异于第一抗体的标记的第二抗体暴露于所述的靶-第一抗体复合物,以形成靶-第一抗体-第二抗体的第三复合物。通过报告分子所发出的信号来检测复合物。
在本说明书中,“报告分子”指的是一种分子,其化学性质使得其提供能够通过分析方法而鉴定的信号,由此允许对结合了抗原的抗体进行检测。检测可以是定性的或定量的。此类测定法中最常用的报告分子是酶、荧光团或含有放射性核素的分子(即,放射性同位素)和化学发光分子。
对于酶免疫测定,酶被缀合于第二抗体,通常是通过戊二醛或过碘酸盐。不过,容易理解的是存在多种多样的缀合技术,且均是本领域人员容易获得的。常用的酶包括辣根过氧化物酶、葡萄糖氧化酶、β-半乳糖苷酶和碱性磷酸酶等等。作为与这些具体的酶一起使用的底物,通常选择那些经相应的酶水解后能够产生可检测的颜色改变的底物。合适的酶包括碱性磷酸酶过氧化物酶。也可使用荧光性底物,而非上述的显色动物,荧光性底物产生的是荧光产物。在所有情况中,均将酶标抗体添加至第一抗体半抗原复合物,允许它们结合,然后洗去多余的试剂。然后将含有合适底物的溶液添加至抗体-抗原-抗体复合物。底物将与连接于第二抗体的酶反应,产生定性的视觉信号,后者可被进一步定量,通常是使用分光光度法,以表明存在于样品中的抗原的量。“报告分子”还包括使用细胞凝集法或凝集抑制法,例如乳胶颗粒上的红细胞等等。
或者,可将荧光化合物,例如荧光素和罗丹明,化学偶联于抗体而不改变其结合能力。当使用特定波长的光进行照射时,荧光染料标记的抗体会吸收光能,在该分子中诱导激发状态,随后释放出能够被光学显微镜检测到的具有特征性颜色的光。在EIA中,使得荧光标记的抗体与第一抗体-半抗原复合物相结合。洗去未结合的试剂之后,将所得第三复合物暴露于具有合适波长的光,观察到的荧光表明感兴趣的半抗原的存在。免疫荧光和EIA技术均是本领域的成熟技术,且对本发明的方法而言是特别优选的。不过,也可使用其他报告分子,例如放射性同位素、化学发光或生物发光分子。
(v)确定细胞表面的蛋白质位置标记物的表达改变,例如通过免疫组化。
(vi)基于除了上述(iv)和(vi)中详述的方法之外的任何合适的功能性测试、酶性测试或免疫学测试来确定蛋白质表达的改变。
作为常规的程序,本领域人员能够确定一种特定的方法是否适合于特定类型的生物学样品。
无意于以任何形式限制本发明,且如上所详述,可通过本领域已知的多种方法测定基因表达水平。例如,可测定基因转录或翻译产物。测定基因转录产物,即,RNA,例如,可通过杂交测定法、失控测定法(run-offassays)、Northern印迹、或本领域已知的其他方法。
杂交测定法通常涉及使用与单链RNA转录产物杂交的寡核苷酸探针。因此,寡核苷酸探针互补于转录的RNA表达产物。典型地,序列特异性探针可与RNA或cDNA杂交。在本文中,“核酸探针”可以是与互补序列杂交的DNA探针或RNA探针。本领域人员知晓如何设计此类探针以产生序列特异性杂交。本领域人员也知晓如何定量序列特异性杂交的量,由于基因转录产生特异性RNA,因此上述序列特异性杂交的量可作为基因表达量的测定值。
杂交样品被置于足以允许核酸探针与特定基因表达产物发生特异性杂交的条件下。在本文中,“特异性杂交”指的是近乎精确杂交(例如,存在极少的错配,如果有的话)。特异性杂交可在高严格性条件或中等严格性条件下进行。在一个实施方式中,特异性杂交的杂交条件具有高严格性。例如,特定的高严格性条件可用于将精确互补核酸与互补性较低的核酸区别开。核酸杂交的“高严格性条件”、“中等严格性条件”和“低严格性条件”可参见Current Protocols in Molecular Biology,2.10.1-2.10.16页和6.3.1-6.3.6页(Ausubel,F.et al.,“Current Protocols in Molecular Biology”,John Wiley &Sons,(1998),在此通过引用将其中的全部教导并入本文)。确定杂交严格性的确切条件不仅取决于离子强度(例如,0.2 x SSC,0.1 x SSC)、温度(例如,室温、42℃、68℃)以及去稳定剂例如甲酰胺或变性剂例如SDS的浓度,还取决于一些因素例如核酸序列的长度、碱基组成、杂交序列之间的错配百分数、以及该序列的亚组在其他非相同序列中出现的频率。因此,通过改变一或多种这些参数同时保持两种核酸分子之间具有相似程度的相同性或相似性,可以确定等同的条件。典型地,所使用的条件使得彼此之间的相同性为至少大约60%、至少大约70%、至少大约80%、至少大约90%或至少大约95%或更高的序列保持相互杂交。通过改变杂交条件,从不出现杂交的严格性水平改变到首次出现杂交的水平,可以确定出允许特定序列与样品中的最为互补的序列发生杂交(例如,选择性地)的条件。
描述确定中等或低严格性条件的洗涤条件的示例性条件可参见Kraus,M.and Aaronson,S.,1991.Methods Enzymol.,200:546-556;和Ausubel et al.,Current Protocols in Molecular Biology,John Wiley & Sons,(1998)。洗涤步骤中的条件通常被设置为用于决定杂交体的最低互补性水平。通常,从仅出现同源性杂交的最低的温度开始,最终洗涤温度每降低1℃(保持SSC浓度恒定)允许相杂交的序列之间的最大错配百分数增加1%。通常,SSC浓度升高一倍导致Tm升高大约17℃。利用这些指导,根据所需的错配水平,可经验性地确定高、中或低严格性的洗涤温度。例如,低严格性洗涤可包括在含有0.2 x SSC/0.1% SDS的溶液中在室温洗涤10分钟;中等严格性洗涤可包括在含有0.2 x SSC/0.1% SDS的预热的溶液中(42℃)在42℃洗涤15分钟;而高严格性洗涤可包括在含有0.1 x SSC/0.1% SDS的预热的溶液中(68℃)在68℃洗涤15分钟。此外,可反复或依次进行洗涤以获得所需的结果,这是本领域人员已知的。可通过改变作为实例所给出的这些参数中一或多种参数,这是本领域人员已知的,同时将靶核酸分子与所使用的引物或探针(例如,待杂交的序列)之间的互补性保持在相似的程度,而确定等同的条件。
本发明的一个有关方法提供核酸阵列,所述阵列包含多个:
(i)包含对应于如前所述的任何一种位置标记物基因的核苷酸序列或与之具有至少80%相同性的序列的核酸分子或所述核酸分子的功能性衍生物、片段、变体或同源物;或
(ii)包含能够在低严格性条件下在42℃与(i)的任何一或多种序列杂交的核苷酸序列的核酸分子或所述核酸分子的功能性衍生物、片段、变体或同源物;
(iii)核酸探针或寡核苷酸,其包含能够在低严格性条件下在42℃与(i)的任何一或多种序列杂交的核苷酸序列或所述核酸分子的功能性衍生物、片段、变体或同源物;
(iv)由(i)或(ii)的核酸分子编码的蛋白质或其衍生物、片段或同源物,
其中所述核酸的表达水平表明源自所述大肠的细胞或细胞亚群的所述近端-远端来源。
对于42℃的低严格性,其包括,杂交条件为至少大约1%v/v到至少大约15%v/v的甲酰胺和从至少大约1M到至少大约2M的盐,而洗涤条件为至少大约1M到至少大约2M的盐。需要时可采用替代性严格性条件,例如中等严格性,其包括,杂交条件为从至少大约16%v/v至少大约30%v/v的甲酰胺和从至少大约0.5M到至少大约0.9M的盐,而洗涤条件为至少大约0.5M到至少大约0.9M的盐,或高严格性,其包括,杂交条件为从至少大约31%v/v到至少大约50%v/v的甲酰胺和从至少大约0.01M到至少大约0.15M的盐,而洗涤条件为至少大约0.01M到至少大约0.15M的盐。通常而言,进行洗涤的温度为Tm=69.3+0.41(G+C)%[19]=-12℃。不过,双链DNA的Tm每降低1℃,错配碱基对的数量增加1%(Bonner et al(1973)J.Mol.Biol.81:123)。
核酸或蛋白质标记物的文库或阵列可提供丰富而重要的信息。此外,此类序列的两个或更多个阵列或表达谱(使用一种阵列获得的信息)是将测试组结果与参照相比较的有用工具,所述参照例如为另一种样品或储存的校准品。使用阵列时,各个核酸成员通常被固定化于不同的位置,并允许其进行结合反应。与组装的标记物试剂盒相关的引物可用于制备序列文库或直接从其他生物学样品中检测标记物。
基因标记物的文库(或阵列,其指的是对应于文库中的至少部分序列的物理性分开的核酸)展现出十分合适的特性。这些特性与特定的条件相关,并可被表征为调节表达谱。术语表达谱在此指的是一组成员,其提供所述标记物最初源自其中的组织的诊断信息。在很多情况中,表达谱包含由沉积的序列制得的阵列上的一系列点。
通常利用阵列来制备特征性的患者表达谱。可将阵列表达谱与一或多个其他阵列表达谱或其他参照表达谱相比较。比较的结果可提供有关所述患者的疾病状态、发育状态、对治疗的接受性以及该患者的其他信息的丰富信息。
本发明的另一方面提供用于测定生物学样品的诊断试剂盒,其包含用于检测一或多种近端-远端标记物的物质和用于促进通过第一隔室中的物质进行检测的试剂。也可包括其他装置,例如,用于接收生物学样品的终止。所述物质可以是任何合适的检测分子。
通过以下非限制性实施例进一步阐述本发明:
实施例1:正常大肠中的差异性转录产物表达图
材料和方法
基因表达数据
为了研究人类基因表达沿非肿瘤性大肠的变化,我们使用了采用Affymetrix(Santa Clara,CA USA)GeneChip
Figure A200780027808D0090104043QIETU
寡核苷酸微阵列系统[Lipshutzet al.,1999,Nat Genet 21:20-24]收集到的基因表达数据。这些数据是两个独立的Affymetrix(Santa Clara,CA USA)Human Genome 133 GeneChip数据集:用于“发现”的大的商品化HGU-133 A&B芯片数据的微阵列数据库,和由我们所产生的用于“验证”的较小的HGU-133 Plus 2.0微阵列数据集。
分析较大的数据集以鉴定基因表达模式,而使用独立产生的第二表达集来验证这些模式。因此,挖掘第一数据集以产生假设,而使用第二数据集来测试假设。
本研究所使用的数据是与标记的cRNA杂交的寡核苷酸微阵列,所述cRNA是从分离自结直肠组织标本的poly-A mRNA转录产物而合成的。我们使用的Affymetrix平台被设计为用于定量靶mRNA转录产物,其使用一组11个精确匹配的25bp的寡核苷酸探针(和11个错配探针),称为探针组。为了确定探针组结合强度的生物学意义,我们使用现有的最新Affymetrix元文件和BioConductor文库来注释所得探针组列表。我们发现微阵列平台上存在多个理论上可与任何给定的靶“基因”发生反应的探针组。由于我们的目的是研究沿大肠的转录产物表达的动力学,而非阐明潜在的基因组机制,因此我们没有进一步研究这一现象。不过,在这些数据的生物学意义时应该考虑这一基本的注释细节,并且我们提醒读者(以及使用这些技术的其他研究者)要注意避免将术语“基因”和“探针组”互换使用。
“发现”数据集
184个结直肠组织标本的基因表达和临床详情购自GeneLogic Inc.(Gaithersburg,MD,USA)。
使用以下特征选择各个组织微阵列数据:来自其他方面健康的组织标本(即,在取得标本的位置没有炎症或其他疾病的迹象)的非肿瘤性结直肠粘膜(经组织学方法确认),所述标本具有解剖学上可鉴定的以下切取位置之一:盲肠、升结肠、降结肠、乙状结肠、或直肠。
对于选自GeneLogic数据库的各个组织,我们收到了含有总共44,928个探针组(HGU133A和HGU133B,已组合)、各组织的实验和临床描述符、以及组织学制备物的数字化显微镜图象的原始数据电子文件。人工评价各数据记录的临床一致性,并随机选取记录样本,使用数字化组织学图象来核对组织病理学。进行质量控制分析来鉴别和剔除不符合生产商所定义的基本质量控制指标[Affymetrix,2001;Wilson and Miller,2005,Bioinformatics]。
通过Microarray Suite(MAS)5.0(Affymetrix)和Robust MultichipAverage(RMA)标准化技术[Affymetrix,2001;Hubbell et al.,2002,Bioinformatics 18:1585-1592;Irizarry et al.,2003,Nucleic Acids Res 31:e15]计算出基因表达水平。使用MAS标化数据进行标准质量控制程序,并使用RMA将最终数据集标准化,用于后续分析。
“验证”数据集
“验证”数据集的结直肠标本收集自大阿德莱德地区(metropolitanAdelaide)的三级中心医院组织库(Repatriation General Hospital and FlindersMedical Centre)。组织库和本项研究得到了Repatriation General Hospital的Research and Ethics Committee的批准,所研究的各个组织也得到了患者的同意。手术切除后,标本被置于无菌容器并从手术室收集。从手术切除至手术室收集之间的时间有所不同,但均不超过30分钟。样品体积大约为125mm3(5 x 5 x 5mm),均取自距离病理部位尽可能远处的大体正常的组织,标注结肠区域以及位于病理部位的近端或远端的距离。将组织置于冷冻管,然后立即浸入液氮,保存在-150℃直至处理。
作者采用标准方案和商品化的试剂盒来处理冷冻的样品。简言之,使用硬质合金珠碾磨器(Mixer Mill MM 300,Qiagen,Melbourne,Australia)将冷冻的组织匀浆化,其中使用冰冷的Promega SV RNA Lysis Buffer(Promega,Sydney,Australia)来中和Rnase活性。各个组织的匀浆化裂解物以方便的体积分装并储存在-80℃。从组织裂解物中提取总RNA,使用的是Promega SV Total RNA系统,按照生产商的说明操作,通过凝胶电泳评价其完整性。
为了测定mRNA转录产物的相对表达,分析组织RNA样品,使用的是Affymetrix HG U133 Plus 2.0 GeneChips(Affymetrix,Santa Clara,CAUSA),按照生产商的说明操作[Affymetrix,2004]。使用5μg(1.0μg/μL)总RNA(大约1μg mRNA)和“One-Cycle cDNA”试剂盒(掺入T7-oligo(dT)引物)和GeneChip IVT标记试剂盒来制备生物素标记的cRNA。出于质量控制的目的,在杂交之前将体外转录的cRNA片段化(20μg)并通过分光光度法和凝胶电泳进行分析。最后,以15μg的cRNA(0.5μg/μL)制备杂交混合物并在Affymetrix Hybridization Chamber 640中与HG U133 Plus 2.0微阵列杂交16h,45℃。各cRNA样品均添加标准真核细胞杂交对照物,用于质量监测。
杂交的微阵列以抗生蛋白链菌素藻红蛋白进行染色,并使用Affymetrix Fluidics Station 450,以含有生物素化的抗-抗生蛋白链菌素抗体的溶液洗涤。最后使用Affymetrix Scanner 3000对染色和洗涤的微阵列进行扫描。
使用Affymetrix软件包将原始微阵列图象文件转化为数字化格式。如同上述“发现”实验一样,使用MAS 5.0(Affymetrix)产生用于验证数据集的基因表达水平用于质量控制的目的,并以RMA标准化方法处理表达数据。
统计学分析
如图10所示,检测系统包括检测模块1002至1007,包括支持向量机(SVM)模块1002、表达谱分析仪1004、主成分分析仪1006、和分类器模块1007。检测系统执行检测方法,产生代表来自肠道的细胞或细胞群体沿大肠近端-远端轴线的来源的位置数据。通过处理代表所述细胞或细胞群体内的基因表达的基因表达数据产生位置数据。在所述实施方式中,检测系统是标准的计算机系统,例如基于Intel IA-32的计算机系统,而检测模块1002至1007作为与计算机系统相关联的永久性(例如,硬盘)存储器1020上的软件模块来实现。不过,显然至少部分检测模块1002至1007或在此所述检测方法可替代性地作为一或多种专用硬件部分(例如专用集成电路(ASIC))而实现。
在所述实施方式中,检测系统还包括C++模块1008以提供C++语言支持(包括C++文库),以及R模块1012以便为R统计学程序语言提供支持,和MASS文库,后者可参见[Venables and Ripley,2002]并可自CRAN开放源存放处http://cran.r-project.org获得。系统还包括BioConductor软件应用程序1010,其可获自http://www.bioconductor.org,其与表达谱分析仪1004和主成分分析仪1006一起,在R程序语言中实现,参见http://www.r- project.org。SVM 1002在C++程序语言中实现。分类器模块1007是GeneRave应用程序,参见http://www.bioinformatics.csiro.au/products.shtml和在此提及的参考文献。系统还可包括Microarray Suite(MAS)5.0 1014,以及Robust Multichip Average(RMA)标准化应用程序1016,两者均可得自Affymetrix,并参见http://www.affymetrix.com。软件应用程序在标准操作系统1018例如Linux或Mac0S 10.4控制下执行,计算机系统包括标准的计算机硬件成分,包括至少一个处理器1022、随机存储器1024、键盘1026、标准的定点设备例如鼠标1028、和显示器1030,所有这些均与系统总线1032相互连接,如图所示。
检测方法包括图11所示的一般形式的分类方法。首先,在步骤1102,系统接收或访问代表已知近端-远端来源的细胞中的基因表达的表达数据。在步骤1104,将多变量或其他形式的分类或决策方法用在表达数据上以产生分类数据,如下所述。典型地,表达数据代表基因表达,已知所述基因,单独地或是组合地,沿着大肠的近端-远端轴线被差异性表达。不过,所述方法也可用于鉴定此类基因和/或基因组合,如下所述。在步骤1106,将分类数据用在代表已知来源的细胞内的相同基因的表达的进一步的表达数据上,以预测所述细胞沿着大肠的所述近端-远端来源。
此外,对于本领域人员来说显而易见的是,可基于决策理论原则对由最初产生的分类数据代表的所得分类器或分辨功能进行调整,以改进分类结果及其用途。例如,可在结果的或然性中整合先验信念(prior belief),和/或可基于不同的误分类情况的代价而改进决策表面。决策理论的这些以及其他有关方法可使得功能丢失和误分类代价达到最小化,可参见[Krzanowski and Marriott,1995]。
对于全部统计学分析,我们将得自BioConductor的开放源软件用于R统计学环境(R是S统计学分析环境的开放源实现方式)(Bioconductor,www.bioconductor.org)[Gautier et al.,2004,Bioinformatics 20:307-315;Gentleman et al.,2004,Genome Biol 5:R80]。
用于产生和处理线性和非线性组合的基因表达水平的线性方法,包括线性回归、多重线性回归、线性判别分析、逻辑回归、广义线性模型、和主成分分析法等,均参见,例如,[Hastie,2001]。这些方法在R中实现。
使用三种分析技术分析基因表达梯度。首先,我们以常规的单变量方式比较了个别基因沿大肠的基因表达变化。其次,我们进一步研究了那些展现出具有统计学显著性的表达差异的具体基因,其中使用线性模型来比较二分式(近端vs远端)表达改变与渐进式(多节段)改变模型。最后,我们使用多变量技术以便了解沿近端-远端轴线的精细的基因组宽度的表达变异(genome-wide expression variance)。询问此类基因组宽度的表达变异所使用的非参数方法参见[Ripley,1996],包括近邻法(nearest neighbour method)。
个别基因表达图
单变量差异性表达
使用在R的“limma”Bioconductor文库[Smyth,2005]中实现的中度t-检验来鉴定近端和远端大肠之间被差异性表达的基因转录产物。使用保守性Bonferroni校正法来校正显著性估计值(p-值)以便符合多重假设检验(MHT)。以类似的方式检验局限于盲肠与直肠的组织亚组。
还使用改良的t-检验,以逐个探针组为基础,在“验证”标本中评价被鉴定为差异性表达的基因转录产物。为了评价在验证数据中同样具有差异性的差异探针组总数的显著性,使用Monte Carlo模拟来比较“验证的”探针组的数量与估计的零分布(null distribution)。
多节段大肠与两节段大肠模型比较
为了评价节段间基因表达变化,我们分析了差异性表达的探针组与多节段与两节段构架内的线性模型的相对拟合情况。此分析的目的在于研究,对于已知在大肠的两末端之间被差异性表达的探针组的节段间表达,模拟连续分段的5节段线性模型或更简单的二分式“近端”与“远端”分段模型哪一个是更好的模型。由于我们的数据仅以结直肠节段命名来鉴定,而非沿着大肠的长度连续测定,因此我们使用组织节段位置来模拟连续的模型。我们选择在最末端的节段(盲肠和直肠)之间被差异性表达的探针组,以便将鉴定到沿大肠的近端-远端轴线发生变化的转录产物的可能性最大化。
我们首先根据由结直肠节段为各组织所限定的指示物矩阵,使用5因素的稳健线性模型(robust linear model),建立了这些探针组沿大肠的近端-远端轴线表达的模型。对此模型,通过活检的位置将各组织指定为以下之一:盲肠、升结肠、降结肠、乙状结肠、或直肠(出于后面所述的原因,没有将横结肠组织纳入此分析)。然后将此5节段模型与具有对应于理论上的大肠近端和远端区域的设计矩阵的两因素的稳健线性模型进行比较。两个模型的比较使用相同的数据,只不过对于两节段模型而言,第一因素(对应于近端组织)包括来自盲肠和升结肠的所有组织,而第二因素(对应于远端大肠)包括来自降结肠、乙状结肠和直肠节段的所有组织。
在为各个探针组比较这些不同模型时,我们使用了F-检验来评价假设Ha,即更复杂的5节段模型所提供的改进的拟合(降低的回归残余)明显优于更简单的两节段模型。非显著的残余降低表示不能推翻零假设(nullhypothesis)。
H0:采用更复杂的5节段模型而非更简单的替代方式没有内在价值。
多变量基因表达模式绘图
结果
基因表达数据收集
发现数据集和验证数据集
使用来自cRNA与购自GeneLogic Inc.的Affymetrix HG U133A/BGeneChip微阵列的杂交的数据产生了发现数据集。
分析来自符合HG U133A/B GeneChip的入选标准和质量保障标准的184个正常组织的数据并用于产生假设。所述组织包括如下节段亚组:29个盲肠、45个升结肠、13个降结肠、54个乙状结肠、和43个直肠。对于各个组织,均采用RMA预处理对44,928探针组进行了背景校正和标准化。
为了构建“验证”数据集,将19HG U133 Plus 2.0 GeneChips与从8个近端组织标本和11个远端组织标本制备的标记的cRNA杂交。由于对组织和GeneChip的可接受性采用了严格的质量控制参数,这一验证数据集没有纳入足够的组织来研究多节段模型。各微阵列对54,675个探针组测定了转录产物。
近端和远端大肠之间的理论上的接合点大致在从肝曲开始测量的横结肠三分之二长度处[Yamada and Alpers,2003,见上]。由于样品数据沿横结肠的距离并不具体,没有对这些组织进行发现分析。
沿大肠的基因变异
个别基因表达改变
单变量差异性表达
为了研究大肠的解剖学节段之间的“天然的”分界点,我们测定了当将假定的“分界”从盲肠逐步移至直肠时探针组表达改变的绝对数量。图1显示了所有连续节段间组合的差异性表达探针组的数量。尽管不具有统计学的显著性,但当在升结肠和降结肠之间划分近端和远端区域时出现了最大数量的探针组差异,即206个。由于该分界点与我们对胚胎发育的理解和通常的近端和远端节段划分均一致,因此我们的结果认为近端和远端组织是以这种方式划分的。
总共206个探针组(对应于大约154个已知的靶基因)在近端或远端结直肠样品中与相应的区域相比被更高地差异性表达(Bonferroni校正的p<0.05)。在这206个探针组中,31个(16.5%)也在验证数据中被差异性表达,具有显著性差异(31/206,p<<0.05,通过Monte Carlo估计)。
总共115个探针组在仅选自盲肠(n=29)和直肠(n=43)的组织之间被差异性表达。尽管这些探针组中有102个(89%)落入上述在近端和远端大肠之间存在不同的所述206个探针组中,但盲肠与直肠相比较的基因表达原则上可用于分离大肠的两个末端之间不同的转录产物。在这一亚组中,直肠与盲肠相比较,验证数据中有28个探针组(24.3%)被同样地差异性表达(28/115,p<<10-5,通过Monte Carlo估计)。
差异性表达的探针组和在近端和远端组织中表达升高的探针组的差异统计分别显示于表1和2中。图2比较了在近端(n=94)或远端(n=126)肠道(或盲肠和直肠)中分别被明显较高表达的探针组的数量。
多节段基因表达模型
在所有5个节段间的过渡处也进行了差异性表达分析,顺序是从盲肠到直肠(即,盲肠比升结肠、升结肠比横结肠,等等)。有趣的是,在任何两个相邻的节段之间均没有转录产物被明显差异性表达(中度t-检验;p<0.05)。
为了研究这些基因转录产物表达改变的确切性质,我们建立并比较了基于各个组织样品的位置的表达数据相拟合的稳健线性模型。对在大肠的两个末端节段(盲肠和直肠)之间被差异性表达的115个探针组中的每一个,均比较了单变量探针组表达的两个稳健线性模型。具体而言,我们询问了在简单的两节段模型或更详细的5节段模型中,哪一个能够更好地解释(就残余拟合而言)在这两个末端节段之间被差异性表达的那些转录产物的表达。
在115个被差异性表达的探针组中,该分析没有推翻以下零假设:即复杂模型没有显著改善模型与在其中65例(57%)中所观察到的基因表达数据的拟合(F-检验,p>0.05)。因此,这些沿大肠被差异性表达的转录产物有一半以上能够符合这种两节段表达模型,即其中表达是二分式的并以近端相对于远端位置而定义。盲肠和直肠之间差异性表达最大的探针组是PRAC的转录产物。图3给出了这一转录产物的两节段与多节段模型的比较。
对于其余的50个探针组(43%),零假设被推翻(p<0.05),这提示基于节段位置的5因素模型确实显著地改善了这些转录产物沿近端-远端轴线的表达的预测有效性。对这些模型的验证证实大多数模型在沿大肠分布的组织中是单调增加或单调降低的。
有趣的是,50个多节段模型中的41个(82%)显示出在整个大肠中从近端到远端的表达逐渐增加,而仅有9个模型(18%)显示从近端到远端的表达逐渐降低(见图4)。有机溶质转运蛋白α(organic solute transporter α)(OSTα)和同源盒基因B13(HOXB13)的模型在5节段模型中均显著改善,见图5。
沿大肠的基因表达模式
除了分析个别基因沿大肠的改变以外,我们还使用了多变量分析技术来研究沿近端-远端轴线的基因改变模式。
监督主成分分析法
为了显示并研究器官水平的表达变异性的结构,使用检测系统的主成分分析仪(PCA)1006对基因表达数据进行主成分分析(PCA)和称为监督PCA的一种PCA变化形式。PCA可参见[Venables and Ripley,2002],其在R中实现。对监督PCA的详细描述可参见[Bair et al.,2004]。
首先,采用主成分分析法(PCA)通过PCA模块1006处理代表“发现”数据集中所有44,928个探针组的基因表达的表达数据。PCA是通过产生数据集维度的线性转化以减少维的数量从而简化多维数据集的标准方法。转化后的数据作为主成分数据而提供,其代表“主成分”的分选集,这样使得第一主成分具有最大的变异,第二主成分具有第二大的变异,依此类推。对完整数据集进行PCA的结果包括图6A所示的多变量或主成分数据,该图中第一主成分在x-轴上作图,而第二主成分在y-轴上作图。对这种低维度图示的观察没有在数据中得到任何与组织节段相一致的明显结构,这提示在所有基因中测定到的基因表达变异的主要源泉不依赖于组织位置。
为了研究所有基因的亚组是否能够用于产生一或多个表明组织位置的主成分,通过监督PCA分析了表达数据。如[Bair et al,2004]所述,监督PCA类似于标准的主成分分析法,但仅使用特征/基因的亚组(通常通过一些单变量手段来选择)来产生主成分。在这种情况中,选择在盲肠和直肠(即,大肠的两个最端头)之间被差异性表达的基因的组用于PCA分析。不过,也可以替代性使用其他形式的特征选择。具体而言,通过仅纳入取自盲肠和直肠的组织样品之间被差异性表达的115个探针组(如果不是来自大肠的所有节段的所有184个正常组织)产生了减少的数据矩阵。然后在此特征特异性数据上进行标准PCA。如图6B所示,前两个主成分的图提示,在184个组织样品中存在两个大的亚群,大致对应于近端对远端的划分。如果将第一主成分作为沿大肠的细胞来源的函数作图,则可更清楚地观察到这种细胞来源的依赖性,如图7B所示。图7B中的符号代表四分位范围(即,一半数据),而"误差棒"表示1.5x四分位范围。这些界限以外的数据被认为是异常值并被单独作图。尽管可能提示乙状结肠与直肠之间有弱的分离,但前面盲肠和升结肠的组织明显重叠,鲜有分离。
尽管主成分数据可用于基于细胞的基因表达来预测这些细胞的来源,但其他分析方法对于这一任务而言是优选的,下面详述。
表达谱分析(规范变量分析法)
还使用表达谱分析仪1004通过表达谱分析分析了沿肠道的表达模式,以显示节段间相对于节段内的表达变化。如[Kiiveri,1992]所述,表达谱分析是对标准规范变量分析法的改进,适合于变量的数量超出观察的数量的情况中。该方法以相对低的独立因素数量通过因素分析模型[Kiiveri,1992]建立p x p类型内共变量矩阵∑w。进行交换测试(Permutation tests)来确定各个规范变量内的各条件(即基因)的显著性。通过仅纳入显著的条件,表达谱分析提供了特征选择能力。该方法通常用作探索工具来表征类型变异结构。规范变量分析法在R MASS文库中实现,参见[Venables and Ripley,2002]。表达谱分析在R的专有文库中实现,参见[Kiiveri 1992]。
鉴于对组织的节段标记物的先验知识,表达谱分析试图鉴定局限基因转录产物子空间,后者提供了大肠的5个节段中每一个的最大化类型间分离同时将类型内(即,各节段)变异最小化。对完整数据集的表达谱分析结果包括图8A所示的规范变量数据,该图中第一规范变量沿x-轴作图,而第二规范变量沿y-轴作图。显然,组织节段与第一规范变量相关联,但第二以及随后的规范变量几乎不提供或没有提供类型分离信息。这一结果提示,相同的探针组参与了对各个结直肠节段的分离,即,从组织节段来看的最大差异来源是那些用于产生第一规范变量维度的来源,因此,探针组的这一相同的特征组可对所有这些节段进行最佳分组。如图8B所示,即使使用第一规范变量,这些节段中也无一被完美地分离,不过这些节段的天然顺序得到清晰地保留。与上述的PCA一样,规范变量数据可用于对未知来源的细胞的近端-远端来源进行分类,但以下方法对于此目的是优选的。
支持向量机
尽管上述多变量方法可用于研究沿大肠的基因表达变化,仍使用了监督机器学习以便以稳健的方式来鉴定对组织位置具有预言性的基因,并鉴定可用于以低交叉验证错误率来预测探针组/基因的最小亚组。
在所述实施方式中,所使用的机器学习的具体形式是支持向量机(SVM),例如由SVM模块1002所提供;不过,对于本领域人员来说显然可以替代性使用其他内核方法。如[Scholkopf,2004]所述,内核方法是线性方法的延伸,其中将变量绘制在另一空间,在该处通过简单的内核捕获这种作图中的必要特征。内核方法在以下情况中特别具有优势,其中观察资料在内核空间中是线性可分的,但在原始数据空间中则不是。
SVM 1002使用如[Cristianini and Shawe-Taylor,2000]所述的标准的SVM方法,确定出沿分类-决策边界最大程度分离观察资料(即,组织)的特征(基因转录产物)组合。
具体而言,使用支持向量机(SVM)1002产生代表来自完整数据集的最小的探针组亚组的分类数据,所述亚组的表达能够使得最大程度分离源自盲肠和直肠的细胞。使用线性内核训练SVM 1002,并使用10-倍交叉验证来评价每次反复所产生的分类数据。作用最低的基因转录产物被从各转录产物亚组中递归清除,以便鉴定具有高预测准确性的最小的转录产物组。
图9所示为作为纳入模型中的探针组(因为它们被不断清除)数量的函数的交叉验证SVM错误率。产生完美(0%)交叉验证错误率的最小特征组包括表3所示的13个探针组。
为了测定该模型在独立数据集中的用途,在验证数据中测试了这13个特征模型的分类数据的近端对远端的预测性能。使用由这13个探针组构建的常规线性判别分析模型,100%精确地预测了8个近端组织和11个远端组织。
分类器模型
作为SVM 1002的替代方式,还使用分类器1007处理取自沿大肠近端-远端轴线已知位置处的组织样品的完整表达数据,来鉴定那些可用于鉴定来自大肠的未知来源的细胞或细胞群体的来源的基因组合。在所述实施方式中,使用http://www.bioinformatics.csiro.au/overview.shtml公开的线性GeneRave分类器。对于变量的数量超过观察资料数量的情况,GeneRave是优选的。不过,对于本领域人员来说,显然可以替代性使用其他分类器,包括非线性分类器和基于正规逻辑回归的分类器。
如[Kiiveri 2002]所述,GeneRave分类器1007产生代表表达水平的线性组合的分类数据以鉴定可用于精确鉴定未知位置来源的样品的位置的基于亚组。GeneRave 1007使用Bayesian网络模型来选择基因,所述选择通过清除那些与其他基因线性组合时与相应的组织的获取位置不具有关联性的基因而实现。
对分类数据中的完整数据集的GeneRave分析的结果对应于一组7个基因,它们的表达水平可用于精确鉴定相应的细胞沿大肠的近端-远端轴线的来源。这7个基因是SEC6L1、PRAC、SPINK5、SEC6L1、ANPEP、DEFA5、和CLDN8。
讨论
沿大肠的基因差异性表达图
单变量表达分析鉴定了206个探针组,它们对应于在成人体内的正常近端和正常远端大肠之间被差异性表达的154个独特的基因靶。一个115个探针组的亚组(与近端对远端列表有89%相同)在盲肠和直肠的末端结直肠节段之间同样地被差异性表达。有趣的是,我们没有发现任何转录产物在任何两个相邻的节段之间被明显地差异性表达。
为了评估这些发现的有效性,我们还在独立的一组微阵列数据中测定了这些基因转录产物的表达变化。在我们的184个结直肠组织样品的原始发现数据集中,206个被差异性表达的探针组中有31个也在19个标本的验证数据中被差异性表达。
采用Monte Carlo模拟,我们发现两个数据集中这样大量的探针组差异是非常靠不住的。
几乎所有这些“验证的”转录产物(28/31,90%)同样地在盲肠和直肠这两个末端节段之间被差异性表达。已通过独立的方式确认,154个相应的基因靶中的57个(37%)在近端和远端大肠之间被差异性表达。
个别基因的差异性转录产物表达
在我们的发现数据中观察到的最为显著的差异探针组针对的是PRAC的基因转录产物。相对于近端组织来说,PRAC高度表达于远端大肠。此外,PRAC似乎沿大肠由低到高的方式表达,并在升结肠和降结肠标本之间出现突然的表达变化。
我们发现相应于7个HOX基因的8个探针组在近端和远端大肠之间被差异性表达。哺乳动物同源盒基因家族的39个成员由高度保守性转录因子组成,它们特异性代表了沿发育的胚胎的前-后轴线的肌体节段[Hostikka and Capecchi,1998,Mech Dev 70:133-145;Kosaki et al.,2002,Teratology 65:50-62]。这4组HOX基因旁系同源物(paralogues)以从前到后的顺序表达,例如从HOXA1到HOX13[Montgomery et al.,1999,Gastroenterology 116:702-731]。已经发现,编号较低的HOX基因在近端组织表达较高(HOXD3、HOXD4、HOXB6、HOXC6和HOXA9),而命名较高的基因更多表达于远端大肠(HOXB13和HOXD13)。
有趣的是,在我们的结果中明显缺少以往被发现沿近端-远端轴线差异性表达的一些基因转录产物。我们的结果没有证实尾侧同源盒基因CDX1或CDX2(被发现参与大量脊椎动物的肠道模式发育的转录因子)具有明显的表达梯度(Chalmers et al.,2000)(James et al.,1994)(Silberg et al.,2000)。具体而言,CDX2被认为在保持成人的大肠的结肠表型中发挥作用,并且最近发现其以相对高的浓度存在于近端大肠,但在远端大肠则缺乏(Jameset al.,1994)(Silberg et al.,2000)。但在我们的结果中,对该基因的探针组表达的统计学分析和观察均没有显示其沿大肠被差异性表达(数据未显示)。
我们发现一些溶质载体转运基因具有明显的差异性转录产物表达。SLC2A10、SLC13A2、和SLC28A2的探针组表达在远端大肠较高,而溶质载体家族成员SLC9A3、SLC14A2、SLC16A1、SLC20A1、SCL23A3、和SLC37A2在远端组织中较高。
我们的结果显示,针对染色体7q22膜结合型粘蛋白簇的5个成员中以往被认为表达于大肠的3个(MUC11、MUC12和MUC17)[Byrd andBresalier,2004,Cancer Metastasis Rev 23:77-99;Williams et al.,1999,Cancer Res 59:4083-4089;Gum et al.,2002,Biochem Biophys Res Commun291:466-475]的探针组以较高的水平差异性表达于远端肠道。我们还在独立验证数据中证实了MUC12和MUC17的这种差异性表达模式。以往的报道还提出了这样的问题,即MUC11和MUC12的基因组序列是否来自密切相关的或者甚至是相同的基因[Byrd and Bresalier,2004,见上]。MUC11和MUC12探针组的相关性分析显示探针组表达范围的较低一端具有强烈的正相关,而表达增加时相关性较弱(数据未显示)。这种相关性表达谱可能是由于在较高的表达水平时可变性增加,或者,可能是因为远端大肠(它们在该处较高)的表达水平反映了不同的转录调控。
此外,尽管以往的研究提示分泌型的凝胶形成性粘蛋白MUC5B仅弱表达于大肠[Byrd and Bresalier,2004,见上],但我们的结果显示,与该转录产物反应的探针组在远端大肠较高表达,这与膜结合型粘蛋白一样。
我们在此所报道的人类中的一些表达模式已经被发现与啮齿动物模型胃肠道中的模式相似。不过,对于以往被发现在小鼠和大鼠中沿大肠被差异性表达的大量特异性基因,我们却没有发现它们被这样表达。此类基因转录产物靶包括,碳酸酐酶IV(Fleming et al.,1995)、溶质载体家族4成员1(alias AE1)(Rajendran et al.,2000)、CD36/脂肪酸易位酶(Chen et al.,2001)、和toll-样受体4(Ortega-Cava et al.,2003)。另一方面,我们的结果与以往关于水通道蛋白-8(AQP8)的表达的研究相一致,AQP8基因的表达产物被怀疑参与正常大鼠大肠内的水吸收(Calamita et al.,2001)。我们观察到,相对于远端组织而言,AQP8以较高水平显著表达于人类的近端大肠(p<0.006,数据未显示)。Claudin紧密连接蛋白也可在保持大肠的水屏障完整性中发挥作用(Jeansonne et al.,2003)。我们发现claudin-8(CLDN8)的表达在远端结直肠组织中要高得多。相反,也被认为是定位于紧密连接纤丝的claudin-15(CLDN15)以较高水平表达于近端结直肠组织(Colegio et al.,2002)。
沿大肠的基因表达改变的性质
本研究的一个目的是要了解哪些基因转录产物沿大肠被差异性表达,而第二个目的是要探究沿近端-远端轴线的这些表达改变在区域或节段特异性方面的性质。
我们观察到具有统计学显著性的沿结直肠的转录产物表达改变的两种大的模式。主要模式是通过经两节段表达模型而良好拟合的65个基因转录产物来描述的。我们认为这些转录产物的表达具有二分式的性质——在近端节段升高而在远端节段降低,或反之亦然。
此类数据与近端和远端大肠之间的“天然”分界点出现在升结肠和降结肠之间这一传统的解剖学观点相一致。这一发现与Komuro等的最近报道相矛盾,Komuro等认为降结肠和乙状结肠之间的分界点产生最大的差异性表达(Komuro et al.,2005)。不过,我们注意到,除了分析结直肠癌标本中的这种模式之外,Komuro等还选择将横结肠纳入他们的分析中。我们有意将组织排除在该节段之外,以避免出现与预计大约位于横结肠长度三分之二处的中肠-后肠接合点有关的可能的混淆影响。
第二组50个转录产物没有表现出二分式改变,而是通过将表达数据用于5节段模型而显示出明显改善的拟合,支持存在沿着大肠从盲肠到直肠移动的更加缓和的表达梯度。
这两种特征性表达模式暗示沿近端-远端轴线的基因表达可能通过两种潜在的组织系统相协调。
我们发现,在此检测到的大多数在成人正常组织中被差异性表达的转录产物,是以与胚胎发育的中肠对后肠的模式相一致的模式被表达的。此外,包括监督PCA和规范变量分析法在内的多变量方法也提示,这些数据中的变化的首要来源可以通过近端对远端的划分而解释。在最近的研究中,Glebov等发现,在成人的升结肠和降结肠之间被差异性表达的基因数量明显多于以同样方式在17-24周龄的胎儿大肠中鉴定到的基因数量。Glebov等假设,成人大肠的基因表达模式可能是在妊娠~30周时表达成人结肠表型的同时而定型的,或者,甚至可能是应答于出生后胃肠道腔内容物而定型的。尽管我们没有探究胎儿大肠内的基因表达,但我们在成人中观察到的表达模式支持与中肠-后肠接合相一致的胚胎来源。
绝大多数那些在盲肠和直肠之间展现出逐渐的表达改变的转录产物均展现出从盲肠到直肠表达升高的典型模式。在中肠-后肠差异性转录产物中没有观察到这种模式,而是转录产物数量在近端的升高大致等于在远端区域的数量升高。我们认为那些转录产物中特征性的远端升高模式可能是外在因素与内在限定的中肠-后肠模式相较量的作用。此类因素可能包括以单向方式从盲肠向直肠移动的腔内容物的影响和/或沿大肠分布的微生物群落的区域性改变。还需要进一步的工作来研究此类内在调控是否以包括诱导转录活性或通过降低转录沉默在内的主动方式起作用。
基因表达沿大肠协同改变
为了探究沿大肠的协同基因表达,我们还对这些表达数据进行了主成分分析和表达谱分析。采用这些多变量观察技术发现了近端对远端基因表达的重要证据。此外,可同时将节段间表达差异最大化同时试图缩小节段内变异的表达谱分析提示,对盲肠到直肠之间的可变性起作用的同一组基因也最好地区分开个别的节段。尽管这些多变量结果没有排除微细的近端-远端梯度,但这些多变量图表的明显的双模型性质提示,这些组织内的表达变化的主要来源与中肠来源模式对后肠来源模式是一致的。
较小的一组基因可能具有信息价值
最后,采用支持向量机的精细分类反复来选择出具有信息价值的探针组亚组,后者可用于提供近端对远端组织的稳定的、稳健的分类。通过SVM 1002“选择的”探针组是由单变量方法鉴定到一个亚组的差异性转录产物,如上所述。通过在独立的验证实验中评价该13个转录产物的模型,进一步证实了这些预测物的稳健性。
本领域人员可以理解,除了具体描述的内容之外,在此公开的本发明容许有其他的变化和修改。应该理解,本发明包括所有此类的变化和修改。本发明还包括本说明书中个别地或共同地提及的或指出的所有的步骤、特征、组合物和化合物,以及任何两个或更多个所述步骤或特征的所有组合。
结论
我们的工作提示,转录产物丰度以及可能的转录调节,遵循沿大肠的近端-远端轴线的两种大的模式。主要的模式是一种二分式的表达模式,其与近端和远端肠道的中肠-后肠胚胎起源相一致。遵循这一模式的转录产物粗略地等分为在远端升高的转录产物和在近端升高的转录产物。我们发现的第二个模式的特征在于转录产物水平从盲肠到直肠逐渐改变,近乎所有的这些转录产物展现出向着远端组织表达逐渐升高。我们认为,展现出二分式中肠-后肠模式的组织可能反映了大肠的内在胚胎起源,而那些展现出逐渐改变的组织反映了外在因素例如腔内流动和微生物群落的改变。总之,这些模式构成了大肠的基因表达图谱。这是第一份完整人类器官的此类图谱。
Figure A200780027808D01151
Figure A200780027808D01171
Figure A200780027808D01181
Figure A200780027808D01191
Figure A200780027808D01211
Figure A200780027808D01221
Figure A200780027808D01231
Figure A200780027808D01241
Figure A200780027808D01251
文献:
Affymetrix.2001a.GeneChip Expression Analysis Data Analysis Fundamentals.
Affymetrix.2001b.Statistical Algorithms Reference Guide.
Affymetrix.2004.Gene Expression Analysis:Technical Manual.701021 Rev 5.
Alon,A.,Barkai,N.,Notterman,D.A.,Gish,K.,Ybarra,S.,Mach,D.and Levine,A.J.Broad patterns of gene expression revealed by clustering analysis of tumor and normal colontissues probed by oligonucleotide arrays.Proc.Natl.Acad Sci.USA:96,6745-6750,June1999
Ausubel,F.et al.,“Current Protocols in Molecular Biology”,John Wiley & Sons,1998Bair,E.,T.Hastie,P.Debashis and R.Tibshirani.2004.Prediction by supervised principalcomponents.Stanford University
Bara,J.,J.Nardelli,C.Gadenne,M.Prade and P.Burtin.1984.Differences in the expressionof mucus-associated antigens between proximal and distal human colon adenocareinomas.BrJ Cancer 49:495-501.
Bates,M.D.,C.R.Erwin,L.P.Sanford,D.Wiginton,J.A.Bezerra,L.C.Schatzman,A.G.Jegga,C.Ley-Ebert,S.S.Williams,K.A.Steinbrecher,B.W.Warner,M.B.Cohen and B.J.Aronow.2002.Novel genes and functional relationships in the adult mouse gastrointestinaltract identified by microarray analysis.Gastroenterology 122:1467-1482.
Birkenkamp-Demtroder,K.,S.H.Olesen,F.B.Sorensen,S.Laurberg,P.Laiho,L.A.Aaltonen and T.F.Orntoft.2005.Differential gene expression in colon cancer of the caecumversus the sigmoid and rectosigmoid.Gut 54:374-384.
Bonithon-Kopp,C.and A.M.Benhamiche.1999.Are there several colorectal cancers?Epidemiological data.Eur J Cancer Prev 8 Suppl 1:S3-12.
Bonner T.I.,Brenner D.J.,Neufeld B.R.and Britten R.J.(1973)Reduction in the rate of DNAreassociation by sequence divergence.J.Mol.Biol.81:123-125
Bufill,J.A.1990.Colorectal cancer:evidence for distinct genetic categories based onproximal or distal rumor location.Ann Intern Med 113:779-788.
Byrd,J.C.and R.S.Bresalier.2004.Mucins and mucin binding proteins in colorectal cancer.Cancer Metastasis Rev 23:77-99.
Calamita,G.,A.Mazzone,A.Bizzoca,A.Cavalier,G.Cassano,D.Thomas and M.Svelto.2001.Expression and immunolocalization of theaquaporin-8 water channel in ratgastrointestinal tract.Eur J Cell Biol 80:711-719.
Caldero,J.,E.Campo,C.Ascaso,J.Ramos,M.J.Panades and J.M.Rene.1989.Regionaldistribution of glycoconjugates in normal,transitional and neoplastic human colonic mucosa.A histochemical study using lectins.Virchows Arch A Pathol Anat Histopathol 415:347-356.
Chalmers,A.D.,J.M.Slack and C.W.Beck.2000.Regional gene expression in the epitheliaof the Xenopus tadpole gut.Mech Dev 96:125-128.
Chen,M.,Y.Yang,E.Braunstein,K.E.Georgeson and C.M.Harmon.2001.Gut expressionand regulation of FAT/CD36:possible role in fatty acid transport in rat enterocytes.Am JPhysiol Endocrinol Metab 281:E916-23.
Colegio,O.R.,C.M.Van Itallie,H.J.McCrea,C.Rabner and J.M.Anderson.2002.Claudinscreate charge-selective channels in the paracellular pathway between epithelial cells.Am JPhysiol Cell Physiol 283:C142-7.
Cristianini,N.and J.Shawe-Taylor.2000.An Introduction to Support Vector Machines andOther Kernel-based Learning Methods.
Cristianini,N.,Shawe-Taylor,J.Support Vector Machines.2000.Cambridge UniversityPress.Cambridge.
Cuff,M.A.,D.W.Lambert and S.P.Shirazi-Beechey.2002.Substrate-induced regulation ofthe human colonic monocarboxylate transporter,MCT1.J Physiol 539:361-371.
de Santa Barbara,P.,G.R.van den Brink and D.J.Roberts.2003.Development anddifferentiation of the intestinal epithelium.Cell Mol Life Sci 60:1322-1332.
Deng,G.,E.Peng,J.Gum,J.Terdiman,M.Sleisenger and Y.S.Kim.2002.Methylation ofhMLH1 promoter correlates with the gene silencing with a region-specific manner incolorectal cancer.Br J Cancer 86:574-579.
DeRisi,et al.,Nature Genetics,14:457-460(1996
Distler,P.and P.R.Holt.1997.Are right-and left-sided colon neoplasms distinct tumors?DigDis 15:302-311.
Drmanac R.,Labat I.and Crkvenjakov R.,An algorithm for the DNA sequence generationfrom k-tuple word contents of the minimal number of random fragments.J.Biomol.Struc.&Dyn.5:1085-1102,1991
Filipe,M.I.and A.C.Branfoot.1976.Mucin histochemistry of the colon.Curr Top Pathol63:143-178.
Fleming,R.E.,S.Parkkila,A.K.Parkkila,H.Rajaniemi,A.Waheed and W.S.Sly.1995.Carbonic anhydrase IV expression in rat and human gastrointestinal tract regional,cellular,and subcellular localization.J Clin Invest 96:2907-2913.
Garcia-Hirschfeld Garcia,J.,A.Blanes Berenguel,L.Vicioso Recio,A.Marquez Moreno,J.Rubio Garrido and A.Matilla Vicente.1999.Colon cancer:p53 expression and DNA ploidy.Their relation to proximal or distal tumor site.Rev Esp Enferm Dig 91:481-488.
Gautier,L.,L.Cope,B.M.Bolstad and R.A.Irizarry.2004.affy--analysis of AffymetrixGeneChip data at the probe level.Bioinformatics 20:307-315.
Gentleman,R.C.,V.J.Carey,D.M.Bates,B.Bolstad,M.Denling,S.Dudoit,B.Ellis,L.Gautier,Y.Ge,J.Gentry,K.Hornik,T.Hothorn,W.Huber,S.Iacus,R.Irizarry,F.Leisch,C.Li,M.Maechler,A.J.Rossini,G.Sawitzki,C.Smith,G.Smyth,L.Tierney,J.Y.Yang and J.Zhang.2004.Bioconductor:open software development for computational biology andbioinformatics.Genome Biol 5:R80.
Germer S,Holland MJ,Higuchi R.2000,High-throughput SNP allele-frequencydetermination in pooled DNA samples by kinetic PCR.Genome Res.10(2):258-66.
Glebov,O.K.,L.M.Rodriguez,K.Nakahara,J.Jenkins,J.Cliatt,C.J.Humbyrd,J.DeNobile,P.Soballe,R.Simon,G.Wright,P.Lynch,S.Patterson,H.Lynch,S.Gallinger,A.Buchbinder,G.Gordon,E.Hawk and I.R.Kirsch.2003.Distinguishing right from left colonby the pattern of gene expression.Cancer Epidemiol Biomarkers Prev 12:755-762.
Gum,J.R.J.,S.C.Crawley,J.W.Hicks,D.E.Szymkowski and Y.S.Kim.2002.MUC17,anovel membrane-tethered mucin.Biochem Biophys Res Commun 291:466-475.
Guo Z,Guilfoyle RA,Thiel AJ,Wang R,Smith LM.1994,Direct fluorescence analysis ofgenetic polymorphisms by hybridization with oligonucleotide arrays on glass supports.Nucleic Acids Res.22(24):5456-65
Hastie,T,Tibshirani,R,Friedman,J,The Elements of Statistical Learning.Springer,2001.New York.‘Chapter 4:Linear Methods for Classification’.Hostikka,S.L.and M.R.Capecchi.1998.The mouse Hoxc 11 gene:genomic structure and expression pattern.Mech Dev 70:133-145.
Hubbell,E.,W.M.Liu and R.Mei.2002.Robust estimators for expression analysis.Bioinformatics 18:1585-1592.
Iacopetta,B.2002.Are there two sides to colorectal cancer?Int J Cancer 101:403-408.
Irizarry,R.A.,B.M.Bolstad,F.Collin,L.M.Cope,B.Hobbs and T.P.Speed.2003.
Summaries of Affymetrix GeneChip probe level data.Nucleic Acids Res 31:e15.
James,R.,T.Erler and J.Kazenwadel.1994.Structure of the murine homeobox gene cdx-2.Expression in embryonic and adult intestinal epithelinm.J Biol Chem 269:15229-15237.
Jeansonne,B.,Q.Lu,D.A.Goodenough and Y.H.Chen.2003.Claudin-8 interacts withmulti-PDZ domain protein 1(MUPP1)and reduces paracellular conductance in epithelialcells.Cell Mol Biol(Noisy-le-grand)49:13-21.
Kiiveri,H.T.A bayesian approach to variable selection when the number of variables is verylarge Science and Statistics:A Festschrift for Terry Speed,2003 Institute of MathematicalStatistics,Lecture Notes-Monograph Series,Vol.3,pages 127-143
Kiiveri,H.,Thomas,M.,Dunne,R.,Method and Apparatus for Identifying DiagnosticComponents of Asystem with a characteristic response,International Patent Application No.PCT/AU2002/000934
Komuro,K.,M.Tada,E.Tamoto,A.Kawakami,A.Matsunaga,K.Teramoto,G.Shindoh,M.Takada,K.Murakawa,M.Kanai,N.Kobayashi,Y.Fujiwara,N.Nishimura,J.Hamada,A.Ishizu,H.Ikeda,S.Kondo,H.Katoh,T.Moriuchi and T.Yoshiki.2005.Right-and left-sidedcolorectal cancers display distinct expression profiles and the anatomical stratification allowsa high accuracy prediction of lymph node metastasis.J Surg Res 124:216-224.
Kondo,T.,P.Dolle,J.Zakany and D.Duboule.1996.Function of posterior HoxD genes inthe morphogenesis of the anal sphincter.Development 122:2651-2659.
Kosaki,K.,R.Kosaki,T.Suzuki,H.Yoshihashi,T.Takahashi,K.Sasaki,M.Tomita,W.McGinnis and N.Matsuo.2002.Complete mutation analysis panelof the 39 human HOXgenes.Teratology 65:50-62.
Krzanowski,W and Marriott,F,Multivariate Analysis Part II.Classification CovarianceStructures and Repeated Measures.1995.Oxford Univ Press.Oxford.UK.Lipshutz,R.J.,S.P.Fodor,T.R.Gingeras and D.J.Lockhart.1999.High density synthetic oligonucleotidearrays.Nat Genet 21:20-24.
Liu,X.F.,P.Olsson,C.D.Wolfgang,T.K.Bera,P.Duray,B.Lee and I.Pastan.2001.PRAC:A novel small nuclear protein that is specifically expressed in human prostate and colon.Prostate 47:125-131.
Macfarlane,G.T.,G.R.Gibson and J.H.Cummings.1992.Comparison of fermentationreactions in different regions of the human colon.J Appl Bacteriol 72:57-64.
Maskos and Southern,Nuc.Acids Res.20:1679-84,1992
Miklos,G.L.and R.Maleszka.2004.Microarray reality checks in the context of a complexdisease.Nat Biotechnol 22:615-621.
Montgomery,R.K.,A.E.Mulberg and R.J.Grand.1999.Development of the humangastrointestinal tract:twenty years of progress.Gastroenterology 116:702-731.
Moore,A.,Basilion,J.,Chiocca,e.,and Weissleder,R.,Measuring Transferrin ReceptorGene Expression by NMR Imaging.BBA,1402:239-249,1988
Ortega-Cava,C.F.,S.Ishihara,M.A.Rumi,K.Kawashima,N.Ishimura,H.Kazumori,J.Udagawa,Y.Kadowaki and Y.Kinoshita.2003.Strategic compartmentalization of Toll-likereceptor 4 in the mouse gut.J Immunol 170:3977-3985.
Park,Y.K.,J.L.Franklin,S.H.Settle,S.E.Levy,E.Chung,L.H.Jeyakumar,Y.Shyr,M.K.Washington,R.H.Whitehead,B.J.Aronow and R.J.Coffey.2005.Gene expression profileanalysis of mouse colon embryonic development.Genesis 41:1-12.
Pease AC,Solas D,Sullivan EJ,Cronin MT,Holmes CP,Fodor SP.,1994,Light-generatedoligonucleotide arrays for rapid DNA sequence analysis.Proc NatlAcad Sci U S A.91(11):5022-6
Peifer,M.2002.Developmental biology:colon construction.Nature 420:274-5,277.Pevzner PA.,1989,1-Tuple DNA sequencing:computer analysis.,J Biomol Struct Dyn.7(1):63-73
Pevzner PA,Lysov YuP,Khrapko KR,Belyavsky AV,Florentiev VL,Mirzabekov AD.,1991,Improved chips for sequencing by hybridization.,J Biomol Struct Dyn.9(2):399-410R:A Language and Environment for Statistical Computing,R Development Core Team,RFoundation for Statistical Computing,Vienna,Austria,
2007,ISBN 3-900051-07-0.
Rajendran,V.M.,J.Black,T.A.Ardito,P.Sangan,S.L.Alper,C.Schweinfest,M.Kashgarian and H.J.Binder.2000.Regulation of DRA and AEl in rat colon by dietary Nadepletion.Am J Physiol Gastrointest Liver Physiol 279:G931-42.
Ripley,B D,Cambridge Univ Press.1996.Pattern Recognition and Neural Networks.‘Chapter 6:Non-parametric methods.’
Sano T,Cantor CR.,1991,A streptavidin-protein A chimera that allows one-step productionof a variety of specific antibody conjugates.,Biotechnology(N Y).9(12):1378-81Schena,et al.Science 270:467-470,1995
Scholkopf,B,Tsuda,K,and Vert,J P Kernel Methods in Computational Biology.2004.MIT Press.Cambridge MA.
Silberg,D.G.,G.P.Swain,E.R.Suh and P.G.Traber.2000.Cdx1 and cdx2 expression duringintestinal development.Gastroenterology 119:961-971.
Singh,S.,R.Poulsom,A.M.Hanby,L.A.Rogers,N.A.Wright,M.C.Sheppard and M.J.Langman.1998.Expression of oestrogen receptor and oestrogen-indncible genes pS2 andERD5 in large bowel mucosa and cancer.J Pathol 184:153-160.
Smith SB,Finzi L,Bustamante C.,1992,Direct Mechanical Measurements of the Elasticityof Single DNA Molecules by Using Magnetic Beads,Science 258:1122-1126
Smyth,G.2005.Limma:linear models for microarray data.In Bioinformatics andComputational Biology Solutions using R and Bioconductor.(eds.Gentleman,R.,V.Carey,S.Dudoit,R.Irizarray and W.Huber),pp.397-420.Springer,New York.
Traber,P.G.1999.Transcriptional regulation in intestinal development.Implications forcolorectal cancer.Ady Exp Med Biol 470:1-14.
Urdea et al.,Nucleic Acids Symp.Ser.,24:197-200,1991
Venables,W.and Ripley,B.D.,,Modern Applied Statistics with S,Springer-Verlag.NewYork,2002.
Wedemeyer,N.,Potter,T.,Wetzlich,S.and Gohde,W.Flow Cytometric Quantification ofCompetitive Reverse Transcriptase-PCR products,Clinical Chemistry 48:9 1398-1405,2002Weissleder,R.,Moore,A.,Ph.D.,Mahmood-Bhorade,U.,Benveniste,H.,Chiocca,E.A.,Basilion,J.P.High resolution in vivo imaging of transgene expression,Nature Medicine6:351-355,2000
Williams,S.J.,M.A.McGuckin,D.C.Gotley,H.J.Eyre,G.R.Sutherland and T.M.Antalis.1999.Two novel mucin genes down-regulated in colorectal cancer identified by differentialdisplay.Cancer Res 59:4083-4089.
Wilson,C.and C.J.Miller.2005.Simpleaffy:a BioConductor package for Affymetrix qualitycontrol and data analysis.Bioinformatfcs
Yamada,T.and D.H.Alpers.2003.Textbook of Gastroenterology,2 Vol.Set.

Claims (50)

1.用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包括:
访问训练数据,包括代表源自至少一个大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的表达训练数据和代表所述细胞或细胞群体与所述近端-远端来源的关联的近端-远端来源训练数据;
处理所述训练数据以产生代表所述基因表达水平的线性或非线性组合的分类数据,所述分类数据被用于基于代表取自大肠的另外的细胞或细胞亚群中所述基因的表达的进一步的表达数据而产生进一步的近端-远端来源数据,所述进一步的近端-远端来源数据表明所述另外的细胞或细胞亚群的近端-远端来源。
2.权利要求1的方法,包括处理所述分类数据和所述进一步的表达数据以产生所述进一步的近端-远端来源数据。
3.权利要求1或2的方法,其中所述处理基于统计学回归、归纳线性方法、和/或多重线性回归。
4.权利要求1至3中任一项的方法,其中所述处理包括以GeneRave处理所述训练数据。
5.用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包括:
访问训练数据,包括代表源自大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的表达训练数据和代表所述细胞或细胞群体与所述近端-远端来源的关联的近端-远端来源训练数据;
使用多变量分析来处理所述训练数据以产生分类数据,所述分类数据用于基于代表源自大肠的另外的细胞或细胞群体中的基因表达的进一步的表达数据而产生表明所述另外的细胞或细胞群体的近端-远端来源的近端-远端来源数据。
6.权利要求5的方法,包括处理所述进一步的表达数据和所述分类数据以产生所述近端-远端来源数据。
7.用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的检测方法,所述方法包括:
访问代表源自至少一个大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的第一表达数据;
使用多变量分析处理所述第一表达数据以产生多变量模型数据,所述多变量模型数据代表所述第一表达数据与所述细胞或细胞群体的近端-远端来源之间的关联,所述多变量模型数据被用于基于第二表达数据而产生代表细胞或细胞群体的近端-远端来源的近端-远端来源数据,所述第二表达数据代表源自个体的大肠的所述细胞或细胞群体中的基因表达。
8.权利要求7的方法,包括访问代表源自个体的大肠的细胞或细胞群体中的基因表达的所述第二表达数据;和
处理所述表达数据和所述多变量模型数据以产生代表所述细胞或细胞群体的近端-远端来源的所述近端-远端来源数据。
9.权利要求7的方法,其中所述访问第一表达数据的步骤包括访问第三表达数据,所述第一表达数据是所述第三表达数据的亚组,且所述方法包括处理所述第三表达数据以选择所述第三表达数据的亚组,所述亚组对应于沿着所述大肠的近端-远端轴线以单独或组合方式被差异表达的基因亚组,所选择的亚组是所述第一表达数据。
10.用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包括:
访问代表源自至少一个大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的第一表达数据;和
使用内核方法处理所述第一表达数据以产生分类数据,所述分类数据用于处理代表大肠的至少一种第二细胞或细胞群体中的所述基因的表达的所述表达数据以产生代表所述至少一种第二细胞或细胞群体的近端-远端来源的近端-远端来源数据。
11.权利要求10的方法,其中所述内核方法包括支持向量机(SVM)。
12.权利要求10或11的方法,其中所述方法包括处理所述第二表达数据和所述分类数据以产生所述近端-远端来源数据。
13.用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的检测方法,所述方法包括:
访问代表源自至少一个大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的第一表达数据;
使用主成分分析法处理所述第一表达数据以产生对应于所述基因的表达的至少一种线性组合的主成分数据,所述主成分数据表明所述细胞或细胞群体的至少一种所述近端-远端来源。
14.权利要求13的方法,其中所述访问第一表达数据的步骤包括访问第三表达数据,所述第一表达数据是所述第三表达数据的亚组,且所述方法包括处理所述第三表达数据以选择所述第三表达数据的亚组,所述亚组对应于沿着所述至少一个大肠的近端-远端轴线被差异表达的基因亚组,所选择的亚组是所述第一表达数据。
15.权利要求13或14的方法,包括处理所述主成分数据和代表大肠的至少一种第二细胞或细胞群体中的所述基因的表达的第二表达数据以产生代表所述至少一种第二细胞或细胞群体的近端-远端来源的近端-远端来源数据。
16.用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包括:
访问代表源自至少一个大肠的已知近端-远端来源的细胞或细胞群体中的基因表达的第一表达数据;和
使用规范变量分析法处理所述表达数据以产生规范变量数据,所述规范变量数据表明所述细胞或细胞群体的至少一种所述近端-远端来源。
17.权利要求16的方法,其中所述规范变量分析法包括表达谱分析。
18.权利要求16或17的方法,其中所述规范变量数据对应于所述基因亚组。
19.权利要求25至27中任一项的方法,包括处理所述规范变量数据和代表大肠的至少一种第二细胞或细胞群体中的所述基因的表达的第二表达数据以产生代表所述至少一种第二细胞或细胞群体的近端-远端来源的近端-远端来源数据。
20.权利要求1至19中任一项的方法,包括基于先验信念和/或一或多次误分类的代价修改所述分类数据以提高由所述近端-远端来源数据所表明的所述近端-远端来源的准确性或效用。
21.权利要求1至10中任一项的方法,其中使用非参数方法确定所述近端-远端来源。
22.权利要求21的方法,其中所述非参数方法包括近邻法。
23.权利要求1至22中任一项的方法,其中所述基因包括选自以下的基因:
通过Affymetrix探针号:218888_s_at而检测到的基因
通过Affymetrix探针号:225290_at而检测到的基因
通过Affymetrix探针号:226432_at而检测到的基因
通过Affymetrix探针号:231576_at而检测到的基因
通过Affymetrix探针号:235733_at而检测到的基因
通过Affymetrix探针号:236894_at而检测到的基因
通过Affymetrix探针号:239656_at而检测到的基因
通过Affymetrix探针号:242059_at而检测到的基因
通过Affymetrix探针号:242683_at而检测到的基因
通过Affymetrix探针号:230105_at而检测到的基因
通过Affymetrix探针号:230269_at而检测到的基因
通过Affymetrix探针号:238378_at而检测到的基因
通过Affymetrix探针号:239814_at而检测到的基因
通过Affymetrix探针号:239994_at而检测到的基因
通过Affymetrix探针号:240856_at而检测到的基因
通过Affymetrix探针号:242414_at而检测到的基因
通过Affymetrix探针号:244553_at而检测到的基因
通过Affymetrix探针号:217320而检测到的基因
通过Affymetrix探针号:236141而检测到的基因
通过Affymetrix探针号:236513而检测到的基因
通过Affymetrix探针号:238143而检测到的基因
ABHD5,        FAM3B,    IGFBP2,     POPDC3,
ADRA2A,       FLJ10884, KCNG1,      REG1A,
APOBEC1,      FLJ22761, KIFAP3,     SLC14A2,
C10orf45,     FTHFD,    LOC375295,  SLC20A1,
C10orf58,     GCNT1,    ME3,        SLC23A3,
CCL8,         HAS3,     MEP1B,      SLC38A2,
CLDN15,       HOXB6,    NPY6R,      SLC9A3,
DEFA5,        HOXD4,    NR1H3,      TBCC,
EYA2,         HSD3B2,   HR1H4,      ZNF493,
OSTα,
PAP,
AFARP1或通过Affymetrix探针号:202234_s_at而检测到的基因,
ANPEP或通过Affymetrix探针号:202888_s_at而检测到的基因,
CCL13或通过Affymetrix探针号:206407_s_at而检测到的基因
CRYL1或通过Affymetrix探针号:220753_s_at而检测到的基因,
CYP2B6或通过Affymetrix探针号:206754_s_at而检测到的基因,
CYP2C18或通过Affymetrix探针号:208126_s_at而检测到的基因,
CYP2C9或通过Affymetrix探针号:214421_x_at或220017_x_at而检测到的基因,
EPB41L3或通过Affymetrix探针号:211776_s_at而检测到的基因
ETNK1或通过Affymetrix探针号:222262_s_at或224453_s_at而检测到的基因,
FAM45A或通过Affymetrix探针号:221804_s_at或222955_s_at而检测到的基因,
FGFR2或通过Affymetrix探针号:203639_s_at而检测到的基因,
GBA3或通过Affymetrix探针号:219954_s_at而检测到的基因,
GSPT2或通过Affymetrix探针号:205541_s_at而检测到的基因,
GULP1或通过Affymetrix探针号:215913_s_at而检测到的基因,
HOXA9或通过Affymetrix探针号:205366_s_at或214551_s_at而检测到的基因,
HOXC6或通过Affymetrix探针号:206858_s_at而检测到的基因,
HOXD3或通过Affymetrix探针号:206601_s_at而检测到的基因,
ME2或通过Affymetrix探针号:210153_s_at而检测到的基因,
MESP1或通过Affymetrix探针号:224476_s_at而检测到的基因,
MOCS1或通过Affymetrix探针号:213181_s_at而检测到的基因,
MSCP或通过Affymetrix探针号:218136_s_at或221920_s_at而检测到的基因,
NETO2或通过Affymetrix探针号:222774_s_at而检测到的基因,
OASL或通过Affymetrix探针号:210757_s_at而检测到的基因,
PITX2或通过Affymetrix探针号:207558_s_at而检测到的基因,
PRAP1或通过Affymetrix探针号:243669_s_at而检测到的基因,
SCUBE2或通过Affymetrix探针号:219197_s_at而检测到的基因,
SEC6L1或通过Affymetrix探针号:225457_s_at而检测到的基因,
SLC16A1或通过Affymetrix探针号:202236_s_at或209900_s_at而检测到的基因,
UGT1A3或通过Affymetrix探针号:208596_s_at而检测到的基因,
UGT1A8或通过Affymetrix探针号:221305_s_at而检测到的基因
ACACA,    FMOD,   LOC151162, S100P,
C13orf11, FRMD3,  MCF2L,     SCGB2A1,
C20orf56, GALNT5, MMP28,     SCNN1B,
CAPN13,   GARNL4, MUC11,     SHANK2,
CLDN8,    GCG,    MUC12,     SIAT2,
COLM,     GNE,    MUC17,     SIAT4C,
CRIP1,    HGD,    MUC5B,     SIAT7F,
DNAJC12,  HOXB13, NEDD4L,    SIDT1,
FAM3C,    INSL5,  PARP8,     SLC13A2,
FBX025,   IRS1,     PCDH21, SLPI,
FLJ20366, ISL1,     PI3,    SPINK5,
FLJ20989, KIAA0703, PRAC,   SST,
KIAA0830, PRAC2,    TFF1,
KIAA1913, PTTG1IP,  TNFSF11,
LAMA1,    QPRT,     TPH1,
LGALS2,   QSCN6,    WFDC2,
RBM24,
ARF4或通过Affymetrix探针号:201097_s_at而检测到的基因,
BTG3或通过Affymetrix探针号:213134_x_at或205548_s_at而检测到的基因,
CHST5或通过Affymetrix探针号:221164_x_at或223942_x_at而检测到的基因,
CMAH或通过Affymetrix探针号:205518_s_at而检测到的基因,
CRYBA2或通过Affymetrix探针号:220136_s_at而检测到的基因
CTSE或通过Affymetrix探针号:205927_s_at而检测到的基因,
DKFZp761N1114或通过Affymetrix探针号:242372_s_at而检测到的基因,
EPB41L4A或通过Affymetrix探针号:228256_s_at而检测到的基因,
EPHA3或通过Affymetrix探针号:206070_s_at而检测到的基因,
FAS或通过Affymetrix探针号:204781_s_at而检测到的基因,
FER1L3或通过Affymetrix探针号:201798_s_at或211864_s_at而检测到的基因,
FLJ20152或通过Affymetrix探针号:218532_s_at或218510_x_at而检测到的基因,
FLJ23548或通过Affymetrix探针号:218187_s_at而检测到的基因,
FN1或通过Affymetrix探针号:211719_s_at或210495_x_at或212464__at或216442_x_at而检测到的基因,
FOXA2或通过Affymetrix探针号:210103_s_at而检测到的基因,
FRZB或通过Affymetrix探针号:203698_s_at而检测到的基因,
GDF15或通过Affymetrix探针号:221577_x_at而检测到的基因,
GJB3或通过Affymetrix探针号:205490_s_at而检测到的基因,
HOXD13或通过Affymetrix探针号:207397_s_at而检测到的基因,
INSM1或通过Affymetrix探针号:206502_s_at而检测到的基因,
MGC4170或通过Affymetrix探针号:212959_s_at而检测到的基因,
MLPH或通过Affymetrix探针号:218211_s_at而检测到的基因,
NEBL或通过Affymetrix探针号:203962_s_at而检测到的基因,
PLA2G2A或通过Affymetrix探针号:203649_s_at而检测到的基因,
PTPRO或通过Affymetrix探针号:208121_s_at而检测到的基因,
PYY或通过Affymetrix探针号:207080_s_at或211253_x_at而检测到的基因,
SH3BP4或通过Affymetrix探针号:222258_s_at而检测到的基因,
SLC28A2或通过Affymetrix探针号:207249_s_at而检测到的基因,
SLC2A10或通过Affymetrix探针号:221024_s_at而检测到的基因,
SPON1或通过Affymetrix探针号:213994_s_at或209437_s_at而检测到的基因,
STS或通过Affymetrix探针号:203769_s_at而检测到的基因
TM4SF11或通过Affymetrix探针号:204519_s_at而检测到的基因,
TUSC3或通过Affymetrix探针号:213432_s_at或209228_x_at而检测到的基因,
AQP8    LGALS2    EFNA1     ORF51E2
CCL11   C6ORF105  EMP1      PROM1
CLDN8   CCL11     FST       REG3A
MMP12   CD69      GHR       SCNN1B
P2RY14  CLC       HLA-DRB4  ST3GAL4
CCL18   CPM       HOXD10    ST6GALNA
ACSL1   DEFA6     HSD17B2   C6
AGR2    DHRS9     HSPCA
ASPN              IGHD
MT1M
SCD或通过Affymetrix探针号:200832_s_at而检测到的基因,
ABCB1或通过Affymetrix探针号:211994_s_at而检测到的基因,
BTBD3或通过Affymetrix探针号:202946_s_at而检测到的基因,
CA1或通过Affymetrix探针号:205950_s_at而检测到的基因,
DHRS9或通过Affymetrix探针号:224009_x_at或223952_x_at而检测到的基因,
DKFZP564I1171或通过Affymetrix探针号:225457_s_at而检测到的基因,
EIF5A或通过Affymetrix探针号:201123_s_at而检测到的基因,
IGHD或通过Affymetrix探针号:214973_x_at而检测到的基因,
PCK1或通过Affymetrix探针号:208383_s_at而检测到的基因,
RBP4或通过Affymetrix探针号:219140_s_at而检测到的基因,
TRPM6或通过Affymetrix探针号:224412_s_at而检测到的基因,
UGT1A6或通过Affymetrix探针号:215125_s_at而检测到的基因。
24.权利要求1至23中任一项的方法,其中所述基因仅包括7种基因。
25.权利要求1至24中任一项的方法,其中所述基因包括SEC6L1,PRAC,SPINK5,SEC6L1,ANPEP,DEFA5,和CLDN8。
26.权利要求1至23中任一项的方法,其中所述基因包括以下几组基因中的一或多组:
(i)SCD或通过Affymetrix探针号:200832_s_at而检测到的基因,
MMP12
P2RY14
CLDN8
ETNK1
(ii)PCP4
SLC28A2或通过Affymetrix探针号:207249_s_at而检测到的基因,
CCL18
RBP4或通过Affymetrix探针号:219140_s_at而检测到的基因,
DKFZP564I1171
PRAC
(iii)EIF5A或通过Affymetrix探针号:201123_s_at而检测到的基因,
IGFBP2
GDF15或通过Affymetrix探针号:221577_s_at而检测到的基因,
DKFZP564I1171或通过Affymetrix探针号:225457_s_at而检测到的基因,
MUC12
(iv)HLA-DRB4
HOXB13
INSL5
ETNK1或通过Affymetrix探针号:222262_s_at而检测到的基因,
(v)ANPEP或通过Affymetrix探针号:202888_s_at而检测到的基因,
DEFA5
CHST5或通过Affymetrix探针号:221164_x_at而检测到的基因,
通过Affymetrix探针号:226432_at而检测到的基因
COLM
(vi)SCNN1B
FN1或通过Affymetrix探针号:211719_x_at而检测到的基因,
ETNK1或通过Affymetrix探针号:224453_s_at而检测到的基因,
通过Affymetrix探针号:225290_at而检测到的基因
OSTα
HOXD10
探针号:230269
(vii)SLC20A1
HSPCA
通过Affymetrix探针号:217320_at而检测到的基因
CCL18
HOXB13
(viii)CD69
OLFM4或通过Affymetrix探针号:212768_s_at而检测到的基因,
UGT1A6或通过Affymetrix探针号:215125_s_at而检测到的基因,
CHST5或通过Affymetrix探针号:223942_x_at而检测到的基因,
通过Affymetrix探针号:231576_at而检测到的基因
MUC11
(ix)PLA2G2A或通过Affymetrix探针号:203649_s_at而检测到的基因,
REG3A
CCL13或通过Affymetrix探针号:206407_s_at而检测到的基因,
GCG
UGT1A3或通过Affymetrix探针号:208596_s_at而检测到的基因,
FN1或通过Affymetrix探针号:210485_x_at而检测到的基因,
MT1M
OR51E2
(x)SLC16A1或通过Affymetrix探针号:202236_s_at而检测到的基因,
WFDC2
S100P
PTPRO或通过Affymetrix探针号:208121_s_at而检测到的基因,
CCL11
ASPN
FAM3B
(xi)EMP1
NEBL或通过Affymetrix探针号:203962_s_at而检测到的基因,
TFF1
CMAH或通过Affymetrix探针号:205518_s_at而检测到的基因,
PYY或通过Affymetrix探针号:207080_s_at而检测到的基因,
ECAT11
NETO2或通过Affymetrix探针号:222774_s_at而检测到的基因,
(xii)HSD17B2
HGD
CA1或通过Affymetrix探针号:205950_s_at而检测到的基因,
CPM
LGALS2
IGHD或通过Affymetrix探针号:214973_x_at而检测到的基因,
FN1或通过Affymetrix探针号:216442_xs_at而检测到的基因,
(xiii)CLC
DEFA6
FN1或通过Affymetrix探针号:212464_s_at而检测到的基因,
FST
通过Affymetrix探针号:236513_at而检测到的基因
通过Affymetrix探针号:240856_at而检测到的基因
ETNK1
(xiv)PITX2或通过Affymetrix探针号:207558_s_at而检测到的基因,
DHRS9或通过Affymetrix探针号:224009_x_at而检测到的基因,
DKFZp761N1114
KIAA1913
(xv)GHR
HSD3B2
MEP1B
HOXA9或通过Affymetrix探针号:213651_s_at而检测到的基因,
TRPM6或通过Affymetrix探针号:224412_s_at而检测到的基因,
通过Affymetrix探针号:239994_at而检测到的基因
(xvi)SPINK5
PCK1或通过Affymetrix探针号:208383_s_at而检测到的基因,
ADRA2A
NQO1或通过Affymetrix探针号:210519_s_at而检测到的基因,
GBA3
通过Affymetrix探针号:228004_at而检测到的基因
(xvii)SCGB2A1
NR1H4
NETO2或通过Affymetrix探针号:218888_s_at而检测到的基因,
ST6GALNAC6
(xviii)NEBL
PROM1或通过Affymetrix探针号:204304_s_at而检测到的基因,
AGR2
REG1A
UGT1A8或通过Affymetrix探针号:221305_s_at而检测到的基因,
DKFZp761N1114或通过Affymetrix探针号:242372_s_at而检测到的基因,
(xix)ACSL1
ST3GAL4
GBA3或通过Affymetrix探针号:219954_s_at而检测到的基因,
SLC2A10或通过Affymetrix探针号:221024_s_at而检测到的基因,
DHRS9或通过Affymetrix探针号:223952_s_at而检测到的基因,
LAMA1
(xx)EFNA1
BTBD3或通过Afffymetrix探针号:202946_s_at而检测到的基因,
PI3
ABCB1或通过Affymetrix探针号:209994_s_at而检测到的基因,
C10orf45
BCMP11
C6orf105
CAPN13
CPM
通过Affymetrix探针号:236141_at而检测到的基因
通过Affymetrix探针号:238143_at而检测到的基因。
27.权利要求1至23中任一项的方法,其中所述分类数据代表13个基因的亚组。
28.权利要求1至27中任一项的方法,其中所述基因包括:
PRAC,
CCL11,
FRZB或通过Affymetrix探针号:203698_s_at而检测到的基因,
GDF15或通过Affymetrix探针号:221577_x_at而检测到的基因,
CLDN8,
SEC6L1或通过Affymetrix探针号:221577_x_at而检测到的基因,
GBA3或通过Affymetrix探针号:279954_s_at而检测到的基因,
DEFA5,
SPINK5,
OSTα,
ANPEP或通过Affymetrix探针号:202888_s_at而检测到的基因,和
MUC5。
29.一种检测系统,其具有用于实施权利要求1至28中任一项的方法的成分。
30.一种计算机可读形式的存储介质,其上存储有用于实施权利要求1至28中任一项的方法的程序指令。
31.一种检测系统,其包括:
用于访问训练数据的装置,所述训练数据包括代表源自至少一个大肠的细胞或细胞群体中的基因表达的表达训练数据和代表所述细胞或细胞群体与所述近端-远端来源的关联的近端-远端来源训练数据;
用于处理所述训练数据以产生代表所述基因表达水平的线性或非线性组合的分类数据的装置,所述分类数据被用于基于代表取自大肠的另外的细胞或细胞亚群中所述基因的表达的进一步的表达数据而产生近端-远端来源数据,所述近端-远端来源数据表明所述另外的细胞或细胞亚群的近端-远端来源。
32.用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包括测量来自所述个体的生物学样品中的选自以下的一或多个基因的表达水平:
(i)PITX2或通过Affymetrix探针号207558_s_at而检测到的基因,
ETNK1或通过Affymetrix探针号222262_s_at或224453_s_at而检测到的基因,
FAM3B,
CYP2C18或通过Affymetrix探针号208126_s_at而检测到的基因,
GBA3或通过Affymetrix探针号219954_s_at而检测到的基因,
MEP1B,
ADRA2A,
HSD3B2,
CYP2B6或通过Affymetrix探针号206754_s_at而检测到的基因,
SLC14A2或通过Affymetrix探针号226432_s_at而检测到的基因,
CYP2C9或通过Affymetrix探针号231576_s_at而检测到的基因,
DEFA5,
OASL或通过Affymetrix探针号210797_s_at而检测到的基因,
SLC37A3,
REG1A,
MEP1B,
NR1H4;或
(ii)DKFZp761N1114或通过Affymetrix探针号242374_s_at而检测到的基因,
PRAC,
INSL5,
HOXB13或
WFDC2
其中,组(i)的基因表达水平相对于正常远端大肠对照水平更高,则表明是近端大肠来源,而组(ii)的基因表达水平相对于正常近端大肠对照水平更高,则表明是远端大肠来源。
33.用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的方法,所述方法包括测量来自所述个体的生物学样品中的选自以下的一或多个基因的表达水平:
(i)通过Affymetrix探针号:218888_s_at而检测到的基因
通过Affymetrix探针号:225290_at而检测到的基因
通过Affymetrix探针号:226432_at而检测到的基因
通过Affymetrix探针号:231576_at而检测到的基因
通过Affymetrix探针号:235733_at而检测到的基因
通过Affymetrix探针号:236894_at而检测到的基因
通过Affymetrix探针号:239656_at而检测到的基因
通过Affymetrix探针号:242059_at而检测到的基因
通过Affymetrix探针号:242683_at而检测到的基因
ABHD5,   FAM3B,   IGFBP2,   POPDC3,
ADRA2A,  FLJ10884,KCNG1,    REG1A,
APOBEC1, FLJ22761,KIFAP3,   SLC14A2,
C10orf45,FTHFD,   LOC375295,SLC20A1,
C10orf58,GCNT1,   ME3,      SLC23A3,
CCL8,    HAS3,    MEP1B,    SLC38A2,
CLDN15,  HOXB6,   NPY6R,    SLC9A3,
DEFA5,   HOXD4,   NR1H3,    TBCC,
EYA2,    HSD3B2,  HR1H4,    ZNF493,
OSTα,
PAP,
AFARP1或通过Affymetrix探针号:202234_s_at而检测到的基因,
ANPEP或通过Affymetrix探针号202888_s_at而检测到的基因,
CCL13或通过Affymetrix探针号:206407_s_at而检测到的基因
CRYL1或通过Affymetrix探针号:220753_s_at而检测到的基因,
CYP2B6或通过Affymetrix探针号:206754_s_at而检测到的基因,
CYP2C18或通过Affymetrix探针号:208126_s_at而检测到的基因,
CYP2C9或通过Affymetrix探针号:214421_x_at或220017_x_at而检测到的基因,
EPB41L3或通过Affymetrix探针号:211776_s_at而检测到的基因
ETNK1或通过Affymetrix探针号:222262_s_at或224453_s_at而检测到的基因,
FAM45A或通过Affymetrix探针号:221804_s_at或222955_s_at而检测到的基因,
FGFR2或通过Affymetrix探针号:203639_s_at而检测到的基因,
GBA3或通过Affymetrix探针号:219954_s_at而检测到的基因,
GSPT2或通过Affymetrix探针号:205541_s_at而检测到的基因,
GULP1或通过Affymetrix探针号:215913_s_at而检测到的基因,
HOXA9或通过Affymetrix探针号:205366_s_at或214551_s_at而检测到的基因,
HOXC6或通过Affymetrix探针号:206858_s_at而检测到的基因,
HOXD3或通过Affymetrix探针号:206601_s_at而检测到的基因,
ME2或通过Affymetrix探针号:210153_s_at而检测到的基因,
MESP1或通过Affymetrix探针号:224476_s_at而检测到的基因,
MOCS1或通过Affymetrix探针号:213181_s_at而检测到的基因,
MSCP或通过Affymetrix探针号:218136_s_at或221920_s_at而检测到的基因,
NETO2或通过Affymetrix探针号:222774_s_at而检测到的基因,
OASL或通过Affymetrix探针号:210757_s_at而检测到的基因,
PITX2或通过Affymetrix探针号:207558_s_at而检测到的基因,
PRAP1或通过Affymetrix探针号:243669_s_at而检测到的基因,
SCUBE2或通过Affymetrix探针号:219197_s_at而检测到的基因,
SEC6L1或通过Affymetrix探针号:225457_s_at而检测到的基因,
SLC16A1或通过Affymetrix探针号:202236_s_at或209900_s_at而检测到的基因,
UGT1A3或通过Affymetrix探针号:208596_s_at而检测到的基因,
UGT1A8或通过Affymetrix探针号:221305_s_at而检测到的基因
(ii)通过Affymetrix探针号:230105_at而检测到的基因
通过Affymetrix探针号:230269_at而检测到的基因
通过Affymetrix探针号:238378_at而检测到的基因
通过Affymetrix探针号:239814_at而检测到的基因
通过Affymetrix探针号:239994_at而检测到的基因
通过Affymetrix探针号:240856_at而检测到的基因
通过Affymetrix探针号:242414_at而检测到的基因
通过Affymetrix探针号:244553_at而检测到的基因
ACACA,     FMOD,     LOC151162, S100P,
C13orf11,  FRMD3,    MCF2L,     SCGB2A1,
C20orf56,  GALNT5,   MMP28,     SCNN1B,
CAPN13,    GARNL4,   MUC11,     SHANK2,
CLDN8,     GCG,      MUC12,     SIAT2,
COLM,      GNE,      MUC17,     SIAT4C,
CRIP1,     HGD,      MUC5B,     SIAT7F,
DNAJC12,   HOXB13,   NEDD4L,    SIDT1,
FAM3C,     INSL5,    PARP8,     SLC13A2,
FBX025,    IRS1,     PCDH21,    SLPI,
FLJ20366,  ISL1,     PI3,       SPINK5,
FLJ20989,  KIAA0703, PRAC,      SST,
KIAA0830,  PRAC2,    TFF1,
KIAA1913,  PTTG1IP,  TNFSF11,
LAMA1,     QPRT,     TPH1,
LGALS2,    QSCN6,    WFDC2,
RBM24,
ARF4或通过Affymetrix探针号:201097_s_at而检测到的基因,
BTG3或通过Affymetrix探针号:213134_x_at或205548_s_at而检测到的基因,
CHST5或通过Affymetrix探针号:221164_x_at或223942_x_at而检测到的基因,
CMAH或通过Affymetrix探针号:205518_s_at而检测到的基因,
CRYBA2或通过Affymetrix探针号:220136_s_at而检测到的基因
CTSE或通过Affymetrix探针号:205927_s_at而检测到的基因,
DKFZp761N1114或通过Affymetrix探针号:242372_s_at而检测到的基因,
EPB41L4A或通过Affymetrix探针号:228256_s_at而检测到的基因,
EPHA3或通过Affymetrix探针号:206070_s_at而检测到的基因,
FAS或通过Affymetrix探针号:204781_s_at而检测到的基因,
FER1L3或通过Affymetrix探针号:201798_s_at或211864_s_at而检测到的基因,
FLJ20152或通过Affymetrix探针号:218532_s_at或218510_x_at而检测到的基因,
FLJ23548或通过Affymetrix探针号:218187_s_at而检测到的基因,
FN1或通过Affymetrix探针号:211719_s_at或210495_x_at或212464_at或216442_x_at而检测到的基因,
FOXA2或通过Affymetrix探针号:210103_s_at而检测到的基因,
FRZB或通过Affymetrix探针号:203698_s_at而检测到的基因,
GDF15或通过Affymetrix探针号:221577_x_at而检测到的基因,
GJB3或通过Affymetrix探针号:205490_s_at而检测到的基因,
HOXD13或通过Affymetrix探针号:207397_s_at而检测到的基因,
INSM1或通过Affymetrix探针号:206502_s_at而检测到的基因,
MGC4170或通过Affymetrix探针号:212959_s_at而检测到的基因,
MLPH或通过Affymetrix探针号:218211_s_at而检测到的基因,
NEBL或通过Affymetrix探针号:203962_s_at而检测到的基因,
PLA2G2A或通过Affymetrix探针号:203649_s_at而检测到的基因,
PTPRO或通过Affymetrix探针号:208121_s_at而检测到的基因,
PYY或通过Affymetrix探针号:207080_s_at或211253_x_at而检测到的基因,
SH3BP4或通过Affymetrix探针号:222258_s_at而检测到的基因,
SLC28A2或通过Affymetrix探针号:207249_s_at而检测到的基因,
SLC2A10或通过Affymetrix探针号:221024_s_at而检测到的基因,
SPON1或通过Affymetrix探针号:213994_s_at或209437_s_at而检测到的基因,
STS或通过Affymetrix探针号:203769_s_at而检测到的基因
TM4SF11或通过Affymetrix探针号:204519_s_at而检测到的基因,
TUSC3或通过Affymetrix探针号:213432_s_at或209228_x_at而检测到的基因,
其中,组(i)的基因表达水平相对于正常远端大肠对照水平更高,则表明是近端大肠来源,而组(ii)的基因表达水平相对于正常近端大肠对照水平更高,则表明是远端大肠来源。
34.权利要求32或33的方法,其中所述近端区域包含盲肠和升结肠。
35.权利要求33的方法,其中所述远端区域包含脾曲、降结肠、乙状结肠和直肠。
36.权利要求32或33或34或35的方法,其中所述基因是ETNK1。
37.权利要求32或33或34或35的方法,其中所述基因是GBA3。
38.权利要求32或33或34或35的方法,其中所述基因是PRAC。
39.权利要求32-38中任一项的方法,其中所述生物学样品是粪便样品、灌肠洗液、手术切除物或组织活检物。
40.核酸阵列,所述阵列包含多个:
(i)包含对应于权利要求33中所列的任何一种位置标记物基因的核苷酸序列或与之具有至少80%相同性的序列的核酸分子或所述核酸分子的功能性衍生物、片段、变体或同源物;或
(ii)包含能够在低严格性条件下在42℃与(i)的任何一或多种序列杂交的核苷酸序列的核酸分子或所述核酸分子的功能性衍生物、片段、变体或同源物;
(iii)包含能够在低严格性条件下在42℃与(i)的任何一或多种序列杂交的核苷酸序列的核酸探针或寡核苷酸或所述核酸分子的功能性衍生物、片段、变体或同源物;
(iv)由(i)或(ii)的核酸分子编码的蛋白质或所述蛋白质的衍生物、片段或同源物,
其中所述核酸的表达水平表明源自所述大肠的细胞或细胞亚群的所述近端-远端来源。
41.权利要求40的阵列,其中所述位置标记物是权利要求32或33中所列的标记物。
42.核酸阵列,所述阵列包含多个:
(i)包括对应于ETNK1和/或GBA3和/或PRAC的核苷酸序列或与之具有至少80%相同性的序列的核酸分子或所述核酸分子的功能性衍生物、片段、变体或同源物;或
(ii)包含能够在低严格性条件下在42℃与(i)的任何一或多种序列杂交的核苷酸序列的核酸分子或所述核酸分子的功能性衍生物、片段、变体或同源物;
(iii)包含能够在低严格性条件下在42℃与(i)的任何一或多种序列杂交的核苷酸序列的核酸探针或寡核苷酸或所述核酸分子的功能性衍生物、片段、变体或同源物;
(iv)由(i)或(ii)的核酸分子编码的蛋白质或所述蛋白质的衍生物、片段、变体或同源物,
其中所述核酸的表达水平表明源自所述大肠的细胞或细胞亚群的所述近端-远端来源。
43.权利要求40-42中任一项的阵列,其中所述阵列用于权利要求32-39中任一项的方法中。
44.权利要求40-42中任一项的阵列用于确定源自个体的大肠的细胞或细胞群体的解剖学来源的用途。
45.权利要求23的方法,其中所述基因选自:
PITX2或通过Affymetrix探针号207558_s_at而检测到的基因,
ETNK1或通过Affymetrix探针号222262_s_at或224453_s_at而检测到的基因,
FAM3B,
CYP2C18或通过Affymetrix探针号208126_s_at而检测到的基因,
GBA3或通过Affymetrix探针号219954_s_at而检测到的基因,
MEP1B,
ADRA2A,
HSD3B2,
CYP2B6或通过Affymetrix探针号206754_s_at而检测到的基因,
SLC14A2或通过Affymetrix探针号226432_s_at而检测到的基因,
CYP2C9或通过Affymetrix探针号231576_s_at而检测到的基因,
DEFA5,
OASL或通过Affymetrix探针号210797_s_at而检测到的基因,
SLC37A3,
REG1A,
MEP1B,
NR1H4;或
DKFZp761N1114或通过Affymetrix探针号242374_s_at而检测到的基因,
PRAC,
INSL5,
HOXB13或
WFDC2。
46.权利要求1-39或45中任一项的方法,其中所述表达水平是蛋白质表达。
47.权利要求1-39或45中任一项的方法,其中所述表达水平是mRNA表达。
48.确定大肠中的细胞异常性或以大肠中的细胞异常性为特征的疾病的发生或发生倾向性的方法,所述方法包括根据权利要求1至39或45至47中任一项的方法确定源自大肠中的已知近端或远端来源的生物学样品的近端-远端基因表达谱,其中检测到与正常的近端-远端大肠基因表达谱不一致的基因表达谱表明表达所述谱的细胞或细胞群体的异常性。
49.用于测定生物学样品的诊断试剂盒,其包含用于检测一或多种近端-远端标记物的物质以及用于促进通过所述物质进行检测的试剂。
50.权利要求49的试剂盒,其用于权利要求1至39或45至47中任一项的方法。
CNA2007800278087A 2006-05-22 2007-05-22 检测方法 Pending CN101506379A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US80231206P 2006-05-22 2006-05-22
US60/802,312 2006-05-22

Publications (1)

Publication Number Publication Date
CN101506379A true CN101506379A (zh) 2009-08-12

Family

ID=38722870

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007800278087A Pending CN101506379A (zh) 2006-05-22 2007-05-22 检测方法

Country Status (10)

Country Link
US (2) US20090325810A1 (zh)
EP (2) EP2024509A4 (zh)
JP (1) JP2010527577A (zh)
CN (1) CN101506379A (zh)
AU (1) AU2007252306B2 (zh)
BR (1) BRPI0713098A2 (zh)
NZ (1) NZ573190A (zh)
RU (1) RU2008150483A (zh)
WO (1) WO2007134395A1 (zh)
ZA (1) ZA200810140B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102639563A (zh) * 2009-11-26 2012-08-15 霍夫曼-拉罗奇有限公司 2型糖尿病的标记蛋白
CN105938521A (zh) * 2016-07-04 2016-09-14 苏州大学附属儿童医院 一种强直性脊柱炎预警模型建立方法及装置
CN106537142A (zh) * 2014-08-01 2017-03-22 阿瑞奥萨诊断公司 使用杂交的靶核酸检测
CN108179192A (zh) * 2018-02-06 2018-06-19 徐州医科大学 一种基因多态性变异位点早期诊断子宫内膜癌的试剂盒
CN110055338A (zh) * 2019-04-11 2019-07-26 珠海铂华生物工程有限公司 一种弥漫性大b细胞淋巴瘤基因突变检测试剂盒
WO2019157774A1 (zh) * 2018-02-13 2019-08-22 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 用于npc诊断及预后预测的标志物及其应用
CN110456072A (zh) * 2019-08-15 2019-11-15 深圳市盛波尔生命科学技术有限责任公司 胰岛再生原蛋白1α的应用及其检测方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344519B (zh) * 2008-08-21 2012-08-22 上海交通大学 用于优化结直肠癌诊断的肿瘤标志物多分割点设置系统
EP2533796A4 (en) 2010-02-12 2013-12-04 Ngm Biopharmaceuticals Inc METHOD FOR THE TREATMENT OF GLUCOSE TISSUE CHANGES
US10767214B2 (en) 2010-10-28 2020-09-08 Clinical Genomics Pty Ltd Method of microvesicle enrichment
DK2847355T3 (da) 2012-05-11 2019-10-14 Clinical Genomics Pty Ltd Diagnostisk genmarkørpanel for colorektal cancer
SI2968443T1 (sl) 2013-03-15 2022-01-31 Protagonist Therapeutics, Inc. Analogi hepcidina in njihova uporaba
DK3143037T3 (da) 2014-05-16 2021-09-20 Protagonist Therapeutics Inc Alpha4beta7-integrin-thioether-peptidantagonister
JP2017530090A (ja) 2014-07-17 2017-10-12 プロタゴニスト セラピューティクス, インコーポレイテッド インターロイキン23受容体の経口ペプチド阻害剤および炎症性腸疾患を処置するためのそれらの使用
CN105044360A (zh) * 2015-07-22 2015-11-11 浙江大学医学院附属邵逸夫医院 Rbp4作为结直肠癌血清标记物的应用及诊断试剂盒
US20190002503A1 (en) 2015-12-30 2019-01-03 Protagonist Therapeutics, Inc. Analogues of hepcidin mimetics with improved in vivo half lives
WO2018089693A2 (en) * 2016-11-09 2018-05-17 Protagonist Therapeutics, Inc. Methods for determining and monitoring gastrointestinal inflammation
EP3616160A4 (en) 2017-04-25 2021-04-21 The University of Chicago CELL ANALYSIS
US11450121B2 (en) * 2017-06-27 2022-09-20 The Regents Of The University Of California Label-free digital brightfield analysis of nucleic acid amplification
US10636512B2 (en) 2017-07-14 2020-04-28 Cofactor Genomics, Inc. Immuno-oncology applications using next generation sequencing
EP3749345A4 (en) 2018-02-08 2022-04-06 Protagonist Therapeutics, Inc. CONJUGATED HEPCIDIN MIMETICS
WO2019200398A1 (en) * 2018-04-13 2019-10-17 Dana-Farber Cancer Institute, Inc. Ultra-sensitive detection of cancer by algorithmic analysis
AU2021209086A1 (en) 2020-01-15 2022-08-04 Janssen Biotech, Inc. Peptide inhibitors of interleukin-23 receptor and their use to treat inflammatory diseases
WO2022109328A1 (en) 2020-11-20 2022-05-27 Janssen Pharmaceutica Nv Compositions of peptide inhibitors of interleukin-23 receptor

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4868105A (en) 1985-12-11 1989-09-19 Chiron Corporation Solution phase nucleic acid sandwich assay
US5700637A (en) 1988-05-03 1997-12-23 Isis Innovation Limited Apparatus and method for analyzing polynucleotide sequences and method of generating oligonucleotide arrays
US6040138A (en) 1995-09-15 2000-03-21 Affymetrix, Inc. Expression monitoring by hybridization to high density oligonucleotide arrays
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5470967A (en) 1990-04-10 1995-11-28 The Dupont Merck Pharmaceutical Company Oligonucleotide analogs with sulfamate linkages
US5714331A (en) 1991-05-24 1998-02-03 Buchardt, Deceased; Ole Peptide nucleic acids having enhanced binding affinity, sequence specificity and solubility
US5419966A (en) 1991-06-10 1995-05-30 Microprobe Corporation Solid support for synthesis of 3'-tailed oligonucleotides
US5384261A (en) 1991-11-22 1995-01-24 Affymax Technologies N.V. Very large scale immobilized polymer synthesis using mechanically directed flow paths
US5837832A (en) 1993-06-25 1998-11-17 Affymetrix, Inc. Arrays of nucleic acid probes on biological chips
US6015880A (en) 1994-03-16 2000-01-18 California Institute Of Technology Method and substrate for performing multiple sequential reactions on a matrix
US5807522A (en) 1994-06-17 1998-09-15 The Board Of Trustees Of The Leland Stanford Junior University Methods for fabricating microarrays of biological samples
US6767704B2 (en) * 2000-03-27 2004-07-27 Thomas Jefferson University Methods of screening and diagnosing esophageal cancer by determining guanylin cyclase C expression
MXPA03005004A (es) * 2000-12-08 2004-09-10 Protein Design Labs Inc Metodos de diagnostico de cancer colorrectal y/o cancer de pecho, composiciones, y metodos para rastrear moduladores de cancer colorrectal y/o cancer de pecho.
WO2004081564A1 (en) * 2003-03-14 2004-09-23 Peter Maccallum Cancer Institute Expression profiling of tumours

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102639563A (zh) * 2009-11-26 2012-08-15 霍夫曼-拉罗奇有限公司 2型糖尿病的标记蛋白
CN106537142A (zh) * 2014-08-01 2017-03-22 阿瑞奥萨诊断公司 使用杂交的靶核酸检测
CN106537142B (zh) * 2014-08-01 2019-11-19 阿瑞奥萨诊断公司 使用杂交的靶核酸检测
CN105938521A (zh) * 2016-07-04 2016-09-14 苏州大学附属儿童医院 一种强直性脊柱炎预警模型建立方法及装置
CN108179192A (zh) * 2018-02-06 2018-06-19 徐州医科大学 一种基因多态性变异位点早期诊断子宫内膜癌的试剂盒
WO2019157774A1 (zh) * 2018-02-13 2019-08-22 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 用于npc诊断及预后预测的标志物及其应用
CN110055338A (zh) * 2019-04-11 2019-07-26 珠海铂华生物工程有限公司 一种弥漫性大b细胞淋巴瘤基因突变检测试剂盒
CN110055338B (zh) * 2019-04-11 2023-09-05 珠海铂华生物工程有限公司 一种弥漫性大b细胞淋巴瘤基因突变检测试剂盒
CN110456072A (zh) * 2019-08-15 2019-11-15 深圳市盛波尔生命科学技术有限责任公司 胰岛再生原蛋白1α的应用及其检测方法

Also Published As

Publication number Publication date
RU2008150483A (ru) 2010-06-27
EP2024509A1 (en) 2009-02-18
JP2010527577A (ja) 2010-08-19
EP2767595A1 (en) 2014-08-20
EP2767595B1 (en) 2018-09-19
US20090325810A1 (en) 2009-12-31
US20170260585A1 (en) 2017-09-14
EP2024509A4 (en) 2010-08-04
NZ573190A (en) 2012-03-30
AU2007252306A1 (en) 2007-11-29
BRPI0713098A2 (pt) 2012-10-16
ZA200810140B (en) 2009-12-30
AU2007252306B2 (en) 2013-10-17
WO2007134395A1 (en) 2007-11-29

Similar Documents

Publication Publication Date Title
CN101506379A (zh) 检测方法
Vázquez-García et al. Ovarian cancer mutational processes drive site-specific immune evasion
US10619211B2 (en) Methods using DNA methylation for identifying a cell or a mixture of cells for prognosis and diagnosis of diseases, and for cell remediation therapies
US20230287511A1 (en) Neuroendocrine tumors
Sotiriou et al. Taking gene-expression profiling to the clinic: when will molecular signatures become relevant to patient care?
Lee et al. A novel prognostic subtype of human hepatocellular carcinoma derived from hepatic progenitor cells
JP2020108402A (ja) 甲状腺状態の診断のための方法および組成物
JP5405110B2 (ja) 原発不明がんの原発巣を同定するための方法および材料
ES2692333T3 (es) Resolución de fracciones de genoma usando recuento de polimorfismos
Schramm et al. Review and cross-validation of gene expression signatures and melanoma prognosis
Kruhøffer et al. Gene expression signatures for colorectal cancer microsatellite status and HNPCC
US20190100809A1 (en) Algorithms for disease diagnostics
JP6062399B2 (ja) 癌の検出のための尿遺伝子発現比
US20110312520A1 (en) Methods and compositions for diagnosing conditions
JP2020150949A (ja) メラノーマ癌の予後予測
WO2009052573A1 (en) A method of diagnosing neoplasms
KR102055305B1 (ko) 위식도경계부선암의 진단 및 표적 치료를 위한 마커
BRPI0706511A2 (pt) marcadores de expressão genética para prognóstico de cáncer colorretal
US20180282815A1 (en) Colorectal cancer screening method and device
WO2021237105A1 (en) Methods for determining a genetic variation
AU2020398660A1 (en) Machine learning techniques for gene expression analysis
Radtke et al. A multi-scale, multiomic atlas of human normal and follicular lymphoma lymph nodes
JP2006223303A (ja) 微量胃癌細胞の検出法
CN101457254B (zh) 用于肝癌预后的基因芯片和试剂盒
WO2024145266A1 (en) Compositions and methods for diagnosing early-stage colorectal adenomas or cancers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20151223

C20 Patent right or utility model deemed to be abandoned or is abandoned