CN113811621A - 确定rcc亚型的方法 - Google Patents

确定rcc亚型的方法 Download PDF

Info

Publication number
CN113811621A
CN113811621A CN202080033498.5A CN202080033498A CN113811621A CN 113811621 A CN113811621 A CN 113811621A CN 202080033498 A CN202080033498 A CN 202080033498A CN 113811621 A CN113811621 A CN 113811621A
Authority
CN
China
Prior art keywords
ccrcc
rcc
risk
prcc
genes listed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080033498.5A
Other languages
English (en)
Inventor
弗洛里安·布特纳
埃尔克·舍弗勒
马蒂亚斯·施瓦布
斯特凡·温特
延斯·贝德克
阿努尔夫·斯坦茨尔
阿恩特·哈特曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eberhard Carles University School Of Medicine
Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Robert Bosch Gesellschaft fuer Medizinische Forschung mbH
Original Assignee
Eberhard Carles University School Of Medicine
Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Robert Bosch Gesellschaft fuer Medizinische Forschung mbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eberhard Carles University School Of Medicine, Friedrich Alexander Univeritaet Erlangen Nuernberg FAU, Robert Bosch Gesellschaft fuer Medizinische Forschung mbH filed Critical Eberhard Carles University School Of Medicine
Publication of CN113811621A publication Critical patent/CN113811621A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biophysics (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种用于确定受试者生物样品中乳头状肾细胞癌(pRCC)、肾透明细胞癌(ccRCC)和嫌色细胞肾细胞癌(chRCC)的相对比例的方法;包含捕获分子的阵列,该捕获分子能够特异性结合到RCC特征基因或其编码序列或其编码产物;以及RCC特征基因在将受试者分类为肾细胞癌(RCC)风险组中的应用和/或在确定受试者生物样品中pRCC、ccRCC和chRCC的相对比例中的应用。

Description

确定RCC亚型的方法
描述
本发明涉及一种用于确定受试者生物样品中乳头状肾细胞癌(pRCC)、肾透明细胞癌(ccRCC)和嫌色肾细胞癌(chRCC)的相对比例的方法;包含捕获分子的阵列,该捕获分子能够特异性结合到RCC特征基因或其编码序列或其编码产物;以及RCC特征基因在将受试者分类为肾细胞癌(RCC)风险组中的应用和/或在确定受试者生物样品中pRCC、ccRCC和chRCC的相对比例中的应用。
技术领域
本发明涉及一种用于确定受试者生物样品中乳头状肾细胞癌(pRCC)、肾透明细胞癌(ccRCC)和嫌色肾细胞癌(chRCC)的相对比例的方法;包含捕获分子的阵列,该捕获分子能够特异性结合到RCC特征基因或其编码序列或其编码产物;以及RCC特征基因在将受试者分类为肾细胞癌(RCC)风险组中的应用和/或在确定受试者生物样品中pRCC、ccRCC和chRCC的相对比例中的应用。
背景技术
肾细胞癌(RCC)包括几种在生物学、临床病程和治疗反应方面不同的组织学定义的肿瘤。主要亚型是透明细胞RCC(ccRCC)、乳头状RCC(pRCC)和嫌色细胞RCC(chRCC),其分别占所有RCC的65%-70%、15%-20%和5%-7%(lnamura,Translocation Renal CellCarcinoma:An Update on Clinicopathological and Molecular Features,Int.J.Mol.Sci.9(9),p.1-11(2017))。总体而言,ccRCC预后不良,chRCC预后良好。与ccRCC和chRCC相比,pRCC代表了具有中等预后的异质性RCC组,后者已细分为1型和2型、具有混合组织学的肿瘤子集以及一小部分CpG岛甲基化表型(CIMP)相关肿瘤(C.J.Ricketts等人,The Cancer Genome Atlas Comprehensive Molecular Characterization of RenalCell Carcinoma,Cell Reports 23(1),p.313-326(2018))。1型pRCC与2型pRCC相比预后更好。CIMP肿瘤的特点是存活率低。
考虑到其重要的预后和治疗意义,正确确定亚型至关重要。在临床医学中,来自RCC肿瘤的手术标本由病理学家通过组织学和免疫组织化学分析手动检查和分类。
分子数据的病理学重新评估和生物信息学分析最近指出了RCC病理学评估的缺点(Büttner等人,Survival Prediction of Clear Cell Renal Cell Carcinoma Based onGene Expression Similarity to the Proximal Tubule of the Nephron,Eur.Urol.68(6),p.1016-1020(2015);Chen等人,Multilevel Genomics-Based Taxonomy of RenalCell Carcinoma,Cell Reports 14(10),p.2476-2489(2016);Schaeffeler等人,Metabolic and Lipidomic Reprogramming in Renal Cell Carcinoma SubtypesReflects Regions of Tumor Origin,Eur.Urol.Focus(2018);C.J.Ricketts等人,loc.cit.)。手动分类是主观的,因此存在错误标记或不一致的可能性,尤其是在组织学上不明确的情况下。
Rini等人(A 16-Gene Assay to Predict Recurrence After Surgery inLocalised Renal Cell Carcinoma:Development and Validation Studies,LancetOncol.16(6),p.676-685(2015))描述了一种预后多基因特征,以提高对肾透明细胞癌复发风险的预测。然而,这种方法不允许对RCC亚型分类。
WO 2015/131095披露了一种在受试者中区分A型透明细胞(ccA)肾细胞癌和B型透明细胞(ccB)肾细胞癌的方法。但是,此方法需要经过统计验证的参考。此外,它也不允许在ccRCC亚型之外进行RCC亚型分类。
Wang等人(Identification and Validation of a 44-Gene Expression Sig-nature for the Classification of Renal Cell Carcinomas,J.Exp.Clin.CancerRes.36:176,p.1-11(2017))披露了源自微阵列分析的44-基因表达特征,其与肾肿瘤的组织学分化相关,并被提议用于肿瘤亚型分类。然而,迄今为止,这种基因表达特征尚未在实践中证明是成功的。此外,已知的方法不允许进行直接的亚型分类而只允许聚类,即不能对个别生物样品进行分类。
因此,需要对RCC进行客观的亚型分类。
本发明满足这些和其他需要。
发明内容
本发明提供了一种用于确定受试者生物样品中乳头状肾细胞癌(pRCC)、肾透明细胞癌(ccRCC)和嫌色肾细胞癌(chRCC)的相对比例的方法,该方法包括:
(a)提供疑似受RCC感染的受试者的生物样本,
(b)分析所述生物样品以确定以下基因的表达水平值:
-表1中列出的至少一个特征基因,
-表2中列出的至少一个特征基因,以及
-表3中列出的至少一个特征基因,
(c)将获得的表达水平值进行信号分离方法,从而确定所述生物样品中pRCC、ccRCC和chRCC的相对比例。
发明人开发了一种基于基因表达数据的客观且无参考的RCC亚型分类系统,通过该系统可以减少甚至避免本领域已知方法的缺点。本发明还可以用于将可以明确分配给三种主要组织学亚型的肿瘤与来自不同亚型的特征相结合的那些肿瘤分开。根据本发明的方法还实现了清楚陈述关于受感染患者的存活概率,这种方法比普通病理评估更准确且更不容易出错。
本发明优于目前进行的手动组织病理学分类,因为(1)它提供了一种精确和客观的基于分子的程序来对RCC进行分类,(2)它量化了组织学上不明确的RCC中主要亚型的比例,(3)预测的比例亚型组成与预后估计直接相关,以及(4)它是第一个适用于ccRCC、pRCC和chRCC的基于分子的预后系统。
本文所用的术语“受试者”是指任何无脊椎动物或脊椎动物物种的成员。因此,术语“受试者”旨在涵盖动物界的任何成员,包括但不限于脊索动物门(即如下类别的成员:硬骨鱼纲(硬骨鱼)、两栖纲(两栖动物)、爬行纲(爬行动物)、鸟纲(鸟)和哺乳纲(哺乳动物)),以及其中包含的所有目和科。在实施例中,受试者是人。
本文所用的“生物样品”是指源自受试者的生物材料并且包括核酸、和/或蛋白质、和/或肽和/或多肽和/或其片段。在本发明的实施例中,生物样品包括细胞材料、细胞或组织。优选地,生物材料包含怀疑包括肾癌细胞的细胞或为肾癌细胞的细胞。在临床常规中,生物样本可以是取自潜在肿瘤或RCC组织、血浆、尿液等的活检样本。
术语“核酸分子”和“核酸”是指单链或双链形式的脱氧核糖核苷酸、核糖核苷酸及其聚合物。本文所用的术语“肽”和“多肽”是指由肽键连接的至少两个氨基酸的聚合物。典型地,“肽”比“多肽”短,并且后者通常比蛋白质短,但除非上下文特别要求,这些术语在本文中可互换使用。
本文所用的术语“基因”是指包含DNA序列的遗传单位,该DNA序列占据染色体上的特定位置并且包含针对生物体中特定特征或性状的遗传指令。类似地,短语“基因产物”是指作为基因转录和/或翻译产物的生物分子。示例性基因产物包括但不限于由mRNA翻译产生的mRNA和多肽。
本文所用的“特征基因”是指列于表1、2和3任一项中并且分别特异性表达和指示pRCC(表1)、ccRCC(表2)和chRCC(表3)的基因。本文所指的特征基因构成具有独特基因表达模式的所谓基因特征,其在ccRCC、pRCC和chRCC细胞中是特征性的。
在表1、2和3中可以通过其基因ID(GeneID)(即相应表的第一列)清楚地识别特征基因。基因ID是分配给由国家生物技术信息中心(NCBI)运营的元搜索引擎或数据库“Entrez Gene”中的基因记录的唯一标识符。“基因ID”的同义词是基因识别(NCBI)、NCBI基因ID、Entrez基因ID、NCBIgeneid或基因标识符(Entrez)。“符号”栏列出了基因的HUGO基因符号。标题为“ccRCC”、“chRCC”和“pRCC”的栏列出了指定RCC亚型中各个特征基因的相对表达值的中位数。表达值是最初使用Affymetrix HTA2.0阵列测量的(非对数转换)处理信号强度。
本文所用的“至少一个”特征基因是指需要分析的每个表或组的最少一个特征基因。在本发明的实施例中,分析每个表或组的2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、或全部58个特征基因的表达水平。此外,在本发明的实施例中,每个表或组中特征基因的数目可以相同或不同,即可分析表1中的x个基因,表2中的y个基因以及表3中有z个基因,而x、y和z代表相同或不同的整数。
而根据发明人的发现,分析每个表中的一个特征基因就足以确定生物样品中pRCC、ccRCC和chRCC的相对比例,但测定的准确性和方法的可靠性是随着每个表或组包含一个以上的特征基因至全部58个特征基因不断增加。
如本领域技术人员已知的,基因表达水平可以在RNA水平和/或蛋白质水平进行测定。因此,在一些实施方式中,从生物样品中提取RNA并通过如下技术进行分析:该技术包括但不限于PCR分析(在一些实施方式中,定量逆转录PCR)、核苷酸测序和/或阵列分析。替代性地或另外地,基因表达水平可通过确定生物样品中存在的蛋白质或多肽的水平来测定。这也可以使用阵列来完成,并且用于生产连接到合适载体的肽和/或多肽阵列的示例性方法是技术人员公知的。在每种情况下,本领域普通技术人员都知道可用于确定生物样品中基因表达水平的技术。
本文所用的“信号分离方法”是指分析信号混合物的过程,目的是从混合物中恢复原始成分信号。特别地,它是指用于确定所述生物样品中ccRCC、pRCC和chRCC的相对比例的方法。其包括但不限于如下方法:盲信号分离(BSS),例如反卷积、主成分分析(PCA)、独立分量分析(ICA),机器学习(监督式学习/分类/回归)和数据挖掘(无监督学习/聚类);参见Vandesompele等人,Computational deconvolution of tran-scriptomics data frommixed cell populations,Bioinformatics 34(11):1969-1979(2018)。
本发明的根本目的因此完全解决。
发明人已经意识到,确定表1、2和3中的每一个中列出的仅仅至少一个特征基因的表达水平值(即仅仅至少三个不同基因的表达水平值),并且对获得的表达水平值进行信号分离方法允许确定生物样品中pRCC、ccRCC和chRCC的相对比例。
根据本发明的方法允许客观确定RCC亚型,从而避免病理学家做出的错误主观分类。根据本发明的方法相对于本领域方法的另一个优点是不需要参考就可以实现正确的亚型分类。
pRCC与ccRCC与chRCC类别分配的知识允许评估复发或癌症特定死亡的风险,并可用于增加临床信息以进行更准确的风险评估。对风险的了解使临床医生能够定制术后评估,并考虑辅助治疗选择。当受试者的RCC被归类为包含显著比例的pRCC、ccRCC和chRCC中任何一个时,可能出现的特定护理变化可以包括但不限于更密集的监测、考虑手术干预、药物/放射治疗和/或为受试者寻找辅助治疗试验以降低复发风险。
在根据本发明的方法的一实施方式中,在步骤(b)中测定所述生物样品以确定表1中所列的至少两个特征基因的表达水平值、表2中所列的至少两个特征基因的表达水平值,以及表3中所列的至少两个特征基因的表达水平值。
这种措施的优点是进一步提高了确定所述生物样品中pRCC、ccRCC和chRCC的相对比例的准确性。
在本发明的另一实施方式中,信号分离方法是盲信号分离方法(BSS)。
盲信号分离(BSS),也称为盲源分离,是指在不借助关于源信号或混合过程的信息(或极少信息)的情况下,从一组混合信号中分离出一组源信号的方法。发明人已经意识到,如果在本发明的方法中使用BSS,则允许高度的信号分离并确保获得可靠的结果。
在根据本发明的方法的又一实施方式中,盲分离方法是反卷积,优选地是计算反卷积。
反卷积是一种基于算法的过程,其用于反转卷积对记录数据的影响。最初,反卷积主要用于信号处理和图像处理技术。计算反卷积是指一种计算机辅助反卷积方法,该方法已被用于解决生物学或生物信息学的特定问题,如以下文献描述的:S.S.Shen-Orr和R.Gaujoux,Computational Deconvolution:Extracting Cell Type-SpecificInformation from Heterogeneous Samples,Current Opinion in Immunology 25,p.571-578(2013);F.Avlia Cobos等人,Computational Deconvolution ofTranscriptomics Data from Mixed Cell Populations,Bioinformatics 34,p.1969-1979(2018);A.R.Abbas等人,Deconvolution of Blood Microarray Data IdentifiesCellular Activation Patterns in Systemic Lupus Erythe-matosus.,PloS one 4,e6098(2009);R.Gaujoux和C.Seoighe,CellMix:A Comprehensive Toolbox for GeneExpressionDeconvolution.,Bioinformatics(Oxford,England),p.1-2(2013)。然而,发明人第一次意识到可以以有利的方式使用反卷积方法来确定异质生物样品或RCC样品中各个RCC亚型的相对比例。
在本发明的一实施方式中,在步骤(c)之后进行以下步骤:基于所述生物样品中ccRCC、pRCC和chRCC中至少一个的相对比例,优选所述生物样品中ccRCC的相对比例,将受试者分类为风险组。
发明人已经意识到,通过所开发的发明构思,不仅可以确定生物样品或RCC样品中各个RCC亚型的相对比例,而且还可以预测患者癌症特异性死亡的风险。这种措施以有利的方式将本发明实施到临床中。
在本发明的另一实施方式中,根据受试者的预后,风险组选自“低风险”、“中风险”和“高风险”。
这种措施允许在日常医院常规中为感染的受试者快速分配预后。“低风险”是指受试者存活5年以上的可能性高,“高风险”是指受试者存活5年以上的可能性低,“中风险”是指受试者存活超过5年的中等可能性,每5年期是从通过手术获得的受试者的生物样本初步诊断之日起算。在本发明的一实施方式中,在“低风险”组中,可能性为约87%-96%或更高,优选为91%,在“高风险”组中,可能性为约34%-69%,优选为48%,在“中风险”组的可能性大约为72%-81%,最好为76%。
在本发明的另一实施方式中,“低风险”组由在约≥0至≤12%、进一步优选地约≥0至≤5%、进一步优选地约≥0至3%的范围内的相对ccRCC比例确定,高度优选地为约0%的相对ccRCC比例确定。
在本发明的又一实施方式中,“中风险”组由在约≥7.5%至≤25%、进一步优选地约≥10%至≤20%、高度优选地约≥13%至≤17%的范围内的相对ccRCC比例确定。
在本发明的另一实施方式中,“中风险”组由在约≥62.5%、进一步优选地约≥70%、进一步优选地约≥77.5%、进一步优选地约≥90%的范围内的相对ccRCC比例确定,高度优选地约100%的相对ccRCC比例确定。
在本发明的又一实施方式中,“高风险”组由在约≥16%至≤77.5%,优选地约≥20%至≤70%,进一步优选地约≥25%至≤62.5%的范围内的相对ccRCC比例确定,高度优选地约40%的相对ccRCC比例确定。
发明人已经意识到相应ccRCC亚型的相对比例的指示阈值允许将受试者分配为“低风险”组、“高风险”组和/或“中度风险”组。可以接受的是,通过使用每个次优选实施方式提及的粗略或不太具体的阈值,受试者可能落入一个以上的风险组。然而,明显的是,每个更优选或进一步优选实施方式提及的更具体阈值允许将受试者越来越明显地分配到具体风险组。
在本发明的另一实施方式中,步骤(b)中的分析涉及使用RNA测序、基于PCR的方法、基于微阵列的方法、基于杂交的方法和/或基于抗体的方法。
这种措施利用了这些分析生物样品的方法,这些方法已被证明适用于确定基因或基因产物的表达水平值。
本发明的另一主题是包含能够特异性结合至如下生物分子的捕获分子的阵列:
-编码表1中列出的特征基因中的至少一个、优选至少两个或其片段的生物分子;或由表1中列出的特征基因中的至少一个、优选至少两个或其片段编码的生物分子;
-编码表2中所列的特征基因中的至少一个、优选至少两个或其片段的生物分子;或由表2中所列的特征基因中的至少一个、优选至少两个或其片段编码的生物分子;以及
-编码表3中所列的至少一个、优选至少两个特征基因的生物分子;或由表3中所列的至少一个、优选至少两个特征基因编码的生物分子。
“生物分子”包括但不限于编码特征基因的核酸分子、由特征基因编码的蛋白质、肽或多肽。“捕获分子”包括但不限于核酸分子(例如杂交探针、核酸适配体等)、抗体及其片段。
根据本发明的方法所披露的实施方式、特征、特点和优点同样适用于根据本发明的阵列。
术语“阵列”应以其最广泛的含义来理解,是指适于包含捕获分子并适于进行特征基因或基因产物或捕获分子等价物的结合反应的任何种类的检验形式。优选地,阵列是微阵列。
本发明的另一主题是如下特征基因在将受试者归入肾细胞癌(RCC)风险组中的应用:
-表1中所列的至少一个、优选至少两个特征基因,
-表2中所列的至少一个、优选至少两个特征基因,以及
-表3中所列的至少一个、优选至少两个特征基因。
本发明的另一主题是如下特征基因在确定受试者的生物样品中乳头状肾细胞癌(pRCC)、肾透明细胞癌(ccRCC)和嫌色肾细胞癌(chRCC)的相对比例,以进一步优选地将受试者归入RCC风险组中的应用:
-表1中所列的至少一个、优选至少两个特征基因,
-表2中所列的至少一个、优选至少两个特征基因,以及
-表3中所列的至少一个、优选至少两个特征基因。
根据本发明的方法披露的实施方式、特征、特点和优点同样适用于根据本发明的用途。
应当理解,为了清楚起见,在单独实施方式的上下文中描述的本发明的某些特征也可以以组合的方式提供在单个实施方式中。相反,为了简洁起见,在单个实施方式的上下文中描述的本发明的各种特征也可以单独地或以任何合适的子组合或在本发明的任何其他描述的实施方式中合适地提供。
在各种实施方式的上下文中描述的某些特征不被认为是那些实施方式的必要特征,除非实施方式在没有这些要素的情况下是不可操作的。
应当理解的是,上述特征和下文将要提到的特征不仅可以以各自情况中指出的组合使用,还可以以其他组合或单独的方式使用而不脱离本发明的范围。
现在通过参考以下非限制性实施例和附图更详细地描述和解释本发明。
附图说明
图1:数据分析工作流程概述,包括在本发明的开发中使用的不同队列和RNA定量技术(微阵列和RNA测序)。
图2:使用队列C1为特征矩阵选择候选基因。(A)使用Ward方法对队列C1(n=52)进行层次聚类。(B)由ESTIMATE法确定的肿瘤纯度因RCC亚型而异。(C)散点图显示了从每个基因的模型比较中获得的P值。分析的目的是确定通过RCC亚型的差异而不是肿瘤纯度更好地解释其表达变异性的基因。28464个基因与RCC亚型的相关性比与肿瘤纯度的相关性更强。(D)11195个基因在四个过滤步骤后仍然存在。“TCGA”:TCGA RNA-测序数据中覆盖的基因;“HG U133 Plus 2.0”:这一微阵列中覆盖的基因;“表达水平”:在至少一种亚型中,C1中表达中值高于全球中值的基因;“纯度指标”:独立表达肿瘤纯度的基因。(E)通过方差分析和随后使用Tukey方法进行的事后检验获得的3686个亚型特异性基因的Log2倍数变化。对于每个基因和亚型,计算与两个相应的其他亚型相比的最小对数倍数变化。
图3:队列C2的层次聚类。使用Ward方法对队列C2(n=143)进行层次聚类。队列C2是包含来自五项不同研究的RCC样本的组合队列(表S1)。
图4:检验了基因数量增加的特征矩阵。初始矩阵包括每个亚型的前两个基因,与相应的其他亚型相比,其表现出最高的对数倍数变化(图2E)。使用基于队列C1的每个亚型的中位基因表达。矩阵大小范围从6(即每个亚型的前两个基因)到1500个基因。每个矩阵都用于对来自队列C2的143个转录物组进行反卷积。PSA中的最大绝对差(MAD)是在每个样本的连续矩阵之间计算的。(A)显示了两个连续矩阵之间的0.95分位数MAD。(B)包含50%样本的子集从队列C2中随机抽取10000次,并且对于每个检验矩阵和子集,确定了与前一个矩阵相比经历MAD>5%的样本百分比。选择包括每个亚型前(top)58个基因的矩阵RCC58(标记为浅红色)。
图5:接收器操作特性(ROC)分析。将比例亚型分配(PSA)与TCGA RCC队列的病理分类进行比较(Ricketts等人,Cell Reports,2018)(n=819)。该研究中注释的各种pRCC亚型在此处归入“pRCC”。对于三个比例亚型分配(以下也称为分数)中的每一个,在TCGA RCC队列中针对不同的截止值研究了将相应亚型的肿瘤与病理学不同分类的肿瘤区分开来的能力。AUC:曲线下面积。
图6:Kaplan-Meier曲线显示了队列C3(n=803)中病理亚型的癌症特异性存活率(C.J.Ricketts等人,loc.cit.)。
图7:基于具有终点CSS的Cox PH模型,对亚型分数和对数相对危险之间的关系进行限制性三次样条估计。5、4和5节分别用于拟合ccRCC分数、pRCC分数和chRCC分数以记录相对危险。对数相对危险以这样的方式移动,即肿瘤被分配为100分值的患者的对数相对危险分别为零。
图8:使用TCGA RCC队列(C3)中的ccRCC分数(ClearScore)进行风险预测。(A)基于具有终点CSS的三次多项式Cox比例危险模型的C3的828名患者的ClearScore与对数相对危险之间的关系。864名患者中有36名由于缺乏生存数据或反卷积方法的无效性(由置换P值估计方法确定)而被忽略。(B)依赖于ClearScore的估计的1年、2年和5年癌症特异性存活率。(C)在Ricketts等人Cell Reports,2018,定义的不同RCC亚型中ClearScore值的分布。对于828个肿瘤中的789个,组织学分类(T1=1型pRCC,T2=2型pRCC,Unc.=未分类的pRCC,MD=代谢分化的chRCC)是可行的。(D)ClearScore的预后预测显著改善了789名患者的病理分类。在这里,CIMP病例不被视为单独的亚型,而是被分配到如Ricketts等人,CellReports,2018所定义的病理亚型。卡方统计值描述了当将来自图8A的估计对数相对危险添加到最初包括病理分类(左)或反之亦然(右)的Cox模型时模型似然的改进。卡方检验P值显示在条形图中。
图9:图表说明了ClearScore与终点癌症特异性死亡危险比之间的估计关系,使用0%的ClearScore作为参考(即,0%的ClearScore,危险比设置为1)。危险比是通过从图8A中取对数相对危险的指数来计算的。例如,危险比为3意味着与ClearScore为0%的患者相比,癌症特异性死亡的风险高出三倍。风险组是通过使用具有终点癌症特异性存活率的条件推理树对图8A中的对数相对危险进行分类而形成的。因此,ClearScore允许将患者分为“高风险”组(顶部区域)、“低风险”组(底部区域)和“中风险”组(中间区域)。虚线表示逐点标准误差。这些点表示C3中出现的实际ClearScore值。
图10:随机特征基因子集的分析。从3x 58个特征基因中随机抽取每个亚型2、5、10和20个基因。对于每个子集大小,随机绘制重复10,000次。PSA是用减少的特征基因组确定的。第一行显示来自TCGA RCC队列(n=847)中单变量生存率分析的对数秩检验P值,亚型比例,即ccRCC评分、pRCC评分或chRCC评分,作为预测因子。限制性三次样条用于模拟分数和CSS之间的关系。第二行显示了来自每个分数和子集大小的接收器操作特性(ROC)分析的曲线下面积(AUC)值。PSA与Ricketts等人发表的Cell Reports,2018,(n=819)的TCGA RCC队列的组织学分类进行了比较。本研究中注释的各种pRCC亚型在本文中归入“pRCC”。
实施例
1.概述
为肾细胞癌(RCC)开发了基于基因表达数据的亚型分类系统。基本思想是将任何RCC样本建模为透明细胞RCC(ccRCC)、嫌色细胞RCC(chRCC)和乳头状RCC(pRCC)的线性组合。根据组织学分析,超过95%的RCC被归为这些亚型之一,它们代表作为肾癌发生的起源的近端和远端细胞类型。本质上,发明人假设肿瘤不一定只属于这些亚型中的一种,而是携带其中每一种的一部分。因此,本发明人不是将肿瘤归类为一种亚型,而是打算通过成比例的亚型分配(PSA)来分解其组成。
应用线性假设(Y.Zhao and R.Simon,Gene Expression Deconvolution inClinical Samples.Genome Med.2(12),p.93(2010)),待分析的RCC样本中每个基因的表达可以建模为该基因在ccRCC、pRCC和chRCC中的表达的加权平均值。
发明人意识到信号分离,特别是计算反卷积代表了该问题的选择方法。权重对应于比例组成,并通过计算反卷积估计。反卷积的目标是找到线性方程组的解:m=f×S。在这里,样本A中ccRCC、pRCC和chRCC的未知比例由系数向量f建模。m代表包含A中特征基因表达水平的向量。S为特征矩阵,其包括ccRCC、pRCC和chRCC中特征基因的表达水平。特征基因是基于一组ccRCC、pRCC和chRCC样本定义的,这些样本可以由病理学家或以前对分子数据的分析进行唯一分配。可以使用标准线性最小二乘回归(Abbas et al.,loc.cit.)为f求解矩阵方程。为了提高子类型分配的稳定性,我们使用R-package MASS的“rlm”函数中实现的稳健线性回归。反卷积是对线性表达数据、即非对数转换的表达数据执行的(如Y.Zhong andZ.Liu,Gene expression deconvolution in linear space.Nat.Methods 9(1),p.8–9(2011)所建议的)。此外,线性表达水平以零均值为中心,并在反卷积之前缩放到单位方差。f中的负系数设置为零,并且通过将三个估计系数除以它们的总和来计算百分比。
基因表达反卷积已成功应用于表征异质样本的细胞组成,例如包含许多不同免疫细胞类型的外周血(S.S.Shen-Orr和R.Gaujoux,loc.cit.)。在这里,RCC被建模为由不同比例的ccRCC、chRCC和pRCC组成的异质组织。
这项研究首次尝试全面检测和量化RCC样本中指示肿瘤类型的清晰且合成的信号,从而奠定了基础。在方法论上,已经开发了一种半监督方法来利用RCC样本基因表达谱中的未知模式进行亚型分类。
发明人的方法能够将可以明确归为主要组织学亚型之一的RCC肿瘤与那些逃避明确组织学分类的RCC肿瘤分开。不明确的肿瘤被描述为结合了不同亚型特征的混合类型。此外,PSA启用了RCC风险组的新定义,与常见的病理分类相比,该定义与患者生存的相关性显著更强。总之,通过根据本发明的方法确定的PSA简化了RCC的分类并指定了预后。
2.材料与方法
患者队列
图1显示了队列及其在这项工作中的使用。
RCC队列1(C1)由52个原发性肿瘤样本组成,具有透明细胞(n=18)、乳头状(n=18)或嫌色细胞RCC组织学(n=16);参见图2A。所有这些均来自在德国图宾根大学(University Hospital Tübingen)医院泌尿科接受治疗的患者。该组织的使用得到了图宾根大学伦理委员会的批准,并且在手术切除之前由每位受试者提供了知情书面同意书。手术切除的ccRCC组织根据国际抗癌联盟/美国癌症联合委员会系统第七版(2009)进行分类。没有患者在手术前接受任何类型的新辅助治疗、免疫治疗和化疗。重要的是,这些样本已由两个在肾病理学方面具有特殊专业知识的病理学家团队独立评估,以最大程度地确定其RCC亚型。C1用于鉴定具有RCC亚型特异性表达的基因。
RCC队列2(C2)是一个组合队列,包含来自五项研究的143个RCC样本(K.A.Furge等人,Detection of DNA Copy Number Changes and Oncogenic Signaling Abnormalitiesfrom Gene Expression Data Reveals MYC Activation in High-Grade PapillaryRenal Cell Carcinoma.Cancer Res.67(7),p.3171-3176(2007);M.H.Tan等人,GenomicExpression and Single-Nucleotide Polymorphism Profiling Discrimi-natesChromophobe Renal Cell Carcinoma and Oncocytoma.BMC Cancer,10:196(2010);S.Pena-Llopis等人,BAP1 Loss Defines a New Class of Renal CellCarcinoma.Nat.Genet.44(7),p.751-759(2012);M.V.Yusenko et al.,High-resolutionDNA Copy Number and Gene Expression Analyses Distinguish Chromophobe RenalCell Carcinomas and Renal Oncocytomas.BMC Cancer 9,p.152(2009);T.H.Ho等人,Differential Gene Expression Profiling of Matched Primary Renal CellCarcinoma and Metastases Reveals Upregulation of Extracellular Matrix Genes.Ann.Oneel.Off.J.Eur.Soc.Med.Oneel.28(3),p.604-10(2017));见图3。这些研究的共同点是使用Affymetrix GeneChip HG U133 Plus 2.0来量化基因表达。仅将原始研究中标记为ccRCC、chRCC或pRCC的原发肿瘤组织样本添加到C2。表S1显示了从每项研究中获得的每个亚型的样本数量。C2用于确定特征。
表S1:队列C2(n=143)包括来自五项研究的RCC样本,提供有关基因表达综合的基因表达数据。用Affymetrix微阵列HG U133 Plus 2.0进行表达测量。
Figure BDA0003336738010000101
使用已建立的特征矩阵,对来自TCGA RCC队列(C3)的转录组进行反卷积。2019年9月25日,使用R包TCGAbiolinks从https://gdc.cancer.gov/下载了来自TCGA的肾癌队列KIRC、KICH和KIRP的RNA测序生成的临床信息和基因表达数据(“FPKM-UQ”)。使用R-包XML处理XML结构的临床信息。TCGA RCC队列的疾病特异性生存结果数据来自(Liu等人,Cell,2018),在这项工作中被称为癌症特异性生存率(CSS)。来自KIRC队列的四名患者由表达数据集中的几个样本代表。分别选择具有最高中值表达的样品。为确保仅包括肿瘤样本,来自TCGA RCC队列的剩余肿瘤和非肿瘤样本使用Ward方法进行层次聚类。三个病例(TCGA-BQ-5889、TCGA-CJ-5683、TCGA-DV-5573)被错误地分配为肿瘤组织被排除在外。在TCGA-CW-5591的情况下,肿瘤和非肿瘤数据被混淆了。接受过先前治疗的患者被排除在外。C3队列总共包括来自864名患者的肿瘤样本(KIRC:512,KIRP:287,KICH:65),有847名患者的生存数据可用。
基因表达数据的分析与处理
如前所述,使用mirVanaTMmiRNA分离试剂盒(Life Technologies)从队列C1的新鲜冷冻RCC组织中分离出高质量的总RNA((P.Fisel等人,DNA Methylation of the SLC16A3Promoter Regulates Expression of the Human Lactate Transporter MCT4 in RenalCancer with Consequences for Clinical Outcome.Clin.Cancer Res.19(18),p.5170–5181(2013),S.Winter等人,Methylomes of Renal Cell Lines and Tumors orMetastases Differ Significantly with Impact on Phar-macogenes.Sci Rep.6(1)(2018))。根据制造商的方案,使用人类转录组阵列HTA 2.0(Affymetrix)进行全基因组转录组分析。如前所述,进行微阵列数据的进一步处理(S.Winter等人,loc.cit.)。阵列质量控制由Affymetrix Expression Console(Build 1.4.1.46)进行。来自C1的微阵列使用来自R-包oligo的鲁棒多阵列平均(RMA)实施一起预处理,使用brainarray提供的HTA 2.0微阵列注释,在Entrez GeneID水平上总结探针组(http://brainarray.mbni.med.umich.edu,第23版)。
Affymetrix GeneChip HG U133 Plus 2.0对C2中143名RCC患者进行的全基因组转录组测量是使用R包GEOquery从Gene Expression Omnibus(GEO)下载的(表S1)。来自C2的微阵列使用来自R-包SCAN的SCAN方法单独标准化。使用由brainarray(http://brainarray.mbni.med.umich.edu,第23版)提供的GeneChip HG U133 Plus 2.0微阵列的注释在Entrez GeneID水平上,总结UPC和探针组。
在这项工作中,Entrez GeneID被用作基因标识符。使用由brainar-ray(http://brainarray.mbni.med.umich.edu,第23版)提供的注释在Entrez GeneID水平上总结了探针组。TCGA表达数据中使用的Ensembl基因标识符通过org.Hs.eg.db注释包映射到EntrezGeneID。
统计工具
所有统计分析均使用R-3.6.1进行,包括附加包beanplot 1.2、MASS_7.3-51.4、partykit_1.2-5、pROC_1.15.3、RColorBrewer_1.1-2、rms_5.1-3.1squash_1.0.8、survival_2.41.1和XML_3.98-1.20。GEOquery_2.46.15、oligo_1.48.0、org.Hs.eg.db_3.8.2、SCAN.UPC 2.26.0SummarizedExperiment_1.14.1和TCGAbi-olinks_2.12.62是Bioconductor软件项目(http://www.bioconductor.org)的一部分。所有统计检验都是双向的。统计意义定义为P值<0.05。
在层次聚类分析中,如果没有另外说明,已经使用了欧式(Euclidean)距离和Ward方法。
结果
癌症特异性生存率(CSS)被用作涉及队列C3的生存率分析的终点。CSS时间定义为从最初诊断到死亡或最后随访日期(如果还活着)的时间。死于RCC疾病以外的其他原因的患者的数据在死亡时被认为是删失的。
使用稳健线性回归的基因表达反卷积
在这项工作中,RCC样品被认为是ccRCC、chRCC和pRCC的混合物。此外,假设三种主要亚型的比例组成反映在混合样本的基因表达谱中。根据线性假设(Y.Zhao和R.Simon,loc.cit.),混合RCC样品中每个基因的表达可以因此建模为该基因在ccRCC、chRCC和pRCC中的表达的加权平均值。权重对应于可以通过基因表达反卷积估计的相应比例组成。
反卷积的目标是找到线性方程组的解:m=S·f。在此,样本A中ccRCC、pRCC和chRCC的未知比例由系数向量f建模。m代表包含A中特征基因表达水平的向量。S为特征矩阵,包括ccRCC、pRCC和chRCC中特征基因的表达水平。特征基因是基于一组ccRCC、chRCC和pRCC样本定义的,这些样本可以由病理学家或以前对分子数据的分析进行唯一分配。矩阵方程可以使用标准线性最小二乘回归(Abbas等人,loc.cit.)为f求解。为了增加亚型分配的稳定性,在这项工作中使用了R包MASS(参数maxit设置为200)的“rlm”函数中实施的稳健线性回归。表达反卷积是对线性的,即非对数转换的表达数据进行的,如Zhong等人,loc.cit.所建议的。此外,表达值以零均值为中心,并在反卷积之前缩放到单位方差。负回归系数设置为零,百分比是通过将三个估计值除以它们的总和来计算的,以使得c+p+h=100%,其中c、p和h分别代表ccRCC、pRCC和chRCC的比例。
计算置换P值以估计特定RCC样本的特征特异性。基本上,P值计算的执行方式与A.M.Newman等人,Robust enumeration of cell subsets from tissue expressionprofiles.Nat.Methods 12(5),p.453–457(2015),描述的一样。简而言之,对于样品A,m和S·f之间的皮尔逊相关系数R与派生的零分布R*R*进行比较。m中的表达水平被从A的完整转录组数据中随机抽取的值替换,表示为mi*mi *。通过反卷积确定mi *的亚型比例fi *,计算了mi*mi *和S·fi *之间的皮尔逊相关系数。该过程重复9999次,得到了R*,P值由(|R*>R|+1)/(9999+1)获得。
候选基因的选择
来自C1的样本被认为是明确的案例,因为它们可以明确地分配给主要亚型之一(图2A)。使用人类转录组阵列2.0微阵列技术量化了C1中转录组宽泛的RNA表达,并使用brainarray注释进行注释,从而得出32749个基因的表达水平。
C1的表达数据以C1的中位表达水平为样本中心。去除了三种亚型中每一种中表达中值低于队列中值的基因。此外,TCGA RNA表达数据(https://gdc.cancer.gov/)或人类基因组U133 Plus 2.0阵列未涵盖的基因被排除在外。已经使用TCGA数据证明了RCC亚型在肿瘤纯度上有所不同(Yoshihara等人,Nat Commun.,2013),也参见http://bioinformatics.mdanderson.org/estimate/。这种模式也可以在C1中观察到(图2B)。为了最小化对肿瘤纯度的依赖,去除了与肿瘤纯度而不是与肿瘤类型相关性更强的基因,如通过ESTIMATE方法(Yoshihara等人,Nat Commun.,2013)确定的。准确地说,对于每个基因,线性回归模型都被拟合,将肿瘤类型或肿瘤纯度作为单一预测因子或两者都纳入多元回归模型。在后一种情况下,考虑了具有和没有交互作用的模型。通过偏差检验分析比较残差平方和的减少。每个变量,即纯度或类型,主要和主要+交互作用进行了检验,并使用较低的P值。保留基因以防其在队列C1中的表达可以通过肿瘤类型而不是肿瘤纯度更好地解释(图2C)。在这些过滤步骤之后,仍有11195个基因(图2D),随后通过方差分析检验了亚型特异性表达。使用Holm方法进行多重检验校正后,5881个基因在亚型之间显示出显著差异。随后通过Tukey检验对亚型进行的成对比较显示了3686个基因在ccRCC(1379)、pRCC(844)或chRCC(1463)中特异性表达。确定候选基因的每个亚型的中值表达,并使用对数倍数变化的绝对值计算与两个相应其他实体相比的最小绝对对数倍数变化(图2E)。通过降低每个亚型的最小绝对对数倍数变化对基因进行排序,并将表达水平转化为线性空间。
特征矩阵的选择
鉴于3686个肿瘤特异性基因的集合,提取了足够的子集以揭示检验的RCC样本的比例组成。除了区分组织学上不同的ccRCC、chRCC或pRCC病例外,目标是建立一种也能够识别异质肿瘤的方法。在类似的研究中(A.R.Abbas等人,loc.cit.,A.M.Newman等人,loc.cit.,T.Gong等人,Optimal deconvo-lution of transcriptional profiling datausing quadratic programming with application to complex clinical bloodsamples.PloS One 6(11),p.e27156(2011),创建并比较了多种特征矩阵(图4)。
每个亚型具有最高对数倍数变化前nn基因被组合成一个特征矩阵Sn,即Sn包括3xn个不同的基因。每个矩阵Sn用于执行队列C2中的亚型预测(图3)。n从2迭代到500,对于n>2,计算每个样本的两个连续特征矩阵Sn和Sn-1之间的亚型分配差异。将样本的两个分配之间的最大绝对差(MAD),即max(|cn–cn-1|,|pn–pn-1|,·|hn–hn-1|)用于此。
图4A显示了连续特征矩阵之间的0.95分位数MAD。最终的特征矩阵是使用启发式方法确定的。基于更多包含的基因允许更精确估计的假设,选择了最大的矩阵,这导致C2的大部分分类(MAD>5%)中的相关MAD。为了加强决策基础,通过子集抽样模拟了不同的队列组成。总共10,000次50%的子集是从C2中随机抽取的。图4B显示了每个矩阵S_n与前一个矩阵相比经历MAD>5%的采样子集的比例。S_58,包括174个基因,是最大的矩阵,相对于前驱矩阵(每个采样子集平均8.5%)显著修改了大部分样本,并因此被选为特征矩阵。
3.结果
RCC反卷积的基因特征矩阵的定义
使用来自队列C1的52个RCC,其包括18个ccRCC、16个chRCC和18个pRCC病例,每个病例都可以由两个独立的病理学家团队唯一分配,确定特征矩阵的候选基因(图2A)。入围基因需要存在于TCGA RNA-测序数据以及Affymetrix平台HTA 2.0和HG U133 Plus 2.0中。此外,在至少一种亚型中,中值表达必须高于C1中的全局中值表达。通过TCGA RCC队列,K.Yoshihara等人,loc.cit.已经表明肿瘤纯度在RCC亚型之间明显不同,这也可以在C1中观察到(图2B)。设想的特征应该独立于肿瘤纯度,以便能够在原发肿瘤组织同质肿瘤细胞旁边进行分类。因此,通过ESTIMATE方法(K.Yoshihara等人loc.cit.)确定的与肿瘤纯度而不是肿瘤类型更相关的基因被排除(图2C)。
过滤后保留11195个基因,并通过方差分析检验RCC亚型之间的差异表达(图2D)。随后使用Tukey方法进行的事后检验显示1379个基因在ccRCC中特异性表达,1463个在chRCC中特异性表达,844个在pRCC中特异性表达(图2E)。从这组特异表达的基因中,通过评估各种特征基因矩阵来选择特征基因。分别从表现出最高最小绝对对数倍数变化的基因开始,创建具有增加基因数量的迭代矩阵,并将其应用于对来自队列C2的143个样本进行反卷积(图3)。鲁棒线性回归被用于反卷积。矩阵由从C1计算的每个RCC亚型的中位表达值组成。矩阵大小从6个(即每个亚型的前两个基因)到1500个基因变化(图4A)。由于无法获得具有定义的组织学组成的RCC样本,因此无法使用监督方法来定义最佳特征。因此,应用了启发式标准:基于反卷积分辨率随着考虑的基因数量而增加的假设,选择了与其前身矩阵相比在亚型反卷积方面实现实质性变化的最大矩阵。如果连续矩阵之间的样本分配的比例组成差异超过5%,则认为变化很大。通过来自C2的50%子集抽样模拟不同的队列组成,并确定每个检验矩阵的受实质性变化影响的样本比例。通过这种方式,选择包含每个RCC亚型前58个基因的矩阵RCC58作为最终特征(图4B)。
表1列出了用于确定pRCC亚型的前58个基因,表2列出了确定ccRCC亚型的前58个基因,表3列出了确定chRCC亚型的前58个基因。“基因ID”是指分配给“Entrez Gene”数据库中基因记录的标识符。“符号”列列出了基因的HUGO基因符号。标题为“ccRCC”、“chRCC”和“pRCC”的栏列出了指定RCC亚型中各个特征基因的中值表达值。表达值是使用AffymetrixHTA2.0阵列测量的(非对数转换)处理信号强度。
表1
Figure BDA0003336738010000141
Figure BDA0003336738010000151
表2
Figure BDA0003336738010000152
Figure BDA0003336738010000161
表3
Figure BDA0003336738010000162
Figure BDA0003336738010000171
Figure BDA0003336738010000181
TCGA RCC队列的反卷积
RCC58用于通过对来自组合的TCGA RCC队列(包括KIRC、KIRP和KICH队列)的864个肿瘤转录组进行反卷积来执行比例亚型分配(PSA)。接收器操作特性(ROC)分析显示PSA与TCGA RCC队列的最新组织学分类之间非常一致(Ricketts等人,Cell Reports,2018)(图5)。需要注意的是,组织学分类仍然可能包含错误。
基于PSA的RCC预后分类
RCC亚型的预后各不相同(C.J.Ricketts等人,loc.cit.)(图6)。因此,发明人想知道通过反卷积估计的PSA是否也能预测患者的存活率。反卷积为每个样本分配三个估计值(分数),以代表ccRCC、pRCC和chRCC的比例。术语“比例”和“分数”在下文中可互换使用。在C3中进行了以亚型分数作为连续预测因子的单变量Cox比例危险回归。分数通过限制性三次样条函数建模以检测可能的非线性关联。ccRCC分数和pRCC分数与CSS存在高度显著的非线性关系(图7)。ccRCC分数显示出与患者存活率的最强关系,因此将在此处更详细地介绍。对图7中拟合曲线的分析表明ccRCC分数和对数相对危险之间存在立方关系。这一观察结果可以通过使用三次多项式得到证实,这使得拟合也同样良好(图8A)。图8B显示了依赖于ccRCC分数(“ClearScore”)的估计的1年、2年和5年存活率。ClearScore在20到70之间的患者预后最差。特别地,CIMP以及pRCC 2型和一些ccRCC肿瘤都在这个区间内(图8C)。比较ClearScore和组织学分类的预后值显示了两者都提供独立信息,然而,ClearScore在队列C3中优于病理学分类(图8D)。
在图9中,该图说明了ClearScore与终点癌症特异性死亡危险比之间的估计关系,使用0%的ClearScore作为参考(即,0%的ClearScore,危险比设置为1)。危险比是通过从图8A中取对数相对危险的指数来计算的。例如,危险比为3意味着与ClearScore为0%的患者相比,癌症特异性死亡的风险高出三倍。ClearScore允许将患者分为“高风险”组(顶部区域)、“低风险”组(底部区域)和“中风险”组(中间区域)。
使用不同特征基因子集的生存率和比例亚型分配之间的关联
出现的问题是3x58(=174)个特征基因的子集是否已经足以确定受试者生物样本中ccRCC、pRCC和chRCC的相对比例,以及基于这些子集的PSA是否与生存率显著相关.发明人进行如下:174个基因由每个亚型的58个前(top)特异基因组成。从3x58个特征基因的集合中抽取大小为3x2(即总共6个基因)、3x5、3x10和3x20的随机子集,即每个亚型随机抽取的特征基因数为与每个子集相同。随机抽样重复10,000次。对每个子集进行TCGA队列(n=864)的反卷积,然后进行ROC分析(n=819)和生存时间分析(n=847),如对完整特征所做的那样。来自存活时间分析的对数秩P值和曲线下面积(AUC)值如图10所示。观察到明显的趋势。随着子集大小的增加,来自生存时间分析的P值在下降,而AUC值在增加。即使对于大多数3x2基因子集,与生存率(CSS)的关联也很显著,并且AUC值高于0.9。发明人假设未检验的子集大小将匹配这里描述的趋势。
计算基因表达反卷积是通过使用回归方法(例如最小二乘回归、支持向量回归或优选稳健线性回归)求解线性方程组来执行的。为了获得三个比例(pRCC、ccRCC和chRCC)的估计值,线性系统中至少需要三个方程,对应于特征矩阵中的三个基因。在特征矩阵中有三个基因的情况下,线性系统有解的充分条件是这些方程(即矩阵的行)是线性无关的。在我们的方法中,可以通过适当选择三个基因来满足这一条件,每个基因恰好在一个亚型中特异。
因此,即使每个亚组类型只有一个基因,即来自表1、表2和表3中的每一个,优选每个亚组类型有两个基因,也可以进行可靠的亚型分类。
使用主成分分析(PCA)对RCC队列进行聚类
发明人检验了基于3×58(=174)个特征基因是否可以使用除反卷积之外的信号分离方法来实施本发明。反卷积能够分析单个样品;然后根据相对比例进行预测。替代性地,这174个基因可用于对综合RCC队列进行聚类或进行主成分分析(PCA),或使用机器学习领域的其他技术对数据进行分组。然后可以将获得的聚类用作新的未知样本的参考:一种方法是测量新样本中的174个基因,使用它们的表达水平将新样本与参考队列一起聚类,最后确定新样本的聚类。这可以通过PCA图来说明。它显示了基于本发明的174个特征基因的TCGA队列的PCA结果。样品根据其相对危险比着色。人们可以发现具有相似危险比的样本聚类在一起。
在日常临床常规中实施本发明
获取RCC患者的组织(新鲜、新鲜冷冻或FFPE)或体液(例如,血浆或尿液)。它可能会被送到医院的实验室或从医院或门诊中心送到专门的实验室。核酸(全部的RNA)将通过标准方法制备。将使用最先进的方法对候选基因的表达水平进行量化。这里可以使用不同的方法,如RNA测序、微阵列或基于芯片的技术或RT-PCR等。基于已建立的基因特征,将使用完善的算法(例如稳健线性回归)进行(反卷积)分析,以确定样本中ccRCC、pRCC和chRCC的比例,随后得出RCC患者的结果分类(低、中、高风险)。该报告将交付给要求对RCC标本进行分析的相应医生。
通过根据本发明的方法进行诊断的实施例
下面提供了实施例,其中基于每个RCC亚组的两个基因,对患有RCC的患者进行诊断。患者的组织样本被称为TCGA-BQ-5894-01A-11R-1592-07。
每个亚型的前两个特异性基因的随机选择导致减少的特征矩阵RCC2:
RCC2 pRCC ccRCC chRCC
IL17RD 130 53 51
GALNT11 659 225 209
NDUFA4L2 84 1018 101
KMO 18 103 12
WNK3 19 21 126
RANBP3L 11 13 83
对于反卷积,列RCC2RCC2以零均值为中心并缩放到单位方差,从而得到缩放后的特征矩阵RCC2_z:
RCC2_z pRCC ccRCC chRCC
IL17RD -0.09 -0.48 -0.68
GALNT11 2.01 -0.04 1.65
NDUFA4L2 -0.28 2.00 0.06
KMO -0.54 -0.35 -1.25
WNK3 -0.53 -0.56 0.43
RANBP3L -0.57 -0.58 -0.21
计算来自TCGA KIRC队列的样品TCGA-BQ-5894-01A-11R-1592-07的PSA。FPKM-UQ表达值从https://portal.gdc.cancer.gov/获得。对于RCC2_z中的六个基因,包含这些值的向量m由下给出:
m TCGA-BQ-5894-01A-11R-1592-07
IL17RD 37063.62
GALNT11 200584.18
NDUFA4L2 230892.48
KMO 5837.22
WNK3 6013.57
RANBP3L 2038.63
对于特征矩阵,m中的值以零均值为中心并缩放到单位方差,从而产生缩放的表达谱m_z:
m_z TCGA-BQ-5894-01A-11R-1592-07
IL17RD -0.41
GALNT11 1.13
NDUFA4L2 1.42
KMO -0.70
WNK3 -0.70
RANBP3L -0.74
假设m中基因i的表达水平是其在样本TCGA-BQ-5894-01A-11R-1592-07的ccRCC、pRCC和chRCC比例中的表达总和。向量f应表示ccRCC、pRCC和chRCC的这些未知比例。ff是通过使用稳健的线性回归求解线性系统m_z=RCC2_z·f来估计的。R包MASS中的函数“rlm”执行稳健的线性回归,其应用如下:
fit=rlm(m_z~RCC 2_z,maxit=200)
结果回归系数可通过fit$coefficients访问:
截距 pRCC ccRCC chRCC
0.02 0.55 0.77 0.03
将截距丢弃,通过将三个估计值除以它们的总和来计算比例,从而得出以下TCGA-BQ-5894-01A-11R-1592-07的预测亚型组成:
pRCC ccRCC chRCC
0.41% 0.57% 0.02
使用Cox模型中的系数,其包括ccRCC-分数(ClearScore)及其平方和立方作为预测指标,使用x=0.57:PI=xx14.71–x2x25.46+x3x12.21–1.46,可以计算TCGA-BQ-5894-01A-11R-1592-07的预后指数PI(即对数相对风险)。
减去1.46使ccRCC比例为100%的肿瘤获得0pi。因此,与ccRCC比例为100%的肿瘤相比,获得的0.91pi表示对数相对危险。epi(此处为2.48)给出了TCGA-BQ-5894-01A-11R-1592-07与ccRCC比例为100%的肿瘤组之间的风险比。此外,使用基线生存函数,可以计算某个时间点的生存概率。对于给定的实施例,预测的癌症特异性1年生存概率为84%(SE:81%-87%),2年生存概率为73%(SE:67%-77%),5年生存概率为51%(SE:42%-58%)。
结论和其他方面
发明人首次提供了客观且无参考的亚型分类或比例亚型分配方法用于RCC,其提供可靠的结果并且易于应用于临床环境。
尽管已经结合其特定实施例描述了本发明,但很明显,对于本领域技术人员而言,许多替代、修改和变化将是显而易见的。因此,本申请意在包括落入所附权利要求的精神和广泛范围内的所有此类替代、修改和变化。
本说明书中提及的所有出版物、专利和专利申请均通过引用整体并入本说明书中,其程度就如同每个单独的出版物、专利或专利申请被具体地和单独地提到通过引用并入本文中一样。此外,本申请中对任何参考文献的引用或标识不应被解释为承认此类参考文献可作为本发明的现有技术。就使用章节标题而言,它们不应被解释为必然限制。

Claims (15)

1.一种用于确定受试者生物样品中乳头状肾细胞癌(pRCC)、肾透明细胞癌(ccRCC)和嫌色肾细胞癌(chRCC)的相对比例的方法,所述方法包括:
(a)提供疑似受RCC感染的受试者的生物样本,
(b)分析所述生物样品以确定以下基因的表达水平值:
-表1中列出的至少一个特征基因,
-表2中列出的至少一个特征基因,以及
-表3中列出的至少一个特征基因,
(c)将获得的表达水平值进行信号分离方法,从而确定所述生物样品中pRCC、ccRCC和chRCC的相对比例。
2.根据权利要求1所述的方法,其特征在于,在步骤(b)中测定所述生物样品以确定以下基因的表达水平值:
-表1中所列的至少两个特征基因,
-表2中所列的至少两个特征基因,以及
-表3中所列的至少两个特征基因。
3.根据权利要求1或2所述的方法,其特征在于,所述信号分离方法为盲信号分离方法,优选地,盲分离方法为反卷积,进一步优选为计算反卷积。
4.根据前述权利要求中任一项所述的方法,其特征在于,在步骤(c)之后进行以下步骤:
(d)基于所述生物样品中ccRCC、pRCC和chRCC中至少一个的相对比例,优选所述生物样品中ccRCC的相对比例,将受试者分类为风险组。
5.根据权利要求4所述的方法,其特征在于,根据所述受试者的预后,所述风险组选自“低风险”、“中风险”和“高风险”。
6.根据权利要求5所述的方法,其特征在于,所述“低风险”组由在约≥0至≤12%、进一步优选地约≥0至≤5%、进一步优选地约≥0至3%的范围内的相对ccRCC比例确定,高度优选地为约0%的相对ccRCC比例确定。
7.根据权利要求5或6所述的方法,其特征在于,所述“中风险”组由在约≥7.5%至≤25%、进一步优选地约≥10%至≤20%、高度优选地约≥13%至≤17%的范围内的相对ccRCC比例确定。
8.根据权利要求5-7中任一项所述的方法,其特征在于,所述“中风险”组由在约≥62.5%、进一步优选地约≥70%、进一步优选地约≥77.5%、进一步优选地约≥90%的范围内的相对ccRCC比例确定,高度优选地约100%的相对ccRCC比例确定。
9.根据权利要求5-8中任一项所述的方法,其特征在于,所述“高风险”组由在约≥16%至≤77.5%,优选地约≥20%至≤70%,进一步优选地约≥55%至≤62.5%的范围内的相对ccRCC比例确定,高度优选地约40%的相对ccRCC比例确定。
10.根据前述权利要求中任一项的方法,其特征在于,步骤(b)中的分析涉及使用RNA测序、基于PCR的方法、基于微阵列的方法、基于杂交的方法和/或基于抗体的方法。
11.一种包含能够特异性结合至如下生物分子的捕获分子的阵列:
-编码表1中列出的特征基因中的至少一个、优选至少两个或其片段的生物分子;或由表1中列出的特征基因中的至少一个、优选至少两个或其片段编码的生物分子;
-编码表2中所列的特征基因中的至少一个、优选至少两个或其片段的生物分子;或由表2中所列的特征基因中的至少一个、优选至少两个或其片段编码的生物分子;以及
-编码表3中所列的至少一个、优选至少两个特征基因的生物分子;或由表3中所列的至少一个、优选至少两个特征基因编码的生物分子。
12.根据权利要求11所述的阵列,其特征在于,所述生物分子选自由核酸分子、蛋白质和肽组成的组。
13.根据权利要求11或12所述的阵列,其特征在于,所述捕获分子选自由核酸分子、抗体及其片段组成的组。
14.如下特征基因在将受试者归入肾细胞癌(RCC)风险组中的应用:
-表1中所列的至少一个、优选至少两个特征基因,
-表2中所列的至少一个、优选至少两个特征基因,以及
-表3中所列的至少一个、优选至少两个特征基因。
15.如下特征基因在确定受试者的生物样品中乳头状肾细胞癌(pRCC)、肾透明细胞癌(ccRCC)和嫌色肾细胞癌(chRCC)的相对比例,以进一步优选地将受试者归入RCC风险组中的应用:
-表1中所列的至少一个、优选至少两个特征基因,
-表2中所列的至少一个、优选至少两个特征基因,以及
-表3中所列的至少一个、优选至少两个特征基因。
CN202080033498.5A 2019-04-12 2020-03-10 确定rcc亚型的方法 Pending CN113811621A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19169035.3A EP3722444B1 (en) 2019-04-12 2019-04-12 Method for determining rcc subtypes
EP19169035.3 2019-04-12
PCT/EP2020/056398 WO2020207685A1 (en) 2019-04-12 2020-03-10 Method for determining rcc subtypes

Publications (1)

Publication Number Publication Date
CN113811621A true CN113811621A (zh) 2021-12-17

Family

ID=66175290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080033498.5A Pending CN113811621A (zh) 2019-04-12 2020-03-10 确定rcc亚型的方法

Country Status (4)

Country Link
US (1) US20220098677A1 (zh)
EP (2) EP3722444B1 (zh)
CN (1) CN113811621A (zh)
WO (1) WO2020207685A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024091607A1 (en) * 2022-10-27 2024-05-02 The Regents Of The University Of Michigan Compositions and methods for treating renal cancer

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004032842A2 (en) * 2002-10-04 2004-04-22 Van Andel Research Institute Molecular sub-classification of kidney tumors and the discovery of new diagnostic markers
WO2010016064A2 (en) * 2008-08-06 2010-02-11 Rosetta Genomics Ltd. Gene expression signature for classification of kidney tumors
US20120157344A1 (en) * 2008-08-06 2012-06-21 Tel Hashomer Medical Research Infrastructure And Services Ltd. Gene expression signature for classification of kidney tumors
US20140235458A1 (en) * 2013-02-15 2014-08-21 Cancer Genetics, Inc. Methods and tools for the diagnosis and prognosis of urogenital cancers
WO2017193062A1 (en) * 2016-05-06 2017-11-09 Myriad Genetics, Inc. Gene signatures for renal cancer prognosis
CN109055562A (zh) * 2018-10-29 2018-12-21 深圳市颐康生物科技有限公司 一种生物标志物、预测肾细胞癌的复发和死亡风险的方法
CN109266743A (zh) * 2018-09-13 2019-01-25 中国科学院苏州生物医学工程技术研究所 一种癌症标志物及其用途
WO2019050478A1 (en) * 2017-09-05 2019-03-14 Agency For Science, Technology And Research BIOMARKERS OF RENAL CELL CARCINOMA WITH CLEAR CELLS

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011141544A1 (en) * 2010-05-13 2011-11-17 Universität Zürich Discrete states for use as biomarkers
WO2015131095A1 (en) 2014-02-28 2015-09-03 The University Of North Carolina At Chapel Hill Methods and compositions for prognostic risk analysis of clear cell renal cell carcinoma
CN108410988A (zh) * 2018-04-11 2018-08-17 蒋灵锋 一种用于检测肾癌中囊性肾细胞癌亚型的基因检测试剂盒

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004032842A2 (en) * 2002-10-04 2004-04-22 Van Andel Research Institute Molecular sub-classification of kidney tumors and the discovery of new diagnostic markers
WO2010016064A2 (en) * 2008-08-06 2010-02-11 Rosetta Genomics Ltd. Gene expression signature for classification of kidney tumors
US20120157344A1 (en) * 2008-08-06 2012-06-21 Tel Hashomer Medical Research Infrastructure And Services Ltd. Gene expression signature for classification of kidney tumors
US20140235458A1 (en) * 2013-02-15 2014-08-21 Cancer Genetics, Inc. Methods and tools for the diagnosis and prognosis of urogenital cancers
WO2017193062A1 (en) * 2016-05-06 2017-11-09 Myriad Genetics, Inc. Gene signatures for renal cancer prognosis
WO2019050478A1 (en) * 2017-09-05 2019-03-14 Agency For Science, Technology And Research BIOMARKERS OF RENAL CELL CARCINOMA WITH CLEAR CELLS
CN109266743A (zh) * 2018-09-13 2019-01-25 中国科学院苏州生物医学工程技术研究所 一种癌症标志物及其用途
CN109055562A (zh) * 2018-10-29 2018-12-21 深圳市颐康生物科技有限公司 一种生物标志物、预测肾细胞癌的复发和死亡风险的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LOW G 等: "Review of renal cell carcinoma and its common subtypes in radiology", 《 WORLD J RADIOL》, vol. 8, no. 5, pages 484 - 500 *
MICHAEL BONERT 等: "Subtypes of renal cell carcinoma with defined genomic alterations: diagnostic and prognostic significance", 《DIAGNOSTIC HISTOPATHOLOGY》, vol. 24, no. 6, pages 191 - 197, XP085416933, DOI: 10.1016/j.mpdhp.2018.05.001 *
VICKERS, M.M., 等: "Prognostic and predictive biomarkers in renal cell carcinoma", 《TARG ONCOL 5》, pages 85 *
孟庆成 等: "3.0 T MRI不同序列诊断肾细胞癌亚型的应用价值", 《磁共振成像》, vol. 10, no. 2, pages 140 - 144 *
朱黎 等: "不同亚型肾细胞癌的MRI及CT表现", 《临床放射学杂志》, vol. 37, no. 5, pages 793 - 797 *

Also Published As

Publication number Publication date
WO2020207685A1 (en) 2020-10-15
EP3722444B1 (en) 2024-06-05
EP3722444A1 (en) 2020-10-14
US20220098677A1 (en) 2022-03-31
EP3953492A1 (en) 2022-02-16

Similar Documents

Publication Publication Date Title
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
AU2016218631B2 (en) Detecting mutations for cancer screening and fetal analysis
CN106795562B (zh) Dna混合物中的组织甲基化模式分析
JP2024069295A (ja) 癌を査定および/または処置するためのセルフリーdna
Vachani et al. A 10-gene classifier for distinguishing head and neck squamous cell carcinoma and lung squamous cell carcinoma
AU2016295712B2 (en) Methylation pattern analysis of haplotypes in tissues in DNA mixture
CN112292697A (zh) 用于生物样品的多分析物测定的机器学习实施方式
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
WO2019023517A2 (en) GENOMIC SEQUENCING CLASSIFIER
US11869661B2 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
JP2023507252A (ja) パッチ畳み込みニューラルネットワークを用いる癌分類
CN105067822B (zh) 用于食管癌诊断的标志物
WO2014160645A2 (en) Neuroendocrine tumors
WO2016112488A1 (en) Biomarkers for colorectal cancer related diseases
CN112218957A (zh) 用于确定在无细胞核酸中的肿瘤分数的系统及方法
CN108588230B (zh) 一种用于乳腺癌诊断的标记物及其筛选方法
EP3950960A1 (en) Dna methylation marker for predicting recurrence of liver cancer, and use thereof
US20220098677A1 (en) Method for determining rcc subtypes
Ghantous et al. A robust and interpretable gene signature for predicting the lymph node status of primary T1/T2 oral cavity squamous cell carcinoma
EP3743533A1 (en) Molecular signature and use thereof for the identification of indolent prostate cancer
EP4234720A1 (en) Epigenetic biomarkers for the diagnosis of thyroid cancer
US20240170099A1 (en) Methylation-based age prediction as feature for cancer classification
WO2024072805A1 (en) Compositions, systems, and methods for detection of ovarian cancer
WO2022120076A1 (en) Clinical classifiers and genomic classifiers and uses thereof
WO2024020036A1 (en) Dynamically selecting sequencing subregions for cancer classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination