CN117916596A - 生物流体中靶分子的分析方法 - Google Patents

生物流体中靶分子的分析方法 Download PDF

Info

Publication number
CN117916596A
CN117916596A CN202280060961.4A CN202280060961A CN117916596A CN 117916596 A CN117916596 A CN 117916596A CN 202280060961 A CN202280060961 A CN 202280060961A CN 117916596 A CN117916596 A CN 117916596A
Authority
CN
China
Prior art keywords
cancer
target molecules
genes
polypeptides
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280060961.4A
Other languages
English (en)
Inventor
马修·拉森
露丝·E·蒙兹
大卫·伯克哈特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grail Inc
Original Assignee
Grail Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grail Inc filed Critical Grail Inc
Publication of CN117916596A publication Critical patent/CN117916596A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57423Specifically defined cancers of lung
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57415Specifically defined cancers of breast
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • G01N33/57488Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites involving compounds identifable in body fluids
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6893Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids related to diseases not provided for elsewhere
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/70Mechanisms involved in disease identification
    • G01N2800/7023(Hyper)proliferation
    • G01N2800/7028Cancer

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Urology & Nephrology (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Hematology (AREA)
  • Cell Biology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

提供了用于测量靶分子(例如,多肽和/或游离细胞核糖核酸)的亚群的方法。在一些实施方案中,提供了从获自受试者的测试样品中的多种RNA分子产生测序文库的方法,以及用于分析该测序文库以检测例如疾病的存在或不存在的方法。

Description

生物流体中靶分子的分析方法
交叉引用
本申请要求2022年9月10日提交的美国临时专利申请号63/242,872的权益,该专利申请全文以引用方式并入本文以用于所有目的。
背景技术
截至2017年,美国每年新增病例总数超过160万例,癌症是一个突出的全球公共卫生问题。参见Siegel等人,2017年,“Cancer statistics”,CA Cancer J Clin.,第67卷第1期:第7-30页。筛查程序和早期诊断在改善癌症患者的无病存活率和降低死亡率方面具有重要影响。由于用于早期诊断的非侵入性方法有助于提高患者的顺从性,因此可将它们包括在筛查程序中。
游离细胞核酸(cfNAs)可在血清、血浆、尿液和其他体液中发现(Chan等人,临床生物化学家协会临床科学评论委员会,“Cell-free nucleic acids in plasma,serum andurine:a new tool in molecular diagnosis”,Ann Clin Biochem.,2003年;第40卷第2期:第122-130页),代表“液体活检”,这是一种特定疾病的循环图像。参见De Mattos-Arruda和Caldas,2016年“Cell-free circulating tumour DNA as a liquid biopsy inbreast cancer”,Mol Oncol.,2016年;第10卷第3期:第464-474页。类似地,已经提出将游离细胞RNA作为癌症检测的可能分析物。参见Tzimagiorgis等人,“Recoveringcirculating extracellular or cell-free RNA from bodily fluids”,CancerEpidemiology,2011年;第35卷第6期:第580-589页。这些方法代表了筛查多种疾病诸如癌症的潜在非侵入性方法。
然而,癌症仍然是世界范围内常见的死亡原因。在过去的几十年中,治疗选择有所改善,但存活率仍然很低。通过手术切除和基于药物的方法的成功治疗强烈依赖于早期肿瘤的鉴定。然而,目前的技术,诸如成像和基于生物标志物的方法,往往在疾病进入更晚期之前无法鉴定肿瘤。
发明内容
考虑到上述情况,仍然需要能够在治疗干预具有更大成功机会的最早阶段鉴定疾病的非侵入性检测模式。本公开的各方面解决了这种需要,并且还提供了其他优点。
在一些方面,本公开提供了检测受试者的癌症的方法。在实施方案中,这些方法包括:(a)测量受试者的生物流体中的多种靶分子,其中该多种靶分子选自表11的多肽;以及/或者(b)检测癌症,其中检测癌症包括检测高于阈值水平的靶分子中的一者或多者。在实施方案中,该多种靶分子选自表8或表12至表19中的一者或多者的多肽(例如,表8、表11至表14或表17至表19中的至少5、10、15或20种多肽)。
在一些实施方案中,(a)该多种靶分子进一步包含游离细胞多核苷酸,这些游离细胞多核苷酸包括(i)来自编码多肽的基因的游离细胞DNA(cfDNA),和/或(ii)编码多肽的基因的游离细胞RNA(cfRNA)转录物;并且(b)检测高于阈值水平的靶分子中的一者或多者包括(i)检测高于第一阈值水平的多肽中的一者或多者,以及(ii)对于检测到的高于第一阈值水平的多肽中的每一者,检测高于第二阈值水平的对应的游离细胞多核苷酸。
在一些方面中,本公开提供了用于实施本文所公开的各种方面中的任一者的方法中的一个或多个步骤的计算机系统。
在一些方面中,本公开提供了非暂态计算机可读介质,其上存储有用于实施本文所公开的各种方面中的任一者的方法中的一个或多个步骤的计算机可读指令。
附图说明
图1是根据一个实施方案制备用于测序的核酸样品的方法的流程图。
图2是例示根据本发明的一个实施方案用于鉴定指示疾病状态的一种或多种RNA序列的方法的流程图。
图3是例示根据本发明的一个实施方案用于鉴定一种或多种肿瘤来源的RNA序列的方法的流程图。
图4是例示根据本发明的一个实施方案用于检测受试者的癌症的存在、确定癌症的状态、监测癌症进展和/或确定癌症类型的方法的流程图。
图5是例示根据本发明的一个实施方案从来源于一个或多个靶向RNA分子的一个或多个序列读段检测疾病状态的方法的流程图。
图6是例示根据本发明的一个实施方案用于基于癌症指示评分来检测受试者的癌症的存在的方法的流程图。
图7例示了根据实施方案的样品分类方案的灵敏性和特异性的示例结果。
图8A至图8C例示了根据实施方案的样品分类方案的灵敏性和特异性的示例结果。
图9描述了20个暗通道基因在肺癌中的表达水平,其中在癌性和非癌性样品之间具有最高的表达水平比例。每百万读段(RPM)作为暗通道基因的函数作图。在每个图中,从左到右的点列分别对应于在顶部图例中从左到右指示的组(分类、肛门直肠、乳腺、结肠直肠、肺和非癌症)。
图10是使用从暗通道基因聚集的组织评分的决策树分类器的ROC曲线。
图11是例示根据一些实施方案的方法的流程图。
图12A是III期TCGA(癌症基因组图谱)FFPE(福尔马林固定的石蜡包埋的)组织RNA-seq数据的示例PCA(主成分分析)的散点图。基因表达水平以每百万读段作图。
图12B是示出投影在TCGA PCA轴上的CCGA(循环游离细胞基因组图谱)肿瘤组织RNA-seq数据的示例结果的散点图。基因表达水平以每百万读段作图。
图12C是示出投影在TCGA PCA轴上的CCGA癌症游离细胞RNA(cfRNA)RNA-seq数据的示例结果的散点图。基因表达水平以每百万读段作图。
图13是示例暗通道生物标志物基因的热图。每列描述了一种cfRNA样品,并且每行描述了一种基因。行的颜色编码组织特异性(从上到下,组织分别是:乳腺、肺和非特异性)。列的颜色编码样品组(从左到右,癌症类型分别是:肛门直肠、乳腺、结肠直肠、肺和非癌症)。
图14A示出了描述不同样品:HER2+、HR+/HER2-、三阴性乳腺癌(TNBC)或非癌症样品中的两个示例乳腺暗通道生物标志物(DCB)基因(FABP7和SCGB2A2)的cfRNA表达水平和组织表达水平的箱线图。
图14B示出了描述不同样品:腺癌、小细胞肺癌、鳞状细胞癌或非癌症样品中的四种示例肺部DCB基因(SLC34A2、ROS1、SFTPA2和CXCL17)的cfRNA表达水平和组织表达水平的箱线图。
图15A示出了描述具有匹配肿瘤组织的乳腺癌样品的两个乳腺DCB基因(FABP7和SCGB2A2)的可检测性的森林图。基于其在游离细胞DNA(cfDNA)中的相对肿瘤分数(95%CI)对样品ID进行作图。在样品4653、4088、2037、3116和1202中检测到FABP7。在样品1656、2419、3911、2367、2037、1039、2139和3162中检测到SCGB2A2。根据来自cfDNA富集测定的SNV等位基因分数测量cfDNA中的肿瘤分数。
图15B示出了描述具有匹配肿瘤组织的乳腺癌样品的两个乳腺DCB基因(FABP7和SCGB2A2)的可检测性的森林图。将样品ID作为肿瘤含量(肿瘤分数*肿瘤组织表达)的函数作图。在样品4088、1202、3116和2037中检测到FABP7。在样品1656、2419、2367、3911、1039、2139、3162和2037中检测到SCGB2A2。根据来自cfDNA富集测定的SNV等位基因分数测量cfDNA中的肿瘤分数。从匹配的肿瘤组织的RNA-seq数据测量组织表达。
图16A至图16D例示了对于患有乳腺癌、肺癌或无癌症(正常)的受试者,在cfRNA和匹配组织中DCB基因表达的示例测序结果。读段计数的数量表示在y轴上。
图17A至图17B例示了示例分类器工作流。
图18A至图18C例示了示出示例分类方案的灵敏性和特异性的ROC图。
图19例示了根据本发明的一个实施方案的样品处理和参数确定方法。
图20A至图20B例示了根据实施方案选择乳腺和肺特异性生物标志物的分布,示出了乳腺癌和肺癌来源的(分别)cfRNA相对于非癌症来源的cfRNA中增加的信号。从乳腺癌、肺癌和非癌症CCGA参与者的cfRNA制备全转录组样品。
图21例示了来自全转录组CCGA乳腺癌样品的匹配的血浆和组织基因表达。结果示出,组织中的高表达可能不一定产生进入血浆中的高脱落速率。
图22示出了例示在CCGA血浆中的暗通道表达与乳腺癌的CCGA肿瘤组织表达相关的散点图。具有零的平均血浆或组织表达的基因在此处被变换为1e-4用于可视化目的。
图23是例示在CCGA血浆中的暗通道表达与肺癌的CCGA肿瘤组织表达相关的散点图。具有零的平均血浆或组织表达的基因在此处被变换为1e-4用于可视化目的。
图24是示出CCGA血浆样品中的肿瘤特异性标志物的图。基于从所有癌症血浆到所有非癌症血浆的观察结果,计算每种基因的血浆对数优势比。所示的基因指示示例暗通道生物标志物。
图25是示出根据来源和鉴定方法分组的表15的cfRNA生物标志物的分布的维恩图。表14中提供了图中所有分组中存在的38种生物标志物。过滤基因以优化二进制检测和优化组织来源(TOO)。在CCGA血浆中观察到经过滤用于优化二进制检测的基因,其中对数优势比>0.1,并且在乳腺癌和肺癌中观察到具有高TCGA表达(>5RPM)的基因。为优化TOO经过滤的基因是通过多类随机森林方法从TCGA组织中选择的基因,以及在人蛋白质图谱中注释为乳腺/肺肿瘤或组织特异性的基因。
图26A至图26D例示了根据实施方案与非癌症受试者相比,在乳腺癌和/或肺癌中检测到的所选生物标志物的水平。结果示出了乳腺癌和/或肺癌来源的(分别)cfRNA相对于非癌症来源的cfRNA中增加的信号。从乳腺癌、肺癌和非癌症CCGA参与者的cfRNA制备全转录组样品。
图27A至图27C例示了与非癌症受试者相比,在乳腺癌受试者的血浆中检测到的所选多肽生物标志物的水平。结果示出了乳腺癌来源的血浆样品相对于非癌症来源的血浆样品中蛋白质的归一化计数。使用邻近延伸测定(PEA)确定检测多肽水平。图27A示出了乳腺癌来源的血浆样品相对于非癌症来源的血浆样品中多肽生物标志物的水平。图27B示出了不同群组中所选多肽生物标志物的水平。图27C示出了乳腺癌来源、肺癌来源和非癌症来源的血浆样品中多肽生物标志物的水平。
图28A至图28C例示了与非癌症受试者相比,在肺癌受试者的血浆中检测到的所选多肽生物标志物的水平。结果示出了肺癌来源的血浆样品相对于非癌症来源的血浆样品中蛋白质的归一化计数。图28A示出了肺癌来源的血浆样品相对于非癌症来源的血浆样品中多肽生物标志物的水平。图28B示出了鉴定为在区分低信号肺癌来源的血浆样品与非癌症来源的血浆样品中性能的驱动因素的多肽生物标志物的水平。图28C示出了不同群组中所选多肽生物标志物的水平。
具体实施方式
在更详细地描述本发明之前,应当理解,本发明不限于所描述的特定实施方案,因为这些实施方案当然可变化。还应当理解,本文所用的术语仅用于描述特定实施方案的目的,并不旨在进行限制,因为本发明的范围仅由所附权利要求书限定。
当提供数值范围时,应当理解,在该范围的上限和下限之间的每个中间值(至下限单位的十分之一,除非上下文另外清楚地指出)和在该规定范围内的任何其他规定或中间值,以及该范围的所提供的端点中的每个端点都包括在本发明内。这些较小范围的上限和下限可独立地包括在本发明所涵盖的较小范围内,服从规定范围中的任何明确排除的限值。
除非另有定义,否则本文所用的技术和科学术语具有与本发明所属领域的普通技术人员通常理解的相同的含义。Singleton等人(Dictionary of Microbiology andMolecular Biology,第2版,J.Wiley&Sons,New York,NY,1994年)为本领域技术人员提供了对本申请中使用的许多术语的一般指导,如下所述,这些术语中的每一者均通过引用方式整体并入本文:Kornberg和Baker,DNA Replication,第二版(W.H.Freeman,New York,1992年);Lehninger,Biochemistry,第二版(Worth Publishers,New York,1975年);Strachan和Read,Human Molecular Genetics,第二版(Wiley-Liss,New York,1999年);Abbas等人,Cellular and Molecular Immunology,第6版(Saunders,2007年)。
本文提及的所有公布以引用方式明确地并入本文以公开和描述与所引用的这些公布相关的方法和/或材料。
术语“多核苷酸”、“核酸”和“寡核苷酸”可互换使用。它们是指任何长度的核苷酸的聚合形式,脱氧核糖核苷酸或核糖核苷酸或它们的类似物。多核苷酸可具有任何三维结构,并且可执行任何已知或未知的功能。以下是多核苷酸的非限制性示例:基因或基因片段的编码或非编码区、由连锁分析限定的基因座、外显子、内含子、信使RNA(mRNA)、转移RNA(tRNA)、核糖体RNA(rRNA)、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微RNA(miRNA)、核糖酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离DNA、任何序列的分离RNA、核酸探针和引物。多核苷酸可包含一个或多个修饰的核苷酸,诸如甲基化核苷酸和核苷酸类似物。如果存在,则可在聚合物组装之前或之后赋予对核苷酸结构的修饰。核苷酸序列可被非核苷酸组分中断。可在聚合之后进一步修饰多核苷酸,诸如通过与标记组分缀合。
一般来讲,术语“靶多核苷酸”是指具有靶序列的起始核酸分子群体中的核酸分子或多核苷酸,期望确定该靶序列的存在、量和/或核苷酸序列或这些中的一种或多种的变化。一般来讲,术语“靶序列”是指单链核酸上的核酸序列。靶序列可以是基因的一部分、调节序列、基因组DNA、cDNA、RNA(包括mRNA、miRNA、rRNA)或其他。靶序列可以是来自样品的靶序列或第二靶,诸如扩增反应的产物。由靶多核苷酸或其部分编码的多肽在本文中称为“靶多肽”。所谓术语“靶分子”包括靶多核苷酸和靶多肽。
术语“标志物”和“生物标志物”在本文中可互换使用,是指靶多核苷酸(例如,基因或其可鉴定的序列片段)或由其编码的多肽,其存在、水平或浓度与特定生物状态(例如,疾病状态,诸如一般癌症的存在,或特定癌症类型和/或分期)相关。在实施方案中,标志物是由特定基因或其部分编码的多肽。在实施方案中,标志物是特定基因的cfRNA,其水平的变化可通过测序来检测。cfRNA生物标志物在本文中可指cfRNA来源的基因,但不必检测整个基因转录物。在实施方案中,仅检测特定基因转录物的片段。在实施方案中,检测特定的存在和/或水平包括检测一个或多个cfRNA片段,该一个或多个cfRNA片段包含来源于相同基因的转录物的不同序列片段(重叠或非重叠),其可作为相同“生物标志物”的一部分共同评分。涉及所述基因命名的附加信息,包括序列信息(例如,DNA、RNA和氨基酸序列)、通常通过基因符号鉴定的基因的全名等可在本领域技术人员已知的可公开访问的数据库中获得,诸如可从国家生物技术信息中心(www.ncbi.nlm.nih.gov/)获得的数据库,包括GenBank(www.ncbi.nlm.nih.gov/genbank/)和NCBI蛋白质数据库(www.ncbi.nlm.nih.gov/protein/)和UniProt(www.uniprot.org)。
如本文所用,术语“扩增子”意指多核苷酸扩增反应的产物。即,多核苷酸的克隆群体,可以是单链或双链的,从一个或多个起始序列复制。该一个或多个起始序列可以是相同序列的一个或多个拷贝,或者它们可以是不同序列的混合物。优选地,通过扩增单个起始序列来形成扩增子。扩增子可通过多种扩增反应产生,其产物包含一种或多种起始或靶核酸的复制物。在一个方面,产生扩增子的扩增反应是“模板驱动的”,因为反应物(核苷酸或寡核苷酸)的碱基配对在模板多核苷酸中具有产生反应产物所需的互补序列。在一个方面,模板驱动的反应是用核酸聚合酶进行的引物延伸,或用核酸连接酶进行的寡核苷酸连接。此类反应包括但不限于聚合酶链式反应(PCR)、线性聚合酶反应、基于核酸序列的扩增(NASBA)、滚环扩增等,这些反应公开于以下参考文献中,其各自全文以引用方式并入本文:Mullis等人,美国专利号4,683,195、4,965,188、4,683,202、4,800,159(PCR);Gelfand等人,美国专利5,210,015(使用“taqman”探针的实时PCR);Wittwer等人,美国专利6,174,670;Kacian等人,美国专利5,399,491(“NASBA”);Lizardi,美国专利5,854,033;Aono等人,日本专利公布JP 4-262799(滚环扩增)等。在一个方面,本发明的扩增子通过PCR产生。如果可获得允许反应产物随着扩增反应进行而被测量的检测化学,则扩增反应可以是“实时”扩增,例如,如Leone等人(Nucleic Acids Research,第26卷:第2150-2155页,1998年)和类似参考文献中所述的“实时PCR”或“实时NASBA”。
术语“扩增”意指进行扩增反应。“反应混合物”意指含有进行反应所必需的所有反应物的溶液,这些反应物可包括但不限于在反应期间将pH维持在所选水平的缓冲剂、盐、辅因子、清除剂等。
如本文可互换使用的术语“片段(fragment)”或“区段(segment)”是指较大分子的一部分。例如,多核苷酸可通过天然过程(例如在生物样品中天然存在的cfDNA片段的情况下)或通过体外操作被分解或片段化成多个区段。片段化核酸的各种方法是本领域熟知的。这些方法在性质上可以是例如化学的、物理的或酶促的。酶促片段化可包括用DNA酶部分降解;用酸部分脱嘌呤;限制性酶的使用;内含子编码的核酸内切酶;基于DNA的切割方法,诸如三链体和杂交体形成方法,其依赖于核酸区段的特异性杂交以将切割剂定位于核酸分子中的特定位置;或在已知或未知位置切割多核苷酸的其他酶或化合物。物理片段化方法可包括使多核苷酸经受高剪切速率。例如,可通过使DNA移动通过具有凹坑或尖峰的室或通道,或者迫使DNA样品通过受限大小的流动通道,例如具有微米或亚微米范围的横截面尺寸的孔,来产生高剪切速率。其他物理方法包括超声处理和喷雾。同样可采用物理和化学碎裂方法的组合,诸如通过加热和离子介导的水解进行碎裂。参见例如Sambrook等人,“Molecular Cloning:A Laboratory Manual”,第3版,Cold Spring Harbor LaboratoryPress,Cold Spring Harbor,N.Y.,2001年,Sambrook等人,其以引用方式并入本文以用于所有目的。这些方法可被优化以将核酸消化成所选大小范围的片段。
如本文可互换使用的术语“聚合酶链反应”或“PCR”意指通过同时引物延伸DNA互补链而体外扩增特定DNA序列的反应。换句话讲,PCR是用于制备侧接有引物结合位点的靶核酸的多个拷贝或复制物的反应,这种反应包括以下步骤的一个或多个重复:(i)使靶核酸变性,(ii)使引物与引物结合位点退火,以及(iii)在三磷酸核苷的存在下通过核酸聚合酶延伸引物。通常,反应在热循环仪中循环通过为每个步骤优化的不同温度。特定的温度、每个步骤的持续时间和步骤之间的变化率取决于本领域普通技术人员熟知的许多因素,例如由以下参考文献示例:McPherson等人编辑,PCR:A Practical Approach以及PCR2:APractical Approach(IRL Press,Oxford,分别为1991年和1995年)。例如,在使用Taq DNA聚合酶的常规PCR中,双链靶核酸可在>90℃的温度下变性,引物在50℃至75℃范围内的温度下退火,并且引物在72℃至78℃范围内的温度下延伸。术语“PCR”包括反应的衍生形式,包括但不限于RT-PCR、实时PCR、嵌套式PCR、定量PCR、多重PCR等。所采用的PCR的具体形式可由本领域技术人员从应用的上下文中辨别。反应体积可在几百纳升(例如,200nL)至几百μL(例如,200μL)的范围内。“逆转录PCR”或“RT-PCR”意指在逆转录反应之前的PCR,逆转录反应将靶RNA转化成互补单链DNA,然后进行扩增,其示例描述于Tecott等人的美国专利号5,168,038中,该专利的公开内容全文以引用方式并入本文。“实时PCR”意指随着反应进行监测反应产物(即,扩增子)的量的PCR。存在许多形式的实时PCR,其主要在用于监测反应产物的检测化学方面不同,例如Gelfand等人,美国专利号5,210,015(“taqman”);Wittwer等人,美国专利6,174,670和6,569,627(嵌入染料);Tyagi等人,美国专利号5,925,517(分子信标);这些专利的公开内容以引用方式整体并入本文。用于实时PCR的检测化学综述于Mackay等人,Nucleic Acids Research,第30卷:第1292-1305页,2002年中,该参考文献也以引用方式并入本文。“嵌套式PCR”意指两阶段PCR,其中第一个PCR的扩增子变成使用新引物组的第二个PCR的样品,这些新引物组中的至少一者结合第一个扩增子的内部位置。如本文所用,涉及嵌套式扩增反应的“初始引物”意指用于产生第一扩增子的引物,并且“次级引物”意指用于产生第二或嵌套式扩增子的该一种或多种引物。“不对称PCR”意指这样的PCR,其中所采用的两个引物中的一个引物处于大大过量的浓度,使得反应主要是线性扩增,其中靶核酸的两条链中的一条优先被复制。不对称PCR引物的过量浓度可表示为浓度比。典型的比例在10至100的范围内。“多重PCR”意指这样的PCR,其中在同一反应混合物中同时进行多个靶序列(或单个靶序列和一个或多个参考序列),例如Bernard等人,Anal.Biochem.,第273卷:第221-228页,1999年(双色实时PCR)。通常,对于每个待扩增的序列使用不同的引物组。通常,多重PCR中靶序列的数目在2至50、或2至40、或2至30的范围内。“定量PCR”意指设计用于测量样品或标本中一种或多种特定靶序列的丰度的PCR。定量PCR包括此类靶序列的绝对定量和相对定量两者。使用一种或多种参考序列或内标进行定量测量,这些参考序列或内标可单独测定或与靶序列一起测定。参考序列对于样品或标本可以是内源的或外源的,并且在后一种情况下,可包含一种或多种竞争模板。典型的内源参考序列包括下列基因的转录区段:β-肌动蛋白、GAPDH、β2-微球蛋白、核糖体RNA等。用于定量PCR的技术是本领域普通技术人员熟知的,如以下参考文献中所示例的,这些参考文献以引用方式整体并入本文:Freeman等人,Biotechniques,第26卷:第112-126页,1999年;Becker-Andre等人,Nucleic Acids Research,第17卷:第9437-9447页,1989年;Zimmerman等人,Biotechniques,第21卷:第268-279页,1996年;Diviacco等人,Gene,第122卷:第3013-3020页,1992年;以及Becker-Andre等人,Nucleic Acids Research,第17卷:第9437-9446页,1989年。
如本文所用,术语“引物”意指天然或合成的寡核苷酸,其在与多核苷酸模板形成双链体后能够充当核酸合成的起始点并从其3'端沿模板延伸,使得形成延伸的双链体。引物的延伸通常用核酸聚合酶,诸如DNA或RNA聚合酶进行。在延伸过程中添加的核苷酸序列由模板多核苷酸的序列确定。通常,引物通过DNA聚合酶延伸。引物的长度通常为范围为14至40个的核苷酸,或范围为18至36个的核苷酸。引物用于多种核酸扩增反应中,例如使用单一引物的线性扩增反应,或使用两种或更多种引物的聚合酶链式反应。选择用于特定应用的引物的长度和序列的指导是本领域普通技术人员熟知的,如通过以下参考文献所证明的,该参考文献以引用方式整体并入本文:Dieffenbach编辑,PCR Primer:A LaboratoryManual,第2版(Cold Spring Harbor Press,New York,2003年)。
术语“多肽”、“肽”和“蛋白质”在本文中可互换使用,是指任何长度的氨基酸的聚合物。该术语还包括已被修饰的氨基酸聚合物;例如,二硫键形成、糖基化、脂质化、乙酰化、磷酸化或任何其他操纵,诸如与标记组分缀合。如本文所用,术语“氨基酸”包括天然和/或非天然或合成的氨基酸,包括甘氨酸以及D或L光学异构体两者,以及氨基酸类似物和肽模拟物。在实施方案中,多肽由靶多核苷酸或其部分编码。
术语“受试者”和“患者”在本文中可互换使用,并且是指已知患有或可能患有医学病症或障碍(诸如例如癌症)的人或非人动物。
如本文所用,术语“序列读段”是指来自获自受试者的样品的核酸分子的部分或全部的核苷酸串。序列读段可以是从核酸片段测序的核苷酸的短串(例如,20-150)、在核酸片段的一端或两端处的核苷酸的短串、或存在于生物样品中的整个核酸片段的测序。序列读段可通过本领域已知的各种方法获得。例如,序列读段可以多种方式获得,例如,使用测序技术或使用探针(例如,在杂交阵列和捕获探针中),或扩增技术(诸如聚合酶链反应(PCR)或使用单引物的线性扩增或等温扩增)。
如本文使用,术语“读段区段”或“读段”是指任何核苷酸序列,包括从受试者获得的序列读段和/或来源于从样品读取的初始序列的核苷酸序列。例如,读段区段可指比对序列读段、折叠序列读段或缝合读段。此外,读段区段可指单个核苷酸碱基,诸如单核苷酸变体。
如本文所用,术语“富集”意指增加样品中一种或多种靶核酸的比例。“富集的”样品或测序文库因此是这样的样品或测序文库,其中相对于样品中的非靶核酸,一种或多种靶核酸的比例已经增加。
一般来讲,应用于多核苷酸的术语“游离细胞”、“循环”和“细胞外”(例如“游离细胞RNA”和“游离细胞DNA”)可互换地用于指存在于来自受试者的样品或其部分中的多核苷酸,其可被分离或以其他方式操作而不对最初收集的样品应用裂解步骤(例如,如在用于从细胞或病毒提取的裂解中)。因此,甚至在收集受试者的样品之前,游离细胞多核苷酸从它们所来源的细胞或病毒中是未包封的或“游离的”。游离细胞多核苷酸可作为细胞死亡(例如,凋亡或坏死)或细胞脱落的副产物产生,从而将多核苷酸释放到周围体液中或循环中。因此,可从血液(例如,血清或血浆)的非细胞部分、从其他体液(例如,尿液)或从其他类型样品的非细胞部分分离游离细胞多核苷酸。术语“游离细胞RNA”或“cfRNA”是指在受试者体内(例如,血流)循环并且可源自一个或多个健康细胞和/或来源于一个或多个癌细胞的核糖核酸片段。同样,“游离细胞DNA”或“cfDNA”是指在受试者体内(例如,血流)循环并且可源自一个或多个健康细胞和/或源自一个或多个癌细胞的脱氧核糖核酸分子。
术语“循环肿瘤RNA”或“ctRNA”是指源自肿瘤细胞或其他类型癌细胞的核糖核酸片段,这些片段可由于生物过程(诸如,死亡细胞的凋亡或坏死)而释放到受试者体内(例如,血流)中,或可由活肿瘤细胞主动释放。
如本文所用,术语“暗通道RNA”或“暗通道cfRNA分子”或“暗通道基因”是指在健康细胞中表达非常低或不存在的RNA分子或基因。因此,暗通道RNA(cfRNA)分子的鉴定、检测和/或定量改善了信噪比,并且改善了对疾病状态(诸如癌症)的评估的灵敏性和特异性。
如本文所用,“治疗(treating)”或“治疗(treatment)”包括用于在受试者的病症中获得有益或期望结果(包括临床结果)的任何方法。有益或期望临床结果可包括但不限于一种或多种症状或病症的减轻或改善、疾病程度的减小、疾病状态的稳定(即,不恶化)、疾病传播或扩散的预防、疾病进展的延迟或减慢、疾病状态的改善或缓和、疾病复发的减小和缓解,无论是部分还是全部,以及无论是可检测还是不可检测。换句话讲,如本文所用,“治疗”包括疾病的任何治愈、改善或预防。治疗可预防疾病的发生;抑制疾病的传播;减轻疾病的症状,完全或部分消除疾病的根本原因,缩短疾病的持续时间,或进行这些事情的组合。
如本文所用,“治疗”包括预防性治疗。治疗方法包括向受试者施用治疗有效量的活性剂。施用步骤可由单次施用组成或可包括一系列施用。治疗期的长度取决于多种因素,诸如病症的严重性、患者的年龄、活性剂的浓度、治疗中使用的组合物的活性或它们的组合。还应当理解,用于治疗或预防的药剂的有效剂量可在特定治疗或预防方案的过程中增加或减少。剂量的变化可通过本领域已知的标准诊断测定产生并变得明显。在一些情况下,可能需要长期施用。例如,将组合物以足以治疗患者的量和持续时间施用给受试者。在实施方案中,治疗不是预防性治疗。
当涉及受试者的疾病或病症时,术语“预防”是指减少受试者的一种或多种对应症状的发生。如上所述,预防可以是完全的(没有可检测的症状)或部分的,使得观察到的症状更少,和/或比没有治疗时可能发生的发生率更低。
“抗癌剂(anti-cancer agent)”和“抗癌剂(anticancer agent)”根据它们平常的普通含义使用,并且是指具有抗肿瘤性质或抑制细胞生长或增殖能力的组合物(例如,化合物、药物、拮抗剂、抑制剂、调节剂)。在一些实施方案中,抗癌剂是化疗剂。在一些实施方案中,抗癌剂是本文鉴定的在治疗癌症的方法中具有效用的试剂。在一些实施方案中,抗癌剂是由FDA或除美国以外的国家的类似管理机构批准的用于治疗癌症的试剂。抗癌剂的示例包括但不限于MEK(例如,MEK1、MEK2或MEK1和MEK2)抑制剂(例如,XL518、CI-1040、PD035901、司美替尼/AZD6244、GSK1120212/曲美替尼、GDC-0973、ARRY-162、ARRY-300、AZD8330、PD0325901、U0126、PD98059、TAK-733、PD318088、AS703026、BAY 869766)、烷化剂(例如,环磷酰胺、异环磷酰胺、苯丁酸氮芥、白消安、美法仑、二氯甲基二乙胺、乌拉莫司汀、噻替派、亚硝基脲、氮芥(例如,甲氯乙胺、环磷酰胺、苯丁酸氮芥、meiphalan)、乙烯亚胺和甲基三聚氰胺(例如,hexamethlymelamine、噻替派)、烷基磺酸酯(例如,白消安)、亚硝基脲(例如,卡氮芥、lomusitne、司莫司汀、链脲霉素)、三氮烯(氨烯咪胺))、抗代谢药(例如,5-硫唑嘌呤、亚叶酸、卡培他滨、氟达拉滨、吉西他滨、培美曲塞、雷替曲塞、叶酸类似物(例如,甲氨蝶呤)或嘧啶类似物(例如,氟尿嘧啶、氟尿苷、阿糖胞苷)、嘌呤类似物(例如,巯嘌呤、硫鸟嘌呤、喷司他丁)等)、植物生物碱(例如,长春新碱、长春碱、长春瑞滨、长春地辛、鬼臼毒素、紫杉醇、多西他赛等)、拓扑异构酶抑制剂(例如,伊立替康、拓扑替康、安吖啶、依托泊苷(VP16)、磷酸依托泊苷、替尼泊苷等)、抗肿瘤抗生素(例如,多柔比星、阿霉素、柔红霉素、表阿霉素、放线菌素、博来霉素、丝裂霉素、米托蒽醌、普卡霉素等)、铂基化合物(例如,顺铂、oxaloplatin、卡铂)、蒽二酮(例如,米托蒽醌)、取代的脲(例如,羟基脲)、甲基肼衍生物(例如,甲苄肼)、肾上腺皮质抑制剂(例如,米托坦、氨鲁米特)、表鬼臼毒素(例如,依托泊苷)、抗生素(例如,道诺霉素、多柔比星、博来霉素)、酶(例如,L-天冬酰胺酶)、促分裂原活化蛋白激酶信号传导抑制剂(例如,U0126、PD98059、PD184352、PD0325901、ARRY-142886、SB239063、SP600125、BAY 43-9006、渥曼青霉素或LY294002、Syk抑制剂、mTOR抑制剂、抗体(例如,利妥昔单抗)、棉子酚、genasense、多酚e、氯富辛、全反式维甲酸(ATRA)、苔藓抑素、肿瘤坏死因子相关凋亡诱导配体(TRAIL)、5-氮杂-2’-脱氧胞苷、全反式维甲酸、多柔比星、长春新碱、依托泊苷、吉西他滨、伊马替尼(Gleevec.RTM.)、格尔德霉素、17-N-烯丙基氨基-17-去甲氧基格尔德霉素(17-AAG)、夫拉平度、LY294002、硼替佐米、曲妥珠单抗、BAY 11-7082、PKC412、PD184352、20-epi-1,25-二羟基维生素D3;5-乙炔基尿嘧啶;阿比特龙;阿柔比星;酰基富烯;腺环戊醇;阿多来新;阿地白介素;ALL-TK拮抗剂;六甲蜜胺;氨莫司汀;amidox;氨磷汀;氨基乙酰丙酸;氨柔比星;安吖啶;阿那格雷;阿那曲唑;穿心莲内酯;血管生成抑制剂;拮抗剂D;拮抗剂G;安雷利克斯;抗背化形态发生蛋白-1;抗雄激素、前列腺癌;抗雌激素;抗瘤酮;反义寡核苷酸;甘氨酸阿非迪霉素;凋亡基因调节剂;凋亡调节剂;脱嘌呤酸;ara-CDP-DL-PTBA;精氨酸脱氨酶;asulacrine;阿他美坦;阿莫司汀;axinastatin 1;axinastatin 2;axinastatin 3;阿扎司琼;阿扎毒素;重氮酪氨酸;浆果赤霉素III衍生物;巴览醇;巴马司他;BCR/ABL拮抗剂;苯并二氢卟酚;苯甲酰基十字孢碱;β-内酰胺衍生物;β-alethine;倍他霉素B;桦木酸;bFGF抑制剂;比卡鲁胺;比生群;双吖丙啶基精胺;双奈法德;bistratene A;比折来新;breflate;溴匹立明;布度钛;丁硫氨酸硫酸亚胺;卡泊三醇;抑制剂C;喜树碱衍生物;金丝雀痘IL-2;卡培他滨;羧酰胺-氨基-三唑;羧酰氨基三唑;CaRestM3;CARN 700;软骨来源的抑制剂;卡折来新;酪蛋白激酶抑制剂(ICOS);栗树精胺;抗菌肽B;西曲瑞克;二氢卟酚;氯代喹喔啉磺酰胺;西卡前列素;顺式卟啉;克拉屈滨;克罗米芬类似物;克霉唑;碰撞霉素A;碰撞霉素B;考布他汀A4;考布他汀类似物;conagenin;crambescidin 816;克立那托;念珠藻素8;念珠藻素A衍生物;curacin A;cyclopentanthraquinones;cycloplatam;cypemycin;阿糖胞苷烷磷酯;细胞溶解因子;细胞抑素;达昔单抗;地西他滨;脱氢膜海鞘素B;地洛瑞林;地塞米松;右异环磷酰胺;右雷佐生;右维拉帕米;地吖醌;膜海鞘素B;didox;二乙基去甲精胺;二氢-5-氮杂胞苷;9-二氧黄溶霉素;二苯基螺莫司汀;二十二烷醇;多拉司琼;去氧氟尿苷;屈洛昔芬;屈大麻酚;倍癌霉素SA;依布硒啉;依考莫司汀;依地福新;依决洛单抗;依氟鸟氨酸;榄香烯;乙嘧替氟;表柔比星;爱普列特;雌莫司汀类似物;雌激素激动剂;雌激素拮抗剂;依他硝唑;磷酸依托泊苷;依西美坦;法倔唑;法扎拉滨;芬维A胺;非格司亭;非那雄胺;夫拉平度;氟卓斯汀;氟甾酮;氟达拉滨;fluorodaunorunicin盐酸盐;福酚美克;福美司坦;福司曲星;福莫司汀;莫特沙芬钆;硝酸镓;加洛他滨;加尼瑞克;白明胶酶抑制剂;吉西他滨;谷胱甘肽抑制剂;赫舒反;调蛋白;六亚甲基双乙酰胺;金丝桃素;伊班膦酸;伊达比星;艾多昔芬;伊决孟酮;伊莫福新;伊洛马司他;imidazoacridones;咪喹莫特;免疫刺激肽;胰岛素样生长因子-1受体抑制剂;干扰素激动剂;干扰素;白介素;碘苄胍;碘多柔比星;甘薯醇,4-;伊罗普拉;伊索拉定;isobengazole;isohomohalicondrin B;伊他司琼;jasplakinolide;kahalalide F;片螺素-N三醋酸酯;兰瑞肽;leinamycin;来格司亭;硫酸香菇多糖;leptolstatin;来曲唑;白血病抑制因子;白细胞α干扰素;亮脯利特+雌激素+孕酮;亮丙瑞林;左旋咪唑;利阿唑;直链多胺类似物;亲脂性二糖肽;亲脂性铂化合物;lissoclinamide 7;洛铂;蚯蚓氨酸;洛美曲索;氯尼达明;洛索蒽醌;洛伐他汀;洛索立宾;勒托替康;镥泰克萨菲瑞;lysofylline;裂解肽;美坦新;甘露他汀A;马立马司他;马索罗酚;乳腺丝抑蛋白;基质溶解素抑制剂;基质金属蛋白酶抑制剂;美诺立尔;美巴龙;美替瑞林;甲硫氨酸酶;甲氧氯普胺;MIF抑制剂;米非司酮;米替福新;米立司亭;错配的双链RNA;米托胍腙;二溴卫矛醇;丝裂霉素类似物;米托萘胺;米托毒素成纤维细胞生长因子-皂草素;米托蒽醌;莫法罗汀;莫拉司亭;单克隆抗体,人绒毛膜促性腺激素;单磷酰脂质A+分枝杆菌细胞壁sk;莫哌达醇;多重药物抗性基因抑制剂;基于多重肿瘤抑制剂1的疗法;氮芥抗癌剂;mycaperoxide B;分枝杆菌细胞壁提取物;myriaporone;N-乙酰地那林;N-取代的苯甲酰胺;那法瑞林;nagrestip;纳洛酮+镇痛新;napavin;萘萜二醇;那托司亭;奈达铂;奈莫柔比星;奈立膦酸;中性内肽酶;尼鲁米特;nisamycin;一氧化氮调节剂;硝基氧抗氧化剂;nitrullyn;O6-苄基鸟嘌呤;奥曲肽;okicenone;寡核苷酸;奥那司酮昂丹司琼;昂丹司琼;oracin;口服细胞因子诱导剂;奥马铂;奥沙特隆;奥沙利铂;oxaunomycin;palauamine;palmitoylrhizoxin;帕米膦酸;人参三醇;帕诺米芬;parabactin;帕折普汀;培门冬酶;培得星;戊聚糖多硫酸酯钠;喷司他丁;pentrozole;全氟溴烷;培磷酰胺;紫苏子醇;phenazinomycin;苯乙酸盐;磷酸酶抑制剂;溶链菌;盐酸毛果芸香碱;吡柔比星;吡曲克辛;普拉斯汀A;普拉斯汀B;纤溶酶原激活物抑制剂;铂络合物;铂化合物;铂-三胺络合物;卟吩姆钠;紫菜霉素;泼尼松;丙基双-吖啶酮;前列腺素J2;蛋白酶体抑制剂;基于蛋白A的免疫调节剂;蛋白激酶C抑制剂;蛋白激酶C抑制剂,微藻;蛋白酪氨酸磷酸酶抑制剂;嘌呤核苷磷酸化酶抑制剂;红紫素;吡唑并吖啶;吡哆酰基化的血红素聚氧乙稀缀合物;raf拮抗剂;雷替曲塞;雷莫司琼;ras法呢基蛋白转移酶抑制剂;ras抑制剂;ras-GAP抑制剂;脱甲基化瑞替普汀;依替膦酸铼Re186;根霉素;核糖酶;RII视黄酸酰胺;罗谷亚胺;罗希吐碱;罗莫泰德;罗喹美克;rubiginone B1;ruboxyl;沙芬戈;saintopin;肌氨酰胺亚硝脲;肌肉叶绿醇A;沙格司亭;Sdi 1模拟物;司莫司汀;衰老来源的抑制剂1;有义寡核苷酸;信号转导抑制剂;信号转导调节剂;单链抗原结合蛋白;西索菲兰;索布佐生;硼卡钠;苯乙酸钠;solverol;生长调节素结合蛋白;索纳明;膦门冬酸;穗霉素D;螺莫司汀;脾脏五肽;spongistatin 1;角鲨胺;干细胞抑制剂;干细胞分裂抑制剂;stipiamide;溶基质素抑制剂;sulfinosine;强效血管活性肠肽拮抗剂;suradista;苏拉明;苦马豆素;合成糖胺聚糖;他莫司汀;三苯氧胺甲碘化物;牛磺莫司汀;他扎罗汀;替可加兰钠;替加氟;tellurapyrylium;端粒酶抑制剂;替莫泊芬;替莫唑胺;替尼泊苷;十氧化四氯;四佐胺;泰立拉汀;噻可拉林;血小板生成素;血小板生成素模拟物;胸腺法新;促胸腺生成素激动剂;胸腺曲南;甲状腺刺激素;tin ethyl etiopurpurin;替拉扎明;二氯二茂钛;topsentin;托瑞米芬;全能干细胞因子;转译抑制剂;维甲酸;三乙酰尿苷;曲西立滨;曲美沙特;曲普瑞林;托烷司琼;妥罗雄脲;酪氨酸激酶抑制剂;酪氨酸磷酸化抑制剂;UBC抑制剂;乌苯美司;泌尿生殖窦来源的生长抑制因子;尿激酶受体拮抗剂;伐普肽;variolin B;载体系统、红细胞基因疗法;维拉雷琐;藜芦胺;verdins;维替泊芬;长春瑞滨;vinxaltine;vitaxin;伏氯唑;扎诺特隆;折尼铂;zilascorb;净司他丁斯酯、阿霉素、更生霉素、博莱霉素、长春花碱、顺铂、阿西维辛;阿柔比星;盐酸阿考达唑;阿克罗宁;阿多来新;阿地白介素;六甲蜜胺;安波霉素;乙酸阿美坦醌;氨鲁米特;安吖啶;阿那曲唑;安曲霉素;门冬酰胺酶;曲林菌素;阿扎胞苷;阿扎替派;含氮霉素;巴马司他;苯佐替派;比卡鲁胺;盐酸比生群;二甲磺酸双奈法德;比折来新;硫酸博来霉素;布喹那钠;溴匹立明;白消安;放线菌素C;卡鲁睾酮;卡醋胺;卡贝替姆;卡铂;卡莫司汀;盐酸卡柔比星;卡折来新;西地芬戈;苯丁酸氮芥;西罗霉素;克拉屈滨;甲磺酸克立那托;环磷酰胺;阿糖胞苷;达卡巴嗪;盐酸柔红霉素;地西他滨;右奥马铂;地扎胍宁;甲磺酸地扎胍宁;地吖醌;多柔比星;盐酸多柔比星;屈洛昔芬;柠檬酸屈洛昔芬;丙酸屈他雄酮;达佐霉素;依达曲沙;盐酸依氟鸟氨酸;依沙芦星;恩洛铂;恩普氨酯;依匹哌啶;盐酸表柔比星;厄布洛唑;盐酸依索比星;雌莫司汀;磷酸雌莫司汀钠;依他硝唑;依托泊苷;磷酸依托泊苷;氯苯乙嘧胺;盐酸法倔唑;法扎拉滨;芬维A胺;氟尿苷;磷酸氟达拉滨;氟尿嘧啶;氟西他滨;磷喹酮;福司曲星钠;吉西他滨;盐酸吉西他滨;羟基脲;盐酸伊达比星;异环磷酰胺;iimofosine;白介素I1(包括重组白介素II或rlL.sub.2)、干扰素α-2a;干扰素α-2b;干扰素α-n1;干扰素α-n3;干扰素β-1a;干扰素γ-1b;异丙铂;盐酸伊立替康;醋酸兰瑞肽;来曲唑;醋酸亮丙瑞林;盐酸利阿唑;洛美曲索钠;罗莫司丁;盐酸洛索蒽醌;马索罗酚;美登素;盐酸二氯甲基二乙胺;乙酸甲地孕酮;醋酸美仑孕酮;美法仑;美诺立尔;巯嘌呤;甲氨蝶呤;甲氨蝶呤钠;氯苯氨啶;美妥替哌;米丁度胺;米托卡星;丝裂红素;米托洁林;丝裂马菌素;丝裂霉素;米托司培;米托坦;盐酸米托蒽醌;霉酚酸;诺考达唑;诺加霉素;奥马铂;奥昔舒仑;培门冬酶;佩里霉素;奈莫司汀;硫酸培来霉素;培磷酰胺;哌血生;哌泊舒凡;盐酸吡罗蒽醌;普卡霉素;普洛美坦;卟吩姆钠;紫菜霉素;松龙苯芥;盐酸丙卡巴肼;嘌呤霉素;盐酸嘌呤霉素;吡唑呋喃菌素;利波腺苷;罗谷亚胺;沙芬戈;盐酸沙芬戈;司莫司汀;辛曲秦;磷乙酰天冬氨酸钠;司帕索霉素;盐酸锗螺胺;螺莫司汀;螺铂;链黑菌素;链脲霉素;磺氯苯脲;他利霉素;替可加兰钠;替加氟;盐酸替洛蒽醌;替莫泊芬;替尼泊苷;替罗昔隆;睾内酯;硫咪嘌呤;硫鸟嘌呤;噻替哌;噻唑呋林;替拉扎明;柠檬酸托瑞米芬;乙酸曲托龙;磷酸曲西立滨;曲美沙特;葡糖醛酸曲美沙特;曲普瑞林;盐酸妥布氯唑;尿嘧啶氮芥;乌瑞替派;伐普肽;维替泊芬;硫酸长春碱;硫酸长春新碱;长春地辛;硫酸长春地辛;硫酸长春匹定;硫酸长春甘酯;硫酸长春罗辛;酒石酸长春瑞滨;硫酸长春罗定;硫酸长春利定;伏氯唑;折尼铂;净司他丁;盐酸佐柔比星(将细胞阻滞在G2-M期和/或调节微管形成或稳定的试剂)(例如,紫杉醇.TM(即紫杉醇)、泰索帝.TM(包含紫杉烷骨架的化合物)、厄布洛唑(即R-55104)、海兔毒素10(即DLS-10和NSC-376128)、米伏布林羟乙基磺酸盐(即CI-980)、长春新碱、NSC-639829、圆皮海绵内酯(即NVP-XX-A-296)、ABT-751(Abbott,即E-7010)、奥图来尔亭(例如,奥图来尔亭A和奥图来尔亭C)、海绵毒素(例如,海绵毒素1、海绵毒素2、海绵毒素3、海绵毒素4、海绵毒素5、海绵毒素6、海绵毒素7、海绵毒素8和海绵毒素9)、盐酸西马多丁(即LU-103793和NSC-D-669356)、埃博霉素(例如,埃博霉素A、埃博霉素B、埃博霉素C(即去氧埃博霉素A或dEpoA)、埃博霉素D(即KOS-862、dEpoB和去氧埃博霉素B)、埃博霉素E、埃博霉素F、埃博霉素B N-氧化物、埃博霉素A N-氧化物、16-氮杂-埃博霉素B、21-氨基埃博霉醇B(即BMS-310705)、21-羟基埃博霉素D(即去甲氧基埃博霉素F和dEpoF)、26-氟埃博霉素)、澳瑞他汀PE(即NSC-654663)、Soblidotin(即TZT-1027)、LS-4559-P(Pharmacia,即LS-4577)、LS-4578(Pharmasia,即LS-477-P)、LS-4477(Pharmacia)、LS-4559(Pharmacia)、RPR-112378(Aventis)、硫酸长春新碱、DZ-3358(Daiichi)、FR-182877(Fujisawa,即WS-9885B)、GS-164(Takeda)、GS-198(Takeda)、KAR-2(匈牙利科学院)、BSF-223651(BASF,即ILX-651和LU-223651)、SAH-49960(Lilly/Novartis)、SDZ-268970(Lilly/Novartis)、AM-97(Armad/Kyowa Hakko)、AM-132(Armad)、AM-138(Armad/Kyowa Hakko)、IDN-5005(Indena)、念珠藻素52(即LY-355703)、AC-7739(Ajinomoto,即AVE-8063A和CS-39.HCl)、AC-7700(Ajinomoto,即AVE-8062、AVE-8062A、CS-39-L-Ser.HCl和RPR-258062A)、维替维胺、Tubulysin A、Canadensol、矢车菊黄素(即NSC-106969)、T-138067(Tularik,即T-67、TL-138067和TI-138067)、COBRA-1(帕克休斯研究所,即DDE-261和WHI-261)、H10(堪萨斯州立大学)、H16(堪萨斯州立大学)、Oncocidin A1(即BTO-956和DIME)、DDE-313(帕克休斯研究所)、Fijianolide B、莱利霉素、SPA-2(帕克休斯研究所)、SPA-1(帕克休斯研究所,即SPIKET-P)、3-IAABU(Cytoskeleton/西奈山医学院,即MF-569)、宁咳平(也称为NSC-5366)、Nascapine、D-24851(Asta Medica)、A-105972(Abbott)、哈米特林、3-BAABU(Cytoskeleton/西奈山医学院,即MF-191)、TMPN(亚利桑那州立大学)、乙酰丙酮钒、T-138026(Tularik)、Monsatrol、lnanocine(即NSC-698666)、3-IAABE(Cytoskeleton/西奈山医学院)、A-204197(Abbott)、T-607(Tuiarik,即T-900607)、RPR-115781(Aventis)、Eleutherobins(诸如,去甲软珊瑚醇、去乙酰软珊瑚醇、异软珊瑚醇A和Z-软珊瑚醇)、Caribaeoside、卡利贝林、软海绵素B、D-64131(Asta Medica)、D-68144(Asta Medica)、Diazonamide A、A-293620(Abbott)、NPI-2350(Nereus)、根薯酮内酯A、TUB-245(Aventis)、A-259754(Abbott)、Diozostatin、(-)-Phenylahistin(即NSCL-96F037)、D-68838(AstaMedica)、D-68836(Asta Medica)、肌基质蛋白B、D-43411(Zentaris,即D-81862)、A-289099(Abbott)、A-318315(Abbott)、HTI-286(即SPA-110,三氟乙酸盐)(Wyeth)、D-82317(Zentaris)、D-82318(Zentaris)、SC-12983(NCI)、力司弗拉司达汀磷酸钠、BPR-OY-007(美国国立卫生研究院)和SSR-250411(Sanofi))、类固醇(例如,地塞米松)、非那雄胺、芳香化酶抑制剂、促性腺激素释放激素激动剂(GnRH)诸如戈舍瑞林或亮丙瑞林、肾上腺类固醇(例如强的松)、孕酮(例如,己酸羟孕酮、醋酸甲地孕酮、醋酸甲羟孕酮)、雌激素(例如己烯雌酚、乙炔雌二醇)、抗雌激素(例如,他莫昔芬)、雄激素(例如,丙酸睾酮、氟甲睾酮)、抗雌激素(例如,氟他胺)、免疫刺激剂(例如,卡介苗(BCG)、左旋咪唑、白介素-2、α-干扰素等)、单克隆抗体(例如,抗CD20、抗HER2、抗CD52、抗HLA-DR和抗VEGF单克隆抗体),免疫毒素(例如,抗CD33单克隆抗体-加利车霉素偶联物,抗CD22单克隆抗体-假单胞菌外毒素偶联物等),放射免疫疗法(例如,与111In、90Y或131I等偶联的抗CD20单克隆抗体等),雷公藤甲素、高三尖杉酯碱、放线菌素D、多柔比星、表柔比星、拓扑替康、伊曲康唑、长春地辛、西立伐他汀、长春新碱、脱氧腺苷、舍曲林、匹伐他汀、伊立替康、氯法齐明、5-壬基氧色胺、维罗非尼、达拉非尼、厄洛替尼、吉非替尼、EGFR抑制剂、表皮生长因子受体(EGFR)靶向疗法或治疗剂(例如吉非替尼(易瑞沙TM)、厄洛替尼(特罗凯TM)、西妥昔单抗(爱必妥TM)、拉帕替尼(泰立沙TM)、帕尼单抗(维必施TM)、凡德他尼(卡普利沙TM)、阿法替尼/BIBW2992、CI-1033/卡奈替尼、来那替尼/HKI-272、CP-724714、TAK-285、AST-1306、ARRY334543、ARRY-380、AG-1478、达可替尼/PF299804、OSI-420/去甲基厄洛替尼、AZD8931、AEE788、培利替尼/EKB-569、CUDC-101、WZ8040、WZ4002、WZ3146、AG-490、XL647、PD153035、BMS-599626)、索拉非尼、伊马替尼、舒尼替尼、达沙替尼等。
如本文所用,“表观遗传学抑制剂”是指表观遗传学过程的抑制剂,诸如DNA甲基化(DNA甲基化抑制剂)或组蛋白修饰(组蛋白修饰抑制剂)。表观遗传学抑制剂可以是组蛋白脱乙酰酶(HDAC)抑制剂、DNA甲基转移酶(DNMT)抑制剂、组蛋白甲基转移酶(HMT)抑制剂、组蛋白脱甲基酶(HDM)抑制剂或组蛋白乙酰转移酶(HAT)。HDAC抑制剂的示例包括伏立诺他、罗米地辛、CI-994、贝利司他、帕比司他、吉维司他、恩替司他、莫西诺司他、SRT501、CUDC-101、JNJ-26481585或PCI24781。DNMT抑制剂的示例包括阿扎胞苷和地西他滨。HMT抑制剂的示例包括EPZ-5676。HDM抑制剂的示例包括巴吉林和苯环丙胺。HAT抑制剂的示例包括CCT077791和山竹醇。
“多激酶抑制剂”是至少一种蛋白激酶(包括酪氨酸蛋白激酶和丝氨酸/苏氨酸激酶)的小分子抑制剂。多激酶抑制剂可包括单激酶抑制剂。多激酶抑制剂可阻断磷酸化。多激酶抑制剂可作为蛋白激酶的共价修饰剂。多激酶抑制剂可结合激酶活性位点或者结合抑制蛋白激酶活性的二级或三级位点。多激酶抑制剂可以是抗癌多激酶抑制剂。示例性抗癌多激酶抑制剂包括达沙替尼、舒尼替尼、埃罗替尼、贝伐单抗、瓦他拉尼、威罗菲尼、凡德他尼、卡博替尼、poatinib、阿西替尼、鲁索替尼、瑞戈非尼、克里唑蒂尼、博舒替尼、西妥昔单抗、吉非替尼、伊马替尼、拉帕替尼、乐伐替尼、木利替尼、尼洛替尼、帕尼单抗、帕唑帕尼、曲妥珠单抗或索拉菲尼。
如本文所用,术语“约”意指包括指定值的值范围,本领域普通技术人员将认为其与指定值合理地相似。在实施方案中,约意指使用本领域通常可接受的测量的标准偏差内。在实施方案中,约意指扩展至指定值的+/-10%的范围。在实施方案中,约包括指定值。
所公开的主题的各方面包括基于对来自受试者的样品中的一种或多种靶分子的分析来检测受试者的疾病状态(例如,癌症的存在或不存在)和/或疾病组织来源的方法。在一些实施方案中,用于检测受试者的疾病状态的方法包括分离来自受试者的生物测试样品,其中生物测试样品包含多种多肽,以及进行检测测定以确定该多种多肽中一种或多种靶多肽的存在或量。关于该一种或多种靶多肽的存在或量的信息可与编码该一种或多种靶多肽或其片段的一种或多种靶多核苷酸的存在或量组合。在一些实施方案中,用于检测受试者的疾病状态的方法包括分离来自受试者的生物测试样品,其中生物测试样品包含多个游离细胞核糖核酸(cfRNA)分子,从生物测试样品提取cfRNA分子,对所提取的cfRNA分子进行测序程序以产生多个序列读段,进行过滤程序以产生源自一个或多个健康细胞的排除序列读段群体和非排除序列读段群体,以及对非排除序列读段进行定量程序。在实施方案中,这些方法包括当定量程序产生超过阈值的值时检测受试者的疾病状态。在实施方案中,检测高于阈值的一个或多个非排除序列读段包括(i)检测,(ii)高于背景的检测,和/或(iii)在高于不患有该病症的受试者中对应序列读段水平的水平下的检测。在各种实施方案中,阈值是范围从约或正好1至约或正好10的整数,诸如约或正好2、3、4、5、6、7、8或约或正好9。在一些实施方案中,阈值是非整数值,范围为约或正好0.1至约或正好0.9,诸如约或正好0.2、0.3、0.4、0.5、0.6、0.7或约或正好0.8。在实施方案中,靶多肽和靶多核苷酸来自相同样品或来自大约同时收集的不同样品。
在一些实施方案中,这些方法涉及使用对程序进行测序来检测和定量从生物测试样品中提取的cfRNA分子。例如,在各种实施方案中,测序程序涉及在cfRNA分子上进行逆转录程序以产生多个cDNA/RNA杂交分子,降解杂交分子的RNA以产生多个单链cDNA分子模板,从单链cDNA分子模板合成多个双链DNA分子,将多个双链DNA衔接子连接至该多个双链DNA分子以产生测序文库,以及在测序文库的至少一部分上进行测序程序以获得多个序列读段。在各种实施方案中,合成双链DNA分子涉及进行链置换逆转录酶程序。
在一些实施方案中,这些方法利用全转录组测序程序。在其他实施方案中,测序程序涉及靶向测序程序,其中在制备测序文库之前从生物测试样品富集cfRNA分子中的一者或多者。根据该实施方案,靶向指示疾病状态的一种或多种cfRNA分子用于富集。例如,在一些实施方案中,该一种或多种靶向cfRNA分子来源于选自以下的一种或多种基因:AGR2、BPIFA1、CASP14、CSN1S1、DISP2、EIF2D、FABP7、GABRG1、GNAT3、GRHL2、HOXC10、IDI2-AS1、KRT16P2、LALBA、LINC00163、NKX2-1、OPN1SW、PADI3、PTPRZ1、ROS1、S100A7、SCGB2A2、SERPINB5、SFTA3、SFTPA2、SLC34A2、TFF1、VTCN1、WFDC2、MUC5B、SMIM22、CXCL17、RNU1-1和KLK5,并且可包括它们的任何组合。在一些实施方案中,一种或多种靶RNA分子来源于选自以下的一种或多种基因:ROS1、NKX2-1、GGTLC1、SLC34A2、SFTPA2、BPIFA1、SFTA3、GABRG1、AGR2、GNAT3、MUC5B、SMIM22、CXCL17和WFDC2,并且可包括它们的任何组合。在一些实施方案中,一种或多种靶RNA分子来源于选自以下的一种或多种基因:SCGB2A2、CSN1S1、VTCN、FABP7、LALBA、RNU1-1、OPN1SW、CASP14、KLK5和WFDC2,并且可包括它们的任何组合。在一些实施方案中,一种或多种靶RNA分子来源于选自以下的一种或多种基因:CASP14、CRABP2、FABP7、SCGB2A2、SERPINB5、TRGV10、VGLL1、TFF1和AC007563.5,并且可包括它们的任何组合。在其他实施方案中,靶向RNA来源于AKR1B10、C3和/或PIEXO2基因。
所公开的主题的各方面涉及分析一种或多种暗通道RNA分子和/或由其编码的多肽,其在健康受试者的血浆中的表达非常低或不存在。由于它们在健康受试者的血浆中的低表达水平,因此暗通道RNA分子提供了可与本发明方法结合使用的高信噪比。
所公开的主题的一些方面涉及过滤程序,这些过滤程序用于产生源自一个或多个健康细胞的序列读段的排除群体和用于后续分析的序列读段的非排除群体。在各种实施方案中,过滤程序涉及将从生物测试样品中提取的cfRNA分子的每个序列读段与RNA序列的对照数据组进行比较,鉴定与RNA序列的对照数据组中的一个或多个序列读段匹配的一个或多个序列读段,以及将与RNA序列的对照数据组中的一个或多个序列读段匹配的每个序列读段置于排除序列读段群体中。
在一些实施方案中,靶分子(例如,DNA或RNA序列)的对照数据集包括从一个或多个健康受试者获得的多个序列读段。在一些实施方案中,RNA序列的对照数据集包括从受试者的多个血细胞获得的多个序列读段。例如,在一些实施方案中,从受试者的白细胞(WBC)获得多个序列读段。在实施方案中,靶分子的对照数据集包括针对参考病症的靶分子(例如,多肽和/或多核苷酸)的存在或量的数据,该参考病症诸如是已知患有或已知不患有所检查的特定病症的群体,或在不同时间(例如,在形成所检查的特定状况之前)测试的给定受试者。
生物样品:
在各种实施方案中,本公开涉及从受试者获得测试样品,例如生物测试样品,诸如组织和/或体液样品,用于分析其中的多种靶分子(例如,多种多肽、cfDNA和/或cfRNA分子)的目的。根据本发明的实施方案的样品可以任何临床上可接受的方式收集。怀疑含有多种靶分子的任何样品都可与本发明的方法结合使用。在一些实施方案中,样品可包括组织、体液或它们的组合。在一些实施方案中,从健康受试者收集生物样品。在一些实施方案中,从已知患有特定疾病或病症(例如,特定癌症或肿瘤)的受试者收集生物样品。在一些实施方案中,从怀疑患有特定疾病或病症的受试者收集生物样品。
如本文所用,术语“组织”是指大量连接的细胞和/或细胞外基质材料。通常结合本发明方法使用的组织的非限制性示例包括来源于例如人或非人哺乳动物的皮肤、毛发、手指甲、子宫内膜组织、鼻通道组织、中枢神经系统(CNS)组织、神经组织、眼组织、肝组织、肾组织、胎盘组织、乳腺组织、胃肠组织、肌骨骼组织、泌尿生殖组织、骨髓等。根据本发明的实施方案的组织样品可以本领域已知的任何组织样品类型的形式制备和提供,诸如例如但不限于福尔马林固定的石蜡包埋的(FFPE)、新鲜的和新鲜冷冻的(FF)组织样品。
如本文所用,术语“体液”和“生物流体”是指来源于受试者(例如,人或非人哺乳动物)的液体材料。通常与本发明方法结合使用的体液的非限制性示例包括粘液、血液、血浆、血清、血清衍生物、滑液、淋巴液、胆汁、痰、唾液、汗液、泪液、唾液、羊水、月经液、阴道分泌物、精液、尿液、脑脊髓液(CSF)(诸如腰椎或心室CSF)、胃液、包含来源于鼻、咽喉或口腔拭子的一种或多种材料的液体样品、包含来源于灌洗过程(诸如腹膜、胃、胸或导管灌洗过程)的一种或多种材料的液体样品等。
在一些实施方案中,样品可包括细针抽吸物或活检组织。在一些实施方案中,样品可包括含有细胞或生物材料的培养基。在一些实施方案中,样品可包含血块,例如,在已经去除血清之后已经从全血获得的血块。在一些实施方案中,样品可包括粪便。在一个优选的实施方案中,样品是抽取的全血。在一个方面,仅使用全血样品的一部分,诸如血浆、红细胞、白细胞和血小板。在一些实施方案中,结合本发明方法将样品分离成两个或更多个组分部分。例如,在一些实施方案中,将全血样品分离成血浆、红细胞、白细胞和血小板组分。
在一些实施方案中,样品包括多种多肽和/或核酸,其不仅来自采集样品的受试者,而且来自一种或多种其他生物体,诸如取样时存在于受试者体内的病毒DNA/RNA。
核酸和/或多肽可根据本领域已知的任何合适的方法从样品中提取,并且所提取的核酸可与本文所述的方法结合利用。参见例如,Maniatis等人,Molecular Cloning:ALaboratory Manual,Cold Spring Harbor,N.Y.,第280-281页,1982年,其内容以引用方式整体并入本文。在一个优选的实施方案中,从样品中纯化多肽。在一些实施方案中,从样品中提取游离细胞核酸(例如,cfRNA和/或cfDNA)。
在实施方案中,样品是“匹配”或“配对”样品。一般来讲,术语“匹配样品”和“配对样品”是指从同一受试者收集的一对不同类型的样品,优选地在大约相同的时间(例如,作为单个程序或就诊的一部分,或在同一天)。在实施方案中,不同类型是组织样品(例如,癌组织,如在切除或活检样品中)和生物流体样品(例如,血液或血液级分)。该术语还可用于指来源于匹配样品的多肽和/或多核苷酸(例如,从癌组织提取的多核苷酸,与来自匹配生物流体样品的游离细胞多核苷酸配对)或其测序读段。在实施方案中,分析多个配对样品,诸如在鉴定癌症生物标志物中。该多个配对样品可来自在不同时间收集的相同个体(例如,来自癌症早期的配对样品和来自癌症晚期的配对样品)、来自在相同或不同时间的不同个体或这些的组合。在实施方案中,匹配样品来自不同的受试者。在实施方案中,多个匹配样品来自具有相同癌症类型和任选地相同癌症分期的受试者。
实施例测定方案:
图1是根据一个实施方案制备用于测序的核酸样品的方法100的流程图。方法100包括但不限于以下步骤。例如,方法100的任何步骤可包括用于质量控制的定量子步骤或本领域技术人员已知的其他实验室测定程序。
在步骤110中,从受试者中提取核糖核酸(RNA)样品。RNA样品可包含完整的人转录组,或人转录组的任何子集。样品可从已知患有或怀疑患有疾病(例如,癌症)的受试者中提取。样品可包括血液、血浆、血清、尿液、粪便、唾液、其他类型的体液或它们的任何组合。在一些实施方案中,用于抽取血样的方法(例如,注射器或手指针刺)可比用于获得组织活检的程序(其可能需要手术)侵入性更小。所提取的样品可进一步包含cfDNA。如果受试者患有疾病(例如,癌),则提取的样品中的cfRNA可能以可检测的水平存在以用于诊断。
在步骤120中,任选地用DNA酶处理包括RNA分子的核酸样品。DNA酶可从核酸样品中去除DNA分子以减少RNA分子的DNA污染。在RNA分子转化为DNA之后,可能难以区分RNA转化的DNA和最初在核酸样品中发现的基因组DNA。应用DNA酶允许靶向扩增源自cfRNA的分子。DNA酶过程可包括以下步骤:添加DNA酶缓冲液,使用离心机混合施加有DNA酶的样品,以及温育。在一些实施方案中,步骤120包括基于Qiagen QIAamp循环核酸手册中描述的DNA酶处理方案的一个或多个过程。
在步骤130中,使用逆转录酶将核酸样品中的RNA分子转化为互补DNA(cDNA)。逆转录酶过程可包括第一链合成步骤(经由逆转录产生cDNA链)、降解RNA链以产生单链cDNA分子,以及使用聚合酶从单链cDNA分子合成双链DNA分子。在第一链合成期间,引物与RNA分子的3'端退火。在第二链合成期间,不同的引物与cDNA分子的3'端退火。
在步骤140中,制备测序文库。例如,如本领域所熟知的,衔接子可连接至dsDNA分子的一端或两端以制备用于测序的文库。在一个实施方案中,所利用的衔接子可包括用于随后簇生成和/或测序的一种或多种测序寡核苷酸(例如,已知的用于合成测序(SBS)的P5和P7序列(Illumina,San Diego,CA))。在另一个实施方案中,衔接子包括样品特异性索引序列,使得在文库制备之后,文库可与从单个样品制备的一个或多个其他文库组合,从而允许多重测序。样品特异性索引序列可包含长度为约或正好2nt至约或正好20nt、约或正好2nt至约或正好10nt、约或正好2nt至约或正好8nt、或约或正好2nt至约或正好6nt的短寡核苷酸序列。在另一个实施方案中,样品特异性指示序列可包含长度大于约或正好2、3、4、5、6、7或8个核苷酸(nt)的短寡核苷酸序列。
任选地,在文库制备期间,可通过衔接子连接将独特分子标识符(UMI)添加到样品中的核酸分子。UMI是短核酸序列(例如,4至10个碱基对),其在衔接子连接期间被添加到核酸片段的一端或两端。在一些实施方案中,UMI是用作独特标签的简并碱基对,该独特标签可用于鉴定源自特定核酸片段的序列读段。在衔接子连接后的PCR扩增期间,UMI与附着的核酸片段一起复制,这提供了在下游分析中鉴定来自相同的原始核酸分子的序列读段的方式。
对于包括RNA的靶向测序的实施方案,在步骤150中,从文库富集靶向核酸序列。在富集期间,杂交探针(在本文中也称为“探针”)用于靶向和下拉提供疾病(例如,癌症)的存在或不存在、疾病状态(例如,癌症状态)或疾病分类(例如,癌症类型或组织来源)的信息的核酸片段。对于给定的工作流程,探针可被设计成与靶(互补)核酸链(例如,从RNA转化的DNA链)退火(或杂交)。探针的长度范围可以是10s、100s或1000s碱基对。在一个实施方案中,基于基因组设计探针以分析怀疑对应于某些癌症或其他类型疾病的基因组(例如,人或另一种生物体)的特定靶区域。此外,探针可覆盖靶区域的重叠部分。在其他实施方案中,在使用逆转录酶将RNA分子转化为cDNA链之前,可使用杂交探针富集靶向的RNA分子(未示出)。一般来讲,可使用本领域任何已知的方法来分离和富集探针杂交的靶核酸。例如,如本领域所熟知的,可将生物素部分添加到探针的5'端(即,生物素化的)以促进使用链霉亲和素包被的表面(例如,链霉亲和素包被的珠)分离与探针杂交的靶核酸。
另外,对于靶向测序,在步骤160中,从富集的核酸样品中产生序列读段。测序数据可通过本领域已知的手段从富集的DNA序列(即,来源于RNA序列或从其转化的DNA序列)获得。例如,方法100可包括下一代测序(NGS)技术,包括合成技术(Illumina)、焦磷酸测序(454Life Sciences)、离子半导体技术(Ion Torrent测序)、单分子实时测序(PacificBiosciences)、边连接边测序(SOLiD测序)、纳米孔测序(Oxford Nanopore Technologies)或配对末端测序。在一些实施方案中,使用具有可逆染料终止子的边合成边测序执行大规模平行测序。
在其他实施方案中,例如,在全转录组测序方法(例如,代替靶向测序)中,在步骤170中,从核酸样品中耗尽丰富的RNA种类。例如,在一些实施方案中,可耗尽核糖体RNA(rRNA)和/或转移RNA(tRNA)种类。可获得的商业试剂盒,诸如RiboMinusTM(ThermoFisherScientific)或AnyDeplete(NuGen),可用于耗尽丰富的RNA种类。在实施方案中,在耗尽来源于丰富的RNA分子的核酸(例如,转化的DNA)之后,在步骤180中产生序列读段。
在一些实施方案中,可使用本领域已知的方法将序列读段与参考基因组进行比对以确定比对位置信息。比对位置信息可指示参考基因组中对应于给定序列读段的开始核苷酸碱基和终止核苷酸碱基的区域的开始位置和终止位置。比对位置信息还可包括序列读段长度,其可从开始位置和结束位置确定。参考基因组中的区域可与基因或基因的区段相关联。参考基因组可包含全转录组或其任何部分(例如,多个靶向转录物)。在另一个实施方案中,参照基因组可以是来自被测试生物体的全基因组,并且将来源于(或逆转录自)提取的RNA分子的序列读段与参考基因组进行比对以确定位置、片段长度和/或起始和结束位置。例如,在一个实施方案中,序列读段与人参考基因组hg19进行比对。人参考基因组hg19的序列可从参考基因组联盟获得,参考号为GRCh37/hg19,并且也可从圣克鲁斯基因组研究所提供的Genome Browser获得。比对位置信息可指示参考基因组中对应于给定序列读段的开始核苷酸碱基和终止核苷酸碱基的区域的开始位置和终止位置。比对位置信息还可包括序列读段长度,其可从开始位置和结束位置确定。参考基因组中的区域可与基因或基因的区段相关联。
暗通道RNA分子的鉴定:
本公开的各方面包括用于鉴定指示受试者的疾病状态的一种或多种RNA序列(或“暗通道RNA分子”)的计算机实现的方法。在一些实施方案中,这些方法涉及通过计算机系统从已知患有该疾病的受试者获得的第一测试样品的多种RNA分子中获得第一组序列读段,其中第一测试样品包含多个游离细胞RNA(cfRNA)分子,以及从来自对照样品的多种RNA分子中获得第二组序列读段,检测存在于第一组序列读段中且不存在于第二组序列读段中的一个或多个RNA序列,以鉴定指示疾病状态的一个或多个RNA序列。在一些实施方案中,从患者获得的第一测试样品包含体液(例如,血液、血浆、血清、尿液、唾液、胸腔积液、心包液、脑脊髓液(CSF)、腹膜液或它们的任何组合)。在一个优选的实施方案中,从患者获得的测试样品是血浆样品。在一些实施方案中,对照样品包含从受试者的健康细胞(例如,白细胞)获得的多种RNA分子。
图2是例示根据本公开的一个实施方案用于鉴定指示疾病状态的一种或多种RNA序列的方法的流程图。如图2所示,在步骤210中,从包含多个游离细胞RNA(cfRNA)分子的生物测试样品获得第一组序列读段。含游离细胞的生物测试样品可以是任何体液,诸如血液、血浆、血清、尿液、胸腔积液、脑脊髓液、泪液、唾液或腹水。根据该实施方案,cfRNA生物测试样品获自已知患有或怀疑患有疾病的测试对象,从样品中提取cfRNA分子并测定序列读段(如本文其他地方所述)。例如,在一个实施方案中,使用逆转录步骤合成互补DNA链,产生cDNA/RNA杂交分子,降解RNA分子,使用聚合酶从cDNA链合成双链DNA分子,制备测序文库,并使用测序平台确定序列读段。测序步骤可使用本领域任何已知的测序平台进行,诸如任何大规模平行测序平台,包括合成测序平台(例如,Illumina的HiSeq X)或连接测序平台(例如,Life Technologies的SOLiD平台)、Ion Torrent/Ion Proton、半导体测序、Roche454、单分子测序平台(例如,Helicos、Pacific Biosciences和纳米孔),如先前所述。另选地,可使用用于检测和定量序列读段的其他手段,例如,基于阵列的杂交、基于探针的溶液内杂交、基于连接的测定、引物延伸反应测定,可用于确定来自DNA分子(例如,从RNA分子转化)的序列读段,如本领域技术人员将容易理解的。
在步骤220中,从健康对照样品获得第二组序列读段。在一个实施方案中,健康对照样品来自同一受试者并且包含多种细胞RNA分子。例如,对照样品可以是血细胞,诸如白细胞,并且该多个序列读段来源于从血细胞提取的RNA分子。根据该实施方案,从健康对照样品(例如,血细胞)中提取RNA分子,转化为DNA,制备测序文库,并测定第二组序列读段(如本文其他地方所述)。在其他实施方案中,健康对照样品可以是针对从健康受试者或从健康细胞获得的RNA序列确定的序列数据的数据库。
在步骤230中,比较来自第一组序列读段和第二组序列读段的序列读段,以鉴定指示疾病状态的一种或多种RNA分子。此外,存在于第一组序列读段中而不存在于第二组序列读段中的一个或多个序列读段(来源于RNA分子)被鉴定为来源于指示疾病状态的RNA分子。例如,第一组序列读段可包括来源于从已知患有或怀疑患有疾病(例如,癌症)的受试者获得的血浆样品的cfRNA分子的序列读段。第二组序列读段可包含来自健康细胞(例如,白细胞)的RNA分子的序列读段。通过将来源于健康细胞的第二组序列读段与来源于游离细胞RNA样品的第一组序列读段进行比较并去除,可鉴定来源于疾病状态(例如,癌症)的序列读段。
在一些实施方案中,RNA序列的对照数据集包括从一个或多个健康受试者获得的多个序列读段。在各种实施方案中,第二组序列读段包含从公共数据库获得的RNA序列信息。可根据本发明的实施方案使用的公共数据库包括组织RNA-seq数据库GTEx(可在gtexportal.org/home获得)。在一些实施方案中,RNA序列的对照数据集包括从受试者的多个血细胞获得的多个序列读段。例如,在一些实施方案中,从受试者的白细胞(WBC)获得多个序列读段。
在实施方案中,暗通道RNA分子的鉴定用于选择对应的多肽生物标志物。
肿瘤来源的RNA分子的检测:
本公开的各方面包括用于检测受试者的一种或多种肿瘤来源的RNA分子的计算机实现的方法。在一些实施方案中,这些方法涉及:通过计算机系统获得来自已知患有肿瘤的受试者的第一测试样品的多种RNA分子的第一组序列读段,其中第一测试样品包含多种游离细胞RNA(cfRNA)分子;通过计算机系统从来自受试者的多个血细胞的多种RNA分子获得第二组序列读段;和/或通过计算机系统检测存在于第一组序列读段中且不存在于第二组序列读段中的一个或多个RNA序列,以检测受试者的一个或多个肿瘤来源的RNA分子。
在一些实施方案中,从患者获得的第一测试样品包含血液、血浆、血清、尿液、唾液、胸腔积液、心包液、脑脊髓液(CSF)、腹膜液或它们的任何组合。在一个优选的实施方案中,从患者获得的测试样品是血浆样品。在一些实施方案中,从受试者获得的多个血细胞是白细胞(WBC)。
图3是例示根据本发明的一个实施方案用于鉴定一种或多种肿瘤来源的RNA序列的方法的流程图。在步骤310中,从包含多种游离细胞RNA(cfRNA)分子的生物测试样品获得第一组序列读段。根据该实施方案,cfRNA生物测试样品获自已知患有或怀疑患有疾病的测试对象,从样品中提取cfRNA分子并测定序列读段(如本文其他地方所述)。例如,在一个实施方案中,使用逆转录步骤合成互补DNA链,产生cDNA/RNA杂交分子,降解RNA分子,使用聚合酶从cDNA链合成双链DNA分子,制备测序文库,并使用测序平台确定序列读段。测序步骤可使用本领域中任何已知的测序平台进行,如先前所述。另选地,可使用用于确定序列读段的其他手段,例如,基于阵列的杂交、基于探针的溶液内杂交、基于连接的测定、引物延伸反应测定,可用于检测和/或定量从DNA分子获得(例如,从RNA分子转化)的序列读段,如本领域技术人员将容易理解的。
在步骤315中,从血细胞(例如,白细胞或血沉棕黄层)获得第二组序列读段。在一个实施方案中,血细胞从同一受试者获得并从中提取RNA分子。根据该实施方案,从血细胞中提取RNA分子,转化为DNA,制备测序文库,并测定第二组序列读段(如本文其他地方所述)。一般来讲,可使用本领域已知的任何方法从测试样品中提取和纯化游离细胞核酸。例如,可使用一种或多种已知的市售方案或试剂盒,诸如QIAamp循环核酸试剂盒(Qiagen)提取和纯化游离细胞核酸。
在步骤320中,当一个或多个RNA序列存在于第一组序列读段中且不存在于第二组序列读段中时,检测一个或多个肿瘤来源的RNA分子。此外,存在于第一组序列读段中而不存在于第二组序列读段中的一个或多个序列读段(来源于RNA分子)被鉴定为来源于指示疾病状态的RNA分子。例如,第一组序列读段可包括来源于从已知患有或怀疑患有疾病(例如,癌症)的受试者获得的血浆样品的cfRNA分子的序列读段。第二组序列读段可包含来自血细胞(例如,白细胞)的RNA分子的序列读段。通过将来源于血细胞的第二组序列读段与来源于游离细胞RNA样品的第一组序列读段进行比较并去除,可鉴定来源于肿瘤的序列读段。
在一些实施方案中,检测肿瘤来源的靶多肽,而不是cfRNA分子,或除了其之外。在一些实施方案中,检测靶多肽或对应的靶多核苷酸中的一者用于增加检测另一者的精度或置信度。
使用靶分子检测疾病状态:
图4是例示根据本发明的一个实施方案用于检测受试者的癌症的存在、确定癌症的状态、监测癌症进展和/或确定癌症类型的方法的流程图。在步骤410中,从受试者提取生物测试样品。如先前所述,在一个实施方案中,测试样品可以是包含多种游离细胞RNA分子的体液(例如,血液、血浆、血清、尿液、唾液、胸腔积液、心包液、脑脊髓液(CSF)、腹膜液或它们的任何组合)。
在步骤415中,从测试样品提取多个游离细胞RNA分子并制备测序文库。一般来讲,可使用本领域已知的任何方法从测试样品中提取和纯化游离细胞核酸。例如,可使用一种或多种已知的市售方案或试剂盒,诸如QIAamp循环核酸试剂盒(Qiagen)提取和纯化游离细胞核酸(cfRNA分子)。在提取之后,将cfRNA分子用于制备测序文库。在一个实施方案中,使用逆转录步骤来产生多个cDNA/RNA杂交分子,降解RNA链以产生单链cDNA分子,合成第二链以从单链cDNA分子模板产生多个双链DNA分子,并且将DNA衔接子连接到该多个双链DNA分子以产生测序文库。如先前所述,DNA衔接子可包括用于随后簇生成和/或测序的一种或多种测序寡核苷酸(例如,已知的用于合成测序(SBS)的P5和P7序列(Illumina,San Diego,CA))。在另一个实施方案中,衔接子包括样品特异性索引序列,使得在文库制备之后,文库可与从单个样品制备的一个或多个其他文库组合,从而允许多重测序。在另一个实施方案中,通过衔接子连接添加独特分子标识符(UMI)。
在步骤420中,进行测序反应以产生多个序列读段。一般来讲,可使用本领域已知的任何方法从测序文库获得序列数据或序列读段。例如,在一个实施方案中,可使用下一代测序(NGS)获得来自测序文库的测序数据或序列读段。下一代测序方法包括,例如,合成测序技术(Illumina)、焦磷酸测序(454)、离子半导体技术(Ion Torrent测序)、单分子实时测序(Pacific Biosciences)、连接测序(SOLiD测序)和纳米孔测序(Oxford NanoporeTechnologies)。在一些实施方案中,测序是使用具有可逆染料终止子的合成测序的大规模平行测序。在其他实施方案中,测序是连接测序。在其他实施方案中,测序是单分子测序。在另一个实施方案中,测序是配对末端测序。任选地,可在测序前进行扩增步骤。
在步骤425中,过滤从cfRNA样品获得的序列读段,以产生未排除序列读段的列表,并且在步骤430中定量未排除序列读段。例如,如本文其他地方所述,可过滤从cfRNA样品获得的序列读段以排除已知存在于健康细胞中的序列。在一个实施方案中,从健康细胞(例如,白细胞)提取的RNA分子是从cfRNA来源的序列读段中排除的测序来源的序列读段,以获得非排除序列读段。在另一个实施方案中,来自数据库(例如,公共数据库)的RNA测序数据可用于过滤或排除已知存在于健康细胞读段中的序列包括以获得非排除序列读段。
在步骤435中,当定量的非排除序列读段超过阈值时,检测疾病状态。在各种实施方案中,阈值是范围从约或正好1至约或正好10的整数,诸如约或正好2、3、4、5、6、7、8或约或正好9。在一些实施方案中,阈值是非整数值,范围为约或正好0.1至约或正好0.9,诸如约或正好0.2、0.3、0.4、0.5、0.6、0.7或约或正好0.8。cfRNA在图4中作为示例示出。在实施方案中,靶分子是多肽(例如,由暗通道RNA编码的多肽)。可使用多种检测方法中的任一者检测多肽,用于与阈值比较。
本公开的各方面涉及用于检测已知患有或怀疑患有癌症的受试者的癌症的存在、确定癌症分期、监测癌症进展和/或确定癌症类型的方法。在一些实施方案中,这些方法涉及:(a)定量检测受试者的生物流体中一种或多种靶分子(例如,多肽和/或cfRNA)的存在以确定肿瘤评分;以及(b)当肿瘤评分超过阈值时,检测受试者的癌症的存在、确定癌症分期、监测癌症进展和/或确定癌症类型。在各种实施方案中,阈值是范围从约或正好1至约或正好10的整数,诸如约或正好2、3、4、5、6、7、8或约或正好9。在一些实施方案中,阈值是非整数值,范围为约或正好0.1至约或正好0.9,诸如约或正好0.2、0.3、0.4、0.5、0.6、0.7或约或正好0.8。
在靶分子包含多核苷酸(例如,cfRNA和/或cfDNA)的实施方案中,根据本公开的实施方案的定量检测方法可包括核酸测序程序,诸如下一代测序。在各种实施方案中,测序可涉及全转录组测序。在各种实施方案中,测序可涉及在进行测序程序之前富集样品的一种或多种目标靶向RNA序列。另选地,可使用用于检测和定量序列读段的其他手段,例如,基于阵列的杂交、基于探针的溶液内杂交、基于连接的测定、引物延伸反应测定,可用于确定来自DNA分子(例如,从RNA分子转化)的序列读段,如本领域技术人员将容易理解的。
图5是例示根据本公开的另一个实施方案从来源于一个或多个靶向RNA分子的一个或多个序列读段检测疾病状态的方法的流程图。在步骤510中,获得包含多种游离细胞RNA分子的生物测试样品。在一个实施方案中,生物测试样品是体液(例如,血液、血浆、血清、尿液、唾液、胸腔积液、心包液、脑脊髓液(CSF)、腹膜液样品或它们的任何组合)。
在步骤515中,检测并定量生物测试样品中来源于一种或多种靶RNA分子的一种或多种核酸序列的存在,以确定肿瘤RNA评分。如本文其他地方所述,可使用本领域任何已知手段检测和定量来源于RNA分子的核酸。例如,根据一个实施方案,使用测序程序,诸如下一代测序平台(例如,HiSeq或NovaSeq,Illumina,San Diego,CA)检测和定量来源于RNA分子的核酸。在其他实施方案中,使用微阵列、逆转录PCR、实时PCR、定量实时PCR、数字PCR、数字液滴PCR、数字乳液PCR、多重PCR、杂交捕获、寡核苷酸连接测定或它们的任何组合来检测和定量来源于RNA分子的核酸。如其他地方所述,在一个实施方案中,可使用一种或多种已知的市售方案或试剂盒,诸如QIAamp循环核酸试剂盒(Qiagen)提取和纯化游离细胞核酸(cfRNA分子)。在提取之后,将cfRNA分子用于制备测序文库。在一个实施方案中,使用逆转录步骤来产生多个cDNA/RNA杂交分子,降解RNA链以产生单链cDNA分子,合成第二链以从单链cDNA分子模板产生多个双链DNA分子。任选地,在一个实施方案中,如本文其他地方所述,在检测和定量前富集一种或多种靶向RNA分子(或来源于其的DNA分子)。在实施方案中,代替检测靶RNA分子或除了检测靶RNA分子之外,检测由靶RNA分子编码的靶多肽,这可类似地用于确定肿瘤评分。
在一个实施方案中,肿瘤评分是检测到的靶向分子的数量或计数(或者,在多核苷酸的情况下,从RNA或DNA分子获得的序列读段)。在另一个实施方案中,肿瘤评分包括所检测到的靶向分子(或者,在多核苷酸的情况下,从RNA或DNA分子获得的序列读段)的总数除以所表示的靶向用于检测的基因的总数的均值、众数或平均值。在其他实施方案中,肿瘤评分通过将序列读段输入到预测模型中来确定,并且肿瘤评分作为可能性或概率输出,如本文其他地方所述。
在步骤520中,当肿瘤评分超过阈值时,检测受试者的癌症的存在,确定癌症的状态,监测癌症进展和/或确定癌症类型。阈值可以是范围从约或正好1至约或正好10的整数,诸如约或正好2、3、4、5、6、7、8或约或正好9。在一些实施方案中,阈值是非整数值,范围为约或正好0.1至约或正好0.9,诸如约或正好0.2、0.3、0.4、0.5、0.6、0.7或约或正好0.8。另选地,当从预测模型输出肿瘤评分时,输出可以是简单的可能性或概率,表明受试者患有癌症或癌症类型的可能性或概率。
癌症指示评分:
本公开的各方面涉及用于检测患者的癌症的存在的计算机实现的方法。在一些实施方案中,这些方法涉及:在包括处理器和计算机可读介质的计算机中接收数据集,其中该数据集包括通过对来源于患者的生物测试样品中的多个靶核糖核酸(RNA)分子的多个核酸分子(例如,DNA分子)进行测序而获得的多个序列读段,并且其中该计算机可读介质包括指令,这些指令在由该处理器执行时使该计算机:测定来自生物测试样品的该多种靶分子的表达水平;将靶向分子中的每一者的表达水平与组织评分矩阵进行比较,以确定每种靶向分子的癌症指示评分;合计每个靶向分子的癌症指示评分以产生生物测试样品的癌症指示评分;以及当生物测试样品的癌症指示评分超过阈值时,检测患者的癌症的存在。在实施方案中,表达水平由样品中检测到的靶多肽的量单独地或与编码靶多肽或其部分的靶RNA的水平组合来确定。在实施方案中,至少部分地从编码靶多肽或靶cfRNA的cfDNA确定表达量。例如,高于阈值的特定生物标志物基因的cfDNA拷贝数可指示该基因的增加的表达。在实施方案中,将多肽、cfRNA和cfDNA中的两者或更多者组合以增加样品真正具有给定基因的增加的表达的置信度。例如,多肽含量可与cfRNA水平和任选的cfDNA水平组合。
在一些实施方案中,靶分子在具有已知癌症状态的患者中的表达水平超过其在健康患者中的表达水平。在某些实施方案中,具有已知癌症状态的患者中靶分子的表达水平比健康患者中靶分子的表达水平高约或正好2倍至约或正好10倍的范围,诸如约或正好3、4、5、6、7、8倍或约或正好9倍。在各种实施方案中,在来自健康患者的生物测试样品中未检出靶分子,例如,靶多肽和/或靶RNA分子具有不可检测的表达水平。
在一些实施方案中,生物测试样品中靶分子数量范围为约或正好1至约或正好2000、约或正好10至约或正好1000、约或正好10至约或正好500、或约或正好10至约或正好500。在其他实施方案中,靶分子数量范围为约或正好1至约或正好50,约或正好1至约或正好40,约或正好1至约或正好30,或约或正好1至约或正好20,诸如约或正好2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或约或正好20。在实施方案中,靶分子是多肽。在实施方案中,靶分子是RNA分子。在实施方案中,靶分子是来自相同基因的多肽和RNA分子。
在一些实施方案中,癌症指示评分包括从生物测试样品检测到的靶向分子(或者,在多核苷酸的情况下,从RNA或DNA分子获得的序列读段)的总数的合计。在另一个实施方案中,癌症指示评分包括所检测到的靶向分子(或者序列读段)的总数除以所表示的靶向用于检测的基因的总数的均值、众数或平均值。在其他实施方案中,癌症指示评分通过将检测结果(例如,多肽检测和/或序列读段)输入到预测模型中来确定,并且癌症指示评分作为可能性或概率输出,如本文其他地方所述。
在一些实施方案中,阈值是范围从约或正好1至约或正好10的整数,诸如约或正好2、3、4、5、6、7、8或约9。在一些实施方案中,阈值是非整数值,范围为约或正好0.1至约或正好0.9,诸如约或正好0.2、0.3、0.4、0.5、0.6、0.7或约或正好0.8。在其他实施方案中,当靶分子是靶多核苷酸(例如,RNA)时,阈值范围为约或正好0.5至约或正好5每百万读段(RPM),诸如约或正好1、1.5、2、2.5、3、3.5、4或约或正好4.5RPM。癌症指示评分阈值可基于在对照样品(例如健康受试者或具有已知疾病状态的受试者)中检测到的靶向RNA分子的量(或来源于其的序列读段)来确定。另选地,当从预测模型输出癌症指示评分时,输出可以是简单的可能性或概率,表明受试者患有癌症或癌症类型的可能性或概率。
图6是例示根据本公开的一个实施方案用于基于癌症指示评分来检测受试者的癌症的存在的的方法的流程图。在步骤610中,接收包括来源于生物测试样品中的多个cfRNA分子的多个序列读段的数据集。例如,如本文所述,可测定从生物测试样品中提取的多个cfRNA分子的多个序列读段。此外,cfRNA分子被逆转录以产生DNA分子,并且对DNA分子进行测序以产生序列读段。
在步骤615中,测定生物测试样品中多个靶RNA分子的表达水平。例如,在一个实施方案中,靶向RNA分子的表达水平可基于检测到的来源于一种或多种目标靶向RNA分子的序列读段的定量来确定。
在步骤620中,将靶RNA分子中的每一者的表达水平与RNA组织评分矩阵进行比较,以确定每种靶RNA分子的癌症指示评分。RNA组织评分矩阵可从训练集确定,该训练集包含来源于具有已知癌症状态的多个癌症训练样品的序列读段。
在步骤625中,合计每个靶RNA分子的癌症指示评分以生成癌症指示评分。在一些实施方案中,癌症指示评分包括从生物测试样品检测到的靶向RNA分子(或从来源于靶向RNA分子的DNA分子获得的序列读段)的总数的合计。在另一个实施方案中,癌症指示评分包括检测到的靶向RNA分子(或从来源于靶向RNA分子的DNA分子获得的序列读段)的总数除以RNA分子靶向的基因的总数的均值、众数或平均值。
在步骤630中,当测试样品的癌症指示评分超过阈值时,检测受试者的癌症的存在。如上所述,在一个实施方案中,阈值是范围从约或正好1至约或正好10的整数,诸如约或正好2、3、4、5、6、7、8或约或正好9。在一些实施方案中,阈值是非整数值,范围为约或正好0.1至约或正好0.9,诸如约或正好0.2、0.3、0.4、0.5、0.6、0.7或约或正好0.8。在其他实施方案中,阈值范围为约或正好0.5至约或正好5每百万读段(RPM),诸如约或正好1、1.5、2、2.5、3、3.5、4或约或正好4.5RPM。
本公开的各方面包括用于基于靶分子中的一者或多者的表达水平、靶分子中的一者或多者的癌症指示评分、生物测试样品的癌症指示评分或它们的任何组合来确定患者的癌细胞类型或癌症组织来源的方法。在各种实施方案中,这些方法进一步涉及基于这些靶分子中的一者或多者的表达水平、靶分子中的一者或多者的癌症指示评分、生物测试样品的癌症指示评分或它们的任何组合将患者治疗性分类为多种治疗类别中的一者或多者。
在各种实施方案中,计算机被配置为产生报告,该报告包括靶分子中的一者或多者的表达水平、靶分子中的一者或多者的癌症指示评分、生物测试样品的癌症指示评分、患者的癌症存在或不存在的指示、患者的癌症组织来源的癌细胞类型的指示、患者的治疗分类或它们的任何组合。
组织基质评分
本公开的各方面包括用于构建组织评分基质的方法。在一些实施方案中,这些方法涉及编译从多位患者获得的多个RNA序列读段以产生RNA表达基质,以及用组织特异性RNA表达基质标准化RNA表达基质以构建RNA组织评分基质。在各种实施方案中,组织特异性RNA表达基质包含多种参考人组织。在各种实施方案中,从多个健康患者获得RNA序列读段以构建健康RNA组织评分基质。在各种实施方案中,从具有已知癌症类型的多个患者获得RNA序列读段以构建癌症RNA组织评分基质。在一些实施方案中,这些方法涉及编译针对多个患者获得的多个检测的多肽水平以产生表达矩阵,以及用组织特异性表达矩阵标准化表达矩阵以构建组织评分矩阵。在各种实施方案中,组织特异性表达基质包含多种参考人组织。在各种实施方案中,从多个健康患者获得检测到的多肽水平以构建健康组织评分基质。在各种实施方案中,从患有已知癌症类型的多个患者获得所检测到的多肽水平以构建癌症组织评分矩阵。在一些实施方案中,将检测到的多肽水平与RNA表达水平组合以产生给定的表达基质。
靶分子和分析技术
在一些方面,本公开提供了检测受试者的癌症的方法。根据本公开的一些实施方案的方法可在多肽和/或多核苷酸(例如,cfRNA分子和/或ctRNA分子)上进行。在一些实施方案中,用于本发明方法的靶分子包括来自癌性和非癌性细胞的靶分子。在一些实施方案中,靶分子包含多肽。在实施方案中,靶分子包含多肽以及cfRNA和cfDNA中的一者或多者。
在实施方案中,方法包括:(a)测量受试者的生物流体中的多种靶分子,其中该多种靶分子选自表11和任选的表8或表12至表19中的一者或多者的多肽;以及(b)检测癌症,其中检测癌症包括检测高于阈值水平的靶分子中的一者或多者。在实施方案中,该多种靶分子选自表8、表11至表14或表17中的一者或多者中所列出的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50或更多种基因的多肽和/或转录物。靶分子可来自选自这些表中的任一者或它们的任何组合的基因。在实施方案中,从表8、表11至表14或表17中选择的表的数量是2、3、4或所有表。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。在实施方案中,靶分子是靶多肽。在实施方案中,靶分子是靶多肽和编码它们的游离细胞多核苷酸(例如,cfRNA和/或cfDNA)。在实施方案中,靶分子包括cfRNA,并且测量该多种cfRNA分子包括在检测或测量(诸如通过测序)前富集该多种cfRNA分子(或其cDNA分子)。
在一些实施方案中,一种或多种靶分子来源于选自表1中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子来源于表1的至少2、3、4、5、6、7、8、9、10、15、20、25或30种基因。在实施方案中,该一种或多种靶分子来源于表1的至少5种基因。在实施方案中,该一种或多种靶分子来源于表1的至少10种基因。在实施方案中,该一种或多种靶分子来源于表1的所有基因。在实施方案中,该一种或多种靶分子来源于表1的前5种基因(AGR2、HOXC10、S100A7、BPIFA1和/或IDI2-AS1)中的至少一者,以及任选地来自表1的一种或多种另外的基因。在实施方案中,该一种或多种靶分子包括AGR2基因的多肽和/或转录物。在实施方案中,该一种或多种靶分子包括AGR2、HOXC10、S100A7、BPIFA1和IDI2-AS1的多肽和/或转录物。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。下表1提供了癌症暗通道生物标志物的示例。
在一些实施方案中,一种或多种靶分子来源于选自表2中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子来源于表2的至少2、3、4、5、6、7、8、9或10种基因。在实施方案中,该一种或多种靶分子来源于表2的至少5种基因。在实施方案中,该一种或多种靶分子来源于表2的至少10种基因。在实施方案中,该一种或多种靶分子来源于表2的所有基因。在实施方案中,该一种或多种靶分子来源于表2的前5种基因(ROS1、NKX2-1、GGTLC1、SLC34A2和SFTPA2)中的至少一者,以及任选地来自表2的一种或多种另外的基因。在实施方案中,该一种或多种靶分子包括ROS1基因的多肽和/或转录物。在实施方案中,该一种或多种靶分子包括ROS1、NKX2-1、GGTLC1、SLC34A2和SFTPA2的多肽和/或转录物。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。下表2提供了暗通道肺癌生物标志物的示例。
表2
ROS1
NKX2-1
GGTLC1
SLC34A2
SFTPA2
BPIFA1
SFTA3
GABRG1
AGR2
GNAT3
MUC5B
SMIM22
CXCL17
WFDC2
在一些实施方案中,一种或多种靶分子来源于选自表3中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子来源于表3的至少2、3、4、5、6、7、8或9种基因。在实施方案中,该一种或多种靶分子来源于表3的至少5种基因。在实施方案中,该一种或多种靶分子来源于表3的所有基因。在实施方案中,该一种或多种靶分子来源于表3的前5种基因(SCGB2A2、CSN1S1、VTCN1、FABP7和LALBA)中的至少一者,以及任选地来自表3的一种或多种另外的基因。在实施方案中,该一种或多种靶分子包括SCGB2A2基因的多肽和/或转录物。在实施方案中,该一种或多种靶分子包括SCGB2A2、CSN1S1、VTCN1、FABP7和LALBA的多肽和/或转录物。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。下表3提供了乳腺癌暗通道生物标志物的示例。
表3
SCGB2A2
CSN1S1
VTCN1
FABP7
LALBA
CASP14
KLK5
WFDC2
OPN1SW
在一些实施方案中,一种或多种靶分子来源于选自表4中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子来源于表4的至少2、3、4或5种基因。在实施方案中,该一种或多种靶分子来源于表4的至少5种基因。在实施方案中,该一种或多种靶分子来源于表4的所有基因。在实施方案中,该一种或多种靶分子来源于表4的前5种基因(CASP14、CRABP2、FABP7、SCGB2A2和SERPINB5)中的至少一者,以及任选地来自表4的一种或多种另外的基因。在实施方案中,该一种或多种靶分子包括CASP14基因的多肽和/或转录物。在实施方案中,该一种或多种靶分子包括CASP14、CRABP2、FABP7、SCGB2A2和SERPINB5的多肽和/或转录物。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。下表4提供了使用如本文所述的heteroDE方法鉴定的乳腺癌生物标志物的示例。
表4
CASP14
CRABP2
FABP7
SCGB2A2
SERPINB5
TRGV10
VGLL1
TFF1
AC007563.5
在一些实施方案中,一种或多种靶分子来源于选自表5中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子来源于表5的至少2、3、4、5、6、7、8、9、10、15、20或25种基因。在实施方案中,该一种或多种靶分子来源于表5的至少5种基因。在实施方案中,该一种或多种靶分子来源于表5的至少10种基因。在实施方案中,该一种或多种靶分子包括表5的所有基因。在实施方案中,该一种或多种靶分子来源于表5的前5种基因(PTPRZ1、AGR2、SHANK1、PON1和MYO16_AS1)中的至少一者,以及任选地来自表5的一种或多种另外的基因。在实施方案中,该一种或多种靶分子包括PTPRZ1基因的多肽和/或转录物。在实施方案中,该一种或多种靶分子包括PTPRZ1、AGR2、SHANK1、PON1和MYO16_AS1的多肽和/或转录物。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。下表5提供了使用如本文所述的信息获得方法鉴定的肺癌生物标志物的示例。
在一些实施方案中,一种或多种靶分子来源于选自表6中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子来源于表6的至少2、3、4、5、6、7、8、9、10、15、20或25种基因。在实施方案中,该一种或多种靶分子来源于表6的至少5种基因。在实施方案中,该一种或多种靶分子来源于表6的至少10种基因。在实施方案中,该一种或多种靶分子来源于表6的所有基因。在实施方案中,该一种或多种靶分子来源于表6的前5种基因(ADARB2、HORMAD2、SPDYE18、RPS19和CYP4F35P)中的至少一者,以及任选地来自表6的一种或多种另外的基因。在实施方案中,该一种或多种靶分子包括ADARB2基因的多肽和/或转录物。在实施方案中,该一种或多种靶分子包括ADARB2、HORMAD2、SPDYE18、RPS19和CYP4F35P的多肽和/或转录物。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。下表6提供了使用如本文所述的信息获得方法鉴定的乳腺癌生物标志物的示例。
在一些实施方案中,一种或多种靶分子来源于选自表7中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子来源于表7的至少2、3、4、5、6、7、8、9或10种基因。在实施方案中,该一种或多种靶分子来源于表7的至少5种基因。在实施方案中,该一种或多种靶分子来源于表7的至少10种基因。在实施方案中,该一种或多种靶分子来源于表7的所有基因。在实施方案中,该一种或多种靶分子来源于表7的前5种基因(S100A7、FOXA1、BARX2、MMP7和PLEKHG4B)中的至少一者,以及任选地来自表7的一种或多种另外的基因。在实施方案中,该一种或多种靶分子包括S100A7基因的多肽和/或转录物。在实施方案中,该一种或多种靶分子包括S100A7、FOXA1、BARX2、MMP7和PLEKHG4B的多肽和/或转录物。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。下表7提供了在癌组织中以相对高水平表达的暗通道癌生物标志物的示例。
在一些实施方案中,一种或多种靶分子来源于选自表11中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子来源于表11的至少2、3、4、5、10、25、50、100、150、200、300或400种基因。在实施方案中,该一种或多种靶分子来源于表11的至少5种基因。在实施方案中,该一种或多种靶分子来源于表11的至少25种基因。在实施方案中,该一种或多种靶分子来源于表11的至少100种基因。在实施方案中,该一种或多种靶分子来源于表11的至少200种基因。在实施方案中,该一种或多种靶分子来源于表11的至少300种基因。在实施方案中,该一种或多种靶分子来源于表11的所有基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。下表11提供了癌症生物标志物的示例。
/>
/>
在一些实施方案中,一种或多种靶分子来源于选自表12中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子来源于表12的至少2、3、4、5、10、20、30、40、50或60种基因。在实施方案中,该一种或多种靶分子来源于表12的至少5种基因。在实施方案中,该一种或多种靶分子来源于表12的至少10种基因。在实施方案中,该一种或多种靶分子来源于表12的至少25种基因。在实施方案中,该一种或多种靶分子来源于表12的至少50种基因。在实施方案中,该一种或多种靶分子来源于表12的所有基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。下表12提供了肺癌生物标志物的示例。
在一些实施方案中,一种或多种靶分子来源于选自表18中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子来源于表18的至少2、3、4、5、10、15或19种基因。在实施方案中,该一种或多种靶分子来源于表18的至少5种基因。在实施方案中,该一种或多种靶分子来源于表18的至少10种基因。在实施方案中,该一种或多种靶分子来源于表18的至少15种基因。在实施方案中,该一种或多种靶分子来源于表18的所有基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。下表18提供了使用如本文所述的用于检测血浆样品中的蛋白质的PEA测定方法鉴定的肺癌生物标志物的示例。
表18
WFDC2
CXCL17
MMP12
GDF15
CEACAM5
PRSS8
TFF1
CWC15
ALPP
GP2
INSL4
CHGA
GFRA1
AGR2
SPON1
DXO
AIF1
FKBPL
SFTPA2
FOLR1
在各种实施方案中,一种或多种靶分子来源于选自表13中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子包括表13的至少2、3、4、5、10、20、30、40、50、60或70种基因。在实施方案中,该一种或多种靶分子来源于表13的至少5种基因。在实施方案中,该一种或多种靶分子来源于表13的至少10种基因。在实施方案中,该一种或多种靶分子来源于表13的至少25种基因。在实施方案中,该一种或多种靶分子来源于表13的至少50种基因。在实施方案中,该一种或多种靶分子来源于表13的所有基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。下表13提供了乳腺癌生物标志物的示例。
在一些实施方案中,一种或多种靶分子来源于选自表19中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子来源于表19的至少2、3、4、5、10或12种基因。在实施方案中,该一种或多种靶分子来源于表19的至少5种基因。在实施方案中,该一种或多种靶分子来源于表19的至少10种基因。在实施方案中,该一种或多种靶分子来源于表19的所有基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。下表19提供了使用如本文所述的用于检测血浆样品中的蛋白质的PEA测定方法鉴定的乳腺癌生物标志物的示例。
表19
ADAMTS15
LEP
ERBB2
ERBB4
CGA
AFP
F7
BPIFB2
SFRP1
FGFBP1
LAMA4
GP2
MIA
FGFR2
VTCN1
在一些实施方案中,一种或多种靶分子来源于选自表14中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子来源于表14的至少2、3、4、5、10、15、20或30种基因。在实施方案中,该一种或多种靶分子来源于表14的至少5种基因。在实施方案中,该一种或多种靶分子来源于表14的至少10种基因。在实施方案中,该一种或多种靶分子来源于表14的至少25种基因。在实施方案中,该一种或多种靶分子来源于表14的所有基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。在实施方案中,检测到的高于阈值的多种靶分子是来源于选自下组的多种基因的分子:ADIPOQ、AGR3、ANKRD30A、AQP4、BPIFA1、CA12、CEACAM5、CFTR、CXCL17、CYP4F8、FABP7、FOXI1、GGTLC1、GP2、IL20、ITIH6、LDLRAD1、LEMD1、LMX1B、MMP7、NKAIN1、NKX2-1、ROPN1、ROS1、SCGB1D2、SCGB2A2、SFTA2、SFTA3、SLC34A2、SOX9、STK32A、STMND1、TFAP2A、TFAP2B、TFF1、TRPV6、VGLL1和VTCN1。下表14提供了高信息性癌症生物标志物的示例。
在一些实施方案中,一种或多种靶分子来源于选自表15中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子来源于表15的至少2、3、4、5、10、25、50、100、150、200、300或400种基因。在实施方案中,该一种或多种靶分子来源于表15的至少5种基因。在实施方案中,该一种或多种靶分子来源于表15的至少25种基因。在实施方案中,该一种或多种靶分子来源于表15的至少100种基因。在实施方案中,该一种或多种靶分子来源于表15的至少200种基因。在实施方案中,该一种或多种靶分子来源于表15的至少300种基因。在实施方案中,该一种或多种靶分子来源于表15的所有基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。
/>
/>
在实施方案中,一种或多种靶分子来源于选自表8或表11至表14中的一者或多者的一种或多种基因(例如,2、3、5或多种基因)与选自表1至表6中的一者或多者的一种或多种基因(例如,2、3、5或多种基因)的组合。在实施方案中,一种或多种靶分子来源于选自表8或表11至表14中的一者或多者的一种或多种基因(例如,2、3、5或多种基因)与选自表7的一种或多种基因(例如,2、3、5或多种基因)的组合。在实施方案中,选自表8或表11至表14的表是表11。在实施方案中,选自表8或表11至表14的表是表12。在实施方案中,选自表8或表11至表14的表是表13。在实施方案中,选自表8或表11至表14的表是表14。在实施方案中,选自表8或表11至表14的表是表8。在实施方案中,从第一表和第二表中选择基因包括在第一表和第二表两者中选择一种或多种基因。在实施方案中,从第一表和第二表中选择基因包括从第一表中选择不在第二表中的一种或多种基因,以及从第二表中选择不在第一表中的一种或多种基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。
在实施方案中,癌症是肺癌,并且检测到的高于阈值的该多种靶分子选自表2、表5、表12或表18中的一者或多者(例如,2、3、5或更多种基因)的多肽和/或转录物。在实施方案中,一种或多种靶分子来源于选自表2、表5、表12或表18中的每一者的一种或多种基因(例如,2、3、5或更多种基因)。在实施方案中,从第一表和第二表中选择基因包括在第一表和第二表两者中选择一种或多种基因。在实施方案中,从第一表和第二表中选择基因包括从第一表中选择不在第二表中的一种或多种基因,以及从第二表中选择不在第一表中的一种或多种基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。在一些实施方案中,癌症是肺癌,并且检测到的高于阈值的该多种靶分子选自WFDC2、CXCL17、MMP12、GDF15、CEACAM5、PRSS8、TFF1、CWC15、ALPP、GP2、INSL4、CHGA、GFRA1、AGR2、SPON1、DXO、AIF1、FKBPL、SFTPA2或FOLR1中的一者或多者的多肽。
在实施方案中,癌症是乳腺癌,并且检测到的高于阈值的该多种靶分子选自表3、表4、表6、表13或表19中的一者或多者(例如,2、3、5或更多种基因)的多肽和/或基因的转录物。在实施方案中,一种或多种靶分子来源于选自表3、表4、表6、表13或表19中的每一者的一种或多种基因(例如,2、3、5或更多种基因)。在实施方案中,从第一表和第二表中选择基因包括在第一表和第二表两者中选择一种或多种基因。在实施方案中,从第一表和第二表中选择基因包括从第一表中选择不在第二表中的一种或多种基因,以及从第二表中选择不在第一表中的一种或多种基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。在一些实施方案中,检测到的高于阈值的该多种靶分子选自ADAMTS15、LEP、ERBB2、ERBB4、CGA、AFP、F7、BPIFB2、SFRP1、FGFBP1、LAMA4、GP2、MIA、FGFR2或VTCN1中的一者或多者的多肽。
在实施方案中,一种或多种靶分子来源于选自表11的一种或多种基因(例如,2、3、5或更多种基因)与(a)选自表5或表6的一种或多种基因(例如,2、3、5或更多种基因)和/或(b)选自表7的一种或多种基因(例如,2、3、5或更多种基因)的组合。在实施方案中,从第一表和第二表中选择基因包括在第一表和第二表两者中选择一种或多种基因。在实施方案中,从第一表和第二表中选择基因包括从第一表中选择不在第二表中的一种或多种基因,以及从第二表中选择不在第一表中的一种或多种基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。
在实施方案中,一种或多种靶分子来源于选自表12的一种或多种基因(例如,2、3、5或更多种基因)与(a)选自表5的一种或多种基因(例如,2、3、5或更多种基因)和/或(b)选自表7的一种或多种基因(例如,2、3、5或更多种基因)的组合。在实施方案中,从第一表和第二表中选择基因包括在第一表和第二表两者中选择一种或多种基因。在实施方案中,从第一表和第二表中选择基因包括从第一表中选择不在第二表中的一种或多种基因,以及从第二表中选择不在第一表中的一种或多种基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。
在实施方案中,一种或多种靶分子来源于选自表13的一种或多种基因(例如,2、3、5或更多种基因)与(a)选自表4的一种或多种基因(例如,2、3、5或更多种基因)、(b)选自表6的一种或多种基因(例如,2、3、5或更多种基因)和/或(c)选自表7的一种或多种基因(例如,2、3、5或更多种基因)的组合。在实施方案中,从第一表和第二表中选择基因包括在第一表和第二表两者中选择一种或多种基因。在实施方案中,从第一表和第二表中选择基因包括从第一表中选择不在第二表中的一种或多种基因,以及从第二表中选择不在第一表中的一种或多种基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。
在实施方案中,一种或多种靶分子来源于选自表4的一种或多种基因(例如,2、3、5或更多种基因)与(a)选自表3的一种或多种基因(例如,2、3、5或更多种基因)、(b)选自表6的一种或多种基因(例如,2、3、5或更多种基因)和/或(c)选自表7的一种或多种基因(例如,2、3、5或更多种基因)的组合。在实施方案中,从第一表和第二表中选择基因包括在第一表和第二表两者中选择一种或多种基因。在实施方案中,从第一表和第二表中选择基因包括从第一表中选择不在第二表中的一种或多种基因,以及从第二表中选择不在第一表中的一种或多种基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。
在一些实施方案中,一种或多种靶分子来源于选自表8中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子来源于表8的至少2、3、4、5、10、15、20或30种基因。在实施方案中,该一种或多种靶分子来源于表8的至少5种基因(例如,前5种基因,CEACAM5、RHOV、SFTA2、SCGB1D2和IGF2BP1)。在实施方案中,该一种或多种靶分子来源于表8的至少10种基因。在实施方案中,该一种或多种靶分子来源于表8的至少25种基因。在实施方案中,该一种或多种靶分子来源于表8的所有基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。在实施方案中,检测到的高于阈值的多种靶分子是来源于选自下组的多种基因的分子:CEACAM5、RHOV、SFTA2、SCGB1D2、IGF2BP1、SFTPA1、CA12、SFTPB、CDH3、MUC6、SLC6A14、HOXC9、AGR3、TMEM125、TFAP2B、IRX2、POTEKP、ARHGEF38、GPR87、LMX1B、ATP10B、NELL1、MUC21、SOX9、LINC00993、STMND1、ERVH48-1、SCTR、MAGEA3、MB、LEMD1、SIX4和NXNL2。下表8提供了高信息性癌症生物标志物的示例。
表8:
CEACAM5 RHOV SFTA2 SCGB1D2 IGF2BP1
SFTPA1 CA12 SFTPB CDH3 MUC6
SLC6A14 HOXC9 AGR3 TMEM125 TFAP2B
IRX2 POTEKP ARHGEF38 GPR87 LMX1B
ATP10B NELL1 MUC21 SOX9 LINC00993
STMND1 ERVH48-1 SCTR MAGEA3 MB
LEMD1 SIX4 NXNL2
在一些实施方案中,一种或多种靶分子来源于选自表16A或表16B中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子包括来源于表16A或16B的至少2、3、4、5、10、25、50或60种基因的分子。在实施方案中,该一种或多种靶分子来源于表16A或表16B的至少5种基因。在实施方案中,该一种或多种靶分子来源于表16A或表16B的至少25种基因。在实施方案中,该一种或多种靶分子来源于表16A或表16B的至少50种基因。在实施方案中,该一种或多种靶分子来源于表16A或表16B的所有基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。
/>
在一些实施方案中,一种或多种靶分子来源于选自表17中所列出的基因的一种或多种基因。在实施方案中,该一种或多种靶分子来源于表17的至少2、3、4、5、10、25或50种基因。在实施方案中,该一种或多种靶分子来源于表17的至少5种基因。在实施方案中,该一种或多种靶分子来源于表17的至少25种基因。在实施方案中,该一种或多种靶分子来源于表17的至少50种基因。在实施方案中,该一种或多种靶分子来源于表17的所有基因。在实施方案中,所测量的靶分子来自少于500种基因(例如,少于400、300、200、100或50种基因)。
/>
在实施方案中,该一种或多种靶分子包含靶多肽,并且检测包含多肽检测测定。
在实施方案中,检测高于阈值水平的靶分子中的一者或多者包括(i)检测,(ii)高于背景的检测,或(iii)在高于不患有该病症的受试者中靶分子水平的水平下的检测。在实施方案中,高于阈值的检测包括检测。在实施方案中,高于阈值的检测包括高于阈值的检测。在实施方案中,高于阈值的检测包括在高于不患有该病症的受试者中靶分子水平的水平下的检测。
在实施方案中,检测高于阈值水平的靶分子中的一者或多者包括以比不患有该病症的受试者中的水平高至少约或正好10倍的水平(例如,高15、20、50、100或更多倍)检测该一种或多种靶分子。在实施方案中,高于阈值的检测包括以比未患有该病症的受试者中的水平高至少约或正好25倍的水平检测该一种或多种靶分子。在实施方案中,高于阈值的检测包括以比未患有该病症的受试者中的水平高至少约或正好50倍的水平检测该一种或多种靶分子。
在实施方案中,该一种或多种靶分子包含靶多核苷酸(例如,cfRNA),并且检测高于阈值水平的靶cfRNA分子中的一者或多者包括高于0.5至5每百万读段(RPM)的阈值的检测,诸如约1、1.5、2、2.5、3、3.5、4或约4.5RPM。在实施方案中,高于阈值的检测包括高于1RPM的检测。在实施方案中,高于阈值的检测包括高于1RPM的检测。在实施方案中,高于阈值的检测包括高于2RPM的检测。在实施方案中,高于阈值的检测包括高于5RPM的检测。
疾病和障碍:
根据本公开的实施方案的方法可用于检测多种疾病或病症中的任一者的存在或不存在,包括但不限于心血管疾病、肝脏疾病或癌症。在一些实施方案中,这些方法涉及确定癌症分期。在一些实施方案中,癌症分期是I期癌症、II期癌症、III期癌症或IV期癌症。
在一些实施方案中,这些方法涉及检测癌、肉瘤、骨髓瘤、白血病、淋巴癌、母细胞瘤、生殖细胞肿瘤或它们的任何组合的存在或不存在、确定其分期、监测其进展和/或对其进行分类。在一些实施方案中,癌可以是腺癌。在其他实施方案中,癌可以是鳞状细胞癌。在其他实施方案中,癌选自小细胞肺癌、非小细胞肺癌、鼻咽癌、结肠直肠癌、肛门癌、肝癌、膀胱癌、宫颈癌、睾丸癌、卵巢癌、胃癌、食管癌、头颈癌、胰腺癌、前列腺癌、肾癌、甲状腺癌、黑素瘤和乳腺癌。在一些实施方案中,乳腺癌是激素受体阴性乳腺癌或三阴性乳腺癌。
在一些实施方案中,这些方法涉及检测肉瘤的存在或不存在、确定其分期、监测其进展和/或对其进行分类。在实施方案中,肉瘤可选自骨肉瘤、软骨肉瘤、平滑肌肉瘤、横纹肌肉瘤、间皮肉瘤(间皮瘤)、纤维肉瘤、血管肉瘤、脂肪肉瘤、胶质瘤和星形细胞瘤。在其他实施方案中,这些方法涉及检测白血病的存在或不存在、确定其分期、监测其进展和/或对其进行分类。在各种实施方案中,白血病可选自:髓细胞白血病、粒细胞白血病、淋巴白血病、淋巴细胞白血病和成淋巴细胞白血病。在其他实施方案中,这些方法涉及检测淋巴瘤的存在或不存在、确定其分期、监测其进展和/或对其进行分类。在各种实施方案中,淋巴瘤可选自:霍奇金淋巴瘤和非霍奇金淋巴瘤。
本发明的各方面包括用于确定疾病组织来源的方法,其中该组织来源选自胰腺组织、肝胆道组织、肝组织、肺组织、脑组织、神经内分泌组织、子宫组织、肾组织、尿道上皮组织、肾组织、宫颈组织、乳腺组织、脂肪、结肠组织、直肠组织、心脏组织、骨骼肌组织、前列腺组织和甲状腺组织。
本发明的各方面包括用于确定癌细胞类型的方法,其中癌细胞类型选自膀胱癌、乳腺癌、宫颈癌、结肠直肠癌、子宫内膜癌、食管癌、胃癌、头/颈癌、肝胆道癌、血液癌、肝癌、肺癌、淋巴癌、黑素瘤、多发性骨髓瘤、卵巢癌、胰腺癌、前列腺癌、肾癌、甲状腺癌、尿道癌和子宫癌。
在一些实施方案中,应用相同的测定来检测多种癌症病症(例如,本文所公开的癌症类型和/或癌症分期)中的任一这。例如,根据实施方案的测定可用于检测来自第一受试者的样品中乳腺癌的存在(和任选地分期),并且基于评价两个样品中每种病症的生物标志物,重复检测来自第二受试者的样品中肺癌的存在(和任选地分期)。在实施方案中,对多个样品重复相同的测定以鉴定至少5、10、15、20、25、30、35、40、45、50、75、100或更多种癌症病症的存在。在实施方案中,对多个样品重复相同的测定以鉴定至少10种癌症病症的存在。在实施方案中,对多个样品重复相同的测定以鉴定至少20种癌症病症的存在。在实施方案中,对多个样品重复相同的测定以鉴定至少30种癌症病症的存在。在实施方案中,对多个样品重复相同的测定以鉴定至少50种癌症病症的存在。
处理条件:
本文所公开的方法可用于作出治疗决策、指导和监测,以及癌症疗法的开发和临床试验。在实施方案中,响应于根据本文所公开的方法获得的结果选择(和任选地施用)特定治疗。在实施方案中,方法包括根据本文所述的各种实施方案中的任一者选择被鉴定为在生物流体中具有多种靶分子的受试者以接受特定治疗,以及施用该治疗。
例如,可通过比较用特定疗法诸如分子靶向疗法(单克隆药物)、化学治疗药物、放射方案等或这些疗法的组合治疗之前、期间和之后的样品中的患者靶分子(例如,多肽和/或cfRNA)来监测治疗功效。在一些实施方案中,监测靶分子以观察某些癌症生物标志物在治疗之后是否增加或减少,这可允许医师在比追踪传统患者症状的监测方法所提供的短得多的时间段内改变治疗(例如,继续、停止或改变治疗)。在一些实施方案中,方法进一步包括基于检测到的靶分子来诊断受试者的步骤,诸如诊断受试者患有与检测到的生物标志物相关联的特定分期或类型的癌症,或报告患者患有或将发展这种癌症的可能性。在实施方案中,本文所公开的方法进一步包括基于检测到的病症来选择治疗。在实施方案中,将所选治疗施用给受试者。当病症是癌症或特定癌症类型和/或分期时,可选择合适的抗癌疗法。抗癌疗法的非限制性示例包括放射疗法、手术切除、施用抗癌剂(例如,免疫疗法剂、化疗剂等)或这些中的一者或多者的组合。
分类模型:
本公开的各方面涉及分类模型。例如,机器学习或深度学习模型(例如,疾病分类器)可用于基于从一种或多种靶分子(例如,多肽和/或cfRNA)确定的一个或多个特征的值来确定疾病状态。在各种实施方案中,机器学习或深度学习模型的输出是疾病状态的预测分数或概率(例如,预测癌症评分)。因此,机器学习或深度学习模型基于预测分数或概率来生成疾病状态分类。
在一些实施方案中,机器学习模型包括逻辑回归分类器。在其他实施方案中,机器学习或深度学习模型可以是决策树、系综(例如,装袋、提升、随机森林)、梯度提升机器、离子、朴素贝叶斯、支持向量机或神经网络中的一者。疾病状态模型包括在训练期间调整的特征的学习权重。此处一般使用术语权重来表示与模型的任何给定特征相关联的学习量,而不管使用哪种特定的机器学习技术。在一些实施方案中,通过将来源于一种或多种靶分子(例如,多肽、cfRNA或其序列读段)的特征的值输入到机器学习或深度学习模型中来确定癌症指示评分。
在训练期间,训练数据被处理以生成用于训练疾病状态模型的权重的特征的值。例如,训练信息可包括从训练样品获得的cfRNA数据和/或WBC RNA数据,以及输出标记。例如,输出标记可以是关于个体是已知患有特定疾病(例如,已知患有癌症)还是已知健康(即,没有疾病)的指示。在其他实施方案中,模型可用于确定疾病类型或组织来源(例如,癌症组织来源),或疾病严重性(例如,癌症分期)的指示,并为此产生输出标记。根据实施方案,疾病状态模型接收从检测测定确定的特征中的一者或多者的值以及与待训练的模型相关的计算分析。在一个实施方案中,该一个或多个特征包括一定量的一种或多种靶分子(例如,多肽、cfRNA或来源于其的序列读段)。根据训练模型输出的评分和训练数据的输出标记之间的差异,优化预测癌症模型的权重以使得疾病状态模型能够进行更准确的预测。在各种实施方案中,疾病状态模型可以是非参数模型(例如,k-最近邻),因此,可训练预测癌症模型以更准确地进行预测而不必优化参数。
经训练的疾病状态模型可被存储在计算机可读介质中,并且随后在需要时进行检索,例如在模型的部署期间。
在一些实施方案中,这些方法涉及通过将基因表达基质(G)与组织特异性基质(TS)相乘来将基因表达基质(G)变换为组织评分基质(S)。Gm,n是样品m中基因n的表达水平。TSn,j是基因n对组织j的组织特异性。如果基因n对组织j不是特异性的,则TSn,j=0。在一些实施方案中,使用组织RNA-seq数据库(GTEx)计算组织特异性矩阵。组织评分可用作构建模型的特征以对例如癌症相对于非癌症样品进行分类。在一个非限制性实施方案中,使用从肺癌样品(SFTPA2、SLC39A4、NKX2_1、SFTPA1、BPIFA1、SLC34A2、CXCL17、SFTA3、MUC1、AGR2、WFDC2、ABCA12、VSIG10、CRABP2)鉴定的暗通道基因来建立决策树分类器以区分肺癌与非癌症生物流体样品。该分析的结果示于图10中。
测序和生物信息学:
本公开的各方面包括核酸分子的测序以产生多个序列读段,以及序列读段的生物信息学操作以实施本发明的方法。
在各种实施方案中,从受试者收集样品,随后富集目标遗传区域或遗传片段。例如,在一些实施方案中,可通过与包含癌症相关基因或目标基因片段的核苷酸阵列杂交来富集样品。在一些实施方案中,可使用本领域已知的其他方法,诸如杂交捕获,富集样品中的目标基因(例如,癌症相关基因)。参见例如Lapidus(美国专利号7,666,593),其内容以引用方式整体并入本文。在一种杂交捕获方法中,使用基于溶液的杂交方法,其包括使用生物素化的寡核苷酸和链霉亲和素包被的磁珠。参见例如Duncavage等人,J Mol Diagn.,第13卷第3期:第325-333页,2011年;和Newman等人,Nat Med.第20卷第5期:第548-554页,2014年。根据本公开的方法从样品中分离核酸可根据本领域已知的任何方法进行。
测序可通过本领域已知的任何方法或方法的组合进行。例如,已知的核酸测序技术包括但不限于使用标记的终止子或引物的经典双脱氧测序反应(Sanger方法)和在板或毛细管中的凝胶分离、使用可逆终止的标记的核苷酸的合成测序、焦磷酸测序、454测序、与标记的寡核苷酸探针文库的等位基因特异性杂交、使用与标记的克隆文库的等位基因特异性杂交的合成测序随后进行连接、在聚合步骤期间实时监测标记的核苷酸的掺入、Polony测序和SOLiD测序。最近已经通过使用聚合酶或连接酶的顺序或单一延伸反应以及通过与探针文库的单一或顺序差异杂交证明了分离分子的测序。
进行测序的一种常规方法是通过链终止和凝胶分离,如以下中所述:Sanger等人,Proc Natl.Acad.Sci.U S A,第74卷第12期:第5463-5467页,1977年,其内容以引用方式整体并入本文。另一种常规测序方法涉及核酸片段的化学降解。参见Maxam等人,Proc.Natl.Acad.Sci.,第74卷:第560-564页,1977年,其内容以引用方式整体并入本文。还开发了基于杂交测序的方法。参见例如Harris等人(美国专利申请号2009/0156412),其内容以引用方式整体并入本文。
可用于所提供的公开的方法中的测序技术包括,例如,Helicos的真正单分子测序(tSMS)(Harris T.D.等人,2008年,Science,第320卷:第106-109页),其内容以引用方式整体并入本文。tSMS的进一步描述示于以下中:例如Lapidus等人(美国专利号7,169,560),其内容以引用方式整体并入本文;Lapidus等人,(美国专利申请公开号2009/0191565,其内容以引用方式整体并入本文);Quake等人,(美国专利号6,818,395,其内容以引用方式整体并入本文);Harris(美国专利号7,282,337,其内容以引用方式整体并入本文);Quake等人,(U.S专利申请公开号2002/0164629,其内容以引用方式整体并入本文),以及Braslavsky等人,PNAS(USA),第100卷:第3960-3964页,2003年,其内容以引用方式整体并入本文。
可用于所提供的公开的方法中的核酸测序技术的另一个示例是454测序(Roche)(Margulies,M等人,2005年,Nature,第437卷,第376-380页,其内容以引用方式整体并入本文)。可用于所提供的公开的方法中的DNA测序技术的另一个示例是SOLiD技术(AppliedBiosystems)。可用于所提供的公开的方法中的DNA测序技术的另一个示例是Ion Torrent测序(美国专利申请公开号2009/0026082、2009/0127589、2010/0035252、2010/0137143、2010/0188073、2010/0197507、2010/0282617、2010/0300559、2010/0300895、2010/0301398和2010/0304982,其各自的内容以引用方式整体并入本文)。
在一些实施方案中,测序技术是Illumina测序。Illumina测序基于使用折返PCR和锚定引物在固体表面上扩增DNA。可将基因组DNA片段化,或者在cfDNA的情况下,由于已经较短的片段而不需要片段化。将衔接子连接到片段的5'端和3'端。将附着于流动池通道表面的DNA片段延伸并桥扩增。这些片段变成双链,并且双链分子变性。多次循环的固相扩增和随后的变性可在流动池的每个通道中产生几百万簇的大约1,000个拷贝的相同模板的单链DNA分子。使用引物、DNA聚合酶和四个荧光团标记的可逆终止核苷酸进行连续测序。在核苷酸掺入之后,用激光激发荧光团,并捕获图像并记录第一个碱基的身份。从每个掺入的碱基去除3'终止子和荧光团,并重复掺入、检测和鉴定步骤。
可用于所提供的公开的方法中的测序技术的另一个示例包括PacificBiosciences的单分子实时(SMRT)技术。可用于所提供的公开的方法中的测序技术的又一个示例是纳米孔测序(Soni G V和Meller A.,2007年,Clin Chem,第53卷:第1996-2001页,其内容以引用方式整体并入本文)。可用于所提供的公开的方法中的测序技术的另一个示例涉及使用化学敏感的场效应晶体管(chemFET)阵列来对DNA进行测序(例如,如美国专利申请公开号20090026082中所述,其内容以引用方式整体并入本文)。可用于所提供的公开的方法中的测序技术的另一个示例涉及使用电子显微镜(Moudrianakis E.N.和Beer M.,Proc Natl Acad Sci USA.1965年3月;第53卷,第564-571页,其内容以引用方式整体并入本文)。
如果来自样品的核酸被降解或仅可从样品获得最少量的核酸,则可对核酸进行PCR以获得足够量的核酸用于测序(参见例如Mullis等人,美国专利号4,683,195,其内容以引用方式整体并入本文)。
检测靶多肽
用于检测一种或多种靶多肽的多种合适方法是可用的。非限制性示例包括竞争性和非竞争性免疫测定、酶免疫测定(EIA)、放射性免疫测定(RIA)、抗原捕获测定、双抗体夹心测定、蛋白质印迹分析、酶联免疫吸附测定(ELISA)、比色测定、化学发光测定、荧光测定、免疫组织化学测定、色谱法、液相色谱法、尺寸排阻色谱法、高效液相色谱法(HPLC)、气相色谱法、质谱法、串联质谱法、基质辅助激光解吸/离子化飞行时间(MALDI-TOF)质谱法、电喷雾离子化(ESI)质谱法、表面增强激光解吸/电离化飞行时间(SELDI-TOF)质谱法、四极飞行时间(Q-TOF)质谱法、常压光离子化质谱法(APPI-MS)、傅立叶变换质谱法(FTMS)、基质辅助激光解吸/离子化傅里叶变换离子回旋共振(MALDI-FT-ICR)质谱法、次级离子质谱法(SIMS)、显微术、基于微流体芯片的测定和表面等离子体共振。
在一些实施方案中,使用邻近延伸测定(PEA)检测一种或多种多肽(并且任选地,确定相对水平)。在实施方案中,PEA包含一对邻近探针与邻近的生物标志物的同时结合。在该对邻近探针与生物标志物结合后,核酸结构域能够相互作用并形成核酸双链体,这可使得至少一个核酸结构域能够从其3'端延伸。该延伸产物形成可检测的核酸检测产物,任选地在例如通过PCR扩增之后。示例性PEA方法更详细地描述于WO 2012/104261和US2015/0044674中,这些专利以引用方式并入本文。靶多肽可单独检测,或者更优选地,多个靶多肽可以多重检测形式同时检测。
在一些实施方案中,使用多重反应监测(MRM)测定检测一种或多种多肽(并且任选地,确定相对水平)。多种MRM方法是可用的。在实施方案中,MRM测定使用与液相色谱偶联的三重四极质谱仪来检测或定量靶多肽。在第一个四极(Q1)中,选择对应于目标蛋白质的肽。然后将肽在第二个四极(Q2)中片段化,并应用过滤器以允许特定片段进入第三个四极(Q3),在其中测量其强度。靶多肽可单独检测,或者更优选地,多个靶多肽可以多重检测形式同时检测。MRM的其他非限制性示例描述于US20190277846和US20180024108中,这些专利以引用方式并入本文。
在一些实施方案中,使用整合纳米颗粒(NP)蛋白质冠的定量平台与液相色谱-质谱法检测一种或多种多肽(并且任选地,确定相对水平)。在实施方案中,平台是Proteograph平台。在实施方案中,蛋白质冠是在与生物流体接触时吸附到NP上的蛋白质层。改变工程化NP的物理化学性质转化为不同的蛋白质冠模式,使得能够对生物样品进行不同且可重复的探询。在实施方案中,Proteograph平台使用多NP蛋白质冠方法和质谱法。在实施方案中,该方法包括四个步骤:(1)NP生物样品温育和蛋白质冠形成;(2)通过磁体的NP蛋白质冠纯化;(3)冠蛋白质的消化;和(4)LC-MS/MS分析。在该上下文中,每个生物样品-NP孔是样品,每个板总共96个样品。靶多肽可单独检测,或者更优选地,多个靶多肽可以多重检测形式同时检测。基于NP的蛋白质电晕检测的非限制性示例描述于WO2020096631A2中,该专利以引用方式并入本文。
计算机系统和设备
可使用包括处理器(例如,中央处理单元)的任何类型的计算设备(诸如,计算机)或其中每个设备执行该过程或方法的至少一部分的计算设备的任何组合来执行本文所述的本发明的各方面。在一些实施方案中,本文所述的系统和方法可用手持式设备(例如,智能平板计算机或智能电话)或针对该系统产生的专门设备来执行。
本公开的方法可使用软件、硬件、固件、硬连线或这些中的任一者的组合来执行。实现功能的特征还可物理地位于各种位置处,包括被分布使得功能的部分在不同的物理位置处实现(例如,在一个房间中的成像装置和在另一个房间中的主机工作站,或者在分开的建筑物中,例如,利用无线或有线连接)。
例如,适于执行计算机程序的处理器包括通用和专用微处理器两者,以及任何种类的数字计算机的任一个或多个处理器。一般来讲,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。一般来讲,计算机还将包括用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘)或可操作地耦合到该一个或多个大容量存储设备以从其接收数据或向其传送数据或两者。适于体现计算机程序指令和数据的信息载体包括所有形式的非易失性存储器,包括例如半导体存储器设备(例如,EPROM、EEPROM、固态驱动器(SSD)和闪存设备);磁盘(例如,内部硬盘或可移动磁盘);磁光盘;光盘(例如,CD和DVD盘)。处理器和存储器可由专用逻辑电路补充或并入其中。
为了提供与用户的交互,在本文所述的主题可在计算机上实现,该计算机具有用于向用户显示信息的I/O设备(例如,CRT、LCD、LED或投影设备)和用户可用来向计算机提供输入的输入或输出设备诸如键盘和指示设备(例如,鼠标或轨迹球)。也可使用其他种类的设备来提供与用户的交互。例如,提供给用户的反馈可以是任何形式的感官反馈(例如,视觉反馈、听觉反馈或触觉反馈),并且来自用户的输入可以任何形式接收,包括声学、语音或触觉输入。
本文所述的主题可在计算系统中实现,该计算系统包括后端部件(例如,数据服务器)、中间件部件(例如,应用服务器)、或前端部件(例如,具有图形用户界面或web浏览器的客户端计算机,用户可通过该图形用户界面或web浏览器与本文所述的主题的实现交互)、或此类后端、中间件、和前端部件的任何组合。系统的部件可通过任何形式或介质的数字数据通信(例如,通信网络)通过网络互连。例如,参考数据集可被存储在远程位置中,并且计算机可跨网络通信以出于比较目的访问参考数据集。然而,在其他实施方案中,参考数据集可本地存储在计算机内,并且计算机出于比较目的而存取CPU内的参考数据集。通信网络的示例包括但不限于蜂窝网络(例如,3G或4G)、局域网(LAN)和广域网(WAN)(例如,因特网)。
本文所述的主题可被实现为一个或多个计算机程序产品,诸如有形地体现在信息载体中(例如,在非暂态计算机可读介质中)以供数据处理装置(例如,可编程处理器、计算机或多个计算机)执行或控制其操作的一个或多个计算机程序。计算机程序(也称为程序、软件、软件应用、app、宏或代码)可以任何形式的编程语言来编写,包括编译或解释语言(例如,C、C++、Perl),并且其可以任何形式来部署,包括作为独立程序或作为模块、部件、子例程或适于在计算环境中使用的其他单元。本公开的系统和方法可包括以本领域已知的任何合适的编程语言编写的指令,包括但不限于C、C++、Perl、Java、ActiveX、HTML5、VisualBasic或JavaScript。
计算机程序不一定对应于文件。程序可存储在保存其他程序或数据的文件或文件的一部分中、专用于所讨论的程序的单个文件中、或多个协调文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。计算机程序可被部署为在一个计算机上或者在一个站点处或者跨多个站点分布并且通过通信网络互连的多个计算机上执行。
文件可以是数字文件,例如,存储在硬盘驱动器、SSD、CD或其他有形、非暂态介质上。文件可通过网络从一个设备发送到另一设备(例如,作为例如通过网络接口卡、调制解调器、无线卡等从服务器发送到客户端的分组)。
根据本公开写入文件涉及例如通过添加、去除或重新布置粒子(例如,通过读取/写入头将净电荷或偶极矩变换为磁化模式)来变换有形非暂态计算机可读介质,这些模式然后表示关于用户所期望且对用户有用的客观物理现象的信息的新搭配。在一些实施方案中,写入涉及有形非暂态计算机可读介质中的材料的物理变换(例如,具有某些光学性质,使得光学读取/写入设备可然后读取信息的新且有用的搭配,例如,烧录CD-ROM)。在一些实施方案中,写入文件包括变换物理闪存存储器装置(诸如NAND闪存存储器装置)以及通过变换由浮动栅极晶体管制成的存储器单元阵列中的物理元件来存储信息。写入文件的方法在本领域中是众所周知的,并且例如可通过程序或通过来自软件的保存命令或来自编程语言的写入命令来手动或自动调用。
合适的计算设备通常包括大容量存储器、至少一个图形用户界面、至少一个显示设备,并且通常包括设备之间的通信。大容量存储器示出了一种类型的计算机可读介质,即计算机存储介质。计算机存储介质可包括以用于存储信息诸如计算机可读指令、数据结构、程序模块或其他数据的任何方法或技术实现的易失性、非易失性、可移动和不可移动介质。计算机存储介质的示例包括RAM、ROM、EEPROM、闪存存储器或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备、射频识别(RFID)标签或芯片、或可用于存储所需信息且可由计算设备访问的任何其他介质。
本文所述的功能可使用软件、硬件、固件、硬连线或这些中的任一者的组合来实现。任何软件可物理地位于各种位置处,包括被分布,使得这些功能的部分在不同的物理位置处实现。
如本领域技术人员将认识到,对于本公开的方法的执行是必要的或最适合的,用于实现所描述的本发明方法中的一些或全部的计算机系统可包括经由总线彼此通信的一个或多个处理器(例如,中央处理单元(CPU)、图形处理单元(GPU)或两者)、主存储器和静态存储器。
处理器通常包括芯片诸如单核或多核芯片,以提供中央处理单元(CPU)。过程可由来自Intel或AMD的芯片提供。
存储器可包括其上存储有一组或多组指令(例如,软件)的一个或多个机器可读设备,该一组或多组指令在由所公开的计算机中的任一者的处理器执行时可实现本文所述的方法或功能中的一些或全部。软件还可在其由计算机系统执行期间完全或至少部分地驻留在主存储器内和/或处理器内。优选地,每个计算机包括非暂态存储器,诸如固态驱动器、闪存驱动器、磁盘驱动器、硬盘驱动器等。
虽然在示例性实施方案中机器可读设备可以是单个介质,但是术语“机器可读设备”应当被认为包括存储该一组或多组指令和/或数据的单个介质或多个介质(例如,集中式或分布式数据库,和/或相关联的高速缓存和服务器)。这些术语还应被理解为包括能够存储、编码或保存由机器执行的一组指令并且使机器执行本公开的方法中的任一者或多者的任何介质。这些术语应相应地被理解为包括但不限于一个或多个固态存储器(例如,用户身份模块(SIM)卡、安全数字卡(SD卡)、微型SD卡或固态驱动器(SSD))、光学和磁性介质、和/或任何其他有形存储介质。
本公开的计算机通常将包括一个或多个I/O设备,诸如例如视频显示单元(例如,液晶显示器(LCD)或阴极射线管(CRT))、字母数字输入设备(例如,键盘)、光标控制设备(例如,鼠标)、盘驱动单元、信号生成设备(例如,扬声器)、触摸屏、加速计、麦克风、蜂窝射频天线和网络接口设备(其可以是例如网络接口卡(NIC)、Wi-Fi卡或蜂窝调制解调器)中的一者或多者。
任何软件可物理地位于各种位置处,包括被分布,使得这些功能的部分在不同的物理位置处实现。
另外,本公开的系统可被提供为包括参考数据。可存储任何合适的基因组数据以供在系统内使用。示例包括但不限于:来自癌症基因组图谱(TCGA)的主要类型和亚型中的关键基因组变化的全面多维图谱;来自国际癌症基因组联盟(ICGC)的基因组异常的目录;来自COSMIC的癌症中体细胞突变的目录;人基因组和其他流行模型生物体的最新构建;来自dbSNP的最新参考SNP;来自千人基因组计划和博德研究所的金标准indels;来自Illumina、Agilent、Nimblegen和Ion Torrent的外显子组捕获试剂盒注释;转录物注释;用于用管线进行实验的小测试数据(例如,用于新用户)。
在一些实施方案中,使数据在包括在系统中的数据库的上下文内可用。可使用任何合适的数据库结构,包括关系数据库、面向对象的数据库等。在一些实施方案中,参考数据被存储在关系数据库诸如“不仅仅SQL”(NoSQL)数据库中。在各种实施方案中,本公开的系统内包括图形数据库。还应当理解,如本文所用,术语“数据库”不限于单个数据库。相反,系统中可包括多个数据库。例如,根据本公开的实施方案,数据库可包括两个、三个、四个、五个、六个、七个、八个、九个、十个、十五个、二十个或更多个单独的数据库,其中包括任何整数的数据库。例如,一个数据库可包含公共参考数据,第二个数据库可包含来自患者的测试数据,第三个数据库可包含来自健康受试者的数据,并且第四个数据库可包含来自具有已知病症或障碍的患病受试者的数据。应当理解,关于其中包含的数据的数据库的任何其他配置也被本文所述的方法来考虑。
例示性实施方案:
本公开提供了以下例示性实施方案。
实施方案1.一种检测受试者的癌症的方法,所述方法包括:
(a)测量所述受试者的生物流体中的多种靶分子,其中所述多种靶分子选自表11的多肽;以及
(b)检测所述癌症,其中检测所述癌症包括检测高于阈值水平的所述靶分子中的一者或多者。
实施方案2.根据实施方案1所述的方法,其中所述多种靶分子选自表8或表12至表19中的一者或多者的多肽。
实施方案3.根据实施方案1所述的方法,其中所述多种靶分子选自表8、表11至表14或表17至表19中的至少5、10、15或20种多肽。
实施方案4.根据实施方案1至3中任一项所述的方法,其中所述多种靶分子包含来自以下的多种多肽:(i)表11;(ii)表2、表5和表12中的每一者;(iii)表3、表4、表6和表13中的每一者;(iv)表14;(v)表8;或(v)表18和表19。
实施方案5.根据实施方案1至4中任一项所述的方法,其中所述多种靶分子包含表11至表15中的一者或多者的至少30种多肽。
实施方案6.根据实施方案1至5中任一项所述的方法,其中所述多种靶分子选自表14的多肽。
实施方案7.根据实施方案1至5中任一项所述的方法,其中检测到的高于阈值的所述多种靶分子是选自下组的多肽:ADAMTS15、AFP、AGR2、AIF1、ALPP、BPIFB2、CEACAM5、CGA、CHGA、CWC15、CXCL17、DXO、ERBB2、ERBB4、F7、FGFBP1、FGFR2、FKBPL、FOLR1、GDF15、GFRA1、GP2、INSL4、LAMA4、LEP、MIA、MMP12、PRSS8、SFRP1、SFTPA2、SPON1、TFF1、VTCN1和WFDC2。
实施方案8.根据实施方案1至5中任一项所述的方法,其中检测到的高于阈值的所述多种靶分子选自表8的多肽。
实施方案9.根据实施方案1至5中任一项所述的方法,其中检测到的高于阈值的所述多种靶分子是选自下组的多肽:CEACAM5、RHOV、SFTA2、SCGB1D2、IGF2BP1、SFTPA1、CA12、SFTPB、CDH3、MUC6、SLC6A14、HOXC9、AGR3、TMEM125、TFAP2B、IRX2、POTEKP、ARHGEF38、GPR87、LMX1B、ATP10B、NELL1、MUC21、SOX9、LINC00993、STMND1、ERVH48-1、SCTR、MAGEA3、MB、LEMD1、SIX4和NXNL2。
实施方案10.根据实施方案1至9中任一项所述的方法,其中所述多种靶分子包含(a)表11至表14中的一者或多者的多肽,和(b)表1至表6中的一种或多种多肽。
实施方案11.根据实施方案1至10中任一项所述的方法,其中所述多种靶分子包含(a)表8或表11至表14中的一者或多者的多肽,和(b)表7中的一种或多种多肽。
实施方案12.根据实施方案1至5中任一项所述的方法,其中(i)所述癌症是肺癌,并且(ii)检测到的高于阈值的所述多种靶分子选自表18的多肽。
实施方案13.根据实施方案1至5中任一项所述的方法,其中(i)所述癌症是肺癌,并且(ii)检测到的高于阈值的所述多种靶分子选自WFDC2、CXCL17、MMP12、GDF15或CEACAM5中的一者或多者的多肽。
实施方案14.根据实施方案1至5中任一项所述的方法,其中(i)所述癌症是乳腺癌,并且(ii)检测到的高于阈值的所述多种靶分子选自表19的多肽。
实施方案15.根据实施方案14所述的方法,其中检测到的高于阈值的所述多种靶分子选自ADAMTS15、LEP、ERBB2、ERBB4或CGA中的一者或多者的多肽。
实施方案16.根据实施方案1至5中任一项所述的方法,其中所述多种靶分子包含表16A或表16B的多肽。
实施方案17.根据实施方案16所述的方法,其中所述多种靶分子包含表17的多肽。
实施方案18.根据实施方案16所述的方法,其中所述多种靶分子包含选自AGR3、CA12、CEACAM5、CXCL17、GP2、IL20、MMP7、TFF1、VTCN1的多肽。
实施方案19.根据实施方案1至18中任一项所述的方法,其中:
(a)所述多种靶分子进一步包含游离细胞多核苷酸,所述游离细胞多核苷酸包含(i)来自编码所述多肽的基因的游离细胞DNA(cfDNA),和/或(ii)编码所述多肽的所述基因的游离细胞RNA(cfRNA)转录物;并且
(b)检测高于阈值水平的所述靶分子中的一者或多者包括(i)检测高于第一阈值水平的所述多肽中的一者或多者,以及(ii)对于检测到的高于所述第一阈值水平的所述多肽中的每一者,检测高于第二阈值水平的对应的游离细胞多核苷酸。
实施方案20.根据实施方案19所述的方法,其中所述游离细胞多核苷酸包含cfRNA。
实施方案21.根据实施方案19所述的方法,其中所述游离细胞多核苷酸包含cfDNA。
实施方案22.根据实施方案21所述的方法,其中所述cfDNA是甲基化cfDNA。
实施方案23.根据实施方案1至22中任一项所述的方法,其中所述测量包括测序、微阵列分析、逆转录PCR、实时PCR、定量实时PCR、数字PCR、数字液滴PCR、数字乳液PCR、多重PCR、杂交捕获、寡核苷酸连接测定或它们的任何组合。
实施方案24.根据实施方案19至23中任一项所述的方法,其中所述测量包括对所述游离细胞多核苷酸进行测序以产生序列读段。
实施方案25.根据实施方案24所述的方法,其中所述测序包括全转录组测序。
实施方案26.根据实施方案24或25所述的方法,其中所述测序包括对从所述cfRNA逆转录的cDNA分子进行测序。
实施方案27.根据实施方案24所述的方法,其中所述测序包括对富集的cfRNA或cfDNA群体进行测序。
实施方案28.根据实施方案1至27中任一项所述的方法,其中所述生物流体包括血液、血浆、血清、尿液、唾液、胸腔积液、心包液、脑脊髓液(CSF)、腹膜液或它们的任何组合。
实施方案29.根据实施方案28所述的方法,其中所述生物流体包括所述受试者的血液、血液级分、血浆或血清。
实施方案30.根据实施方案1至29中任一项所述的方法,其中检测高于阈值水平的所述靶分子中的一者或多者包括(i)检测,(ii)高于背景的检测,或(iii)在高于未患有所述癌症的受试者中的所述一种或多种靶分子的水平的水平下的检测。
实施方案31.根据实施方案1至29中任一项所述的方法,其中检测高于阈值水平的所述靶分子中的一者或多者包括以比未患有所述癌症的受试者中的水平高至少约10倍的水平检测所述一种或多种靶分子。
实施方案32.根据实施方案24至29中任一项所述的方法,其中检测高于阈值水平的所述游离细胞多核苷酸中的一者或多者包括高于0.5至5每百万读段(RPM)的阈值的检测。
实施方案33.根据实施方案19至29中任一项所述的方法,其中所述游离细胞多核苷酸包含cfRNA转录物,并且检测高于所述第二阈值水平的所述cfRNA转录物中的一者或多者包括:
(a)通过将cfRNA转录物中的每一者的表达水平与RNA组织评分矩阵进行比较,确定所述cfRNA转录物的指示评分;
(b)合计每个cfRNA转录物的所述指示评分;以及
(c)当所述指示评分超过阈值时检测所述癌症。
实施方案34.根据实施方案24至33中任一项所述的方法,其中检测高于阈值水平的所述游离细胞多核苷酸中的一者或多者包括将所述序列读段输入到机器学习或深度学习模型中。
实施方案35.根据实施方案34所述的方法,其中所述机器学习或深度学习模型包括逻辑回归、随机森林、梯度增强机器、朴素贝叶斯、神经网络或多项式回归。
实施方案36.根据实施方案34所述的方法,其中所述机器学习或深度学习模型通过包括学习权重的函数将所述一个或多个特征的值变换为针对所述受试者的疾病状态预测。
实施方案37.根据实施方案1至36中任一项所述的方法,其中所述癌症包括:
(i)癌、肉瘤、骨髓瘤、白血病、淋巴癌、母细胞瘤、生殖细胞肿瘤或它们的任何组合;
(ii)选自下组的癌:腺癌、鳞状细胞癌、小细胞肺癌、非小细胞肺癌、鼻咽癌、结肠直肠癌、肛门癌、肝癌、膀胱癌、睾丸癌、宫颈癌、卵巢癌、胃癌、食管癌、头颈癌、胰腺癌、前列腺癌、肾癌、甲状腺癌、黑素瘤和乳腺癌;
(iii)激素受体阴性乳腺癌或三阴性乳腺癌;
(iv)选自下组的肉瘤:骨肉瘤、软骨肉瘤、平滑肌肉瘤、横纹肌肉瘤、间皮肉瘤(间皮瘤)、纤维肉瘤、血管肉瘤、脂肪肉瘤、胶质瘤和星形细胞瘤;
(v)选自下组的白血病:髓细胞白血病、粒细胞白血病、淋巴白血病、淋巴细胞白血病和成淋巴细胞白血病;或
(vi)选自下组的淋巴瘤:霍奇金淋巴瘤和非霍奇金淋巴瘤。
实施方案38.根据实施方案1至37中任一项所述的方法,其中检测所述癌症包括确定癌症分期、确定癌症进展、确定癌症类型、确定癌症组织来源或它们的组合。
实施方案39.根据实施方案1至38中任一项所述的方法,所述方法进一步包括基于检测到的所述癌症来选择治疗。
实施方案40.根据实施方案39所述的方法,其中所述治疗包括手术切除、放射治疗或施用抗癌剂。
实施方案41.根据实施方案39或40所述的方法,其中所述方法进一步包括用所选择的治疗来治疗所述受试者。
实施方案42.一种计算机系统,所述计算机系统用于实现根据实施方案1至41中任一项所述的方法中的一个或多个步骤。
实施方案43.一种非暂态计算机可读介质,其上存储有用于实现根据实施方案1至41中任一项所述的方法中的一个或多个步骤的计算机可读指令。
实施例:
应当理解,本文所述的实施例和实施方案只是为了例示性目的,根据这些示例和实施例的各种修改或变化将被建议给本领域技术人员,并且将被包括在本申请的精神和范围以及所附权利要求的范围内。
实施例1:癌症患者血浆中组织特异性RNA的检测
游离细胞RNA(cfRNA)是用于癌症检测的有希望的分析物,但缺乏对cfRNA的综合评价。为了表征血浆中的肿瘤来源RNA,我们进行了来自循环游离细胞基因组图谱(CCGA)子研究的探索性分析,以检查患有和未患有癌症的参与者中的cfRNA表达。该分析集中于乳腺癌、肺癌和结肠直肠癌,这是由于它们在普通人群中和在CCGA中的高发病率。
我们从CCGA训练集中选择了210名参与者(Klein等人,ASCO,2018年)。在抽血时,总共98名参与者被诊断患有III期癌症(乳腺(47名患者)、肺(32名患者)、结肠直肠(15名患者)和肛门直肠(4名患者))。选择III期样品以使血液中的信号最大化,并避免混淆来自潜在的继发转移的信号。还包括与癌症组频率年龄匹配的112名非癌症参与者。对于每名参与者,产生来自血沉棕黄层、cfRNA和肿瘤组织活检的FFPE的全转录组文库。
从参与者的血浆中提取核酸,对样品进行DNA酶处理以去除游离细胞DNA(cfDNA)和基因组DNA,并且使用随机六聚体引物进行逆转录以捕获每个研究参与者的全转录组。将所得cDNA转化到DNA文库中,扩增,并去除由核糖体、线粒体和血液相关转录物诸如球蛋白产生的丰富序列。将所得全转录组RNA-seq文库以每个样品约750M配对末端读端的深度进行测序,并使用定制的生物信息学管线进行分析,该管线在逐个样品的基础上产生每个基因组的UMI折叠计数。该相同的程序用于从匹配的血沉棕黄层和组织RNA(当可用时)产生并分析RNA-seq文库。由于残余DNA污染的存在,因此所有下游分析都依赖于严格的RNA读段的使用,在该实施例中定义为读段对,其中至少一个读段与外显子-外显子连接重叠。图11示出了端到端工作流程的概要。表9提供了参与者样品的概要:
我们将我们的数据与来自TCGA的RNA样品进行比较(图12A)。当我们将CCGA肿瘤组织RNA-seq数据投影到来源于TCGA肿瘤组织RNA-seq数据的主成分上时,CCGA肿瘤组织样品可通过癌症类型进行分离(图12B)。这些结果表明,尽管样品收集/处理/文库制备存在差异,但CCGA和TCGA肿瘤的表达谱非常相似,并且证实了分析方法。将来自CCGA群组的癌症cfRNA样品投射到来源于TCGA肿瘤组织RNA-seq数据的主成分上显示样品没有按癌症类型分离(图12C),这暗示癌症类型不是cfRNA中差异的主要来源。
血浆中的大部分cfRNA被认为源自健康的免疫细胞。因此,我们将这些转录物作为背景噪音处理,并集中于作为癌症信号来源的肿瘤来源cfRNA。我们的分析在cfRNA数据中鉴定了两类基因:“暗通道”和“暗通道生物标志物”。暗通道是在非癌症参与者的cfRNA中未检测到的基因。在57,783个注释基因中,39,564个(68%)被鉴定为暗通道。暗通道生物标志物(DCB)基因满足三个标准:1)非癌症群组中基因的中值表达为零,2)在癌症群组中多于一名参与者中检测到基因表达,以及3)癌症群组中基因表达上调。
鉴定了肺癌的14个DCB基因:SLC34A2、GABRG1、ROS1、AGR2、GNAT3、SFTPA2、MUC5B、SFTA3、SMIM22、CXCL17、BPIFA1、WFDC2、NKX2-1和GGTLC1(参见表2)。鉴定了乳腺癌的10个DCB基因:RNU1-1、CSN1S1、FABP7、OPN1SW、SCGB2A2、LALBA、CASP14、KLK5、WFDC2和VTCN1(参见表3)。对于结肠直肠癌没有鉴定到DCB基因。
DCB基因表现出几个不同的特征。首先,富集DCB基因的组织特异性基因(图13)。在57,783个注释的基因中,0.3%是肺特异性的,并且0.2%是乳腺特异性的。相比之下,50%的肺DCB基因是肺特异性的,并且44%的乳腺DCB基因是乳腺特异性的(如由蛋白质图谱数据库所定义的(Uhlén等人,Science,2015年))。
此外,一些DCB基因是仅在某些癌症亚型中检测到的亚型特异性生物标志物(图14A和图14B)。仅在三阴性乳腺癌(TNBC)样品中检测到FABP7。相反,在TNBC中未检测到SCGB2A2,但在HER2+和HR+/HER乳腺癌样品中检测到。在肺腺癌患者样品的cfRNA中检测到SLC34A2、ROS1、SFTPA2和CXCL17基因,但在鳞状细胞癌患者样品中未检测到。与源自同一器官的其他亚型癌症相比,这些亚型特异性基因在肿瘤组织中的表达也更高。
为了确定血液中肿瘤相关转录物的来源,评估cfRNA和肿瘤组织RNA之间对于暗通道生物标志物基因的一致性。观察到cfRNA和肿瘤组织表达之间的高度一致(图15A)。在匹配的cfRNA样品中不太可能检测到在瘤组织中未检测到的基因,并且在匹配的cfRNA样品中更可能检测到在肿瘤组织中检测到的基因。另外,作为特定患者的cfDNA肿瘤分数和匹配肿瘤组织中基因表达的乘积测量的肿瘤含量是乳腺癌患者cfRNA中DCB基因可检测性的有力预测因子(图15B)。
暗通道生物标志物(DCB),是在来自非癌症受试者的cfRNA中未发现的转录物,在癌症患者中表现出高信噪比的潜力。DCB信号与肿瘤含量(测量为血液中肿瘤分数和组织中RNA表达的乘积)相关。在癌症参与者中以组织和亚型特异性方式鉴定cfRNA DCB。我们观察到其中高肿瘤组织表达导致DCB信号扩增的病例,并且使得能够在具有低cfDNA肿瘤分数的患者中检测癌症。总之,这些数据表明组织特异性转录物具有用于基于血液的多癌症检测的潜力。
实施例2:鉴定异质样品中的生物标志物
我们使用标准差异表达(DE)分析在异质样品上的生物标志物发现中观察到假阳性的两个常见来源。首先,由于在对照组和癌症组中的遗传异质性或基因扩增缺失,基因表达遵循双峰分布。其次,单个有影响的离群值扩大了广义线性模型(GLM)的斜率和p值。
开发了一种方法来鉴定高度异质样品(诸如基于组织表达的cfRNA,称为heteroDE)中差异表达的基因。heteroDE模型使用负二项分布广义线性模型(NB-GLM)。为了减少假阳性,heteroDE包括两个附加功能:(1)检查非癌症组中的基因表达是否由于遗传异质性或基因扩增缺失而遵循双峰分布;以及(2)检查是否仅单个离群值样品正在影响NB-GLM的p值。使用Cook距离来识别离群样品。第二次进行NB-GLM,没有样品具有最大的Cook距离。
与先前的差异表达(DE)方法相反,heteroDE使用肿瘤含量作为NG-GLM中的共变量。非癌症样品的肿瘤含量设定为零。cfRNA肿瘤生物标志物的假设是,该基因在组织中的表达越高,并且cfDNA中的肿瘤分数越大,就越有可能在cfRNA中检测到该基因。当我们将该方法应用于乳腺癌样品时,我们鉴定了9种cfRNA生物标志物:TRGV10、SCGB2A2、CASP14、FABP7、CRABP2、VGLL1、SERPINB5、TFF1和AC007563.5(参见表4)。这些生物标志物中的三种(FABP7、SCGB2A2、CASP14)与鉴定为DCB基因的基因重叠。
在图19中示出了例示根据heteroDE的样品处理和参数确定的示例工作流程。由于缺乏组织样品,非癌症受试者的肿瘤含量被限制为零。工作流的示例实现由以下给出:
Ki,j:患者j的cfRNA中基因i的读段计数;
μi,j:患者j的cfRNA中基因i的平均读段计数;
αi:基因i的分散;
γi:当血浆中没有肿瘤含量时,基因i的平均读段计数;
xi,j:肿瘤含量,log10(匹配的cfDNA中的肿瘤分数*匹配的肿瘤组织中的基因表达)
βi:肿瘤含量的系数;
Ki,j~NB(μi,j,αi)
log(μi,j)=(γi+xi,jβi)
还测试了使用信息增益方法的特征选择。信息增益是选择在二值化cfRNA基因表达和癌症/非癌症标记之间具有高相互信息的基因的方法。将基因表达RPM矩阵转化为二进制矩阵。如果基因的RPM>0,则将其转化为1。如果基因的RPM=0,则将其设定为0。使用二进制表达值计算给定癌症类型(例如,肺癌)和非癌症标记的每个基因的信息增益。乳腺癌组的非癌症组与性别平衡,仅选择非癌症组中的女性受试者。选择具有最高信息增益的前100个基因作为用于建模的特征。在建模过程中将每个基因的值转换为二进制值。对乳腺癌与非癌症以及结肠直肠癌与非癌症重复这些程序。对于肺癌具有最高信息增益的前30个基因显示在表5中,并且对于乳腺癌具有最高信息增益的前30个基因显示在表6中。
在另一个实施方案中,从癌组织样品中进行特征选择以鉴定在癌组织样品中表达但在非癌症参与者中不表达的基因。如上述实施例1所述制备文库并测序。对于每个癌症组织样品,我们鉴定了在来自暗通道的癌症组织(组织RPM>10)中以相对高水平表达的基因。这些基因被分类为“组织亮通道基因”。鉴定的前15个组织亮通道基因显示在表7中。
实施例3:在单独的群组中验证DCB
我们开始在从商业供应商(Discovery Life Sciences,“DLS”)获得的乳腺(38)和肺(18)癌样品的正交组中验证在我们的CCGA群组中鉴定的DCB。选择I-IV期患者以评估DCB跨疾病进展的流行,并且包括38个年龄匹配的非癌症样品作为无癌症的患者中DCB表达的对照。为了提高灵敏性病降低测序要求,我们开发了靶向富集方法以选择在我们的CCGA群组中鉴定的23个DCB。我们还富集了正常存在于非癌症血浆中的33个阳性对照基因。这些转录物在富集步骤中充当载体材料,因为大多数非癌症样品将不含有DCB转录物。将所得靶向RNA-seq文库进行测序并二次取样至每个样品100M配对末端读端的深度,并且对靶基因和脱靶基因两者定量严格的RNA读段的数量。当与全转录组测定比较时,我们发现靶向方法将靶向cfRNA转录物的转化效力提高2至3倍。
在我们的CCGA群组中鉴定的23个DCB中,除一个(CRABP2)之外的所有DCB在非癌症组中具有0的中值表达(以RPM计)。我们小组中的19个DCB在验证群组中的至少1个癌症样品中表达(≥2个独特片段),并且与非癌症样品相比,这些DCB中的16个在至少一种癌症类型中差异表达。随着测定效率和分期的提高,我们注意到一些组织特异性标志物存在于乳腺癌和肺癌两者中,尽管它们在两组之间保持差异表达。还有一些DCB仅在一种癌症类型中表达,如乳腺癌中的SCGB2A2,以及肺癌中的ROS1、SFTA3和SFTPA2。对于在该验证群组中观察到的所有DCB,癌症样品中的DCB表达水平随分期而增加,其中在我们群组中的IV期样品中观察到最高表达,这支持这些特征作为癌症的特异性标志物的有效性。尽管有这种趋势,但我们也在我们的群组中的早期癌症中观察到DCB表达,这表示使用富集DCB的方法检测早期癌症的机会。例示性结果显示在图16A至图D中,其中读段数量沿着y轴计数。
实施例4:分类结果
我们使用不同的特征选择方法应用留一法(LOO)和5倍交叉验证分级,包括暗通道生物标志物(DCB)、heteroDE和信息增益(IG)。例示性工作流程显示在图17A至图B中。因为heteroDE利用了匹配的肿瘤组织,由于有限数量的肺组织样品,该特征选择方法不适用于肺癌/非癌症分类。总体上,LOO在与乳腺癌/非癌症分类中的5倍交叉验证相比的LOO中具有显著更好的分类性能,这意味着由于每个训练集中更小的样品大小,乳腺癌分类器在5倍分类中训练不足。DCB对于肺癌/非癌症分类器具有最好的表现(98%特异性时的灵敏性:0.2±0.037),并且heteroDE对于乳腺癌/非癌症分类器具有最好的表现(98%特异性时的灵敏性:0.303±0.046)(表10)。
表10:
癌症类型 特征选择 交叉验证 Sens95spec
DCB LOO 0.3±0.042
IG LOO 0.333±0.043
乳腺 heteroDE LOO 0.394±0.049
乳腺 DCB LOO 0.212±0.041
乳腺 IG LOO 0.303±0.046
DCB 5倍 0.261±0.146
乳腺 heteroDE 5倍 0.177±0.142
例示性结果也在图18A至图C中作图,这些结果使用留一法交叉验证生成。图18A示出了使用heteroDE特征选择方法和随机森林分类器的来自乳腺癌与非癌症的留一法(LOO)交叉验证分类的接受者操作特性(ROC)图和变量重要性图。输入数据是使用来自DESeq2 R包的大小因子归一化(使用estimateSizeFactors)函数进行归一化的每个基因的计数。如表10所示,95%时的灵敏性为0.394+/-0.049。
图18B示出了使用暗通道特征选择方法和随机森林分类器对肺癌与非癌症标记的留一法(LOO)交叉验证分类的ROC图。输入数据是以每百万读段(rpm)计的每个基因的归一化计数。如表10所示,95%特异性时的灵敏性为0.3+/-0.042。
图18C示出了使用暗通道特征选择方法和随机森林分类器的来自乳腺癌与非癌症标记的留一法(LOO)交叉验证分类的ROC图和变量重要性图。输入数据是以每百万读段(rpm)计的每个基因的归一化计数。如表10所示,95%特异性时的灵敏性为0.212+/-0.041。
实施例5:材料和方法
测序数据处理:
使用STAR版本2.5.3a将原始读段与所有转录物的gencode v19初级装配进行比对。基于基因组比对位置和非随机UMI序列检测并去除重复序列读段。大多数配对末端读段具有与预期序列精确匹配的UMI序列。读段的子集包含UMI序列中的错误,并且应用了启发式纠错。如果UMI在距预期UMI为1的汉明距离内,则将其分配给该UMI序列。在汉明距离超过1的情况下,或者多个已知序列在汉明距离1内的情况下,丢弃具有UMI错误的读端。经由成员读段的多序列比对对共享比对位置和校正的UMI的读段组进行错误校正,并产生单个共有序列/比对。将读段比对与gencode v19中注释的转录物进行比较。仅计数跨越注释的外显子-外显子连接的读段,以去除由DNA污染读段所导致的假计数。
样品收集:
将全血收集在Streck游离细胞DNA BCT管中,在血浆分离前将其运输并储存在环境温度下。将全血在4℃下在摇摆桶转子中以1600g离心10分钟以分离血浆。将血浆层转移到单独的管中并在4℃以15000g离心12分钟以进一步去除细胞污染物。将双旋血浆储存在-80℃下,并在提取前于室温下解冻以避免形成冷沉淀物。
样品选择标准:
我们从循环游离细胞基因组图谱研究(CCGA,NCT02889978)中选择了III期乳腺癌、肺癌和结肠直肠癌样品的子集。我们要求所选患者具有至少两管未加工的1-2级血浆(无溶血),其中每个患者6mL至8mL血浆。我们进一步要求所选患者与来自先前研究的cfDNA测序数据匹配。一旦选择了癌症患者,我们就选择与癌症样品的年龄、性别和种族匹配的相等数量的非癌症样品。基于该标准,我们选择了210个样品。使用R中的随机化函数将这些样品随机化到14个批次中,该随机化函数确保每个批次内的癌症类型(癌症和非癌症样品)的随机混合物。
样品处理:
使用来自QIAamp循环核酸试剂盒(Qiagen,55114)的循环miRNA方案从至多8mL冷冻血浆中提取游离细胞核酸。根据制造商的说明,使用无RNA酶的DNA酶组(Qiagen,79254)对所提取的材料进行DNA酶处理,并使用高灵敏性RNA片段分析仪试剂盒(Agilent,DNF-472)进行定量。使用TruSeq RNA Exome试剂盒(Illumina,20020189)进行逆转录和衔接子连接。使用用于人rRNA和线粒体试剂盒的AnyDeplete(Tecan,9132),用定制组的耗尽靶来耗尽所得文库的丰富序列。
筛选测序样品,并将那些显示低质量控制度量的样品从随后的分析中排除。选择一个测定度量和三个管线度量作为“红色标志”,并且用于排除具有差度量的样品。测定度量测量了样品是否具有用于测序的足够材料,并且管线度量是测序深度、RNA纯度和交叉样品污染。
基因表达定量
尽管在文库制备期间进行了DNA酶消化步骤,但初步检查数据揭示了cfRNA样品中不同水平的残留DNA。污染水平是最低的(<6个单倍体基因组当量/样品),并且与消化前cfDNA的量或批次特异性问题不相关。相反,它看起来是随机的,与以前的报告一致。
使用QC度量(“分位数95链特异性”,定义为在表达的第95分位数或低于表达的第95分位数的基因的链特异性)来评估每个样品中的DNA污染水平。UHR阳性对照样品表现出高分位数95链特异性(>0.85)。cfRNA分位数95链特异性值在宽范围(0.52至0.89)内分布。作为参考,cfDNA样品具有约0.5的分位数95链特异性,这表明一些cfRNA样品主要由残余DNA的信号支配。读段链颜色示出了NC67中有义和反义读段相对于NC3中仅有义读段的均匀分布。另外,在NC67中存在跨内含子和外显子的大量覆盖,如在DNA存在时所预期的。具有高水平DNA污染的样品中片段长度的分布显示了它们模拟cfDNA的长度分布(中值160),这强烈表明未消化的cfDNA是主要污染物。
分位数95链特异性低于0.84的样品被标记并从随后的分析中去除。为了进一步防止RNA计数由于DNA污染而膨胀,此处呈现的基因计数使用严格计数产生,严格计数定义为读段对,其中两个读段对中的至少一者跨外显子-外显子连接映射。使用掺入到cfRNA样品中的不同水平的cfDNA进行的实验显示了使用严格计数的RNA水平的估计保持不变,这支持在用于定量和比较基因表达的先导研究样品中使用严格计数。
暗通道特征选择
通过以下标准鉴定暗通道基因:1)该基因在非癌症组中的中值表达(以RPM计)为0,并且该基因的标准偏差小于0.1RPM。使用以下标准鉴定每种癌症类型的暗通道生物标志物(DCB):1)在特定癌症组中存在至少两个表达该基因的样品,2)第二高表达样品的RPM大于0.1,和3)与非癌症组相比,该基因在特定癌症组中差异表达(肺癌的p值<2e-02,并且乳腺癌的p值<2e-01)。两组差异表达的p值通过edgeR包计算。肺癌和非癌症组之间存在816个FDR<0.05的基因。乳腺癌和非癌症组之间存在28个FDR<0.05的基因。结肠直肠癌和非癌症组之间存在4个FDR<0.05的基因。对于箱线图和热图,我们仅显示了最显著的差异表达基因(对于肺癌和乳腺癌,FDR<2e-06,并且对于结肠直肠癌,FDR<2e-02)。
组织特异性基因的注释如下进行。从人蛋白质图谱网站(www.proteinatlas.org/)下载用于肺癌、乳腺癌和结肠癌的组织特异性基因文件。组织特异性基因分为三类:1)富集的组织:与所有其他组织相比,特定组织中的mRNA水平高至少4倍,2)富集组:2至5个组织组中的mRNA水平高至少4倍,3)组织增强:与所有组织中的平均水平相比,特定组织中的mRNA水平高至少4倍。所有三个类别都包括在我们对组织特异性基因的定义中。
为了测试组织特异性基因的富集。1)对于所有注释的人基因,应用费希尔精确检验来检验肺DCB和肺特异性基因之间的独立性。2)对于所有注释的人基因,应用费希尔精确检验来检验乳腺DCB和乳腺特异性基因之间的独立性。
实施例6:cfRNA癌症生物标志物组
设计研究以从不同于正常非癌症群组的全转录组中鉴定肺和乳腺癌特异性cfRNA生物标志物,并且从癌症样品中鉴定在cfRNA中特异性表现的生物信号,这些信号可用于癌症二进制检测和从血浆中鉴定组织来源(TOO)。我们将我们的工作集中于鉴定与癌症亚型相关的基因特征,这些癌症亚型在早期可能难以检测,即肺腺癌和HR+和三阴性(TNBC)乳腺癌。
用于进行该分析的数据包括1)从CCGA和从商业供应商测序的全转录组血浆数据,2)来自TCGA的全转录组组织数据,和3)来自人蛋白质图谱的基因注释(Uhlén等人,Science,2015年)。从循环游离细胞基因组图谱研究(CCGA,NCT02889978)中选择并测序III期乳腺癌和肺癌样品的子集。选择III期样品以使血液中的信号最大化,同时避免混淆来自潜在继发转移的信号。总之,我们分析了来自CCGA的47份乳腺癌、14份肺腺癌和93份非癌症血浆样品。另外,我们包括了来源于商业供应商(Conversant)的另一组全转录组样品。这包括一组14个IV期乳腺癌血浆样品,包括以捕获血液中生物标志物的晚期信号。这些血浆来源的数据用于限定哪些基因在健康血浆中表达,以及哪些基因在癌症血浆中差异表达,这对于这些亚型中癌症的二进制检测可能是有价值的。我们将每个样品的基因表达汇编到RPM(每百万读段)归一化基因特征矩阵中,其中每个样品是列并且每行是基因特征。
该研究还包括从GDC门户网站下载的来自TCGA联盟的乳腺癌(BRCA)和肺腺癌(LUAD)组织全转录组数据。总计,这包括跨分期I-IV的533个肺腺癌和1102个乳腺癌样品。这些数据用于鉴定用于二进制检测的高表达肿瘤来源的基因特征。另外,这种高维数据可用于鉴定可用于TOO的组织特异性基因特征。我们将每个样品的基因表达汇编到RPM(每百万读段)归一化基因特征矩阵中,其中每个样品是列并且每行是基因特征。
最后,我们在人蛋白质图谱中查询了所有基因特征,该图谱是对癌症肿瘤样品和健康组织的各种组学技术(基于转录组学和抗体)的开放访问汇编,并提供组织区室和疾病注释。基于诊断时肿瘤中的表达水平和患者的总存活率,我们使用这些注释来捕获该基因是否是富集/增强的癌症类型,以及对疾病预后有利/不利。
为了建立用于二进制检测和TOO分类的一组目标,我们首先评估了我们是否可能使用从GDC数据入口下载的TCGA组织表达数据来选择可能的生物标志物。对于每个基因,我们计算了两个群组中样品间的平均基因表达,并计算了群组间的皮尔逊相关性。一般来讲,我们发现TCGA组织中高平均基因表达与CCGA血浆中高平均基因表达大致相关(Spearman’srho对于乳腺癌为0.568,对于肺癌为0.509)。因此,我们推断TCGA组织数据可提供特征选择的信息。我们将平均TCGA组织表达大于1RPM的基因特征优先区分为可能在癌症来源的血浆中可检测的,并且潜在地提供二进制癌症检测或组织来源检测的信息。在过滤这些可能常见的人工制品诱导转录物(映射到HLA、IGH、IGL和核糖体基因的转录物)之后,这产生了2898个潜在的基因特征。
然而,即使这些基因特征在TCGA组织中高度表达,也不确定这些基因特征在血浆中表达的普遍程度。图22(乳腺癌)和图23(肺癌)中显示了组织中与血浆相比的平均RPM图。图21提供了在癌组织样品中高水平表达的基因的示例结果,其中在血浆中几乎没有至没有可检测的转录物。还利用从CCGA的血浆中表达增益的信息进行了基因特征选择。我们将在CCGA血浆样品中检测到或未检测到的基因表达特征进行二值化,所检测到的表达为0.005每百万读段(RPM)或以上。然后我们基于从所有癌症血浆到所有非癌症血浆的观察结果,计算每种基因的血浆对数优势比(LOR)。这定量了基因将在癌症样品中出现的可能性相对于基因将在非癌症样品中出现的可能性。LOR>0表明在癌症病例中检测到基因的可能性大于在非癌症病例中检测到基因的可能性,并且LOR<0表明在非癌症病例中检测到基因的可能性。我们选择了LOR>0.1的血浆中最具信息性的基因,从而得到281个基因特征。cfRNA生物标志物的LOR的示例图显示在图24中。
此外,我们着手评估了哪些基因特征对于TOO分类是特异性有用的。由于用于cfRNA的CCGA数据集限于<200个样品,因此我们确定使用TCGA肿瘤基因矩阵并进行递归特征消除算法以鉴定对于区分肺腺癌、乳腺HR+和乳腺TNBC癌症重要的基因特征。随机森林多类模型用于递归地选择前K个基因,其中跨所有基因特征进行10倍交叉验证。通过优化跨折叠的精度来在迭代中消除特征。当使用750个基因特征时,交叉验证模型以96.7%的精度对TCGA样品进行分类,因此我们将这些前750个生物标志物鉴定为对于组织中的亚型分类是重要的。
人蛋白质图谱编译来自癌症肿瘤样品以及健康组织样品的TCGA转录组学和基于抗体的蛋白质数据,以提供我们用于对二进制检测和TOO的基因特征进行优先级排序的两个特定图谱。基于正常组织中的mRNA和蛋白质水平,组织图谱包括组织富集(与其他组织相比在组织中升高)和组织增强(在组织中以低特异性表达)的基因的注释。另外,病理学图谱包括基于诊断时肿瘤中的表达水平和患者的总存活率包括对癌症类型富集(与其他肿瘤相比在肿瘤类型中升高)或增强(在肿瘤类型中以低特异性表达)以及对疾病预后有利/不利的基因的注释。我们将基因标记为具有乳腺癌和肺癌的这些注释的潜在生物标志物(3028个基因特征)。
在血浆中发现的大多数转录物被认为来源于健康的免疫细胞。为了选择在健康白细胞中不存在的生物标志物(其可混淆癌症检测),我们过滤了基因特征以在来自CCGA群组的健康个体的血浆中具有低表达(中值RPM<1,标准偏差RPM<0.1)。这些产生的41391个基因特征被称为“暗通道”。我们通过整合鉴定二进制癌症检测和TOO生物标志物的前述方法进一步过滤了这些暗通道。对暗通道进行过滤,使得对于癌症相关基因特征而言基因二值化LOR>0.1,或者该基因包括在通过随机森林模型选择的750个基因中。进一步过滤这些基因,使得它们被人蛋白质图谱注释或在TCGA群组中平均表达大于5RPM。将来自实施例1至4的另外的阳性对照和DCB基因添加到该更新的生物标志物组中,使cfRNA生物标志物的总数达到467,其在表15中列出(其子集在表11中提供)。表14的基因代表特别有信息量的cfRNA生物标志物的子集。图10A和图20B中分别示出了乳腺癌和肺癌的所选生物标志物的示例结果。
实施例7:多肽生物标志物的检测
使用来自CCGA研究的cfDNA和cfRNA数据,设计蛋白质组以在基于蛋白质的测定中富集目标基因,并与非癌症血浆中的基线蛋白质水平进行比较。特别地,分析了对应于在CCGA研究中鉴定的cfRNA标志物的多肽,包括表16B中所列出的所选基因的蛋白质产物。可用于该分析的基于蛋白质的检测测定包括质谱测定,诸如多反应监测(MRM)质谱测定法(例如,通过Caprion)、邻近延伸测定(例如,通过Olink)或亲和标记测定法,诸如磁性纳米颗粒蛋白质冠接着质谱测定法(例如,通过SEER)。
在该实施例中,通过邻近延伸测定(PEA)检测多肽。对于每种生物标志物,与独特的寡核苷酸条形码(称为邻近探针)连接的抗体配对同时与相应蛋白质靶标结合。如果样品中存在蛋白质靶标,则邻近探针紧密接近并彼此杂交,从而形成允许核酸结构域中的至少一者从其3'端延伸的核酸双链体。添加DNA聚合酶导致与探针中的一者结合的杂交寡核苷酸的延伸,这产生随后可通过定量实时PCR检测和定量的DNA扩增子。
对于PEA测定,将全血样品收集在Streck游离细胞DNA管中,在血浆分离前将其运输并储存在环境温度下。样品来自三组受试者:(1)来自CCGA研究的第一组受试者(“CCGA1”,n=38),(2)来自CCGA研究的第二组受试者(“CCGA2”,n=393),和(3)来自Discovery Life Sciences的一组样品(“DLS”,n=42)。受试者包括患有乳腺癌或肺癌的受试者,或没有癌症诊断(“非癌症”)的受试者。对于一些分析,将样品进一步细分为肿瘤分数低于0.3%的样品(“低TF”)、肿瘤分数高于0.3%的样品(“高TF”)和/或受试者被诊断的癌症类型(例如,乳腺癌或肺癌)。将全血在4℃下以1600×g离心10分钟以分离血浆。将血浆层转移到单独的管中并在4℃下以15000×g离心12分钟以进一步去除细胞污染物。将双旋血浆储存在-80℃下直到进一步使用。将约40μL至80μL双旋血浆稀释并用作邻近延伸测定(PEA)的输入。
靶肽的水平被测量为基于对应于每个靶肽的测序条形码读段的数量的计数。将蛋白质计数与延伸对照计数的比例除以平板对照蛋白质计数与延伸对照计数的培养基比例,以产生每个靶肽的归一化计数。通过将每个肽的归一化计数除以中值样品归一化计数来计算中值归一化计数。这种样品主要归一化考虑了收集条件和生物混杂因素(例如,总蛋白质浓度的变化、个体的膳食或锻炼对所收集样品的影响等)。
测试样品中由表16B中所列出的生物标志物基因编码的蛋白质。将所测定的生物标志物多肽表达水平在癌症和非癌症血浆样品之间进行比较,以确定表征癌症状态(特别是乳腺癌和肺癌)的阈值。图27A至图27C示出了乳腺癌的该分析的示例性结果,并且图28A至图28C示出了肺癌的该分析的示例性结果。发现循环的WFDC2、CXCL17、MMP12、GDF15、CEACAM5、PRSS8、TFF1、CWC15、ALPP、GP2、INSL4、CHGA、GFRA1、AGR2、SPON1、DXO、AIF1、FKBPL、SFTPA2和FOLR1蛋白质可用于区分血浆样品中的非癌症和肺癌状态,并且在p<0.05下具有统计意义上的显著性(参见例如图28A至图28C)。循环ADAMTS15、LEP、ERBB2、ERBB4、CGA、AFP、F7、BPIFB2、SFRP1、FGFBP1、LAMA4、GP2、MIA、FGFR2和VTCN1蛋白质在乳腺癌受试者中比非癌症受试者高,并且发现在p<0.05的水平下具有统计意义上的显著性(参见例如图27A至图27B)。通过比较,在该实施例中,未发现乳腺珠蛋白(也称为SCGB2A2)的多肽水平单独区分非癌症和乳腺癌受试者样品(图27C)。
这些结果显示本文鉴定的癌症的暗通道游离细胞RNA生物标志物可用于选择癌症的循环多肽生物标志物,其也可能在肿瘤组织和循环两者中更高度丰富。此外,cfRNA生物标志物的水平以及它们编码的多肽可用于区分受试者的癌症和非癌症状态,以及鉴定癌症组织来源或癌症亚型。
实施例8:使用多肽、cfDNA和cfRNA的多组学检测癌症
低肿瘤分数使得难以检测血液中的早期癌症。与cfDNA和cfRNA相结合,利用不同类型的肿瘤来源信号(诸如多肽)的多组学方法改善了灵敏性和组织来源鉴定。这种方法具有以下优点:提高早期癌症的癌症检测灵敏性,分辨未知原发癌症(CUP)的组织来源鉴定,以及使用先前验证的多肽标志物帮助鉴定癌症亚型。
多肽代表遗传信息流动的最后一步。与cfDNA相比,靶cfRNA分子被扩增。靶多肽也被扩增,并且比cfRNA寿命更长。在乳腺球蛋白的情况下,多肽水平与cfRNA水平相关。本文所述的cfRNA生物标志物的信号可用于指导多肽生物标志物选择,并且cfRNA和多肽两者的检测一起用于增加检测精度。
实施例9:癌症样品中cfRNA生物标志物的评价
测试了表15中所列出的467种cfRNA生物标志物在具有低肿瘤分数的难检测乳腺癌和肺癌中鉴定癌症并区分非癌症的能力。基于在样品中的任何基因中观察到的最高证据对所有样品进行评分。我们选择了在高信号癌症中具有一些信号证据的所有基因。对于每个样品,我们鉴定了在该样品中比在所有其他非癌症中具有更多证据的所有基因,并且使用以下标准按顺序通过每个样品中的最高证据基因对样品进行排序:(1)在任何非癌症中观察到的最大计数(越低越好),(2)在任何高信号癌症中观察到的最大计数(越高越好),以及(3)在该样品中观察到的计数。在训练和保留充足的组中使用这些生物标志物评价留一法分类器。结果示于图7中。如星号所指出的那样,相对于训练群组,验证群组特异性显著降低(p=.0.02)。不希望受理论束缚,这可能表明在该特定实验中潜在的过度拟合。
将基于cfRNA生物标志物的留一法分类器应用于对DNA甲基化癌症生物标志物具有低或高信号的癌症样品。样品包括肺癌和乳腺癌样品。该分类器证实了高特异性性能,如图8A至图8C所例示。
几种基因被证明是特别有信息量的cfRNA癌症生物标志物,一些对乳腺癌或肺癌具有特异性,并且一些在乳腺癌和肺癌两者中升高。这33个基因列在上表8中。在图26A至图26D中以图表形式呈现了严格读段计数的结果。关于这33种基因的结果的其他细节提供在下表20中。
表20:
/>
*如果严格的RNA计数高于最大非癌症计数或2,以较高者为准,则称检测到基因。
参考文献
Klein et al.Development of a comprehensive cell-free DNA(cfDNA)assayfor early detection of multiple tumor types:The Circulating Cell-free GenomeAtlas(CCGA)study.ASCO(2018).
Uhlén et al.Tissue-based map of the human proteome(www.proteinatlas.org).Science doi:10.1126/science.1260419(2015).
A.M.Newman,et al.,An ultrasensitive method for quantitatingcirculating tumor DNA with broad patient coverage.Nat.Med.20,548–554(2014).
E.Kirkizlar,et al.,Detection of Clonal and Subclonal Copy-NumberVariants in Cell-Free DNA from Patients with Breast Cancer Using a MassivelyMultiplexed PCR Methodology.Transl.Oncol.8,407–416(2015).
S.Y.Shen,et al.,Sensitive tumour detection and classification usingplasma cell-free DNA methylomes.Nature 563,579–583(2018).
C.Bettegowda,et al.,Detection of circulating tumor DNA in early-andlate-stage human malignancies.Sci.Transl.Med.6,224ra24(2014).
K.C.A.Chan,et al.,Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing.Proc.Natl.Acad.Sci.U.S.A.110,18761–18768(2013).
I.S.Haque,O.Elemento,Challenges in Using ctDNA to AchieveEarlyDetection of Cancer.bioRxiv,237578(2017).
K.C.A.Chan,et al.,Cancer genome scanning in plasma:detection oftumor-associated copy number aberrations,single-nucleotide variants,andtumoralheterogeneity by massively parallel sequencing.Clin.Chem.59,211–224(2013).
C.Abbosh,et al.,Phylogenetic ctDNA analysis depicts early-stagelungcancer evolution.Nature 545,446–451(2017).
K.-W.Lo,et al.,Analysis of Cell-free Epstein-Barr Virus-associatedRNA inthe Plasma of Patients with Nasopharyngeal Carcinoma.Clin.Chem.45,1292–1294(1999).
M.S.Kopreski,F.A.Benko,L.W.Kwak,C.D.Gocke,Detection of tumormessengerRNA in the serum of patients with malignant melanoma.Clin.CancerRes.Off.J.Am.Assoc.Cancer Res.5,1961–1965(1999).
J.D.Arroyo,et al.,Argonaute2 complexes carry a population ofcirculatingmicroRNAs independent of vesicles in human plasma.Proc.Natl.Acad.Sci.U.S.A.108,5003–5008(2011).
P.M.Godoy,et al.,Large Differences in Small RNA CompositionBetweenHuman Biofluids.Cell Rep.25,1346–1358(2018).
M.F.de Souza,et al.,Circulating mRNAs and miRNAs as candidatemarkersfor the diagnosis and prognosis of prostate cancer.PLoS ONE 12(2017).
G.Y.F.Ho,et al.,Differential expression of circulatingmicroRNAsaccording to severity of colorectal neoplasia.Transl.Res.166,225–232(2015).
I.Lee,D.Baxter,M.Y.Lee,K.Scherler,K.Wang,The importanceofstandardization on analyzing circulating RNA.Mol.Diagn.Ther.21,259–268(2017).
X.Q.Chen,et al.,Telomerase RNA as a detection marker in the serumofbreast cancer patients.Clin.Cancer Res.Off.J.Am.Assoc.Cancer Res.6,3823–3826(2000).
17.R.C.Kamm,A.G.Smith,Ribonuclease activity in humanplasma.Clin.Biochem.5,198–200(1972).
T.El-Hefnawy,et al.,Characterization of amplifiable,circulating RNAinplasma and its potential as a tool for cancer diagnostics.Clin.Chem.50,564–573(2004).
N.B.Y.Tsui,E.K.O.Ng,Y.M.D.Lo,Stability of endogenous and addedRNA inblood specimens,serum,and plasma.Clin.Chem.48,1647–1653(2002).
J.D.Arroyo,et al.,Argonaute2 complexes carry a population ofcirculatingmicroRNAs independent of vesicles in human plasma.Proc.Natl.Acad.Sci.U.S.A.108,5003–5008(2011).
G.J.S.Talhouarne,J.G.Gall,7SL RNA in vertebrate red blood cells.RNA24,908–914(2018).
L.A.Hancock,et al.,Muc5b overexpression causes mucociliarydysfunctionand enhances lung fibrosis in mice.Nat.Commun.9,1–10(2018).
T.Handa,et al.,Caspase14 expression is associated with triplenegativephenotypes and cancer stem cell marker expression in breast cancerpatients.J.Surg.Oncol.116,706–715(2017).
R.Hrstka,et al.,The pro-metastatic protein anterior gradient-2predicts poorprognosis in tamoxifen-treated breast cancers.Oncogene 29,4838–4847(2010).
M.Pizzi,et al.,Anterior gradient 2 overexpression in lung adenocarcinoma.Appl.Immunohistochem.Mol.Morphol.AIMM 20,31–36(2012).
H.Cho,A.B.Mariotto,L.M.Schwartz,J.Luo,S.Woloshin,When dochanges incancer survival mean progress?The insight from population incidenceandmortality.J.Natl.Cancer Inst.Monogr.2014,187–197(2014).
Y.M.Lo,et al.,Rapid clearance of fetal DNA from maternalplasma.Am.J.Hum.Genet.64,218–224(1999).
M.A.Watson,T.P.Fleming,Mammaglobin,a mammary-specific memberof theuteroglobin gene family,is overexpressed in human breast cancer.CancerRes.56,860–865(1996).
G.H.Lewis,et al.,Relationship between molecular subtype ofinvasivebreast carcinoma and expression of gross cystic disease fluid protein15 andmammaglobin.Am.J.Clin.Pathol.135,587–591(2011).
R.-Z.Liu,et al.,A fatty acid-binding protein 7/RXRβpathwayenhancessurvival and proliferation in triple-negative breastcancer.J.Pathol.228,310–321(2012).
A.Cordero,et al.,FABP7 is a key metabolic regulator in HER2+breastcancer brain metastasis.Oncogene 38,6445–6460(2019).
H.Zhang,et al.,The proteins FABP7 and OATP2 are associated withthebasal phenotype and patient outcome in human breast cancer.Breast CancerRes.Treat.121,41–51(2010).
J.Xiao,et al.,Eight potential biomarkers for distinguishing betweenlungadenocarcinoma and squamous cell carcinoma.Oncotarget 8,71759–71771(2017).
M.Grageda,P.Silveyra,N.J.Thomas,S.L.DiAngelo,J.Floros,DNAmethylationprofile and expression of surfactant protein A2 gene in lung cancer.Exp.LungRes.41,93–102(2015).
Z.Zhang,et al.,High expression of SLC34A2 is a favorable prognosticmarker in lung adenocarcinoma patients.Tumour Biol.J.Int.Soc.Oncodevelopmental Biol.Med.39,1010428317720212(2017).
F.Diehl,et al.,Circulating mutant DNA to assess tumordynamics.Nat.Med.14,985–990(2008).
Liu M.C.et al.,Sensitive and specific multi-cancer detection andlocalization using methylation signatures in cell-free DNA.Ann Oncol.31(6),745-59(2020).
Anderson,N Leigh.“The clinical plasma proteome:a survey of clinicalassays for proteins in plasma and serum.”Clinical chemistry vol.56,2(2010):177-85.doi:10.1373/clinchem.2009.126706.
Zehentner,Barbara K et al.“Mammaglobin as a novel breast cancerbiomarker:multigene reverse transcription-PCR assay and sandwich ELISA.”Clinical chemistry vol.50,11(2004):2069-76.doi:10.1373/clinchem.2004.038687.
在整个公开中已经参考和引用了其他文档,诸如专利、专利申请、专利公开、期刊、书籍、论文、网页内容。出于所有目的,所有此类文档全文以引用方式并入本文。
除了本文所示和所述的那些之外,本发明的各种修改及其许多进一步的实施方案对于本领域技术人员来说将从本文档的全部内容(包括参考本文所引用的科学和专利文献)变得显而易见。本文的主题包含重要信息、例证和指导,这些信息、例证和指导可适用于本发明在其各种实施方案及其等效物中的实践。在整个说明书中引用的所有参考文献通过引用明确地并入本文。
前述实施方案的具体实施方式是指说明本公开的特定实施方案的附图。具有不同结构和操作的其他实施方案不脱离本公开的范围。术语“本发明”等参考本说明书中阐述的申请人的发明的许多替代方面或实施方案的某些具体示例来使用,并且其使用或不使用均不旨在限制申请人发明的范围或权利要求的范围。仅为了读者的方便,将本说明书分成几部分。标题不应被解释为限制本发明的范围。这些定义旨在作为本发明描述的一部分。应当理解,在不脱离本发明的范围的情况下,可改变本发明的各种细节。此外,前述描述仅仅是为了例示的目的,而不是为了限制的目的。
虽然已经参考本发明的具体实施方案描述了本发明,但是本领域技术人员应当理解,在不脱离本发明的真实精神和范围的情况下,可做出各种改变并且可替换等同物。此外,根据本发明的目的、精神和范围,可进行许多修改,以适应特定情况、材料、物质组成、方法、一个或多个方法步骤。所有此类修改都在所附权利要求书的范围内。

Claims (43)

1.一种检测受试者的癌症的方法,所述方法包括:
(a)测量所述受试者的生物流体中的多种靶分子,其中所述多种靶分子选自表11的多肽;以及
(b)检测所述癌症,其中检测所述癌症包括检测高于阈值水平的所述靶分子中的一者或多者。
2.根据权利要求1所述的方法,其中所述多种靶分子选自表8或表12至表19中的一者或多者的多肽。
3.根据权利要求1所述的方法,其中所述多种靶分子选自表8、表11至表14或表17至表19中的至少5、10、15或20种多肽。
4.根据权利要求1至3中任一项所述的方法,其中所述多种靶分子包含来自以下的多种多肽:(i)表11;(ii)表2、表5和表12中的每一者;(iii)表3、表4、表6和表13中的每一者;(iv)表14;(v)表8;或(vi)表18和表19。
5.根据权利要求1至3中任一项所述的方法,其中所述多种靶分子包含表11至表15中的一者或多者的至少30种多肽。
6.根据权利要求1至3中任一项所述的方法,其中所述多种靶分子选自表14的多肽。
7.根据权利要求1至3中任一项所述的方法,其中检测到的高于阈值的所述多种靶分子是选自下组的多肽:ADAMTS15、AFP、AGR2、AIF1、ALPP、BPIFB2、CEACAM5、CGA、CHGA、CWC15、CXCL17、DXO、ERBB2、ERBB4、F7、FGFBP1、FGFR2、FKBPL、FOLR1、GDF15、GFRA1、GP2、INSL4、LAMA4、LEP、MIA、MMP12、PRSS8、SFRP1、SFTPA2、SPON1、TFF1、VTCN1和WFDC2。
8.根据权利要求1至3中任一项所述的方法,其中检测到的高于阈值的所述多种靶分子选自表8的多肽。
9.根据权利要求1至3中任一项所述的方法,其中检测到的高于阈值的所述多种靶分子是选自下组的多肽:CEACAM5、RHOV、SFTA2、SCGB1D2、IGF2BP1、SFTPA1、CA12、SFTPB、CDH3、MUC6、SLC6A14、HOXC9、AGR3、TMEM125、TFAP2B、IRX2、POTEKP、ARHGEF38、GPR87、LMX1B、ATP10B、NELL1、MUC21、SOX9、LINC00993、STMND1、ERVH48-1、SCTR、MAGEA3、MB、LEMD1、SIX4和NXNL2。
10.根据权利要求1至3中任一项所述的方法,其中所述多种靶分子包含(a)表11至表14中的一者或多者的多肽,和(b)表1至表6中的一种或多种多肽。
11.根据权利要求1至3中任一项所述的方法,其中所述多种靶分子包含(a)表8或表11至表14中的一者或多者的多肽,和(b)表7中的一种或多种多肽。
12.根据权利要求1至3中任一项所述的方法,其中(i)所述癌症是肺癌,并且(ii)检测到的高于阈值的所述多种靶分子选自表18的多肽。
13.根据权利要求1至3中任一项所述的方法,其中(i)所述癌症是肺癌,并且(ii)检测到的高于阈值的所述多种靶分子选自WFDC2、CXCL17、MMP12、GDF15或CEACAM5中的一者或多者的多肽。
14.根据权利要求1至3中任一项所述的方法,其中(i)所述癌症是乳腺癌,并且(ii)检测到的高于阈值的所述多种靶分子选自表19的多肽。
15.根据权利要求14所述的方法,其中检测到的高于阈值的所述多种靶分子选自ADAMTS15、LEP、ERBB2、ERBB4或CGA中的一者或多者的多肽。
16.根据权利要求1至3中任一项所述的方法,其中所述多种靶分子包含表16A或表16B的多肽。
17.根据权利要求16所述的方法,其中所述多种靶分子包含表17的多肽。
18.根据权利要求16所述的方法,其中所述多种靶分子包含选自AGR3、CA12、CEACAM5、CXCL17、GP2、IL20、MMP7、TFF1、VTCN1的多肽。
19.根据权利要求1至3中任一项所述的方法,其中:
(a)所述多种靶分子进一步包含游离细胞多核苷酸,所述游离细胞多核苷酸包含(i)来自编码所述多肽的基因的游离细胞DNA(cfDNA),和/或(ii)编码所述多肽的所述基因的游离细胞RNA(cfRNA)转录物;并且
(b)检测高于阈值水平的所述靶分子中的一者或多者包括(i)检测高于第一阈值水平的所述多肽中的一者或多者,以及(ii)对于检测到的高于所述第一阈值水平的所述多肽中的每一者,检测高于第二阈值水平的对应的游离细胞多核苷酸。
20.根据权利要求19所述的方法,其中所述游离细胞多核苷酸包含cfRNA。
21.根据权利要求19所述的方法,其中所述游离细胞多核苷酸包含cfDNA。
22.根据权利要求21所述的方法,其中所述cfDNA是甲基化cfDNA。
23.根据权利要求1至3中任一项所述的方法,其中所述测量包括测序、微阵列分析、逆转录PCR、实时PCR、定量实时PCR、数字PCR、数字液滴PCR、数字乳液PCR、多重PCR、杂交捕获、寡核苷酸连接测定或它们的任何组合。
24.根据权利要求19所述的方法,其中所述测量包括对所述游离细胞多核苷酸进行测序以产生序列读段。
25.根据权利要求24所述的方法,其中所述测序包括全转录组测序。
26.根据权利要求24所述的方法,其中所述测序包括对从所述cfRNA逆转录的cDNA分子进行测序。
27.根据权利要求24所述的方法,其中所述测序包括对富集的cfRNA或cfDNA群体进行测序。
28.根据权利要求1至3中任一项所述的方法,其中所述生物流体包括血液、血浆、血清、尿液、唾液、胸腔积液、心包液、脑脊髓液(CSF)、腹膜液或它们的任何组合。
29.根据权利要求28所述的方法,其中所述生物流体包括所述受试者的血液、血液级分、血浆或血清。
30.根据权利要求1至3中任一项所述的方法,其中检测高于阈值水平的所述靶分子中的一者或多者包括(i)检测,(ii)高于背景的检测,或(iii)在高于未患有所述癌症的受试者中的所述一种或多种靶分子的水平的水平下的检测。
31.根据权利要求1至3中任一项所述的方法,其中检测高于阈值水平的所述靶分子中的一者或多者包括以比未患有所述癌症的受试者中的水平高至少约10倍的水平检测所述一种或多种靶分子。
32.根据权利要求24所述的方法,其中检测高于阈值水平的所述游离细胞多核苷酸中的一者或多者包括高于0.5至5每百万读段(RPM)的阈值的检测。
33.根据权利要求19所述的方法,其中所述游离细胞多核苷酸包含cfRNA转录物,并且检测高于所述第二阈值水平的所述cfRNA转录物中的一者或多者包括:
(a)通过将cfRNA转录物中的每一者的表达水平与RNA组织评分矩阵进行比较,确定所述cfRNA转录物的指示评分;
(b)合计每个cfRNA转录物的所述指示评分;以及
(c)当所述指示评分超过阈值时检测所述癌症。
34.根据权利要求24所述的方法,其中检测高于阈值水平的所述游离细胞多核苷酸中的一者或多者包括将所述序列读段输入到机器学习或深度学习模型中。
35.根据权利要求34所述的方法,其中所述机器学习或深度学习模型包括逻辑回归、随机森林、梯度增强机器、朴素贝叶斯、神经网络或多项式回归。
36.根据权利要求34所述的方法,其中所述机器学习或深度学习模型通过包括学习权重的函数将所述一个或多个特征的值变换为针对所述受试者的疾病状态预测。
37.根据权利要求1至3中任一项所述的方法,其中所述癌症包括:
(i)癌、肉瘤、骨髓瘤、白血病、淋巴癌、母细胞瘤、生殖细胞肿瘤或它们的任何组合;
(ii)选自下组的癌:腺癌、鳞状细胞癌、小细胞肺癌、非小细胞肺癌、鼻咽癌、结肠直肠癌、肛门癌、肝癌、膀胱癌、睾丸癌、宫颈癌、卵巢癌、胃癌、食管癌、头颈癌、胰腺癌、前列腺癌、肾癌、甲状腺癌、黑素瘤和乳腺癌;
(iii)激素受体阴性乳腺癌或三阴性乳腺癌;
(iv)选自下组的肉瘤:骨肉瘤、软骨肉瘤、平滑肌肉瘤、横纹肌肉瘤、间皮肉瘤(间皮瘤)、纤维肉瘤、血管肉瘤、脂肪肉瘤、胶质瘤和星形细胞瘤;
(v)选自下组的白血病:髓细胞白血病、粒细胞白血病、淋巴白血病、淋巴细胞白血病和成淋巴细胞白血病;或
(vi)选自下组的淋巴瘤:霍奇金淋巴瘤和非霍奇金淋巴瘤。
38.根据权利要求1至3中任一项所述的方法,其中检测所述癌症包括确定癌症分期、确定癌症进展、确定癌症类型、确定癌症组织来源或它们的组合。
39.根据权利要求1至3中任一项所述的方法,所述方法进一步包括基于检测到的所述癌症来选择治疗。
40.根据权利要求39所述的方法,其中所述治疗包括手术切除、放射治疗或施用抗癌剂。
41.根据权利要求39所述的方法,其中所述方法进一步包括用所选择的治疗来治疗所述受试者。
42.一种计算机系统,所述计算机系统用于实现根据权利要求1至3中任一项所述的方法中的一个或多个步骤。
43.一种非暂态计算机可读介质,其上存储有用于实现根据权利要求1至3中任一项所述的方法中的一个或多个步骤的计算机可读指令。
CN202280060961.4A 2021-09-10 2022-09-09 生物流体中靶分子的分析方法 Pending CN117916596A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163242872P 2021-09-10 2021-09-10
US63/242,872 2021-09-10
PCT/US2022/076210 WO2023039529A1 (en) 2021-09-10 2022-09-09 Methods for analysis of target molecules in biological fluids

Publications (1)

Publication Number Publication Date
CN117916596A true CN117916596A (zh) 2024-04-19

Family

ID=85507730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280060961.4A Pending CN117916596A (zh) 2021-09-10 2022-09-09 生物流体中靶分子的分析方法

Country Status (6)

Country Link
US (1) US20230086722A1 (zh)
CN (1) CN117916596A (zh)
AU (1) AU2022341177A1 (zh)
CA (1) CA3229331A1 (zh)
IL (1) IL311282A (zh)
WO (1) WO2023039529A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104080924A (zh) * 2011-08-16 2014-10-01 昂科赛特公司 用于治疗和诊断乳腺癌的方法和组合物
US20210355545A1 (en) * 2018-10-15 2021-11-18 The Johns Hopkins University Methods and materials for assessing and treating cancer
EP3938534A4 (en) * 2019-03-13 2023-03-29 Grail, LLC SYSTEMS AND METHODS FOR ENRICHMENT OF CANCER DERIVED FRAGMENTS USING FRAGMENT SIZE
CA3177118A1 (en) * 2020-06-16 2021-12-23 Ruth E. MAUNTZ Methods for analysis of cell-free rna

Also Published As

Publication number Publication date
CA3229331A1 (en) 2023-03-16
AU2022341177A1 (en) 2024-02-29
US20230086722A1 (en) 2023-03-23
WO2023039529A1 (en) 2023-03-16
IL311282A (en) 2024-05-01

Similar Documents

Publication Publication Date Title
JP5670055B2 (ja) ヒストンデアセチラーゼ阻害剤に対する癌の耐性を決定する方法
US20210381062A1 (en) Nasal epithelium gene expression signature and classifier for the prediction of lung cancer
US20210388451A1 (en) Methods for analysis of cell-free rna
CA3121923A1 (en) Methods for detecting disease using analysis of rna
US20130178428A1 (en) Long noncoding rna (lncrna) as a biomarker and therapeutic marker in cancer
EP3077823B1 (en) Compositions and methods for identifying and treating cachexia or pre-cachexia
CA2801588A1 (en) Gene expression signature as a predictor of chemotherapeutic response in breast cancer
US20160222461A1 (en) Methods and kits for diagnosing the prognosis of cancer patients
US10036070B2 (en) Methods and means for molecular classification of colorectal cancers
US20220057400A1 (en) Il-6 signaling and breast cancer
CN117916596A (zh) 生物流体中靶分子的分析方法
JPWO2021257729A5 (zh)
KR20240087775A (ko) 생물학적 유체에서 표적 분자의 분석 방법
WO2022246000A1 (en) Compositions and methods for determining dna methylation level in cancer
WO2023224487A1 (en) Prediction of response to immune therapy in breast cancer patients
US20220347278A1 (en) Blood-based biomarkers and use thereof for treating cancer
WO2022082048A1 (en) Methods of treating breast cancer
WO2023224488A1 (en) Dna repair signature and prediction of response following cancer therapy
WO2022246002A2 (en) Methods and compositions for determining cancer risk
TW202328457A (zh) 無細胞dna後生的胃腸道癌偵測及治療用的組成物及方法
WO2022235701A1 (en) Gene expression profiling methods and compositions for determining cancer and treatment thereof
Guo Detection of somatic mutations and copy number alterations in circulating tumour DNA in patients with primary breast cancer by next-generation sequencing: an in-depth analysis of the Neocent trial to evaluate the efficacy of neoadjuvant therapy
EP4334475A1 (en) Endocrine treatment of hormone receptor positive breast cancer typed as having a low risk of recurrence
CN116837103A (zh) Zfhx3基因突变可作为sclc免疫治疗生物标志物
CN115398011A (zh) 用于预测癌症患者的伊沙匹隆反应性的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination