CN112930407A - 使用非人类核酸诊断和治疗癌症的方法 - Google Patents

使用非人类核酸诊断和治疗癌症的方法 Download PDF

Info

Publication number
CN112930407A
CN112930407A CN201980071301.4A CN201980071301A CN112930407A CN 112930407 A CN112930407 A CN 112930407A CN 201980071301 A CN201980071301 A CN 201980071301A CN 112930407 A CN112930407 A CN 112930407A
Authority
CN
China
Prior art keywords
cancer
microbial
subject
abundance
carcinoma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980071301.4A
Other languages
English (en)
Inventor
G·D·普尔
R·奈特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of California
Original Assignee
University of California
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of California filed Critical University of California
Publication of CN112930407A publication Critical patent/CN112930407A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/569Immunoassay; Biospecific binding assay; Materials therefor for microorganisms, e.g. protozoa, bacteria, viruses
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/106Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/52Predicting or monitoring the response to treatment, e.g. for selection of therapy based on assay results in personalised medicine; Prognosis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/56Staging of a disease; Further complications associated with the disease
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

基于宿主受试者的组织(包括血液来源的组织)中的微生物存在或丰度,诊断癌症、其亚型、分子特征和对治疗的反应可能性以及其他疾病的方法。还提供了治疗受试者中所确定的癌症的方法。

Description

使用非人类核酸诊断和治疗癌症的方法
相关申请的交叉引用
本申请主张2018年11月2日提交的美国临时申请No.62/754,696的优先权权益,所述申请以引用方式并入本文中。
技术领域
本发明涉及使用非人类来源的核酸来准确地诊断和治疗来自人类组织活体切片或血液来源样本的疾病的方法领域。
背景技术
尽管人们普遍认为癌症是‘人类基因组的疾病’,但越来越多的证据表明,微生物群在致癌作用、肿瘤进展和治疗反应中起关键作用。事实上,据估计,多达20%的全球癌症负担是由微生物药剂引起的。许多研究人员认为,潜在的机制是通过我们体内的微生物对免疫系统的影响,它们能够增强或抑制炎症,并操纵我们免疫细胞的能力和反应。
基于使用利用一种或多种特定细菌定殖的无菌动物小鼠模型的研究数据,微生物群似乎可以通过多种机制改变癌症的易感性和进展,诸如调节炎症、诱导DNA损伤和产生参与肿瘤形成或肿瘤抑制的代谢物。除了致癌作用和癌症进展,新出现的证据表明,微生物群可以预测对癌症治疗的反应或被操纵以改善癌症治疗,包括“传统”化疗(例如,吉西他滨)和更“创新”的免疫治疗(例如,PD-1阻断)。然而,几乎所有这些文献都依赖于检查宿主肠道微生物群的变体及其对癌症的影响,并且文献中探索癌症组织特异性微生物群(几乎普遍存在于胃肠道癌中)的少数示例仅检查了发病机制问题。相反,没有现有技术描述非胃肠道微生物群和泛癌诊断之间的广泛关系,包括来自血液来源的样本;类似地,没有现有技术描述癌症组织常驻微生物群可如何预测或影响患者对癌症治疗的反应性,特别是包括免疫治疗反应。本发明人在此领域已知的最接近的相关现有技术(US20180291463A1、WO2018200813A1和WO2018031545A1)(均归于Robertson等人)依靠基于微阵列的技术来检测肿瘤组织样本(非血液或其他体液)中预选的(“有偏差的”)微生物群体;此外,此现有技术仅覆盖了三种癌症类型(乳腺癌、卵巢癌和口腔鳞状细胞癌),而没有采用泛癌途径。
本发明的现有技术建立在使用人类来源的核酸进行癌症诊断的核心概念之上,所述核酸在固体组织活体切片或液体(即,基于血液的)活体切片中。它还建立在以下概念之上:检测循环肿瘤DNA(ctDNA)以诊断肿瘤(例如,PMID:24553385)和最近描述的无微生物细胞DNA的存在,以检测疑似败血症(PMID:30742071)患者中的传染病病原体。值得注意的是,这些基于宿主的ctDNA测定几乎总是无法诊断癌症的种类,这是因为癌症中的大多数基因组变化在癌症类型之间是共有的。从生物学的角度来看,几年来众所周知的是,从血液中分离(通过微生物血液培养)某些种类的细菌高度暗示潜在的结肠直肠癌(例如,牛链球菌;PMID:21247505),并且最近对>13,000个患者的研究证明,在那些最终患有结肠直肠癌(PMID:29729257)的患者中,通过传统血液培养检测到广泛的、短暂的菌血症。对于基于血液的诊断,本发明扩展癌症特异性菌血症的概念,以包括更多的肿瘤类型;它进一步不依赖于传统的血液培养方法,也不一定需要预选感兴趣的微生物种群,并利用这一思想来创建广泛的诊断测定。本发明还扩展了基于肿瘤组织的诊断以区分几十种癌症类型(即,“泛癌”诊断)、它们的亚型、它们的分子特征(例如,突变)及其对治疗(包括免疫治疗)的预测反应。此外,本发明扩展了诊断信息,以基于肿瘤内微生物特征来选择或创建新的治疗。
与本领域相关的其他现有技术如下:美国公开第2018/0223338号描述了在识别和诊断头颈癌时使用固体组织微生物组或鼠尾草微生物组;并且美国公开第2018/0258495A1号描述了使用固体组织微生物组或粪便微生物组来检测结肠癌、与结肠癌相关的一些种类的突变以及收集和扩增相应微生物的试剂盒。
发明内容
本发明的公开内容提供了一种方法以仅使用非人来源的核酸准确地诊断来自人类组织活体切片或血液来源的样本的癌症和其他疾病、其亚型以及其对某些治疗的反应可能性。
在实施例中,本发明提供了一种使用血液来源的组织广泛创建与癌症的存在和/或类型相关的微生物存在或丰度(“签名”)的模式的方法。然后,可展开这些“签名”以诊断人类中癌症的存在、种类和/或亚型。
在实施例中,本发明提供了一种使用原发性肿瘤组织广泛创建与癌症的存在和/或类型相关的微生物存在或丰度的模式的方法。然后,可展开这些“签名”以诊断人类中癌症的存在、种类和/或亚型。
在实施例中,本发明提供了一种广泛诊断哺乳动物受试者中疾病的方法,包括:检测来自所述受试者的组织样本中的微生物存在或丰度;确定检测到的所述微生物存在或丰度不同于正常组织样本中的微生物存在或丰度;以及将检测到的所述微生物存在或丰度与疾病的已知微生物存在或丰度相关联,从而诊断所述疾病。
在实施例中,本发明提供了一种广泛诊断哺乳动物受试者中疾病的类型的方法,包括:检测来自所述受试者的肿瘤组织样本中的微生物存在或丰度;确定检测到的所述微生物存在或丰度相似于或不同于先前研究的肿瘤群体中的微生物存在或丰度;以及将检测到的所述微生物存在或丰度与最相似的肿瘤类型相关联,从而诊断疾病的种类。
在实施例中,本发明提供了一种诊断哺乳动物受试者中疾病的类型的方法,包括:检测来自所述受试者的血液来源的组织样本中的微生物存在或丰度;确定检测到的所述微生物存在或丰度相似于或不同于具有先前研究的血液来源的组织样本的癌症和/或健康患者群体中的微生物存在或丰度;以及将检测到的所述微生物存在或丰度与此小组中最相似的血液来源的组织样本相关联,从而诊断疾病和/或疾病种类。
在实施例中,本发明提供了一种诊断疾病的身体位置的方法,其中所述疾病是癌症,其中起源位置是骨(急性骨髓性白血病、肉瘤)、肾上腺、膀胱、大脑、乳房、子宫颈、胆囊、结肠、食道、颈部(头颈部鳞状细胞癌)、肾、肝、肺、淋巴结(弥漫性大B细胞淋巴瘤)、皮肤、卵巢、前列腺、直肠、胃、甲状腺和子宫,并且其中所述受试者是人。
在实施例中,本发明提供了一种诊断疾病的方法,其中所述疾病是癌症,其中所述癌症是白血病(急性骨髓性)、肾上腺皮质癌、膀胱癌、脑癌(低级胶质瘤;胶质母细胞瘤)、乳腺癌、宫颈癌、胆管癌、结肠癌、食道癌、头颈癌、肾癌(嫌色;肾透明细胞癌;乳头状细胞癌)、肝癌、肺癌(腺癌;鳞状细胞癌)、淋巴肿瘤弥漫性大B细胞淋巴瘤、黑色素瘤(皮肤黑色素瘤、葡萄膜黑色素瘤)、卵巢癌、前列腺癌、直肠癌、肉瘤、胃癌、甲状腺癌(甲状腺癌、胸腺瘤)和子宫肉瘤,并且其中所述受试者是人。
在实施例中,本发明提供了一种诊断疾病的方法,进一步包括诊断疾病的阶段,其中所述疾病是癌症。
在实施例中,本发明提供了一种当疾病处于低病理阶段时诊断疾病的方法,其中所述疾病是癌症,其中所述病理阶段是I期或II期。
在实施例中,本发明提供了一种使用非哺乳动物特征来预测哺乳动物疾病的分子特征的方法,其中所述哺乳动物疾病是癌症,其中所述分子特征是突变状态。
在实施例中,本发明提供了一种预测哪些受试者将对疾病的特定治疗有反应或无反应的方法,其中所述疾病是癌症,其中所述受试者是人,其中所述治疗是免疫治疗,其中所述免疫治疗是PD-1阻断(例如,纳武利尤单抗、派姆单抗)。
在实施例中,本发明提供了一种诊断疾病的方法,进一步包括基于所确定的疾病的非哺乳动物特征来治疗受试者中的疾病,其中所述疾病是癌症,其中所述非哺乳动物特征是微生物,其中所述受试者是人。
在实施例中,本发明提供了一种诊断疾病的方法,进一步包括基于其非哺乳动物特征设计治疗受试者中的哺乳动物疾病的新治疗,其中所述疾病是癌症,其中所述非哺乳动物特征是微生物,其中所述受试者是人。
在实施例中,可以设计新的治疗,以使用以下中的一种或多种形态靶向和利用在哺乳动物疾病中确定的非哺乳动物特征:小分子、生物制品、工程宿主来源的细胞类型、益生菌、工程细菌、天然但选择性的病毒、工程病毒和噬菌体。
在实施例中,本发明提供了一种诊断疾病的方法,进一步包括对其非哺乳动物特征的纵向监测,以指示对治疗疾病的反应,其中所述疾病是癌症,其中所述非哺乳动物特征是微生物,其中所述受试者是人。
在实施例中,本发明提供了一种测量特定组织样本中的微生物存在或丰度,从而允许诊断疾病的试剂盒。
在实施例中,本发明利用基于机器学习架构的诊断模型。
在实施例中,本发明利用基于正则化机器学习架构的诊断模型。
在实施例中,本发明利用基于机器学习架构的集成的诊断模型。
在实施例中,本发明识别并选择性地去除作为称为噪声的污染物的某些非哺乳动物特征,同时选择性地保留作为称为信号的非污染物的其他非哺乳动物特征,其中所述非哺乳动物特征是微生物。
在实施例中,本发明提供了一种诊断疾病的方法,其中微生物来源于病毒、细菌、古细菌和/或真菌。
在实施例中,本发明提供了一种诊断疾病的方法,其中将微生物存在或丰度信息与关于宿主(受试者)和/或宿主的(受试者的)癌症的附加信息相结合,以创建与仅具有微生物存在或丰度信息相比具有更大预测性能的诊断模型。
在实施例中,诊断模型利用信息并结合来自一个或多个以下来源的微生物存在或丰度信息:无细胞肿瘤DNA、无细胞肿瘤RNA、外体来源的肿瘤DNA、外体来源的肿瘤RNA、循环肿瘤细胞来源的DNA、循环肿瘤细胞来源的RNA、无细胞肿瘤DNA的甲基化模式、无细胞肿瘤RNA的甲基化模式、循环肿瘤细胞来源的DNA的甲基化模式和/或循环肿瘤细胞来源的RNA的甲基化模式。
在实施例中,微生物存在或丰度通过一种或多种以下方法的核酸检测来检测:靶向微生物测序(例如,16S rRNA测序、18S rRNA ITS测序)、生态鸟枪法测序、定量聚合酶链反应(qPCR)、免疫组织化学法(IHC)、原位杂交(ISH)、流式细胞术、宿主全基因组测序、宿主转录组测序、癌症全基因组测序和癌症转录组测序。
在实施例中,微生物存在或不存在的地理空间分布在宿主的癌症组织中通过一种或多种以下方法来测量:肿瘤组织和/或其微环境的多重采样、IHC、ISH、数字空间基因组学、数字空间转录组学。
在实施例中,微生物核酸与来自宿主的核酸同时被检测,且随后被区分。
在实施例中,在测量(例如,测序)组合核酸池之前,宿主核酸被选择性地耗尽,而微生物核酸被选择性地保留。
在实施例中,本发明规定组织是血液,血液(例如,血浆)的成分或组织活体切片,其中组织活体切片可以是恶性或非恶性的。
在实施例中,癌症的微生物存在或丰度通过测量宿主其他位置的微生物存在或丰度来确定。
附图说明
图1A至图1D:图1A(左)显示由癌症基因组图谱(TCGA)中33种癌症类型和超过10,000个患者的生物信息学微生物检测管线确定为“微生物”的测序读数的总百分比,以及汇总至属分类级别时保留的微生物读数的百分比(右)。图1B至图1C显示对归一化(即,其分布近似正态),但没有批量校正的微生物丰度(1B)以及归一化和批量校正的微生物丰度(1C)的主成分分析(PCA)。图例显示数据来自总共八个测序中心。图1D显示批量校正前后的主方差成分分析(PVCA)的结果,以估计归因于数据集中每个主要元数据变量的微生物方差量(“信号”)。倍数增加和倍数减少显示在批量校正过程中发生变化的主要元数据变量上方。
图2A至图2F:在图2A中,对经临床评估患有感染有HPV的宫颈鳞状细胞癌和宫颈腺癌的患者进行其肿瘤和匹配血样中的α乳头瘤病毒属的不同丰度检查。将原发性肿瘤样本作为阳性对照进行比较,并且将正常血液来源的样本作为阴性对照进行比较。在图2B中,使用原位杂交(ISH)和免疫组织化学法(IHC)测定(p16)比较经临床评估患有感染HPV的头颈部鳞状细胞癌(TCGA-HNSCC;原发性肿瘤样本)的患者的α乳头瘤病毒属的不同丰度。在图2C中,对通过癌症基因组图谱研究网络被指定为整合分子亚型的胃腺癌患者和爱泼斯坦-巴尔病毒(EBV)亚型患者进行了EBV属(即,淋巴潜隐病毒属)的选择性过丰度检查。正常血液来源的样本和正常固体组织样本显示为阴性对照。STAD的其他分子亚型:CIN=染色体不稳定;GS=基因组稳定;MSI=微卫星不稳定。在图2D中,将具有临床判定的肝细胞肝癌风险因素的患者与正嗜肝DNA病毒属的归一化丰度进行绘图,以检查有乙型肝炎感染史的患者中正嗜肝DNA病毒属的选择性过丰度。“EtOH”表示大量饮酒是先前的风险因素,而“Hep C”表示先前的丙型肝炎感染。正常血液来源的样本显示为阴性对照;固体组织正常样本揭示乙型肝炎的病毒载量高。在图2E中,评估了常见胃肠癌的文献中相关的梭杆菌属的不同丰度。血液来源的正常样本和固体组织正常样本被示出用于比较阴性对照。在图2F中,在胃肠道(GI道)癌和非胃肠道癌之间检测了梭杆菌属的丰度。胃肠道组包括以下癌症:结肠腺癌、直肠腺癌、胆管癌、肝细胞肝癌、胰腺癌、头颈部鳞状细胞癌、食管癌和胃腺癌。表1中剩余的癌症类型被置于非胃肠道癌中,但急性骨髓性白血病除外,它被排除在本分析之外。来自相邻非恶性组织的梭杆菌属丰度被包括在两组中作为阴性对照。对于所有图:y轴显示log2标度的归一化微生物丰度;所有比较均使用双侧曼-惠特尼测试进行显著性测试;符号如下:****代表p值≤0.0001,***代表p值≤0.001,**代表p值≤0.01,*代表p值≤0.05,而“ns”代表不显著。
图3:α乳头瘤病毒属丰度在32种癌症类型和3种样本类型(正常固体组织、正常血液来源的正常和原发性肿瘤)中的分布。对于临床判定患有感染HPV的患者的癌症类型,癌症类型分为测试HPV感染“阳性”或“阴性”的组。虚线是每个样本类型中所有测试为“阴性”的患者的平均丰度值。
图4A至图4F:针对微生物RNA读数,探索Hugo等人收集的关于接受抗-PD-1免疫治疗(派姆单抗或纳武利尤单抗)前的患者的完整转录组数据(RNA-Seq)(2016;Science;PMID:26997480)。图4A显示完全反应(CR)患者与进行性疾病(PD)患者的主要坐标分析。“Adonis”表示对所述组的两个形心之间的显著分离的PERMANOVA测试。图4B显示每个患者到他或她各自形心(即,CR或PD)的距离,这是β多样性的度量,即CR患者的β分散明显低于PD患者。“Betadisper Perm Test”表示排列测试,以辨别各组之间的β分散是否显著不同。图4C显示完全反应(CR)患者与部分反应(PR)患者的主要坐标分析。“Adonis”表示对所述组的两个形心之间的显著分离的PERMANOVA测试。图4D显示每个患者到他或她各自形心(即,CR或PR)的距离,这是β多样性的度量,即CR患者的β分散明显低于PR患者。“Betadisper PermTest”表示排列测试,以辨别各组之间的β分散是否显著不同。图4E显示仅使用微生物DNA或RNA丰度来预测TCGA中结肠腺癌样本中的微卫星不稳定性的ROC和PR曲线(即,机器学习模型性能)。这些性能是基于模型根据70%的数据进行训练并使用训练数据的k倍交叉验证进行内部参数化之后随机选择的30%保留测试集。图4F显示用于预测哪些TCGA乳腺癌样本是否是三阴性的ROC和PR曲线。这些性能是基于模型根据70%的数据进行训练并使用训练数据的k倍交叉验证进行内部参数化之后随机选择的30%保留测试集。
图5A至图5F:以下癌症类型的ROC和PR曲线:肾上腺皮质癌、膀胱尿路上皮癌。样本箭头在第一个ROC和PR图中给出,并且针对给定的概率截止阈值1.0或0.0,指向图上各自的极值位置;概率截止阈值谱的其余部分,以及它们各自的ROC或PR点,成比例地跨越在图上的由箭头指示的两个点之间。缩写如下:“PT”表示“原发性肿瘤”,“BDN”表示“正常血液来源的”,并且“STN”表示“正常固体组织”。对于标有“PT”和“BDN”的图,预测是以一种癌症类型对所有其他类型的方式进行的;对于标有“PT对STN”的图,进行预测以区别给定癌症类型内的原发性肿瘤组织和邻近的正常固体组织。所有预测性能都是根据针对给定比较根据剩余70%数据训练相应的模型之后随机选择的30%保留测试集产生的;在模型训练期间,采用k倍交叉验证来微调模型参数。此外,在类别不平衡的情况下,少数类别被向上抽样,以促进模型的泛化。
图6A至图6F:以下癌症类型的ROC和PR曲线:膀胱尿路上皮癌、脑低级胶质瘤。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图7A至图7F:以下癌症类型的ROC和PR曲线:乳腺浸润性癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图8A至图8F:以下癌症类型的ROC和PR曲线:宫颈鳞状细胞癌和宫颈腺癌、胆管癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图9A至图9F:以下癌症类型的ROC和PR曲线:结肠腺癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图10A至图10F:以下癌症类型的ROC和PR曲线:食管癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图11A至图11F:以下癌症类型的ROC和PR曲线:多形性成胶质细胞瘤、头颈部鳞状细胞癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图12A至图12F:以下癌症类型的ROC和PR曲线:头颈部鳞状细胞癌、肾嫌色细胞癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图13A至图13F:以下癌症类型的ROC和PR曲线:肾嫌色细胞癌、肾脏肾透明细胞癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图14A至图14F:以下癌症类型的ROC和PR曲线:肾脏肾乳头状细胞癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图15A至图15F:以下癌症类型的ROC和PR曲线:肝细胞肝癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图16A至图16F:以下癌症类型的ROC和PR曲线:肺腺癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图17A至图17F:以下癌症类型的ROC和PR曲线:肺鳞癌、淋巴肿瘤弥漫性大B细胞淋巴瘤。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图18A至图18F:以下癌症类型的ROC和PR曲线:间皮瘤、卵巢浆液性囊腺癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图19A至图19F:以下癌症类型的ROC和PR曲线:胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图20A至图20F:以下癌症类型的ROC和PR曲线:前列腺癌、直肠腺癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图21A至图21F:以下癌症类型的ROC和PR曲线:直肠腺癌、肉瘤。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图22A至图22F:以下癌症类型的ROC和PR曲线:皮肤黑色素瘤、胃腺癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图23A至图23F:以下癌症类型的ROC和PR曲线:胃腺癌、睾丸生殖细胞肿瘤。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图24A至图24F:以下癌症类型的ROC和PR曲线:胸腺瘤、甲状腺癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图25A至图25F:以下癌症类型的ROC和PR曲线:甲状腺癌、子宫肉瘤、子宫体子宫内膜癌。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图26A至图26F:以下癌症类型的ROC和PR曲线:子宫体子宫内膜癌、葡萄膜黑色素瘤。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图27A至图27B:以下癌症类型的ROC和PR曲线:葡萄膜黑色素瘤。缩写在图5A至图5F的标题中给出。模型性能的产生方式与图5A至图5F的标题中描述的方式相同。
图28:图28A显示去污管线的一个实施例,其努力通过核酸测序和数据分析来确定并随后去除来自组织的初次手术切除的污染微生物(“噪声”),同时保留非污染微生物(“信号”)。图28B和图28C分别显示在基于完全(“未去污”)数据和去污数据建立的模型上作为ROC和PR曲线下面积的比较模型性能。带有灰色标准误差条带状图的线性回归显示具有数据点;显示对角线是为了标示两组模型性能之间将成为的完美(1:1)对应关系。在此特定实施例中,在模型构建和测试之前完全移除被去污管线怀疑是污染物的微生物分类(参见图28A)。如前所述,如图5A至图5F所述来构建和测试模型,即预测是使用“原发性肿瘤”或“正常血液来源的”组织的一种癌症类型对所有其他类型。模型性能是在根据剩余70%的数据训练模型且对模型参数化进行内部k倍交叉验证后,根据随机选择的30%保留测试集产生。
图29A至图29I:图29A显示验证在图5A-27B中观察到的模型性能的一个实施例。具体来说,在归一化和批量校正之前,原始微生物计数数据以分层方式分成两半。然后,在机器学习模型构建之前,通过归一化和批量校正管线处理每一半原始数据。在这种情况下,根据前半部分构建的模型学习模型根据后半部分进行测试,反之亦然。将得到的模型性能与基于50%的完整的、非子集的、归一化的、批量校正的数据建立模型进行比较,然后对剩余的50%的完整的、非子集的、归一化的、批量校正的数据进行测试。在热图中显示并标记ROC和PR曲线的曲线值下面积,每行都是(并标记为)不同的TCGA癌类型(参见表1的缩写)。图29B和图29C显示被构建以使用DNA和RNA(“完整数据”)或仅使用RNA来区分一种癌症类型与所有其他癌症类型的模型之间的比较模型性能(ROC和PR曲线面积)。所有微生物的DNA和/或RNA都来自TCGA中的原发性肿瘤,并且每个数据点都分别标记有TCGA癌症类型。模型性能通过将训练好的模型应用于随机选择的30%保留测试集产生。图29D和图29E显示被构建以使用DNA和RNA(“完整数据”)或仅使用DNA来区分一种癌症类型与所有其他癌症类型的模型之间的比较模型性能(ROC和PR曲线面积)。所有微生物的RNA和/或DNA都来自TCGA的原发性肿瘤,并且每个数据点都分别标记有TCGA癌症类型。模型性能通过将训练好的模型应用于随机选择的30%保留测试集产生。图29F和图29G显示被构建以使用来自所有八个TCGA测序中心(“完整数据”)或仅来自北卡罗来纳大学(UNC)的测序数据来区分一种癌症类型与所有其他癌症类型的模型之间的比较模型性能(ROC和PR曲线面积)。值得注意的是,来自UNC的所有测序数据仅是RNA(RNA-Seq),因此这种比较消除了由于包含多个测序中心和实验类型而可能产生的差异。所有微生物的DNA和/或RNA都来自TCGA中的原发性肿瘤,并且每个数据点都分别标记有TCGA癌症类型。模型性能通过将训练好的模型应用于随机选择的30%保留测试集产生。图29H和图29I显示被构建以使用来自所有八个TCGA测序中心(“完整数据”)或仅来自哈佛医学院(HMS)的测序数据来区分一种癌症类型与所有其他癌症类型的模型之间的比较模型性能(ROC和PR曲线面积)。值得注意的是,来自HMS的所有测序数据仅是DNA(全基因组测序,WGS),因此这种比较消除了由于包含多个测序中心和实验类型而可能产生的差异。所有微生物的RNA和/或DNA都来自TCGA中的原发性肿瘤,并且每个数据点都分别标记有TCGA癌症类型。模型性能通过将训练好的模型应用于随机选择的30%保留测试集产生。
图30A至图30J:TCGA中的五大最常见突变(TP53、PTEN、PIK3CA、ARID1A、APC)的突变状态仅通过肿瘤内微生物DNA和RNA丰度来预测。ROC曲线和PR曲线下面积显示在各自的图上。
图31:为了进行基准化测试,探究TCGA中所有I期和II期癌症的患者,以仅使用其匹配血样中确定的微生物DNA来区分癌症类型之间的性能。如前所述来构建和测试模型:使用70%的数据(随机选择的)来训练判别模型,并进行内部k倍交叉验证以用于模型微调,并且基于剩余的、保留的30%的数据来产生最终性能值;仅使用微生物DNA就可以预测一种癌症类型对所有其他类型。此外,在三个去污严格级别上比较模型性能,这导致模型是基于去除不同比例的原始微生物的四个不同的数据集来构建;例如,在“最严格过滤”实施例中,超过90%的原始读数和分类群被丢弃。本领域的技术人员将认识到,存在许多可能的本文可以使用的去污严格性变化,并且通过将严格性水平移位成更高或更低,可以改善或恶化模型性能。
图32A至图32C:针对现有无细胞肿瘤DNA(ctDNA)测定的保守性比较分析,去除了通过两种商业ctDNA测定(GUARDANT360、FOUNDATIONONE液体)进行检测的其肿瘤中含有至少一个突变的所有TCGA患者。所患癌症在任何情况下都不能用这两种商业ctDNA测定来检测的剩余患者具有从TCGA中的其匹配血样中提取的微生物DNA。使用这种微生物DNA,随后训练和测试机器学习模型,以预测一种癌症类型与所有其他癌症类型;如前所述,基于将模型应用于随机选择的30%保留测试集而产生性能。在GUARDANT360 ctDNA板图上没有任何可检测基因组改变的患者的最终模型性能示于图32A中;类似地,在FOUNDATIONONE液体ctDNA板图上没有任何可检测基因组改变的患者的模型性能示于图32B中。这些商业ctDNA测定板图检测的基因组改变的准确列表列于图32C中
图33A至图33B:开发网站来托管和展示TCGA几十种癌症类型的微生物存在和丰度信息(图33A),以及显示模型在一种癌症类型对所有其他类型和肿瘤对正常的比较中的区别性能和它们的分级微生物特征(图33B)。
具体实施方式
在实施例中,本发明提供一种使用非人来源的核酸来准确地诊断来自恶性或非恶性人类组织活体切片或血液来源样本的人类癌症、其亚型及其治疗反应可能性的方法。它通过确定样本中微生物核酸的特定模式和其存在或丰度(‘签名’)来指派特定概率:样本(1)来源于肿瘤而不是'正常'组织部位(例如,样本是手术切除的固体组织活体切片);(2)个体患有癌症(例如,样本来自典型的抽血,有或没有诊断癌症的意图);(3)个体患有来自特定身体部位的癌症(例如,样本来自典型的抽血,有或没有诊断癌症的意图);(4)个体患有特定类型的癌症(例如,疑似癌症患者抽血以快速诊断可能是哪种癌症,而不是进行基于辐射的成像研究[例如,PET-CT]或其他昂贵的成像研究[例如,MRI];另选地,可取新发现的肿瘤病变的组织活体切片,并且微生物‘签名’可以指示它是哪种癌症类型);(5)当时可能被诊断或可能未被诊断的癌症对特定癌症疗法具有高或低的可能性或反应(例如,取可疑肿瘤病变的组织活体切片,对于组织活体切片,微生物“签名”预测患者是否将对治疗有反应;另选地,可以使用来自同一患者的血样,对于所述样本,微生物‘签名’可以预测患者肿瘤的免疫原性);(6)发现当时可能被诊断或可能未被诊断的癌症具有微生物特征(例如,微生物抗原),其可被靶向,用于制定个性化治疗以治疗受试者的癌症(例如,固体组织活体切片揭示肿瘤组织中独特的微生物新抗原,其可用于为受试者开发个性化的癌症疫苗)。对于本领域技术人员来说,这些方法的其他用途是可以合理想象的,并且是容易实现的。
本发明是新颖的,部分是因为它使用非人类来源的核酸来诊断传统上被认为是人类基因组的疾病的病症(即,癌症)。它优于典型的病理报告,因为它不一定依赖于观察到的组织结构、细胞异型性或传统上用于诊断癌症的任何其他主观测量。通过只关注微生物来源,而不是经常在‘正常’人来源的背景中以极低频率被修改的修改的人(即,癌)来源,它还具有更好的灵敏度。它可以使用固体组织或血液来源的样本来完成,其中后者需要最少的样本制备并且是微创的。它还可以预测对预后仍然具有挑战性的治疗的反应,包括区分免疫治疗的“完全反应者”和将经历“进行性疾病”的受试者。在某些情况下,它可以进一步提供关于宿主分子畸变和过程的信息,诸如受试者癌症的突变状态。此外,基于血液的测定不能应对循环肿瘤DNA(ctDNA)测定带来的相同挑战,循环肿瘤DNA测定可能因源自非恶性人类细胞的无细胞DNA(cfDNA)而具有敏感性问题。此外,基于图5A至图27B中呈现的数据,基于血液的微生物测定可以区分癌症类型,而ctDNA测定通常不能,这是因为大多数常见的癌症基因组畸变在癌症类型之间是共有的(例如,TP53突变、KRAS突变)。通过限制签名的大小(其方法将由本领域的技术人员来预期(例如,正则化的机器学习)),可以通过使用例如多路复用qPCR、ISH或桌面测序仪(例如,MinION,MiniSeq)来进行微生物测定。
本文中包含微生物签名的机器学习模型可基于实时测序数据或回顾性测序数据来部署。这些签名本身最初从旨在对宿主核酸进行测序的数据发展而来,但也包括(但不分析)微生物特征(即,人类全基因组测序和RNA-Seq)。其中包括对超过17,000个样本、超过10,000个患者和来自不同地理区中的患者的数十种癌症类型进行的测序研究。然而,如果需要,则这些模型的输入数据也可以来自靶标宏基因组研究(例如,16S rRNA测序、鸟枪法测序)。此外,这种微生物存在或丰度信息可以与宿主核酸信息相结合,以提高这些模型在实践中的预测性能。付诸实践时,这可能包括或者可能不包括进行以下操作(即,其他示例是可能的,并且将是本领域技术人员所预期的):
-在常规门诊就诊期间从患者采集血样;
-取出所述血样的等分试样,提取其中的核酸,并扩增指示微生物分类的特定微生物基因的序列(例如,16S rRNA基因的V4区);
-获得这些微生物序列的存在和/或丰度的数字读出;
-将相邻计算机或云计算基础设施上的存在和/或丰度数据归一化,并将其馈送至先前训练好的机器学习模型中;
-读出此样本(1)与癌症的存在或不存在如何相关联,(2)与特定类型或身体位置的癌症如何相关联,或(3)与对一系列癌症治疗的反应的高可能性、中间可能性或低可能性如何相关联的预测和一定程度的置信度;以及
-如果用户后来输入附加信息,则使用此样本的微生物信息继续训练机器学习模型。
本说明书中提及的所有公开、专利和专利申请都以引用方式以相同的程度并入本文中,如同每个单独的公开、专利或专利申请都被具体和单独地指示以引用方式并入那样。
除非另有定义,否则本文使用的所有技术和科学术语及任何首字母缩略词具有与本发明领域普通技术人员所通常理解相同的含义。尽管在本发明的实践中可以使用类似于或等同于本文描述者的任何方法和材料,但是本文描述示例性的方法、装置和材料。
除非另有说明,否则本发明的实践将采用分子生物学(包括重组技术)、微生物学、细胞生物学、生物化学和免疫学的常规技术,这些技术都在本领域的技术范围内。这些技术在以下文献中作出充分解释:诸如Molecular Cloning:A Laboratory Manual,2nd ed.(Sambrook等人,1989);Oligonucleotide Synthesis(M.J.Gait,ed.,1984);Animal CellCulture(R.I.Freshney,ed.,1987);Methods in Enzymology(Academic Press,Inc.);Current Protocols in Molecular Biology(F.M.Ausubel et al.,eds.,1987,andperiodic updates);PCR:The Polymerase Chain Reaction(Mullis等人,eds.,1994);Remington,The Science and Practice of Pharmacy,20th ed.,(Lippincott,Williams&Wilkins 2003)和Remington,The Science and Practice of Pharmacy,22th ed.,(Pharmaceutical Press and Philadelphia College of Pharmacy at University ofthe Sciences 2012)。
定义
为了便于理解本发明,本文使用的许多术语和缩写定义如下:
当介绍本发明的元素或其优选实施例时,冠词“一个”、“一种”、“所述(the和said)”旨在表示存在元素中的一个或多个。术语“包括”、“包含”和“具有”旨在是包含性的,且意味着除了列出的元素之外,还可存在附加元素。
术语“和/或”在两个或更多个项目的列表中使用时,意指所列项目中的任何一个可单独使用,也可与所列项目中的任何一个或多个结合使用。例如,表达“A和/或B”旨在意指A和B中的任一个或两个,即,单独A,单独B,或者A和B组合。表达“A、B和/或C”旨在意指单独A、单独B、单独C、A和B组合、A和C组合、B和C组合或A、B和C组合。
应当理解,本文描述的本发明的方面和实施例包括“由方面和实施例组成”和/或“基本由方面和实施例组成”。
应当理解,范围格式的描述仅仅是为了方便和简洁起见,并且不应当被视为对本发明范围的不灵活的限制。因此,范围的描述应该被认为已经具体公开了所有可能的子范围以及所述范围内的单个数值。例如,对诸如从1到6等范围的描述应被认为已经具体公开了子范围,例如从1到3、从1到4、从1到5、从2到4、从2到6、从3到6等以及所述范围内的单个数字,例如1、2、3、4、5和6。无论范围有多宽,这都适用。值或范围在本文中也可以表达为“约”,从“约”一个特定值,和/或到“约”另一个特定值。当表达这些值或范围时,所公开的其他实施例包括所列举的特定值,从一个特定值,和/或到另一个特定值。类似地,当通过使用先行词“约”将值表达为近似值时,将理解特定值形成另一个实施例。将进一步理解,其中公开多个值,并且除了所述值本身之外,每个值在本文中也被公开为“约”所述特定值。在实施例中,“约”可用于意指例如在所述值的10%内、在所述值的5%内或在所述值的2%内。
本文所用的“患者”或“受试者”是指待治疗的人或哺乳动物受试者。
本文所用的术语“药物组合物”是指药学上可接受的组合物,其中所述组合物包含药物活性剂,并且在一些实施例中进一步包含药学上可接受的载体。在一些实施例中,药物组合物可以是药物活性剂和载体的组合。
本文所用的术语“药学上可接受的载体”是指辅料、稀释剂、防腐剂、增溶剂、乳化剂、佐剂和/或与去甲基化化合物一起施用的赋形剂。这些载体可以是无菌液体,诸如水和油,包括石油、动物、植物或合成来源的那些(诸如花生油、大豆油、矿物油、芝麻油等)、聚乙二醇、甘油、丙二醇或其他合成溶剂。诸如苯甲醇或对羟基苯甲酸甲酯等抗菌剂;诸如抗坏血酸或亚硫酸氢钠等抗氧化剂;诸如乙二胺四乙酸等螯合剂;以及诸如氯化钠或右旋糖等用于调整紧张性的药剂也可以是载体。生产与载体结合的组合物的方法是本领域技术人员已知的。在一些实施例中,语言“药学上可接受的载体”旨在包括与药物施用相容的任何和所有溶剂、分散介质、包衣、等渗剂和吸收延迟剂等。这种介质和用于药物活性物质的药剂的用途是本领域众所周知的。参见例如Remington,The Science and Practice ofPharmacy,20th ed.,(Lippincott,Williams&Wilkins 2003)。除了任何常规介质或药剂与活性化合物不相容的情况外,会设想到组合物中的这种用途。
本文所用的“治疗有效”是指足以治疗或改善或以某种方式减轻与疾病和医学病症相关的症状的药物活性化合物的量。当参照一种方法使用时,所述方法足以有效治疗或改善或以某种方式减轻与疾病或病症相关的症状。例如,涉及到与年龄相关眼病时的有效量是足以阻断或预防发病的量;或者如果疾病病理学已经开始,减轻、改善、稳定、逆转或减缓疾病进展或者减少疾病的病理学后果的量。在任何情况下,有效量可以单剂量或分剂量给药。
本文所用的术语“治疗(treat、treatment或treating)”包括至少与患者中的疾病相关的症状的改善,其中改善在广义上至少用于指参数大小,例如与正在治疗的疾病或病症相关的症状减轻。因此,“治疗”还包括疾病、障碍或病理病症或至少与之相关的症状被完全抑制的情况(例如,阻止发生)或者停止(例如,终止),使得患者不再患有所述病症,或者至少不再患有表征所述病症的症状。
“扩增”是指用于获得靶核酸或其互补物或其片段的多个拷贝的任何已知程序。多个拷贝可以被称为扩增子或扩增产物。在片段的上下文中,扩增是指产生含有少于完整靶核酸或其互补物的扩增核酸,例如,通过使用与靶核酸的内部位置杂交并从其开始聚合的扩增寡核苷酸来产生。已知的扩增方法包括,例如,复制酶介导的扩增、聚合酶链反应(PCR)、逆转录聚合酶链反应(RT-PCR)、连接酶链反应(LCR)、链置换扩增(SDA)和转录介导或转录相关的扩增。扩增不限于起始分子的严格复制。例如,使用逆转录(RT)-PCR从样本中的RNA产生多个cDNA分子是一种扩增形式。此外,在转录过程中由单个DNA分子产生多个RNA分子也是一种扩增形式。在扩增过程中,可以使用例如标记的引物或通过掺入标记的核苷酸来标记扩增的产物。
“扩增子”或“扩增产物”是指在扩增程序期间产生的与靶核酸或其区互补或同源的核酸分子。扩增子可以是双链或单链的,并且可以包括DNA、RNA或两者。产生扩增子的方法是本领域技术人员已知的。
“密码子”是指一起形成核酸中的遗传密码单元的三个核苷酸的序列。
“感兴趣的密码子”是指靶核酸中具有诊断或治疗意义的特定密码子(例如,与病毒基因型/亚型或耐药性相关的等位基因)。
“互补的”或“其互补物”意味着连续核酸碱基序列能够通过一系列互补碱基之间的标准碱基配对(氢键合)与另一个碱基序列杂交。互补序列可以是通过使用标准碱基配对(例如,G:C、A:T或A:U配对)在寡聚物序列中相对于其靶序列的每一位置完全互补(即,核酸双链体中没有错配),或序列可能含有通过碱基配对的一个或多个不互补的位置(例如,核酸双链体中存在至少一个错配或不匹配的碱基),但是这种序列是足够互补的,因为整个寡聚物序列能够在适当的杂交条件下与其靶序列特异性杂交(即,部分互补)。寡聚物中的连续碱基通常与预期的靶序列至少80%,优选至少90%,并且更优选完全互补。
“被配置成”或“被设计成”表示参考寡核苷酸的核酸序列构型的实际排列。例如,被配置成从靶核酸产生特定扩增子的引物具有与靶核酸或其区杂交的核酸序列,并可用于扩增反应以产生扩增子。同样作为示例,被配置成与靶核酸或其区特异性杂交的寡核苷酸具有在严格杂交条件下与参考序列特异性杂交的核酸序列。
“聚合酶链反应”(PCR)通常是指使用核酸变性、引物对退火到相反链(正向和反向)和引物延伸的多个循环来指数增加靶核酸序列拷贝数的过程。在称为RT-PCR的变型中,使用逆转录酶(RT)从mRNA中制作互补DNA(cDNA),然后通过PCR扩增cDNA以产生多个DNA拷贝。对于本领域普通技术人员来说,PCR存在许多排列。
“位置”是指核酸序列中特定的一个或多个氨基酸。
“引物”是指酶促延伸的寡核苷酸,通常具有定义的序列,所述序列被设计成以反平行方式与靶核酸的互补引物特异性部分杂交。当置于合适的核酸合成条件(例如,退火至靶的引物可以在核苷酸和DNA/RNA聚合酶的存在下,在合适的温度和pH值下延伸)下时,引物可以模板依赖方式引发核苷酸的聚合,以产生与靶核酸互补的核酸。合适的反应条件和试剂是本领域普通技术人员已知的。引物通常是单链的,以获得最大的扩增效率,但另选地也可以是双链的。如果是双链的,则在用于制备延伸产物之前,引物通常首先被处理以分离其链。引物通常足够长以在诱导剂(例如,聚合酶)存在下引发延伸产物的合成。具体的长度和序列将取决于所需DNA或RNA靶的复杂性,以及引物使用的条件,诸如温度和离子强度。优选地,引物为约5-100个核苷酸。因此,引物的长度可以是例如5、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、55、60、65、70、75、80、85、90、95或100个核苷酸。引物不需要与它的模板有100%的互补性就能发生引物伸长;互补性小于100%的引物可足以发生杂交和聚合酶伸长。如果需要,可以标记引物。引物上使用的标记可以是任何合适的标记,并且可以通过例如光谱、光化学、生物化学、免疫化学、化学或其他检测手段进行检测。因此,标记的引物是指在促进杂交以允许选择性检测靶序列的条件下,与核酸或扩增核酸中的靶序列特异性杂交的寡聚物。
如果需要,则可以通过掺入可例如通过光谱、光化学、生物化学、免疫化学、化学或其他技术检测的标记来标记引物核酸。为了说明,有用的标记包括放射性同位素、荧光染料、电子致密试剂、酶(如ELISAs中常用的)、生物素或半抗原以及抗血清或单克隆抗体可用的蛋白。这些和其他标记中的许多在本文中进一步描述和/或在本领域中是已知的。本领域技术人员将认识到,在某些实施例中,引物核酸也可以用作探针核酸。
“依赖RNA的DNA聚合酶”或“逆转录酶”(“RT”)是指一种从RNA模板合成互补DNA拷贝的酶。所有已知的逆转录酶也具有从DNA模板制作互补DNA拷贝的能力;因此,它们都是依赖RNA和DNA的DNA聚合酶。RT也可能具有RNAse H活性。需要引物来启动与RNA模板和DNA模板两者的合成。
“依赖DNA的DNA聚合酶”是指一种从DNA模板合成互补DNA拷贝的酶。示例是来自大肠杆菌的DNA聚合酶、噬菌体T7 DNA聚合酶或来自噬菌体T4、Phi-29、M2或T5的DNA聚合酶。依赖DNA的DNA聚合酶可以是从细菌或噬菌体中分离出来的或重组表达的天然存在的酶,或者可以是经过修饰或“进化”的形式,它们被工程化成具有某些所需的特性,例如热稳定性,或从各种修饰的模板中识别或合成DNA链的能力。所有已知的依赖DNA的DNA聚合酶都需要互补引物来启动合成。众所周知,在合适的条件下,依赖DNA的DNA聚合酶可以从RNA模板合成互补DNA拷贝。依赖RNA的DNA聚合酶通常也具有依赖DNA的DNA聚合酶活性。
“依赖DNA的RNA聚合酶”或“转录酶”是一种从具有通常为双链的启动子序列的双链或部分双链DNA分子中合成多个RNA拷贝的酶。RNA分子(“转录物”)从启动子下游的特定位置开始沿5'-至3'方向合成。转录酶的示例是来自大肠杆菌和噬菌体T7、T3和SP6的依赖DNA的RNA聚合酶。
核酸的“序列”是指核酸中核苷酸的顺序和同一性。序列通常在5'至3'方向读取。在两个或更多个核酸或多肽序列的上下文中,术语“相同”或“同一性”百分比是指当进行比较和比对以获得最大对应时,例如,如使用技术人员可用的序列比较算法之一或通过视觉检查所测量的,相同或具有相同的特定百分比的氨基酸残基或核苷酸的两个或更多个序列或子序列。适于确定序列同一性百分比和序列相似性的示例性算法是BLAST程序,其阐述在以下文献中:例如Altschul等人(1990)“Basic local alignment search tool”J.Mol.Biol.215:403-410、Gish等人(1993)“Identification of protein codingregions by database similarity search”Nature Genet.3:266-272、Madden等人(1996)“Applications of network BLAST server”Meth.Enzymol.266:131-141、Altschul等人(1997)"”Gapped BLAST and PSI-BLAST:a new generation of protein databasesearch programs”Nucleic Acids Res.25:3389-3402和Zhang等人(1997)“PowerBLAST:Anew network BLAST application for interactive or automated sequence analysisand annotation”Genome Res.7:649-656,上述文献分别以引用方式并入。许多其他最佳比对算法在本领域中也是已知的,并且可选地用于确定序列同一性百分比。
“标记”是指附着(共价或非共价地)或能够附着到分子的部分,所述部分提供或能够提供关于所述分子的信息(例如,描述、识别关于所述分子的信息等)或与标记分子相互作用(例如,杂交等)的另一分子。示例性标记包括荧光标记(包括,例如,淬灭剂或吸收剂)、弱荧光标记、非荧光标记、比色标记、化学发光标记、生物发光标记、放射性标记、质量修饰基团、抗体、抗原、生物素、半抗原、酶(包括,例如,过氧化物酶、磷酸酶等)等等。
“连接基”是指将化合物或取代基共价或非共价连接到另一个部分的化学部分,例如,核酸、寡核苷酸探针、引物核酸、扩增子、固体支持物等。例如,任选地使用连接基将寡核苷酸探针连接到固体支持物(例如,以线性或其他逻辑探针阵列)。为了进一步说明,连接基任选地将标记(例如,荧光染料、放射性同位素等)附着至寡核苷酸探针、核酸引物等。连接基通常是至少双功能的化学部分,并且在某些实施例中,它们包含可切割的附着物,所述附着物可以通过例如热、酶、化学药剂、电磁辐射等切割以从例如固体支持物释放材料或化合物。连接基的仔细选择允许在与化合物的稳定性和测定方法相容的适当条件下进行切割。通常,连接基没有特定的生物活性,除了例如将化学物种连接在一起,或者保持这些物种之间的某一最小距离或其他空间关系。然而,可以选择连接基的成分来影响连接的化学物种的一些性质,诸如三维构型、净电荷、疏水性等。示例性的连接基包括,例如,寡肽、寡核苷酸、寡聚酰胺、寡聚乙二醇、寡聚丙烯酰胺、烷基链等。连接基分子的附加描述提供在以下文献中:例如Hermanson,Bioconjugate Techniques,Elsevier Science(1996),Lyttle等人(1996)Nucleic Acids Res.24(14):2793、Shchepino等人(2001)Nucleosides,Nucleotides,&Nucleic Acids 20:369、Doronina等人(2001)Nucleosides,Nucleotides,&Nucleic Acids 20:1007、Trawick等人(2001)Bioconjugate Chem.12:900、Olejnik等人(1998)Methods in Enzymology 291:135和Pljevaljcic等人(2003)J.Am.Chem.Soc.125(12):3486,上述文献分别以引用方式并入。
“片段”是指包含的核苷酸比完整的核酸少的一段连续的核酸。
“杂交”、“退火”、“选择性结合”或“选择性结合的”是指一种核酸与另一种核酸(通常是反平行核酸)的碱基配对相互作用,其导致形成双链体或其他更高级结构(即,杂交复合体)。反平行核酸分子之间的主要相互作用通常是碱基特异性的,例如A/T和G/C。不要求两个核酸在其全长上具有100%的互补性来实现杂交。核酸杂交是由于多种很好表征的物理化学力,诸如氢键合、溶剂排斥、碱基堆积等。广泛的核酸杂交指南见于以下文献中:Tijssen(1993)Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes part Ichapter 2、“Overview ofprinciples of hybridization and the strategy of nucleic acid probe assays,”(Elsevier,New York)以及Ausubel(Ed.)Current Protocols in Molecular Biology,Volumes I,II,and III,1997,所述文献以引用方式并入。
术语“附着的”或“共轭的”是指材料或化合物相互连接或以其他方式相互接合的相互作用和/或状态。这些相互作用和/或状态通常通过例如,共价键合、离子键合、化学吸附、物理吸附及其组合来产生。
“组合物”是指两种或更多种不同组分的组合。在某些实施例中,例如,组合物在溶液中包含一种或多种寡核苷酸探针。
“核酸”或“核酸分子”是指包含两个或更多个共价键合的核苷或具有含氮杂环碱基的核苷类似物或碱基类似物的多聚体化合物,其中核苷通过磷酸二酯键或其他链键连接在一起形成多核苷酸。核酸包括RNA、DNA或嵌合的DNA-RNA聚合物或寡核苷酸及其类似物。核酸骨架可以由多种键构成,包括糖-磷酸二酯键、肽-核酸键、硫代磷酸酯键、甲基膦酸酯键或其组合中的一种或多种。核酸的糖部分可以是核糖、脱氧核糖或具有已知取代的类似化合物(例如,2'-甲氧基取代和2'-卤化物取代)。含氮碱基可以是常规碱基(A、G、C、T、U)或其类似物(例如,肌苷、5-甲基异胞嘧啶、异鸟嘌呤)。
“寡核苷酸”或“寡聚物”是指包含至少两个核酸单体单元(例如,核苷酸),典型地多于三个单体单元,并且更典型地多于十个单体单元的核酸。寡核苷酸的确切大小通常取决于各种因素,包括寡核苷酸的最终功能或用途。寡核苷酸任选地通过任何合适的方法制备,包括但不限于分离现有的或天然的序列、DNA复制或扩增、逆转录、克隆和适当序列的限制性消化或通过诸如以下方法进行直接化学合成:磷酸三酯方法,Narang等人(1979)Meth.Enzymol.68:90-99;磷酸二酯方法,Brown等人(1979)Meth.Enzymol.68:109-151;二乙基亚磷酰胺方法,Beaucage等人(1981)Tetrahedron Lett.22:1859-1862;三酯方法,Matteucci等人(1981)J.Am.Chem.Soc.103:3185-3191;自动合成方法;或固体支持物方法,美国专利第4,458,066号或本领域已知的其他方法。所有这些参考文献都通过引用并入本文。
“混合物”是指两种或更多种不同组分的组合。“反应混合物”是指包含能够参与和/或促进给定反应的分子的混合物。“扩增反应混合物”是指含有进行扩增反应所必需的试剂,并且通常在合适的缓冲液中含有引物、热稳定的DNA聚合酶、dNTP和二价金属阳离子的溶液。如果反应混合物含有进行反应所必需的所有试剂,则称其为完全的,而如果它只含有必需试剂的子集,则称其为不完全的。本领域技术人员将理解,出于方便、存储稳定性或考虑到组分浓度的应用依赖性调节的原因,反应组分通常作为单独的溶液存储,每种溶液含有总组分的子集,并且反应组分在反应之前合并以产生完整的反应混合物。此外,本领域的技术人员将理解,反应组分被单独包装用于商业化,并且有用的商业试剂盒可以含有反应组分的任何子集,其包括本发明的修饰引物。
实例
癌症患者测序数据中微生物的广泛评估在图1A中被示出跨越TCGA中的33种癌症类型。由于这些数据来自多个测序中心,因此它们必须在监督下进行批量校正(图1B至图1C),从而允许选择性地减少技术批次变量,同时保持或增加生物变量的重要性(图1D)。
随后进行了生态验证,以确保确定的微生物符合预期和/或观察到的临床和文献发现(图2A至图3)。
同时,Hugo等人的另一个数据集(2016;Science;PMID:26997480),即在患者接受抗PD-1免疫治疗(即纳武利尤单抗或派姆单抗)之前,所收集的患者肿瘤的完整转录组数据被收获用于微生物读数。然后使用肿瘤内微生物RNA来根据iRECIST分类区分“完全反应(CR)”患者和“进行性疾病(PD)”患者,并区分“完全反应(CR)”患者和“部分反应(PR)”患者。PCoA图显示在图4A和图4C中,并且比较之间的区别性β分散差异示于图4B和图4D中。
由于免疫原性的概念在预测对某些类型的癌症治疗的反应中是重要的,因此在TCGA中对癌症的免疫原性亚型进行了探索,以了解它们是否可以通过微生物DNA和RNA与癌症的非免疫原性亚型进行区分。本文提出的示例包括结肠癌中微卫星不稳定性的区分病例(图4E)和在其他乳腺癌亚型中三阴性(“基底样”)亚型乳腺癌的区分病例(图4F)。
以肝细胞肝癌为例,通过仅使用微生物DNA和RNA来区分来自特定癌症类型的原发性肿瘤样本,总共处理了32种癌症类型的13,883个原发性肿瘤样本,其中416个是肝癌。在基于随机选择的、类分层的70%的病例进行训练和基于剩余30%的病例进行测试之后,所述模型显示出接近完美的区分度,接收器操作者曲线(AUROC)下面积为0.991300703,并且精确-召回曲线(AUPR)下面积为0.940399017。图15E和图16F分别显示模型在随机选择的30%保留测试集上的性能的PR曲线和ROC曲线。模型性能也显示在图33B的网站截图中。
以肝细胞肝癌作为另一示例,通过仅使用微生物DNA来区分来自特定癌症类型的血液来源的正常样本,总共处理了1866个正常血液来源的样本,其中32个来自肝癌。在基于随机选择的、类分层的70%的病例进行训练后,所述模型基于剩余30%的病例进行了测试,并且显示出异常好的区分,AUROC为0.998585859,并且AUPR为0.888716603。相应的PR图和ROC图示于图15A和图15B中。
再次使用肝细胞肝癌作为仅使用微生物DNA和RNA来区分肿瘤组织和正常组织的另一个示例,提取来自肝癌患者的所有原发性肿瘤和相邻固体组织正常样本进行处理(n=488,其中416个为原发性肿瘤,72为相邻固体组织正常样本)。在基于随机选择的70%的病例进行训练后,所述模型基于剩余30%的病例进行了测试,并且显示出惊人的区分,AUROC为0.983102919,并且AUPR为0.997228962。相应的PR图和ROC图示于图15C和图15D中。
只要少数类别含有至少20个样本,就对TCGA数据集中的每种癌症类型的每一种可能的区分都应用了如上所述的类似的程序,并且示于图5A至图27B中。显示的癌症类型包括以下:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级胶质瘤、乳腺浸润性癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾脏肾透明细胞癌、肾脏肾乳头细胞癌、肝细胞肝癌、肺腺癌、肺鳞癌、淋巴肿瘤弥漫性大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞肿瘤、胸腺瘤、甲状腺癌、子宫肉瘤、子宫内膜癌或葡萄膜黑色素瘤。急性骨髓性白血病样本的区分性能数据示于临时应用中,但此处未显示。
如本文所示,在类别不平衡的情况下,使用少数类别的向上抽样来促进模型泛化。在临时申请中,以前尝试并提出了许多其他策略,包括:在模型训练期间样本的差分加权(即,少数类别的较高权重和多数类别的较低权重);向下采样多数类别;并且使用几种插值算法(即,SMOTE和ROSE)对少数类别的新示例进行插值。模型性能的微小变化是可能的,并且本领域的技术人员将通过它们的实现和精细微调来预期提高模型性能的方式。例如,这些策略中的一些导致相同区分的模型,这些模型在灵敏度和特异性方面有很大的不同,并且可以将这些模型组合成一个整体,以形成整体性能更好的模型。
值得注意的是,本文中呈现的模型已经被最小程度地微调,并且通过进一步的模型微调和/或采用不同的训练策略、增加样本大小、正则化、模型类型、建立模型集成或其组合,存在增加它们的预测准确性的预期机会,以及其他性能度量。
为了研究(去)污染对模型预测的影响,在机器学习模型建立和测试之前,理论上建立并实施了去污管线(图28A)。值得注意的是,图28A中描述的去污管线代表评估这种癌症微生物组数据的影响和从这种癌症微生物组数据中去除污染物的许多方式中的一种,并且本领域的技术人员将会预料到扩展或降低所呈现的管线的复杂性的其他这种方法。去污后,图28B和图28C显示,相对于基于未去污的“完整数据集”构建和测试的模型,分类器性能得以保持。
为了探索本文所述发现的一般性,进行了几个附加的分析步骤。首先将原始微生物计数数据以分层方式分成两半,然后分别对每一半进行归一化和批量校正,然后对每一半建立独立的机器学习模型。然后基于另一半的数据测试训练好的机器学习模型,以估计整体性能和模型泛化。这些预测包括仅使用来自原发性肿瘤的微生物DNA和RNA来标记一种癌症类型与所有其他癌症类型。然后,将这些性能值与基于完整数据集训练和测试的模型进行比较,所述模型已被归一化并通过50%-50%的训练测试分裂进行批量校正,同样地仅使用来自原发性肿瘤的微生物DNA和RNA预测一种癌症类型与所有其他癌症类型。结果示于图29A中。此外,基于仅RNA数据(图29B至图29C)或仅DNA数据(图29D至图29E)建立和测试的进一步比较分析模型没有显示出整体模型性能的显著降低。即使是更严格的比较分析,其中来自仅进行一种测序(北卡罗来纳大学:RNA-Seq)或另一种测序(哈佛医学院:全基因组测序)的单个测序中心的数据用于训练和测试模型,在仅基于微生物核酸信息预测一种癌症类型与所有其他类型时也没有显示出预测性能的显著降低(图29F至图29I)。
图30显示仅使用原发性肿瘤中的微生物DNA和RNA以泛癌方式预测TCGA中前五个最常见突变的突变状态的几个示例。
由于许多目前可用的液体活体切片诊断方法不能准确诊断低阶段癌症(I期和II期),因此使用源自仅患有I期或II期癌症的TCGA患者的血样的微生物DNA进行了保守性基准化分析。图31显示,仅使用微生物DNA来区分给定血样属于哪种癌症类型是容易可行的,并且进一步显示,不同的去污严格程度不会显著影响模型分类的性能。
图32还描绘非常保守的基准化分析,用于使用来自TCGA患者血样的微生物DNA预测癌症类型,如通过两种商业ctDNA测定测量,这些患者的肿瘤中没有任何可检测的基因组改变。结果表明,仅基于血样中发现的微生物DNA来区分给定血样属于哪种癌症类型是容易可行的,特别是当即使假设100%的灵敏度和100%的特异性时两种主要的液体活体切片测定仍甚至不能检测到癌症的存在时。
图33描述可如何建立电子网站界面,用于托管、展示和共享关于各种癌症类型中微生物存在和丰度的信息,以及显示模型性能和哪些微生物特征对模型进行特定区分最重要。对于本领域的任何技术人员来说,预期类似的电子在线界面可以用于使用微生物核酸远程评估和诊断癌症,所述微生物核酸作为可部署的试剂盒的一部分被测量。
附录A是在TCGA(n=1993)检测到的微生物特征列表(即,属级分类名称)。本文提出的模型并未正则化,并且可以利用全部1993个可用属的信息,尽管许多模型在30-1200个属中表现良好。此外,许多“去污的”数据集是从具有不同去污严格程度的这一原始“完整数据集”构建的。由于基于所有可能的比较和数据集训练和测试的模型的组合数量很高,并且由于每个模型的属的数量甚至更高(即,每个模型几个到很多个属),因此没有必要在本专利申请中列出每个排序的、唯一的模型特征(估计为>120,000个特征)。相反,期望本领域技术人员将能够使用本文所述的方法以及所提供的微生物特征列表来容易地复制本发明。进一步期望,通过一些算法或机器学习过程选择的这些微生物特征的任何子集,可以用于在各种癌症类型、亚型、突变状态、样本类型、治疗反应等之间做出各种区分性预测。
本文所述的诊断方法进一步为以下方法提供基础:一种用针对所诊断的癌症的有效量的治疗对所诊断的受试者进行治疗的方法,其中所述治疗在本领域中是已知的或后来被发现。
本领域技术人员已知的类似机器学习模型创建的示例是Ridgeway,“GeneralizedBoosted Models:a guide to the gbm package”2007以及Kuhn,Max,and Kjell Johnson,Applied predictive modeling.Vol.26.New York:Springer,2013,所述文献通过引用并入本文。
本发明的这些和其他方面的特征、替代形式和优点对于本领域技术人员来说在阅读本文公开的特定实施例后将是显而易见的,这些实施例不应被认为是对所要求保护的发明的范围的限制。
附录A
Figure BDA0003033374070000251
Figure BDA0003033374070000261
Figure BDA0003033374070000271
Figure BDA0003033374070000281
Figure BDA0003033374070000291
Figure BDA0003033374070000301
Figure BDA0003033374070000311
Figure BDA0003033374070000321
Figure BDA0003033374070000331
Figure BDA0003033374070000341
Figure BDA0003033374070000351
Figure BDA0003033374070000361
Figure BDA0003033374070000371
Figure BDA0003033374070000381
Figure BDA0003033374070000391
Figure BDA0003033374070000401
Figure BDA0003033374070000411
Figure BDA0003033374070000421
Figure BDA0003033374070000431
Figure BDA0003033374070000441
Figure BDA0003033374070000451
Figure BDA0003033374070000461
Figure BDA0003033374070000471
Figure BDA0003033374070000481
Figure BDA0003033374070000491
Figure BDA0003033374070000501
Figure BDA0003033374070000511
Figure BDA0003033374070000521
Figure BDA0003033374070000531
Figure BDA0003033374070000541
Figure BDA0003033374070000551
Figure BDA0003033374070000561
Figure BDA0003033374070000571
Figure BDA0003033374070000581
Figure BDA0003033374070000591
Figure BDA0003033374070000601
Figure BDA0003033374070000611
Figure BDA0003033374070000621
Figure BDA0003033374070000631
Figure BDA0003033374070000641
Figure BDA0003033374070000651
Figure BDA0003033374070000661
Figure BDA0003033374070000671
Figure BDA0003033374070000681

Claims (80)

1.一种用于基于非哺乳动物特征创建诊断模型以诊断哺乳动物疾病的方法,包括:
检测来自一个或多个哺乳动物受试者的组织样本中的微生物存在或丰度;
确定一个或多个所述哺乳动物受试者中微生物存在或丰度的共有模式;
在微生物存在或丰度的所述共有模式与所述哺乳动物受试者中存在的所述疾病之间形成关联;以及
总结诊断模型中的所述关联,以使用微生物存在或丰度来诊断另一哺乳动物组织样本中的疾病。
2.根据权利要求1所述的方法,其中所述诊断模型利用来自一个或多个以下非哺乳动物生命领域的微生物存在或丰度信息:病毒、细菌、古细菌和/或真菌。
3.根据权利要求1所述的方法,其中所述诊断模型诊断癌症的存在或不存在。
4.根据权利要求1所述的方法,其中所述诊断模型诊断癌症的类别或位置。
5.根据权利要求1所述的方法,其中所述诊断模型用于诊断受试者中的一种或多种癌症。
6.根据权利要求1所述的方法,其中所述诊断模型用于诊断受试者中的一种或多种亚型癌症。
7.根据权利要求1所述的方法,其中所述诊断模型用于预测受试者中的癌症的阶段和/或预测所述受试者中的癌症的预后。
8.根据权利要求1所述的方法,其中所述诊断模型用于诊断低阶段(I期或II期)肿瘤的一种类型的癌症。
9.根据权利要求1所述的方法,其中所述诊断模型用于预测所述受试者中的一种或多种癌症的突变状态。
10.根据权利要求1所述的方法,其中所述诊断模型用于预测受试者的免疫治疗反应。
11.根据权利要求1所述的方法,其中所述诊断模型用于为特定受试者选择最佳治疗。
12.根据权利要求1所述的方法,其中所述诊断模型用于纵向建模一种或多种癌症对治疗的反应过程,然后调整治疗方案。
13.根据权利要求1所述的方法,其中所述诊断模型诊断以下中的一种或多种:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级胶质瘤、乳腺浸润性癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾脏肾透明细胞癌、肾脏肾乳头细胞癌、肝细胞肝癌、肺腺癌、肺鳞癌、淋巴肿瘤弥漫性大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞肿瘤、胸腺瘤、甲状腺癌、子宫肉瘤、子宫内膜癌或葡萄膜黑色素瘤。
14.根据权利要求1所述的方法,其中所述诊断模型是机器学习模型。
15.根据权利要求1所述的方法,其中所述诊断模型是正则化机器学习模型。
16.根据权利要求1所述的方法,其中所述诊断模型是机器学习模型的集成。
17.根据权利要求1所述的方法,其中所述诊断模型识别并去除作为被称为噪声的污染物的某些微生物特征,同时选择性地保留被称为信号的其他微生物特征。
18.根据权利要求1所述的方法,其中所述受试者是非人类哺乳动物。
19.根据权利要求1所述的方法,其中所述受试者是人。
20.根据权利要求1所述的方法,其中所述组织是全血活体切片。
21.根据权利要求1所述的方法,其中所述组织活体切片是全血的一种或多种成分,包括但不限于以下中的一种或多种:血浆、白细胞、红细胞和/或血小板。
22.根据权利要求1所述的方法,其中所述组织是固体组织活体切片,包括但不限于恶性组织和/或相邻非恶性组织的固体组织活体切片。
23.根据权利要求1所述的方法,进一步包括在所述诊断模型中除了非哺乳动物微生物特征之外还包括哺乳动物特征。
24.根据权利要求23所述的方法,其中所述诊断模型中的哺乳动物特征包括以下中的一种或多种:无细胞肿瘤DNA、无细胞肿瘤RNA、外体来源的肿瘤DNA、外体来源的肿瘤RNA、循环肿瘤细胞来源的DNA、循环肿瘤细胞来源的RNA、无细胞肿瘤DNA的甲基化模式、无细胞肿瘤RNA的甲基化模式、循环肿瘤细胞来源的DNA的甲基化模式和/或循环肿瘤细胞来源的RNA的甲基化模式。
25.一种诊断哺乳动物受试者中的疾病的方法,包括:
检测来自所述受试者的组织样本中的微生物存在或丰度;
确定检测到的所述微生物存在或丰度与来自健康或患病个体的组织中的微生物存在或丰度相似或不同;以及
将检测到的所述微生物存在或丰度与疾病的已知微生物存在或丰度相关联,从而诊断所述疾病。
26.根据权利要求25所述的方法,其中所述诊断是癌症的存在或不存在。
27.根据权利要求25所述的方法,其中所述诊断是癌症的类别或位置。
28.根据权利要求25所述的方法,其中所述诊断是受试者中的一种或多种类型的癌症。
29.根据权利要求25所述的方法,其中所述诊断是受试者中的一种或多种亚型癌症。
30.根据权利要求25所述的方法,其中所述诊断是受试者中的癌症的阶段和/或所述受试者中的癌症的预后。
31.根据权利要求25所述的方法,其中所述诊断是处于低阶段(I期或II期)肿瘤的一种类型的癌症。
32.根据权利要求25所述的方法,其中所述诊断是所述受试者中的一种或多种癌症的突变状态。
33.根据权利要求25所述的方法,其中所述诊断是对所述受试者的免疫治疗的预期反应。
34.根据权利要求25所述的方法,其中所述诊断是以下中的一种或多种:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、脑低级胶质瘤、乳腺浸润性癌、宫颈鳞状细胞癌和宫颈腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾脏肾透明细胞癌、肾脏肾乳头细胞癌、肝细胞肝癌、肺腺癌、肺鳞癌、淋巴肿瘤弥漫性大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞肿瘤、胸腺瘤、甲状腺癌、子宫肉瘤、子宫内膜癌或葡萄膜黑色素瘤。
35.根据权利要求25所述的方法,其中所述受试者是非人类哺乳动物。
36.根据权利要求25所述的方法,其中所述受试者是人。
37.根据权利要求25所述的方法,进一步包括基于诊断信息对所述受试者中的所述疾病进行最佳治疗选择。
38.根据权利要求37所述的方法,其中所述最佳治疗选择是包括向需要治疗的所述受试者施用有效量的以下中的一种或多种的方案:小分子、生物制品、一或多种工程化宿主来源的细胞类型、益生菌、工程化细菌、天然但选择性病毒、工程化病毒和/或噬菌体。
39.根据权利要求25所述的方法,其中所述微生物存在或丰度得自一个或多个以下非哺乳动物生命领域:病毒、细菌、古细菌和/或真菌。
40.根据权利要求25所述的方法,其中所述组织是全血活体切片。
41.根据权利要求25所述的方法,其中所述组织是全血的一种或多种成分,包括但不限于以下中的一种或多种:血浆、白细胞、红细胞和/或血小板。
42.根据权利要求25所述的方法,其中所述组织是固体组织活体切片,包括但不限于恶性组织和/或相邻非恶性组织的固体组织活体切片。
43.根据权利要求25所述的方法,其中通过测量宿主微生物组的其他位置来确定所述疾病的所述微生物存在或丰度。
44.根据权利要求25所述的方法,其中所述微生物存在或丰度通过核酸测量来检测。
45.根据权利要求44所述的方法,其中检测一种或多种以下微生物来源的核酸标记:16S rRNA的V1、V2、V3、V4、V5、V6、V7、V8或V9可变结构域区;或18S rRNA的内部转录间隔(ITS)区。
46.根据权利要求44所述的方法,其中所述核酸检测旨在靶向宏基因组DNA或RNA或两者。
47.根据权利要求44所述的方法,其中所述核酸检测旨在靶向宿主DNA或RNA或两者。
48.根据权利要求44所述的方法,其中所述核酸检测旨在靶向癌症来源的DNA或RNA或两者。
49.根据权利要求44所述的方法,其中所述核酸检测程序被修改以选择性地消耗宿主DNA和/或RNA,同时选择性地保留微生物DNA和/或RNA。
50.根据权利要求44所述的方法,进一步包括同时检测和/或量化宿主来源的核酸和微生物来源的核酸。
51.根据权利要求25所述的方法,其中通过免疫组织化学法检测和/或测量所述微生物存在和/或丰度。
52.根据权利要求25所述的方法,其中通过原位杂交检测和/或测量所述微生物存在和/或丰度。
53.根据权利要求25所述的方法,其中通过流式细胞术检测和/或测量所述微生物存在或丰度。
54.根据权利要求25所述的方法,进一步包括确定所述受试者的癌症内微生物核酸的地理空间分布。
55.根据权利要求54所述的方法,其中通过对肿瘤组织和/或其微环境进行多重采样来检测和/或测量微生物存在或丰度信息的地理空间分布。
56.根据权利要求54所述的方法,其中使用以下方法中的一种或多种来检测和/或测量微生物存在或丰度信息的地理空间分布:免疫组织化学法、原位杂交、数字空间基因组学和/或数字空间转录组学。
57.根据权利要求54所述的方法,进一步包括向有需要的所述受试者施用有效量的最佳治疗方案,包括但不限于基于癌症的微生物存在或丰度信息的所述地理空间分布选择的药物选择和动态时间进程。
58.一种基于非哺乳动物、微生物存在或丰度来治疗受试者中的哺乳动物癌症的方法,包括:
检测来自患有癌症的所述受试者的组织样本中的微生物存在或丰度;
确定所述患有癌症的哺乳动物受试者中所述微生物存在或丰度的共有模式;
在微生物存在或丰度的所述模式与所述哺乳动物受试者中存在的所述癌症之间形成关联;以及
利用所述微生物与癌症的关联向所述受试者施用治疗有效量的治疗来治疗所述哺乳动物癌症。
59.根据权利要求58所述的方法,其中所述受试者是非人类哺乳动物。
60.根据权利要求58所述的方法,其中所述受试者是人。
61.根据权利要求58所述的方法,其中所述治疗改变现有医药的用途,以通过利用微生物存在或丰度信息来提高整体治疗功效,所述现有医药最初可能已批准或可能未批准用于靶向癌症。
62.根据权利要求58所述的方法,其中所述治疗是小分子。
63.根据权利要求58所述的方法,其中所述治疗是生物制品。
64.根据权利要求58所述的方法,其中所述治疗是工程化宿主来源的细胞类型。
65.根据权利要求58所述的方法,其中所述治疗是益生菌。
66.根据权利要求58所述的方法,其中所述益生菌是工程化细菌菌株或程化细菌的集成。
67.根据权利要求58所述的方法,其中所述治疗是病毒。
68.根据权利要求58所述的方法,其中所述治疗是噬菌体。
69.根据权利要求58所述的方法,其中所述治疗是与针对所述癌症的初级治疗联合给予的佐剂,以提高所述初级治疗的功效。
70.根据权利要求58所述的方法,其中所述治疗是免疫治疗。
71.根据权利要求70所述的方法,其中免疫治疗的形式包括过继细胞转移以靶向与所述肿瘤或肿瘤微环境相关的微生物抗原。
72.根据权利要求70所述的方法,其中免疫治疗的形式是利用与所述癌症或癌症微环境相关的所述微生物抗原的癌症疫苗。
73.根据权利要求70所述的方法,其中免疫治疗的形式是针对与所述癌症或癌症微环境相关的微生物抗原的单克隆抗体。
74.根据权利要求70所述的方法,其中所述免疫治疗的形式是设计成至少部分靶向与所述癌症或癌症微环境相关的微生物抗原的抗体-药物-共轭物。
75.根据权利要求70所述的方法,其中免疫治疗的形式是多价抗体、抗体片段或其抗体衍生物,其被设计成至少部分靶向与所述癌症或癌症微环境相关的一种或多种微生物抗原。
76.根据权利要求58所述的方法,其中所述治疗是抗生素。
77.根据权利要求76所述的方法,其中所述抗生素靶向特定种类的微生物或一类功能或生物学相似的微生物。
78.根据权利要求76所述的方法,其中所述抗生素是针对多种微生物群的广谱药剂。
79.根据权利要求58所述的方法,其中将两种或更多种以下治疗类型组合,并且其中至少一种类型利用癌症微生物存在或丰度来提高整体治疗功效:小分子、生物制品、工程化宿主来源的细胞类型、益生菌、工程化细菌、天然但选择性病毒、工程化病毒和噬菌体。
80.根据权利要求58所述的方法,其中一种或多种治疗类型利用癌症中微生物存在或丰度信息的地理空间分布来提高整体治疗功效。
CN201980071301.4A 2018-11-02 2019-11-04 使用非人类核酸诊断和治疗癌症的方法 Pending CN112930407A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862754696P 2018-11-02 2018-11-02
US62/754,696 2018-11-02
PCT/US2019/059647 WO2020093040A1 (en) 2018-11-02 2019-11-04 Methods to diagnose and treat cancer using non-human nucleic acids

Publications (1)

Publication Number Publication Date
CN112930407A true CN112930407A (zh) 2021-06-08

Family

ID=70463919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980071301.4A Pending CN112930407A (zh) 2018-11-02 2019-11-04 使用非人类核酸诊断和治疗癌症的方法

Country Status (6)

Country Link
US (1) US20210355546A1 (zh)
EP (1) EP3874068A4 (zh)
CN (1) CN112930407A (zh)
AU (1) AU2019372440A1 (zh)
CA (1) CA3118304A1 (zh)
WO (1) WO2020093040A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI817795B (zh) * 2022-10-28 2023-10-01 臺北醫學大學 癌症進展判別方法及其系統

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230332249A1 (en) * 2020-09-21 2023-10-19 The Regents Of The University Of California Identifying the presence of metastatic cancer and tissue of origin with microbial nucleic acids
WO2023287953A1 (en) * 2021-07-14 2023-01-19 The Regents Of The University Of California Mycobiome in cancer
CA3233868A1 (en) * 2021-10-08 2023-04-13 Eddie Adams Metaepigenomics-based disease diagnostics
WO2023177707A1 (en) * 2022-03-16 2023-09-21 The Regents Of The University Of California Methods and systems for microbial tumor hypoxia diagnostics and theranostics

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104507538A (zh) * 2012-06-08 2015-04-08 艾杜罗生物科技公司 癌症免疫疗法的组合物和方法
CN106574294A (zh) * 2014-03-03 2017-04-19 何塞普特鲁塔博士赫罗纳生物医学研究所 用于通过定量pcr从人粪便样本诊断结肠直肠癌的方法、引物及试剂盒
WO2018109219A1 (en) * 2016-12-15 2018-06-21 University College Cork - National University Of Ireland, Cork Methods of determining colorectal cancer status in an individual

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090061422A1 (en) * 2005-04-19 2009-03-05 Linke Steven P Diagnostic markers of breast cancer treatment and progression and methods of use thereof
WO2014130162A1 (en) * 2013-02-19 2014-08-28 Lee Delphine J Methods of diagnosing and treating cancer by detecting and manipulating microbes in tumors
EP2996721B1 (en) * 2013-05-13 2021-10-06 Tufts University Compositions for treatment of adam8-expressing cancer
JP6637885B2 (ja) * 2013-07-21 2020-01-29 ペンデュラム セラピューティクス, インコーポレイテッド マイクロバイオームの特性解明、モニタリング、および処置のための方法およびシステム
EP3130680A1 (en) * 2015-08-11 2017-02-15 Universitat de Girona Method for the detection, follow up and/or classification of intestinal diseases
WO2017062625A1 (en) * 2015-10-06 2017-04-13 Regents Of The University Of Minnesota Method to detect colon cancer by means of the microbiome
EP3368656A4 (en) * 2015-10-30 2019-07-17 The United States of America, as represented by the secretary, Department of Health and Human Services TARGETED CANCER THERAPY
WO2017123676A1 (en) * 2016-01-11 2017-07-20 Synlogic, Inc. Recombinant bacteria engineered to treat diseases and disorders associated with amino acid metabolism and methods of use thereof
WO2017156431A1 (en) * 2016-03-11 2017-09-14 The Joan & Irwin Jacobs Technion-Cornell Institute Systems and methods for characterization of viability and infection risk of microbes in the environment
WO2018026742A1 (en) * 2016-08-01 2018-02-08 Askgene Pharma Inc. Novel antibody-albumin-drug conjugates (aadc) and methods for using them
WO2018031545A1 (en) * 2016-08-11 2018-02-15 The Trustees Of The University Of Pennsylvania Compositions and methods for detecting oral squamous cell carcinomas
BR112019003704A2 (pt) * 2016-08-25 2019-05-28 Resolution Bioscience Inc métodos para a detecção de alterações na cópia genômica em amostras de dna
WO2018112365A2 (en) * 2016-12-16 2018-06-21 Evelo Biosciences, Inc. Methods of treating colorectal cancer and melanoma using parabacteroides goldsteinii
WO2018136598A1 (en) * 2017-01-18 2018-07-26 Evelo Biosciences, Inc. Methods of treating cancer
US20180291463A1 (en) * 2017-03-31 2018-10-11 The Trustees Of The University Of Pennsylvania Compositions and Methods for Detecting the Ovarian Cancer Oncobiome
CN110709093A (zh) * 2017-04-17 2020-01-17 加利福尼亚大学董事会 工程化细菌和使用方法
WO2018200813A1 (en) * 2017-04-26 2018-11-01 The Trustees Of The University Of Pennsylvania Compositions and methods for detecting microbial signatures associated with different breast cancer types

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104507538A (zh) * 2012-06-08 2015-04-08 艾杜罗生物科技公司 癌症免疫疗法的组合物和方法
CN106574294A (zh) * 2014-03-03 2017-04-19 何塞普特鲁塔博士赫罗纳生物医学研究所 用于通过定量pcr从人粪便样本诊断结肠直肠癌的方法、引物及试剂盒
WO2018109219A1 (en) * 2016-12-15 2018-06-21 University College Cork - National University Of Ireland, Cork Methods of determining colorectal cancer status in an individual

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI817795B (zh) * 2022-10-28 2023-10-01 臺北醫學大學 癌症進展判別方法及其系統

Also Published As

Publication number Publication date
EP3874068A4 (en) 2022-08-17
WO2020093040A1 (en) 2020-05-07
CA3118304A1 (en) 2020-05-07
AU2019372440A1 (en) 2021-05-27
US20210355546A1 (en) 2021-11-18
EP3874068A1 (en) 2021-09-08

Similar Documents

Publication Publication Date Title
CN112930407A (zh) 使用非人类核酸诊断和治疗癌症的方法
KR102529113B1 (ko) 소변 및 기타 샘플에서의 무세포 dna의 분석
Berchuck et al. Patterns of gene expression that characterize long-term survival in advanced stage serous ovarian cancers
US9920374B2 (en) Diagnostic for lung disorders using class prediction
Lin et al. Aberrant expression of microRNAs in serum may identify individuals with pancreatic cancer
US9181588B2 (en) Methods of treating breast cancer with taxane therapy
MX2013013746A (es) Biomarcadores para cancer de pulmon.
US20230366034A1 (en) Compositions and methods for diagnosing lung cancers using gene expression profiles
CN105431738B (zh) 胃癌的预后预测模型的建立方法
JP2019122412A (ja) Mirna比率を使用する肺がん決定
Rose et al. Circulating and urinary tumour DNA in urothelial carcinoma—upper tract, lower tract and metastatic disease
MX2011006926A (es) Metodos y medios para categorizar una muestra que comprende celulas de cancer colorrectal.
JP2016214239A (ja) 膵がんマーカー
Gress et al. Combined microRNA and mRNA microfluidic TaqMan array cards for the diagnosis of malignancy of multiple types of pancreatico-biliary tumors in fine-needle aspiration material
WO2015153566A1 (en) 16s rrna saliva analysis unveils microbiome biomonitors linked to human papilloma virus and oropharyngeal squamous cell carcinoma
Nfonsam et al. Gene expression analysis of sporadic early-onset rectal adenocarcinoma
CN112567050A (zh) 检测方法
Ramirez et al. Quantitative polymerase chain reaction for companion diagnostics and precision medicine application
KR20230070199A (ko) 미생물 핵산으로 전이성 암 및 기원 조직의 존재 식별
WO2024001668A1 (zh) 用于检测肺结节良恶性的甲基化分子标记物及其应用
Sambruni Reconstruction of the condition-and location-specific colon cancer microbiome from human RNA sequencing data
Ramirez et al. Quantitative Polymerase Chain Reaction and Precision Medicine
Xin et al. Characterization of tumor microbiome and associations with prognosis in intrahepatic cholangiocarcinoma
KR20230025895A (ko) 순환 종양 핵산 분자의 다중모드 분석
EP4367257A2 (en) Circulating microrna signatures for pancreatic cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40044055

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination