CN117203705A - 使用微生物核酸和体细胞突变的独立于分类学的癌症诊断和分类 - Google Patents

使用微生物核酸和体细胞突变的独立于分类学的癌症诊断和分类 Download PDF

Info

Publication number
CN117203705A
CN117203705A CN202180094414.3A CN202180094414A CN117203705A CN 117203705 A CN117203705 A CN 117203705A CN 202180094414 A CN202180094414 A CN 202180094414A CN 117203705 A CN117203705 A CN 117203705A
Authority
CN
China
Prior art keywords
cancer
human
subjects
carcinoma
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180094414.3A
Other languages
English (en)
Inventor
斯蒂芬·万德罗
埃迪·亚当斯
桑德琳·米勒-蒙特哥莫里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mcnorma Co
Original Assignee
Mcnorma Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mcnorma Co filed Critical Mcnorma Co
Publication of CN117203705A publication Critical patent/CN117203705A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • C12Q1/701Specific hybridization probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/50Determining the risk of developing a disease
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/70Mechanisms involved in disease identification
    • G01N2800/7023(Hyper)proliferation
    • G01N2800/7028Cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Virology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

提供了通过微生物核酸和体细胞突变的独立于分类学的分类来诊断和分类癌症的系统和方法。

Description

使用微生物核酸和体细胞突变的独立于分类学的癌症诊断和 分类
交叉引用
本申请要求2020年12月22日提交的美国临时专利申请号63/128,971的权益,该申请通过引用完全并入。
背景技术
用于检测对象中癌症的理想诊断测试应具有以下特性:(i)其应高置信度地识别癌症的组织/身体部位位置;(ii)其应识别解释癌性状态或与癌性状态密切相关联的体细胞突变的存在;(iii)其应及早检测癌症的发生(例如,I-II期),以便进行早期医疗干预;(iv)其应是微创的;以及(vi)对于被诊断的癌症,其应具有高度的敏感性和特异性(即,当癌症存在时,测试将呈阳性的概率应该很高,而当癌症不存在时,测试将呈阴性的概率应该很高)。如今,基于液体活检的诊断,无论是已经商业化的还是开发中的,都分为两大不重叠的类别——可以检测与癌症相关联的体细胞突变的那些以及能够根据组织独特的分子模式(诸如DNA甲基化)检测癌症的组织/身体部位位置的那些。因此,现有诊断的两个类别都没有提供否则会告诉医师医疗干预的重点在哪里以及应该选择哪些药物的完整数据补充。
因此,本领域仍然需要早期癌症诊断,该诊断能够以高分析灵敏度和特异性检测癌症的组织/身体部位位置,同时还可以确定与检测到的癌症相关联的体细胞突变。
发明内容
本发明的公开内容提供了一种方法,其使用来自人体组织或液体活检样本的非人类来源的核酸,结合样本中存在的已识别人类体细胞突变,准确诊断癌症、其位置,并预测癌症对某些疗法有反应的可能性。具体而言,本发明提供了方法和机器学习的使用,该方法用于识别人类基因组中癌症相关联核酸序列突变的存在和丰度,并通过其存在和丰度识别作为特定癌症的特性的非人类核酸序列的存在和丰度,该机器学习的使用用于首先在核酸序列输入中识别疾病特性关联并继而根据这些识别出的疾病特性关联诊断患者的疾病状态。
本文公开的本发明的方法生成了一种诊断性模型,其能够诊断和分类癌症的组织/身体来源部位,同时还提供与癌症中存在的体细胞突变有关的信息。在一些实施方式中,某些体细胞突变的检测对于所述癌症的治疗性处理具有高度重要性。例如,最近一项为期3年的双盲3期试验的结果表明,在表皮生长因子受体(EGFR)突变阳性的非小细胞肺癌患者中,通过用EGFR酪氨酸激酶抑制剂(奥斯替尼(Osimertinib);PMID:32955177)治疗可显著延长无病生存期。虽然EGFR致癌突变并不局限于肺癌(也存在于乳腺癌症和胶质母细胞瘤中),但本文公开的方法将不仅仅限于检测EGFR突变的存在,而且通过检测肺癌特有的微生物核酸特征,将报告哪些组织可能携带含有这些EGFR突变的细胞,从而集中了医师的查询领域。
本文公开的方面提供了一种创建诊断性癌症模型的方法,该方法包括:(a)对生物样本的核酸组成进行测序以生成测序读段;(b)分离测序读段以分离多个经过滤的测序读段;(c)从多个经过滤的测序读段生成多个k-mer;(d)确定k-mer的独立于分类学的丰度;(e)通过用k-mer的独立于分类学的丰度训练机器学习算法来创建诊断性模型。在一些实施方式中,通过测序读段与人类参考基因组数据库之间的精确匹配来执行分离。在一些实施方式中,精确匹配包括用软件程序Kraken或Kraken 2对序列读段进行计算过滤。在一些实施方式中,精确匹配包括用软件程序bowtie 2或其任何等效物对测序读段进行计算过滤。在一些实施方式中,创建诊断性癌症模型的方法还包括对多个经过滤的测序读段执行计算机内(in-silico)净化,以产生多个经净化的非人类、人类或其任何组合测序读段。在一些实施方式中,通过Jellyfish、UCLUST、GenomeTools(Tallymer)、KMC2、Gerbil、DSK或其任何组合来确定k-mer的独立于分类学的丰度。在一些实施方式中,创建诊断性癌症模型的方法还包括将多个经净化的人类测序读段的人类序列映射到人类参考基因组数据库的构建,以产生多个测序比对。在一些实施方式中,通过bowtie 2序列比对工具或其任何等效物来执行映射。在一些实施方式中,映射包括端到端比对、局部比对或其任何组合。在一些实施方式中,创建诊断性癌症模型的方法还包括通过查询癌症突变数据库来识别多个序列比对中的癌症突变。在一些实施方式中,创建诊断性癌症模型的方法还包括为癌症突变生成癌症突变丰度表。在一些实施方式中,k-mer的独立于分类学的丰度可以包括非人类k-mer、癌症突变丰度表或其任何组合。在一些实施方式中,生物样本包括组织、液体活检样本或其任何组合。在一些实施方式中,对象是人类或非人类哺乳动物。在一些实施方式中,核酸组成包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA、循环肿瘤细胞DNA、循环肿瘤细胞RNA或其任何组合的总群体。在一些实施方式中,人类参考基因组数据库是GRCh38。在一些实施方式中,机器学习算法的输出提供与癌症的存在或不存在相关联的对癌症的存在或不存在、癌症身体部位位置、癌症体细胞突变或其任何组合的诊断。在一些实施方式中,经训练机器学习算法的输出包括对癌症突变和k-mer丰度表的分析。在一些实施方式中,用一组癌症突变和k-mer丰度来训练经训练机器学习算法,该组癌症突变和k-mer丰度已知在感兴趣的癌症中以特性丰度存在或不存在。
在一些实施方式中,诊断性模型包括以下生命域中的一个或多个的非人类k-mer丰度:细菌、古菌、真菌和/或病毒。在一些实施方式中,诊断性模型诊断癌症的类别、组织特异性位置或其任何组合。在一些实施方式中,诊断性模型诊断癌症中存在的一个或多个突变。在一些实施方式中,诊断性模型被配置成诊断对象中的癌症的一种或多种类型。在一些实施方式中,诊断性模型被配置成诊断处于早期(I期或II期)肿瘤的癌症的一种或多种类型。在一些实施方式中,诊断性模型被配置成诊断对象中的癌症的一种或多种亚型。在一些实施方式中,诊断性模型用于预测对象的癌症的分期、预测对象的癌症预后或其任何组合。在一些实施方式中,诊断性模型被配置成预测对象的治疗性反应。在一些实施方式中,诊断性模型被配置成选择用于特定对象的最佳疗法。在一些实施方式中,诊断性模型被配置成对一种或多种癌症对疗法的反应的过程进行纵向建模,并继而调整治疗方案。在一些实施方式中,诊断性模型诊断:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些实施方式中,诊断性模型识别并去除非人类噪声污染物特征,同时选择性地保留其他非人类信号特征。在一些实施方式中,生物样本包括液体活检,该液体活检包括:血浆、血清、全血、尿液、脑脊髓液、唾液、汗液、眼泪、呼出的呼吸冷凝物或其任何组合。在一些实施方式中,癌症突变数据库源自癌症体细胞突变目录(Catalogue of Somatic Mutationsin Cancer,COSMIC)、癌症基因组项目(Cancer Genome Project,CGP)、癌症基因组图谱(The Cancer Genome Atlas,TGCA)、国际癌症基因组联盟(International Cancer GenomeConsortium,ICGC)或其任何组合。
本文公开的方面提供了一种诊断对象癌症的方法,该方法包括:(a)检测来自对象的样本中的多个体细胞突变;(b)检测来自对象的样本中的多个非人类k-mer序列;(c)将(a)和(b)的体细胞突变和非人类k-mer序列与特定癌症的体细胞突变及非人类k-mer序列的丰度进行比较;以及(d)通过提供诊断特定癌症的概率来诊断癌症。在一些实施方式中,检测体细胞突变还包括对来自对象的样本中的体细胞突变进行计数。在一些实施方式中,检测非人类k-mer序列包括对来自对象的样本中的非人类k-mer序列进行计数。在一些实施方式中,诊断是癌症的类别或位置。在一些实施方式中,诊断是对象中的癌症的一种或多种类型。在一些实施方式中,诊断是对象中的癌症的一种或多种亚型。在一些实施方式中,诊断是对象中的癌症分期和/或对象中的癌症预后。在一些实施方式中,诊断是处于早期(I期或II期)肿瘤的癌症的类型。在一些实施方式中,诊断是对象中一种或多种癌症的突变状态。在一些实施方式中,癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些实施方式中,对象是非人类哺乳动物。在一些实施方式中,对象是人类。在一些实施方式中,对象是哺乳动物。在一些实施方式中,k-mer的存在或丰度从以下非哺乳动物生命域获得:病毒、细菌、古菌、真菌或其任何组合。
在一些实施方式中,本文提供的公开内容描述了一种诊断对象的癌症的方法。在一些实施方式中,该方法包括:(a)确定对象的样本的多个体细胞突变和非人类k-mer序列;(b)将对象的多个体细胞突变和多个非人类k-mer序列与给定癌症的多个体细胞突变和非人类k-mer序列进行比较;以及(c)通过至少部分基于对象针对给定癌症的多个体细胞突变和非人类k-mer序列的比较提供癌症存在与否的概率来诊断对象的癌症。在一些实施方式中,确定多个体细胞突变还包括对对象的样本的体细胞突变进行计数。在一些实施方式中,确定多个非人类k-mer序列包括对对象的样本的非人类k-mer序列进行计数。在一些实施方式中,诊断对象的癌症还包括确定癌症的类别或位置。在一些实施方式中,诊断对象的癌症还包括确定对象的癌症的一种或多种类型。在一些实施方式中,诊断对象的癌症还包括确定对象的癌症的一种或多种亚型。在一些实施方式中,诊断对象的癌症还包括确定对象的癌症的分期、癌症预后或其任何组合。在一些实施方式中,诊断对象的癌症还包括确定处于早期的癌症的类型。在一些实施方式中,处于早期的癌症的类型包括I期或II期癌症。在一些实施方式中,诊断对象的癌症还包括确定对象的癌症的突变状态。在一些实施方式中,诊断对象的癌症还包括确定对象对治疗对象的癌症的疗法的反应。在一些实施方式中,癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些实施方式中,对象是非人类哺乳动物。在一些实施方式中,对象是人类。在一些实施方式中,对象是哺乳动物。在一些实施方式中,多个非人类k-mer序列来源于以下非哺乳动物生命域:病毒、细菌、古菌、真菌或其任何组合。
在一些实施方式中,本文提供的公开内容描述了一种使用经训练预测模型诊断对象的癌症的方法。在一些实施方式中,该方法包括:(a)接收第一一个或多个对象的核酸样本的多个体细胞突变和非人类k-mer核酸序列;(b)提供第一对象的多个体细胞突变和非人类k-mer核酸序列作为经训练预测模型的输入,其中经训练预测模型用第二一个或多个对象的多个体细胞突变序列、非人类k-mer序列和第二一个或多个对象的相应临床分类来训练,并且其中第一一个或多个对象和第二一个或多个对象是不同的对象;以及(c)至少部分基于经训练预测模型的输出来诊断第一一个或多个对象的癌症。在一些实施方式中,接收多个体细胞突变核酸序列还包括对第一一个或多个对象的核酸样本的体细胞突变核酸序列进行计数。在一些实施方式中,接收多个非人类k-mer核酸序列还包括对第一一个或多个对象的核酸样本的非人类k-mer核酸序列进行计数。在一些实施方式中,诊断第一一个或多个对象的癌症还包括确定第一一个或多个对象的癌症的类别或位置。在一些实施方式中,诊断第一一个或多个对象的癌症还包括确定第一一个或多个对象的癌症的一种或多种类型。在一些实施方式中,诊断第一一个或多个对象的癌症还包括确定第一一个或多个对象的癌症的一种或多种亚型。在一些实施方式中,诊断第一一个或多个对象的癌症还包括确定第一一个或多个对象的癌症分期、癌症预后或其任何组合。在一些实施方式中,诊断第一一个或多个对象的癌症还包括确定处于早期的癌症的类型。在一些实施方式中,处于早期的癌症的类型包括I期或II期癌症。在一些实施方式中,诊断第一一个或多个对象的癌症还包括确定第一一个或多个对象的癌症的突变状态。在一些实施方式中,诊断第一一个或多个对象的癌症还包括确定第一一个或多个对象对治疗第一一个或多个对象的癌症的疗法的反应。在一些实施方式中,癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些实施方式中,第一一个或多个对象和第二一个或多个对象是非人类哺乳动物。在一些实施方式中,第一一个或多个对象和第二一个或多个对象是人类。在一些实施方式中,第一一个或多个对象是哺乳动物。在一些实施方式中,多个非人类k-mer序列来源于以下非哺乳动物生命域:病毒、细菌、古菌、真菌或其任何组合。
在一些实施方式中,本文提供的公开内容描述了一种生成预测癌症模型的方法。在一些实施方式中,该方法可以包括:(a)提供一个或多个对象的生物样本的一个或多个核酸测序读段;(b)用人类基因组数据库过滤一个或多个核酸测序读段,从而产生一个或多个经过滤的测序读段;(c)从一个或多个经过滤的测序读段生成多个k-mer;以及(d)通过用多个k-mer和一个或多个对象的相应临床分类训练预测模型来生成预测癌症模型。在一些实施方式中,经训练预测模型包括一组癌症相关联的k-mer。在一些实施方式中,经训练预测模型包括一组非癌症相关联的k-mer。在一些实施方式中,该方法还包括确定多个k-mer的丰度,并用多个k-mer的丰度训练预测模型。在一些实施方式中,通过一个或多个核酸测序读段与人类参考基因组数据库之间的精确匹配来执行过滤。在一些实施方式中,精确匹配包括用软件程序Kraken或Kraken 2对一个或多个核酸测序读段进行计算过滤。在一些实施方式中,精确匹配包括用软件程序bowtie 2或其任何等效物对一个或多个核酸测序读段进行计算过滤。在一些实施方式中,该方法还包括对一个或多个经过滤的测序读段执行计算机内净化,从而产生一个或多个经净化的测序读段。在一些实施方式中,计算机内净化识别并去除非人类污染物特征,同时保留其他非人类信号特征。在一些实施方式中,该方法还包括将一个或多个经净化的测序读段映射到人类参考基因组数据库的构建,以产生多个突变的人类序列比对。在一些实施方式中,人类参考基因组数据库包括GRCh38。在一些实施方式中,通过bowtie 2序列比对工具或其任何等效物来执行映射。在一些实施方式中,映射包括端到端比对、局部比对或其任何组合。在一些实施方式中,该方法还包括通过查询癌症突变数据库来识别多个突变的人类序列比对中的癌症突变。在一些实施方式中,癌症突变数据库源自癌症体细胞突变目录(COSMIC)、癌症基因组项目(CGP)、癌症基因组图谱(TGCA)、国际癌症基因组联盟(ICGC)或其任何组合。在一些实施方式中,该方法还包括用癌症突变生成癌症突变丰度表。在一些实施方式中,多个k-mer包括非人类k-mer、人类突变的k-mer、未分类的DNA k-mer或其任何组合。在一些实施方式中,非人类k-mer来源于以下生命域:细菌、古菌、真菌、病毒或其任何组合。在一些实施方式中,一个或多个生物样本包括组织样本、液体活检样本或其任何组合。在一些实施方式中,液体活检包括:血浆、血清、全血、尿液、脑脊髓液、唾液、汗液、眼泪、呼出的呼吸冷凝物或其任何组合。在一些实施方式中,一个或多个对象是人类或非人类哺乳动物。在一些实施方式中,一个或多个核酸测序读段包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA、循环肿瘤细胞DNA、循环肿瘤细胞RNA或其任何组合。在一些实施方式中,预测癌症模型的输出提供与对象的癌症存在或不存在相关联的对癌症的存在或不存在、癌症身体部位位置、癌症体细胞突变或其任何组合的诊断。在一些实施方式中,预测癌症模型的输出包括对癌症体细胞突变、多个k-mer的丰度或其任何组合的分析。在一些实施方式中,用一组癌症突变和k-mer丰度训练经训练预测模型,该组癌症突变和k-mer丰度已知在感兴趣的癌症中以特性丰度存在或不存在。在一些实施方式中,预测癌症模型被配置成确定对象的癌症的一种或多种类型的存在与否。在一些实施方式中,癌症的一种或多种类型处于早期。在一些实施方式中,早期包括癌症的I期、II期或其任何组合期。在一些实施方式中,预测癌症模型被配置成确定对象的癌症的一种或多种亚型的存在与否。在一些实施方式中,预测癌症模型被配置成预测癌症分期、预测癌症预后或其任何组合。在一些实施方式中,预测癌症模型被配置成预测当施用治疗性化合物治疗对象的癌症时对象的治疗性反应。在一些实施方式中,预测癌症模型被配置成确定治疗对象的癌症的最佳疗法。在一些实施方式中,预测癌症模型被配置成对对象的一种或多种癌症对疗法的反应的过程进行纵向建模,从而产生对象的一种或多种癌症对疗法的反应的过程的纵向模型。在一些实施方式中,预测癌症模型被配置成至少部分基于纵向模型来确定对对象的一种或多种癌症的疗法的过程的调整。在一些实施方式中,预测癌症模型被配置成确定对象的以下癌症的存在与否:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些实施方式中,通过Jellyfish、UCLUST、GenomeTools(Tallymer)、KMC2、Gerbil、DSK或其任何组合来确定多个k-mer的丰度。在一些实施方式中,一个或多个对象的临床分类包括健康、癌性、非癌性疾病或其任何组合。在一些实施方式中,一个或多个经过滤的测序读段包括非人类测序读段、非匹配的非人类测序读段或其任何组合。在一些实施方式中,非匹配的非人类测序读段包括与非人类参考基因组数据库不匹配的测序读段。
在一些实施方式中,本文提供的公开内容描述了一种生成预测癌症模型的方法。在一些实施方式中,该方法包括:(a)对一个或多个对象的生物样本的核酸组成进行测序,从而生成一个或多个测序读段;(b)用人类基因组数据库过滤一个或多个核酸测序读段,从而产生一个或多个经过滤的测序读段;(c)从一个或多个经过滤的测序读段生成多个k-mer;以及(d)通过用多个k-mer和一个或多个对象的相应临床分类训练预测模型来生成预测癌症模型。在一些实施方式中,经训练预测模型包括一组癌症相关联的k-mer。在一些实施方式中,经训练预测模型包括一组非癌症相关联的k-mer。在一些实施方式中,该方法还包括确定多个k-mer的丰度,并用多个k-mer的丰度训练预测模型。在一些实施方式中,通过一个或多个测序读段与人类参考基因组数据库之间的精确匹配来执行过滤。在一些实施方式中,精确匹配包括用软件程序Kraken或Kraken 2对一个或多个测序读段进行计算过滤。在一些实施方式中,精确匹配包括用软件程序bowtie2或其任何等效物对一个或多个测序读段进行计算过滤。在一些实施方式中,该方法还包括对一个或多个经过滤的测序读段执行计算机内净化,从而产生一个或多个经净化的测序读段。在一些实施方式中,计算机内净化识别并去除非人类污染物特征,同时保留其他非人类信号特征。在一些实施方式中,该方法还包括将一个或多个经净化的测序读段映射到人类参考基因组数据库的构建,以产生多个突变的人类序列比对。在一些实施方式中,人类参考基因组数据库包括GRCh38。在一些实施方式中,通过bowtie 2序列比对工具或其任何等效物来执行映射。在一些实施方式中,映射包括端到端比对、局部比对或其任何组合。在一些实施方式中,该方法还包括通过查询癌症突变数据库来识别多个突变的人类序列比对中的癌症突变。在一些实施方式中,癌症突变数据库源自癌症体细胞突变目录(COSMIC)、癌症基因组项目(CGP)、癌症基因组图谱(TGCA)、国际癌症基因组联盟(ICGC)或其任何组合。在一些实施方式中,该方法还包括用癌症突变生成癌症突变丰度表。在一些实施方式中,多个k-mer包括非人类k-mer、人类突变的k-mer,未分类的DNA k-mer或其任何组合。在一些实施方式中,非人类k-mer来源于以下生命域:细菌、古菌、真菌、病毒或其任何组合。在一些实施方式中,一个或多个生物样本包括组织样本、液体活检样本或其任何组合。在一些实施方式中,液体活检包括:血浆、血清、全血、尿液、脑脊髓液、唾液、汗液、眼泪、呼出的呼吸冷凝物或其任何组合。在一些实施方式中,一个或多个对象是人类或非人类哺乳动物。在一些实施方式中,核酸组成包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA、循环肿瘤细胞DNA、循环肿瘤细胞RNA或其任何组合。在一些实施方式中,预测癌症模型的输出提供与对象的癌症的存在或不存在相关联的对癌症的存在或不存在、癌症身体部位位置、癌症体细胞突变或其任何组合的诊断。在一些实施方式中,预测癌症模型的输出包括对癌症体细胞突变、多个k-mer的丰度或其任何组合的分析。在一些实施方式中,使用一组癌症突变和k-mer丰度训练经训练预测模型,该组癌症突变和k-mer丰度已知在感兴趣的癌症中以特性丰度存在或不存在。在一些实施方式中,预测癌症模型被配置成确定对象的癌症的一种或多种类型的存在与否。在一些实施方式中,癌症的一种或多种类型处于早期。在一些实施方式中,早期包括癌症的I期、II期或其任何组合期。在一些实施方式中,预测癌症模型被配置成确定对象的癌症的一种或多种亚型的存在与否。在一些实施方式中,预测癌症模型被配置成预测对象的癌症分期、预测癌症预后或其任何组合。在一些实施方式中,预测癌症模型被配置成预测当施用治疗性化合物治疗对象的癌症时对象的治疗性反应。在一些实施方式中,预测癌症模型被配置成确定治疗对象的癌症的最佳疗法。在一些实施方式中,预测癌症模型被配置成对对象的一种或多种癌症对疗法的反应的过程进行纵向建模,从而生成对象的一种或多种癌症对疗法的反应的过程的纵向模型。在一些实施方式中,预测癌症模型被配置成至少部分基于纵向模型来确定对对象的一种或多种癌症的疗法的过程的调整。在一些实施方式中,预测癌症模型被配置成确定对象的以下癌症的存在与否:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些实施方式中,通过Jellyfish、UCLUST、GenomeTools(Tallymer)、KMC2、Gerbil、DSK或其任何组合来确定多个k-mer的丰度。在一些实施方式中,一个或多个对象的临床分类包括健康、癌性、非癌性疾病或其任何组合分类。在一些实施方式中,一个或多个经过滤的测序读段包括非人类测序读段、非匹配的非人类测序读段或其任何组合。在一些实施方式中,一个或多个经过滤的测序读段包括与参考人类基因组的非精确匹配、非人类测序读段、非匹配的非人类测序读段或其任何组合。在一些实施方式中,非匹配的非人类测序读段包括与非人类参考基因组数据库不匹配的测序读段。
在一些实施方式中,本文提供的公开内容描述了一种用于利用经训练预测模型来确定一个或多个对象的癌症的存在与否的计算机实现的方法。在一些实施方式中,该方法包括:(a)接收第一一个或多个对象的核酸样本的多个体细胞突变和非人类k-mer序列;(b)提供第一一个或多个对象的多个体细胞突变和非人类k-mer序列作为经训练预测模型的输入,其中经训练预测模型用第二一个或多个对象的多个体细胞突变序列、非人类k-mer序列和第二一个或多个对象的相应临床分类来训练,并且其中第一一个或多个对象和第二一个或多个对象是不同的对象;以及(c)至少部分基于经训练预测模型的输出来确定第一一个或多个对象的癌症的存在与否。
在一些实施方式中,接收多个体细胞突变还包括对第一一个或多个对象的核酸样本的体细胞突变进行计数。在一些实施方式中,接收多个非人类k-mer序列包括对第一一个或多个对象的核酸样本的非人类k-mer序列进行计数。在一些实施方式中,确定第一一个或多个对象的癌症的存在与否还包括确定第一一个或多个对象的癌症的类别或位置。在一些实施方式中,确定第一一个或多个对象的癌症的存在与否还包括确定第一一个或多个对象的癌症的一种或多种类型。在一些实施方式中,确定第一一个或多个对象的癌症的存在与否还包括确定第一一个或多个对象的癌症的一种或多种亚型。在一些实施方式中,确定第一一个或多个对象的癌症的存在与否还包括确定癌症的分期、癌症预后或其任何组合。在一些实施方式中,确定第一一个或多个对象的癌症的存在与否还包括确定处于早期的癌症的类型。在一些实施方式中,处于早期的癌症的类型包括I期或II期癌症。在一些实施方式中,确定第一一个或多个对象的癌症的存在与否还包括确定第一一个或多个对象的癌症的突变状态。在一些实施方式中,突变状态包括恶性、良性或原位癌。在一些实施方式中,确定第一一个或多个对象的癌症的存在与否还包括确定第一一个或多个对象对治疗第一一个或多个对象的癌症的疗法的反应。
在一些实施方式中,通过该方法确定的癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。
在一些实施方式中,第一一个或多个对象和第二一个或多个对象是非人类哺乳动物对象。在一些实施方式中,第一一个或多个对象和第二一个或多个对象是人类。在一些实施方式中,第一一个或多个对象和第二一个或多个对象是哺乳动物。在一些实施方式中,多个非人类k-mer序列来源于以下非哺乳动物生命域:病毒、细菌、古菌、真菌或其任何组合。
援引并入
本说明书中提及的所有出版物、专利和专利申请均以引用的方式并入本文,其程度与每个单独的出版物、专利或专利申请被明确和单独地指示以引用的方式并入的程度相同。
附图说明
专利或申请文件包含至少一幅以彩色绘制的附图。带有彩色附图的本专利或专利申请出版物的副本将由专利局在提出要求并支付必要费用后提供。
本发明的新颖特征在所附权利要求中具体阐述。通过参考以下阐述了其中利用本发明原理的说明性实施方式的详细描述以及所附附图,将获得对本发明的特征和优点的更好理解,在附图中:
图1A-图1C示出了结合两个分析流水线的示例诊断性模型训练方案,以实现基于非人类k-mer和人类体细胞突变的健康和疾病相关联微生物特征的发现。图1A图示了采用Kraken来制备用于体细胞突变分析和非人类k-mer分析的下一代测序读段的示例性计算流水线。图1B图示了将测序读段的总池划分为两个分析途径,其中得到的体细胞突变和k-mer识别以及丰度表包括机器学习算法输入。图1C图示了如何使用来自图1B的输入来训练机器学习算法,以生成识别健康对象和患有癌症对象特有的非人类k-mer和体细胞突变特征的经训练机器学习模型。
图2A-图2B示出了诊断性模型训练方案的替代实施方式。图2A图示了采用Bowtie2来制备用于体细胞突变分析和非人类k-mer分析的下一代测序读段的示例性计算流水线。图2B图示了将测序读段的总池划分为两个分析途径,其中得到的体细胞突变和k-mer识别以及丰度表包括机器学习算法输入。
图3图示了使用经训练模型来提供疾病的诊断和疾病状态的分类,其中向经训练模型提供未知疾病状态的新对象数据。
图4图示了从无细胞DNA测序读段(cfDNA)提取的k-mer生成经训练癌症诊断性模型的工作流程,该k-mer包含人类体细胞突变、已知微生物、未知微生物、未识别DNA或其任何组合。
图5示出了预测模型的接收者操作特性曲线,该预测模型在非映射测序读段的k-mer丰度概况上训练用于区分肺癌和肺肉芽肿。
图6示出了预测模型的接收者操作特征曲线,该预测模型在非映射测序读段的k-mer丰度概况上训练用于区分一期肺癌和肺病。
图7示出了如本文的一些实施方式中所描述的,被配置成实现训练并利用用于诊断对象的癌症的存在与否的经训练预测模型的计算机系统。
具体实施方式
在一些实施方式中,本文提供的公开内容描述了诊断和/或确定一个或多个对象的一种或多种癌症的存在与否、癌症亚型以及对一种或多种癌症的疗法反应的方法和系统。一个或多个对象的一种或多种癌症的存在与否的诊断和/或确定可以使用k-mer和人类体细胞突变核酸组成丰度的组合特征来完成。在一些情况下,k-mer核酸组成可以包含非类人核酸k-mer、人类体细胞突变核酸k-mer、非人类不可映射的k-mer(即,暗物质k-mer)或其任何组合k-mer。在一些情况下,一个或多个对象的一种或多种癌症的存在与否的诊断和/或确定可以通过识别诊断患有确认癌症的对象的癌症相关联k-mer和/或人类体细胞突变丰度的特定模式来完成。在一些情况下,一个或多个预测模型可以被配置成通过训练预测模型来确定、分析、推断和/或阐明特定模式。在一些情况下,预测模型可以包括一个或多个机器学习模型和/或算法。在一些情况下,预测模型可以包括癌症预测模型。在一些情况下,预测模型可以用一个或多个对象的k-mer和/或人类体细胞突变丰度以及相应的对象临床分类来训练。在一些情况下,临床分类可以包括健康(即,无确认癌症)或癌性(即,对象的确认癌症病例)的指定。在一些情况下,预测模型可以用癌症临床分类对象的癌症亚型、癌症身体来源部位、癌症分期、施用的先前癌症疗法和相应疗效的癌症特异性信息,或其任何组合癌症特异性信息来额外训练。在一些实施方式中,可用于癌症分类的检测到的人类体细胞突变发生在肿瘤抑制基因或癌基因内,其示例分别在表1和表2中提供,并且其在样本内的存在或丰度与本文其他地方描述的k-mer结合(“组合特征”)指定以下的一定概率:(1)个体患有癌症;(2)个体患有来自特定身体部位的癌症;(3)个体患有特定类型的癌症;和/或(4)在当时可能会或可能不会被诊断出来的癌症对特定的癌症疗法有高或低的反应。在一些实施方式中,对于本领域的普通技术人员来说,这样的方法的其他用途是可合理地想象和容易地实现的。
表1检测到并用于癌症分类的示例性肿瘤抑制基因
表2检测到并用于癌症分类的示例性癌基因
本文所述的系统和方法通过在训练机器学习算法之前去除对核酸分类学分配的要求,提供了改进非人类无细胞核酸用于癌症检测的意外结果。从癌症诊断的角度来看,在一些实施方式中,根据分类学分类,无细胞核酸的样本可包含五大组核酸:(1)来自宿主哺乳动物细胞的核酸,其不携带任何具有肿瘤学意义的突变;(2)来自宿主哺乳动物细胞的核酸,其携带具有肿瘤学意义的突变;(3)源自已知微生物的微生物核酸;(4)源自未知微生物(即尚未存在注释参考基因组的微生物)的微生物核酸;和(5)未识别的核酸(即不映射到任何已知参考基因组的核酸)。迄今为止,基于对象的无细胞非人类核酸的癌症机器学习分类仅限于利用可分配给定义的微生物分类学的非人类测序读段,从而免除在未分配序列读段中表示的数据内容(上述第4组和第5组)。例如,在Poore等人(Nature,2020年3月;579(7800):567-574和WO2020093040A1)中,其特此通过引用全部并入,样本中存在的微生物核酸的癌症特异性丰度用于形成疾病诊断。该方法依赖于首先经由使用Kraken将k-mer快速映射到微生物参考基因组数据库(这一要求导致>90%的非人类测序读段被从分析中丢弃,如表3所示)来确定非人类测序读段的属级分类学身份。这种数据丢失是不可避免的结果,因为现有的参考数据库仅代表宏基因组样本(如表3中分析的血浆样本)中存在的总微生物的一小部分。为了捕获丢失的数据,本文所述的方法和系统可以通过对k-mer内容的无参考分析的方式将所有非人类测序读段结合到机器学习算法的训练中。(这里,“无参考”是指明确不利用参考基因组进行分类学分配的核酸分析过程)。
表3Poore等人中未分配的非人类测序读段的百分比
在一些实施方式中,本发明的系统和方法可以包括在进一步分析(例如,生成核酸k-mer和/或训练预测模型)之前将对象的核酸测序读段计算地分离和/或分隔为参考可映射核酸测序读段和非参考可映射核酸测序读段的方法。在一些情况下,参考可映射测序读段可以包括映射到人类和/或非人类参考基因组数据库的人类和/或非人类核酸测序读段。在一些情况下,可映射测序读段可以包括非人类(例如,微生物、病毒、真菌、古菌等)、人类、人类体细胞突变的核酸测序读段或其任何组合核酸测序读段。在一些情况下,非参考可映射核酸测序读段可以包括未映射到微生物、人类或人类癌症基因组数据库的核酸测序读段。在一些情况下,非参考可映射测序可以包括暗物质读段。
在一些情况下,本文其他地方描述的方法可以将计算解构的非人类、人类体细胞突变的、非参考可映射的或其任何组合核酸测序读段利用到定义的k-mer碱基对长度k的k-mer集合中,该k-mer集合可以被分组和/或计数以产生k-mer丰度作为机器学习算法的输入。
在一些实施方式中,k-mer碱基对长度可为约20个碱基对至约35个碱基对。在一些实施方式中,k-mer碱基对长度可为约20个碱基对至约22个碱基对、约20个碱基对至约24个碱基对、约20个碱基对至约26个碱基对、约20个碱基对至约28个碱基对、约20个碱基对至约30个碱基对、约20个碱基对至约32个碱基对、约20个碱基对至约35个碱基对、约22个碱基对至约24个碱基对、约22个碱基对至约26个碱基对、约22个碱基对至约28个碱基对、约22个碱基对至约30个碱基对、约22个碱基对至约32个碱基对、约22个碱基对至约35个碱基对、约24个碱基对至约26个碱基对、约24个碱基对至约28个碱基对、约24个碱基对至约30个碱基对、约24个碱基对至约32个碱基对、约24个碱基对至约35个碱基对、约26个碱基对至约28个碱基对、约26个碱基对至约30个碱基对、约26个碱基对至约32个碱基对、约26个碱基对至约35个碱基对、约28个碱基对至约30个碱基对、约28个碱基对至约32个碱基对、约28个碱基对至约35个碱基对、约30个碱基对至约32个碱基对、约30个碱基对至约35个碱基对或约32个碱基对至约35个碱基对。在一些实施方式中,k-mer碱基对长度可为约20个碱基对、约22个碱基对、约24个碱基对、约26个碱基对、约28个碱基对、约30个碱基对、约32个碱基对或约35个碱基对。在一些实施方式中,k-mer碱基对长度可为至少约20个碱基对、约22个碱基对、约24个碱基对、约26个碱基对、约28个碱基对、约30个碱基对或约32个碱基对。在一些实施方式中,k-mer碱基对长度可为至多约22个碱基对、约24个碱基对、约26个碱基对、约28个碱基对、约30个碱基对、约32个碱基对或约35个碱基对。
在一些实施方式中,预测模型和/或机器学习算法的训练数据可以包括本文其他地方描述的k-mer的全部或子集。例如,假设读段长度L为150个碱基对并且k-mer长度k为31个碱基对,则可以从每个测序读段中产生120个唯一的k-mer(L–k+1);使用来自表3的数据作为参考点,在一些实施方式中,所公开的无参考、基于k-mer的方法与仅对具有指定分类的那些读段进行限制性分析相比,可以产生平均多出15倍的可用于机器学习分析的测序数据(>12.4×106个非人类k-mer)。在这方面,在一些实施方式中,本发明的方法可以提供核酸序列的完整表示,可以对其进行分析以发现癌症特异性/特性特征。
本文提供的描述公开了可利用非人类来源的核酸来诊断病症(即癌症)的方法。在一些实施方式中,与典型病理报告相比,所公开的发明可能提供比预期更好的临床结果,因为不必包括观察到的组织结构、细胞异型性或传统上用于诊断癌症的其他主观测量中的一个或多个。在一些实施方式中,所公开的方法可以通过将来自具有肿瘤学意义的测序读段数据与非人类读段数据两者相结合,而不仅仅是在“正常”人类来源的背景下经常以极低频率修改的经修改人类(即癌性)来源的数据,来提供检测和/或诊断对象癌症的高度敏感性。在一些实施方式中,本文公开的方法可以通过固体组织或液体(例如,血液、痰、尿液等)活检样本来达到这样的结果,后者需要最少的样本制备并且是微创的。在一些实施方式中,本文公开的可从基于液体活检的样本中确定或诊断个体癌症的方法可克服循环肿瘤DNA(ctDNA)测定所带来的挑战,循环肿瘤DNA(ctDNA)测定通常因来源于非恶性人类细胞的无细胞DNA(cfDNA)而遭到敏感性问题。在一些实施方式中,所公开的方法可以包括ctDNA测定通常无法实现的可区分癌症类型的测定,因为大多数常见的癌症基因组畸变在癌症类型之间共享(例如,TP53突变、KRAS突变)。
在一些实施方式中,本文公开的方法可以包括训练预测模型的方法,该预测模型被配置成诊断或确定对象的癌症的存在与否。在一些情况下,预测模型可以包括一个或多个机器学习算法。在一些情况下,预测模型可以用人类体细胞突变和k-mer核酸特征来训练,如本文其他地方所述。在一些情况下,人类体细胞突变和k-mer核酸特征可以包括由实时测序数据、回顾性测序数据或其任何组合测序数据提供的核酸序列。在一些实施方式中,实时测序数据可以包括获得并针对癌症的存在与否进行前瞻性分析的测序数据。在一些实施方式中,回顾性测序数据可以包括过去已经收集并被回顾性分析的测序数据。在一些实施方式中,人类体细胞突变和非人类k-mer可以包括组合特征。
在一些实施方式中,本文提供的公开内容描述了诊断和/或确定对象的癌症的存在与否的方法。在一些情况下,该方法可以包括:(a)在常规诊所就诊期间从对象身上采集血液样本;(b)从该血液样本中制备血浆或血清,提取其中包含的核酸,并通过先前经训练预测模型放大先前确定的特定组合特征的序列,以作为诊断癌症的有用特征;(c)获得组合特征的存在和/或丰度的数字读出(例如,人类体细胞突变和k-mer核酸流行率和/或丰度);(d)对相邻计算机或云计算基础设施上的存在和/或丰度数据进行归一化,并将其输入到先前经训练机器学习模型中;(e)读出该样本以下可能性的预测和置信度:(1)与癌症的存在或不存在相关联,(2)与特定类型或身体部位的癌症相关联,或(3)与对一系列癌症疗法的反应的高、中或低可能性相关联;以及(f)如果用户稍后输入附加信息,则使用样本的体细胞突变和非人类k-mer信息来继续训练机器学习模型。
在一些实施方式中,本文提供的公开内容描述了诊断对象的癌症的方法。在一些情况下,该方法可以包括:(a)确定对象的样本的多个体细胞突变和非人类k-mer序列;(b)将对象的多个体细胞突变和多个非人类k-mer序列与给定癌症的多个体细胞突变和非人类k-mer序列进行比较;以及(c)通过至少部分基于对象针对给定癌症的多个体细胞突变和非人类k-mer序列的比较提供癌症存在与否的概率来诊断对象的癌症。在一些情况下,确定多个体细胞突变还可以包括对对象的样本的体细胞突变进行计数。在一些情况下,确定多个非人类k-mer序列可以包括对对象的样本的非人类k-mer序列进行计数。在一些情况下,诊断对象的癌症还可以包括确定癌症的类别或位置。在一些情况下,诊断对象的癌症还可以包括确定对象的癌症的一种或多种类型。在一些情况下,诊断对象的癌症还可以包括确定对象的癌症的一种或多种亚型。在一些情况下,诊断对象的癌症还可以包括确定对象的癌症的分期、癌症预后或其任何组合。在一些情况下,诊断对象的癌症还可以包括确定处于早期的癌症的类型。在一些情况下,处于早期的癌症的类型可以包括I期或II期癌症。在一些情况下,诊断对象的癌症还可以包括确定对象的癌症的突变状态。在一些情况下,诊断对象的癌症还可以包括确定对象对治疗对象的癌症的疗法的反应。在一些情况下,癌症可以包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些情况下,对象可以是非人类哺乳动物。在一些情况下,对象可以是人类。在一些情况下,对象可以是哺乳动物。在一些情况下,多个非人类k-mer序列可以来源于以下非哺乳动物生命域:病毒、细菌、古菌、真菌或其任何组合。
在一些实施方式中,本文提供的公开内容描述了使用经训练预测模型诊断对象癌症的方法。在一些情况下,该方法可以包括:(a)接收第一一个或多个对象的核酸样本的多个体细胞突变和非人类k-mer核酸序列;(b)提供第一对象的多个体细胞突变和非人类k-mer核酸序列作为经训练预测模型的输入,其中经训练预测模型用第二一个或多个对象的多个体细胞突变核酸序列、非人类k-mer核酸序列和第二一个或多个对象的相应临床分类来训练,并且其中第一一个或多个对象和第二一个或多个对象是不同的对象;以及(c)至少部分基于经训练预测模型的输出来诊断第一一个或多个对象的癌症。在一些情况下,接收多个体细胞突变核酸序列还可以包括对第一一个或多个对象的核酸样本的体细胞突变核酸序列进行计数。在一些情况下,接收多个非人类k-mer核酸序列还可以包括对第一一个或多个对象的核酸样本的非人类k-mer核酸序列进行计数。在一些情况下,诊断第一一个或多个对象的癌症还可以包括确定第一一个或多个对象的癌症的类别或位置。在一些情况下,诊断第一一个或多个对象的癌症还可以包括确定第一一个或多个对象的癌症的一种或多种类型。在一些情况下,诊断第一一个或多个对象的癌症还可以包括确定第一一个或多个对象的癌症的一种或多种亚型。在一些情况下,诊断第一一个或多个对象的癌症还可以包括确定第一一个或多个对象的癌症的分期、癌症预后或其任何组合。在一些情况下,诊断第一一个或多个对象的癌症还可以包括在确定处于早期的癌症的类型。在一些情况下,处于早期的癌症的类型可以包括I期或II期癌症。在一些情况下,诊断第一一个或多个对象的癌症还可以包括确定第一一个或多个对象的癌症的突变状态。在一些情况下,诊断第一一个或多个对象的癌症还可以包括确定第一一个或多个对象对治疗第一一个或多个对象的癌症的疗法的反应。在一些情况下,癌症可以包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些情况下,第一一个或多个对象和第二一个或多个对象可以是非人类哺乳动物。在一些情况下,第一一个或多个对象和第二一个或多个对象可以是人类。在一些情况下,第一一个或多个对象可以是哺乳动物。在一些情况下,多个非人类k-mer序列可以来源于以下非哺乳动物生命域:病毒、细菌、古菌、真菌或其任何组合。
在一些实施方式中,本文提供的公开内容描述了一种生成经训练预测模型的方法,该预测模型被配置成诊断和/或确定对象的癌症的存在与否。在一些情况下,该方法可以包括:(a)对对象的液体活检样本的核酸内容物进行测序;和(b)通过用对象的经测序核酸训练诊断性模型来生成诊断性模型。在一些实施方式中,测序方法可以包括下一代测序、长读测序(例如,纳米孔测序)或其任何组合。在一些实施方式中,诊断性模型118可以包括如图1C所示的经训练机器学习算法117。在一些实施方式中,诊断性模型可以包括正则化机器学习模型。在一些实施方式中,经训练机器学习模型算法可以包括线性回归、逻辑回归、决策树、支持向量机(SVM)、朴素贝叶斯、k近邻(kNN)、k均值、随机森林模型或其任何组合。
在一些情况下,本文提供的公开内容的方法描述了一种训练机器学习算法的方法,如图1A-图1C中所示。在一些情况下,机器学习算法117可以用下一代测序(NGS)读段103进行训练,该下一代测序(NGS)读段103包括源自来自多个已知健康对象101和多个已知癌症对象102的核酸的核酸测序数据。在一些实施方式中,机器学习算法117可以用已经通过生物信息学流水线处理的核酸测序数据103来训练。在一些情况下,生物信息学流水线可以包括:(a)使用具有精确匹配的快速k-mer映射来计算过滤映射到人类基因组的所有测序读段104;(b)丢弃与人类参考基因组的所有精确匹配105;(c)处理剩余的读段106,其中剩余的读段可以包括没有精确地映射到参考基因组并且可能富集肿瘤学意义的体细胞突变(以下称“体细胞突变”)的人类读段和来自已知微生物的读段、来自未知微生物的读段、未识别的读段或其任何组合;(d)通过净化流水线107净化DNA污染物,以去除源自常见微生物污染物的序列,从而产生一组计算机内经净化的读段108;(e)经由bowtie 2执行到人类参考基因组的第二轮映射109,以获得人类体细胞突变序列(与人类参考基因组不精确匹配)110和非人类序列113;(f)用人类体细胞突变序列的集合110查询癌症突变数据库111,以识别已知的癌症突变;(g)生成人类体细胞突变序列的丰度112;(h)将非人类序列读段113解构为k-mer的集合114;(i)分析k-mer以产生k-mer身份和丰度115;(j)组合人类体细胞突变序列丰度数据112和k-mer身份和丰度数据115以产生机器学习训练数据集116。在一些实施方式中,k-mer分析可以用程序Jellyfish、UCLUST、GenomeTools(Tallymer)、KMC2、DSK、Gerbil或其任何等效物来完成。在一些情况下,k-mer分析可以包括对k-mer进行计数并按身份将k-mer组织到丰度表中。在一些情况下,人类参考基因组可以包括GRCh38。在一些情况下,可以将人类体细胞突变序列的丰度组织成丰度表。在一些情况下,可以用Kraken软件包针对GRCh38人类基因组数据库完成具有精确匹配的快速k-mer映射。
在一些实施方式中,可以用机器学习训练数据集116训练机器学习算法117,从而得到经训练诊断性模型118,其中经训练诊断性模型可以确定与健康对象相关联和/或指示健康对象的核酸特征119,以及与癌症对象相关/指示癌症对象的核酸特征120。
在一些情况下,本文提供的公开内容的方法可以包括训练机器学习算法的方法,如图2A-图2B中所示。在一些情况下,该方法可以包括:(a)提供来自已知健康对象的核酸样本101和来自已知癌症对象的核酸样本102;(b)对已知健康对象和已知癌症对象的核酸样本进行测序,从而产生多个测序读段103;(c)将测序读段映射到人类基因组数据库,从而将测序读段分隔成人类体细胞突变测序读段110和非人类测序读段202;(d)净化非人类测序读段107,从而产生多个经净化的非人类测序读段203;(e)相对于癌症突变数据库111查询人类体细胞突变测序读段110,从而从人类体细胞变异测序读段中产生多个癌症突变ID和丰度112;(f)从经净化的非人类读段203生成多个k-mer 114和相关联非人类k-mer ID和丰度115;(g)将非人类k-mer ID和丰度以及多个人类体细胞突变序列ID和丰度组合到机器学习训练数据集116中;以及(f)用机器学习训练数据集116训练机器学习算法117,从而产生经训练诊断性机器学习模型118。在一些情况下,经训练诊断性机器学习模型可以包括机器学习健康特征119、癌症特征120或其任何组合特征。在一些情况下,将测序读段映射到人类基因组数据库可以使用Bowtie 2来完成。在一些情况下,人类基因组数据库可以包括GRCh38。在一些情况下,非人类测序读段可以包括已知微生物、未知微生物、未识别DNA、DNA污染物或其任何组合的测序读段。
在一些实施方式中,本文提供的公开内容描述了一种生成预测癌症模型的方法400,如图4中所示。在一些情况下,该方法可以包括:(a)提供一个或多个对象的生物样本的一个或多个核酸测序读段401;(b)用人类基因组数据库403过滤一个或多个核酸测序读段,从而产生一个或多个经过滤的测序读段404;(c)从一个或多个经过滤的测序读段生成多个k-mer 406;以及(d)通过用多个k-mer和一个或多个对象的相应临床分类训练预测模型来生成预测癌症模型(408,410)。在一些情况下,经训练预测模型可以包括一组癌症相关联的k-mer 408。在一些情况下,一个或多个测序读段可以包括人类412、人类体细胞突变414、微生物416、非人类非参考可映射(即,“未知”)418或其任何组合的测序读段。在一些情况下,经训练预测模型可以包括一组非癌症相关联k-mer 410。在一些情况下,该方法还可以包括确定多个k-mer的丰度,并用多个k-mer的丰度训练预测模型。在一些情况下,可以通过一个或多个核酸测序读段与人类参考基因组数据库之间的精确匹配来执行过滤。在一些情况下,精确匹配可以包括用软件程序Kraken或Kraken 2对一个或多个核酸测序读段进行计算过滤。在一些情况下,精确匹配可以包括用软件程序bowtie 2或其任何等效物对一个或多个核酸测序读段进行计算过滤。在一些情况下,该方法还可以包括对一个或多个经过滤的测序读段执行计算机内净化,从而产生一个或多个经净化的测序读段。在一些情况下,计算机内净化可以识别和去除非人类污染物特征,同时保留其他非人类信号特征。在一些情况下,该方法还可以包括将一个或多个经净化的测序读段映射到人类参考基因组数据库的构建,以产生多个突变的人类序列比对。在一些情况下,人类参考基因组数据库可以包括GRCh38。在一些情况下,可以通过bowtie 2序列比对工具或其任何等效物来执行映射。在一些情况下,映射可以包括端到端比对、局部比对或其任何组合。在一些情况下,该方法还可以包括通过查询癌症突变数据库来识别多个突变的人类序列比对中的癌症突变。在一些情况下,癌症突变数据库可以源自癌症体细胞突变目录(COSMIC)、癌症基因组项目(CGP)、癌症基因组图谱(TGCA)、国际癌症基因组联合会(ICGC)或其任何组合。在一些情况下,该方法还可以包括用癌症突变生成癌症突变丰度表。在一些情况下,多个k-mer可以包括非人类k-mer、人类突变的k-mer、未分类的DNA k-mer或其任何组合。在一些情况下,非人类k-mer可以来源于以下生命域:细菌、古菌、真菌、病毒或其任何组合。在一些情况下,一个或多个生物样本可以包括组织样本、液体活检样本或其任何组合。在一些情况下,液体活检可以包括:血浆、血清、全血、尿液、脑脊液、唾液、汗液、眼泪、呼出的呼吸冷凝物或其任何组合。在一些情况下,一个或多个对象可以是人类或非人类哺乳动物。在一些情况下,一个或多个核酸测序读段可以包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA、循环肿瘤细胞DNA、循环肿瘤细胞RNA或其任何组合。在一些情况下,预测癌症模型的输出可以提供与对象的癌症的存在或不存在相关联的对癌症的存在或不存在、癌症身体部位位置、癌症体细胞突变或其任何组合的诊断。在一些情况下,预测癌症模型的输出可以包括对癌症体细胞突变、多个k-mer的丰度或其任何组合的分析。在一些情况下,可以用一组癌症突变和k-mer丰度训练经训练预测模型,该组癌症突变和k-mer丰度已知在感兴趣的癌症中以特性丰度存在或不存在。在一些情况下,预测癌症模型可以被配置成确定对象的癌症的一种或多种类型的存在与否。在一些情况下,癌症的一种或多种类型可以处于早期。在一些情况下,早期可以包括癌症的I期、II期或其任何组合期。在一些情况下,预测癌症模型可以被配置成确定对象的一种或多种癌症亚型的存在与否。在一些情况下,预测癌症模型可以被配置成预测癌症的分期、预测癌症预后或其任何组合。在一些情况下,预测癌症模型可以被配置成预测当施用治疗性化合物治疗对象的癌症时对象的治疗性反应。在一些情况下,预测癌症模型可以被配置成确定治疗对象的癌症的最佳疗法。在一些情况下,预测癌症模型可以被配置成对对象的一种或多种癌症对疗法的反应的过程进行纵向建模,从而生成对象的一种或多种癌症对疗法的反应的过程的纵向模型。在一些情况下,预测癌症模型可以被配置成至少部分基于纵向模型确定对对象的一种或多种癌症的疗法的过程的调整。在一些情况下,预测癌症模型可以被配置成确定对象的以下癌症的存在与否:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些情况下,可以通过Jellyfish、UCLUST、GenomeTools(Tallymer)、KMC2、Gerbil、DSK或其任何组合来确定多个k-mer的丰度。在一些情况下,一个或多个对象的临床分类可以包括健康、癌性、非癌性疾病或其任何组合。在一些情况下,一个或多个经过滤的测序读段可以包括非人类测序读段、非匹配的非人类测序读段或其任何组合。在一些情况下,非匹配的非人类测序读段可以包括与非人类参考基因组数据库不匹配的测序读段。
在一些实施方式中,本文提供的公开内容描述了一种生成预测癌症模型的方法。在一些情况下,该方法可以包括:(a)对一个或多个对象的生物样本的核酸组成进行测序,从而生成一个或多个测序读段;(b)用人类基因组数据库过滤一个或多个核酸测序读段,从而产生一个或多个经过滤的测序读段;(c)从一个或多个经过滤的测序读段生成多个k-mer;以及(d)通过用多个k-mer和一个或多个对象的相应临床分类训练预测模型来生成预测癌症模型。在一些情况下,经训练预测模型可以包括一组癌症相关联的k-mer。在一些情况下,经训练预测模型可以包括一组非癌症相关联的k-mer。在一些情况下,该方法还可以包括确定多个k-mer的丰度,并用多个k-mer的丰度训练预测模型。在一些情况下,可以通过一个或多个测序读段与人类参考基因组数据库之间的精确匹配来执行过滤。在一些情况下,精确匹配可以包括用软件程序Kraken或Kraken 2对一个或多个测序读段进行计算过滤。在一些情况下,精确匹配可以包括用软件程序bowtie 2或其任何等效物对一个或多个测序读段进行计算过滤。在一些情况下,该方法还可以包括对一个或多个经过滤的测序读段执行计算机内净化,从而产生一个或多个经净化的测序读段。在一些情况下,计算机内净化可以识别和去除非人类污染物特征,同时保留其他非人类信号特征。在一些情况下,该方法还可以包括将一个或多个经净化的测序读段映射到人类参考基因组数据库的构建,以产生多个突变的人类序列比对。在一些情况下,人类参考基因组数据库可以包括GRCh38。在一些情况下,可以通过bowtie 2序列比对工具或其任何等效物来执行映射。在一些情况下,映射可以包括端到端比对、局部比对或其任何组合。在一些情况下,该方法还可以包括通过查询癌症突变数据库来识别多个突变的人类序列比对中的癌症突变。在一些情况下,癌症突变数据库可能源自癌症体细胞突变目录(COSMIC)、癌症基因组项目(CGP)、癌症基因组图谱(TGCA)、国际癌症基因组联合会(ICGC)或其任何组合。在一些情况下,该方法还可以包括用癌症突变生成癌症突变丰度表。在一些情况下,多个k-mer可以包括非人类k-mer、人类突变的k-mer、未分类的DNA k-mer或其任何组合。在一些情况下,非人类k-mer可以来源于以下生命域:细菌、古菌、真菌、病毒或其任何组合。在一些情况下,一个或多个生物样本可以包括组织样本、液体活检样本或其任何组合。在一些情况下,液体活检可以包括:血浆、血清、全血、尿液、脑脊液、唾液、汗液、眼泪、呼出的呼吸冷凝物或其任何组合。在一些情况下,一个或多个对象可以是人类或非人类哺乳动物。在一些情况下,核酸组成可以包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA、循环肿瘤细胞DNA、循环肿瘤细胞RNA或其任何组合。在一些情况下,预测癌症模型的输出可以提供与对象癌症的存在或不存在相关联的对癌症的存在或不存在、癌症身体部位位置、癌症体细胞突变或其任何组合的诊断。在一些情况下,预测癌症模型的输出可以包括对癌症体细胞突变、多个k-mer的丰度或其任何组合的分析。在一些情况下,可以使用一组癌症突变和k-mer丰度训练经训练预测模型,该组癌症突变和k-mer丰度已知在感兴趣的癌症中以特性丰度存在或不存在。在一些情况下,预测癌症模型可以被配置成确定对象的癌症的一种或多种类型的存在与否。在一些情况下,癌症的一种或多种类型可以处于早期。在一些情况下,早期可以包括癌症的I期、II期或其任何组合期。在一些情况下,预测癌症模型可以被配置成确定对象的癌症的一种或多种亚型的存在与否。在一些情况下,预测癌症模型可以被配置成预测对象的癌症分期、预测癌症预后或其任何组合。在一些情况下,预测癌症模型可以被配置成预测当施用治疗性化合物治疗对象的癌症时对象的治疗性反应。在一些情况下,预测癌症模型可以被配置成确定治疗对象的癌症的最佳疗法。在一些情况下,预测癌症模型可以被配置成对对象的一种或多种癌症对疗法的反应的过程进行纵向建模,从而生成对象的一种或多种癌症对疗法的反应的过程的纵向模型。在一些情况下,预测癌症模型可以被配置成至少部分基于纵向模型来确定对对象的一种或多种癌症的疗法的过程的调整。在一些情况下,预测癌症模型可以被配置成确定对象的以下癌症的存在与否:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。在一些情况下,可以通过Jellyfish、UCLUST、GenomeTools(Tallymer)、KMC2、Gerbil、DSK或其任何组合来确定多个k-mer的丰度。在一些情况下,一个或多个对象的临床分类可以包括健康、癌性、非癌性疾病或其任何组合。在一些情况下,一个或多个经过滤的测序读段可以包括非人类测序读段、非匹配的非人类测序读段或其任何组合。在一些情况下,一个或多个经过滤的测序读段可以包括与参考人类基因组的非精确匹配、非人类测序读段、非匹配的非人类测序读段或其任何组合。在一些情况下,非匹配的非人类测序读段可以包括与非人类参考基因组数据库不匹配的测序读段。
在一些实施方式中,经训练诊断性模型118可用于分析来自未知疾病状态的对象的核酸样本301,并提供疾病的诊断,以及在适用的情况下提供该疾病状态的分类303,如图3中所示。
在一些实施方式中,机器学习算法117可以用已经通过生物信息学流水线处理的核酸测序数据103来训练,该生物信息学流水线包括:(a)使用bowtie 2对映射到人类基因组的所有测序读段进行计算过滤201;(b)保留与包括突变的人类序列110的人类参考基因组的所有不精确匹配;(c)通过净化流水线107处理剩余的读段202,包括来自已知微生物的读段、来自未知微生物的读段、未识别的读段、DNA污染物或其任何组合,以去除源自常见微生物污染物的序列,从而产生一组经计算机内净化的读段203;(d)查询具有人类体细胞突变序列的集合110的癌症突变数据库111,以识别已知的癌症突变并生成所述突变的丰度表112;(e)将非人类序列读段203解构为k-mer的集合114;(g)对k-mer进行计数以产生k-mer身份和丰度表115;(h)组合人类体细胞突变丰度数据112和k-mer丰度数据115以产生机器学习训练数据集116。在一些实施方式中,k-mer计数可以用程序Jellyfish、UCLUST、GenomeTools(Tallymer)、KMC2、DSK、Gerbil或其任何等效物来完成。这些生物信息学流水线和数据库的使用并非旨在限制,而是作为本领域普通技术人员通过其可以获得体细胞突变和k-mer丰度数据的计算手段的说明,因此包括使用与上述生物信息学方法和程序的任何实质等效物。
在一些情况下,本文提供的公开内容的方法描述了一种训练诊断性模型的方法(图1A-图1C),包括:(a)提供(i)一个或多个对象的一个或多个体细胞突变和非人类k-mer丰度作为训练数据集116;(b)提供(i)一个或多个对象的一个或多个体细胞突变和非人类k-mer丰度作为测试集116;(c)分别在60到40样本比例的训练样本与验证样本上训练诊断性模型;以及(d)评估诊断性模型的诊断准确性。
在一些实施方式中,由经训练诊断性模型进行的诊断可以包括指示健康(即无癌)对象的机器学习特征119,或指示癌症阳性对象的机器学习衍生特征120,如图1C中所示。在一些实施方式中,经训练诊断性模型可以识别并去除被分类为噪声的一种或多种微生物或非微生物核酸,同时选择性地保留被称为信号的其他一种或多种微生物或非细菌序列。
计算机系统
图7示出了适用于实现和/或训练本文所述的模型和/或预测模型的计算机系统701。计算机系统701可以处理本公开内容的信息的各个方面,诸如,举例而言,一个或多个对象的核酸组成测序读段。在一些情况下,计算机系统可以通过对照人类和/或非人类基因组的基因组序列的已知文库映射和/或过滤测序读段来处理一个或多个对象的核酸组成测序读段。在一些情况下,计算机系统可以从人类和/或非人类基因组生成一个或多个k-mer序列。在一些情况下,计算机系统可以被配置成确定一个或多个对象的核酸组成测序读段中存在的给定k-mer序列、癌症突变或其任何组合的丰度或流行率。在一些情况下,计算机系统可以准备将要用于训练一个或多个预测模型的k-mer序列丰度、癌症突变丰度和相应的一个或多个对象的临床分类数据集,其中预测模型可以包括机器学习算法。计算机系统701可以是电子设备。电子设备可以是移动电子设备。
在一些实施方式中,本文公开的系统可以实现一个或多个预测模型。在一些情况下,一个或多个预测模型可以包括一个或多个机器学习算法,该一个或多个机器学习算法被配置成基于一个或多个对象各自的k-mer序列和/或癌症突变序列丰度来确定其癌症的存在与否,如本文其他地方所述。
在一些情况下,机器学习算法可能需要提取和绘制特征之间的关系,因为传统的统计技术可能不充分。在一些情况下,机器学习算法可以与传统的统计技术结合使用。在一些情况下,传统的统计技术可以为机器学习算法提供预处理的特征。
在一些实施方式中,机器学习算法可以包括,例如,无监督学习算法、监督学习算法或其任何组合。无监督学习算法可以是,例如,聚类、分层聚类、k均值、混合模型、DBSCAN、OPTICS算法、异常检测、局部异常因子、神经网络、自动编码器、深度信念网、赫布学习、生成对抗性网络、自组织映射、期望最大化算法(EM)、矩方法、盲信号分离技术、主成分分析、独立成分分析、非负矩阵分解、奇异值分解或其组合。监督学习算法可以是,例如,支持向量机、线性回归、逻辑回归、线性判别分析、决策树、k近邻算法、神经网络、相似性学习或其组合。在一些实施方式中,机器学习算法可以包括深度神经网络(DNN)。深度神经网络可以包括卷积神经网络(CNN)。CNN可以是,例如U-Net、ImageNet、LeNet-5、AlexNet、ZFNet、GoogleNet、VGGNet、ResNet18或ResNet等。其他神经网络可以是,例如深度前馈神经网络、递归神经网络、LSTM(长短期存储器)、GRU(门控递归单元)、自动编码器、变分自动编码器、对抗性自动编码器、去噪自动编码器、稀疏自动编码器、玻尔兹曼机、RBM(受限BM)、深度信念网络、生成对抗性网络(GAN)、深度残差网络、胶囊网络或注意力/变换器网络等。
在一些情况下,机器学习算法可以包括聚类、标量向量机、核SVM、线性判别分析、二次判别分析、近邻成分分析、流形学习、卷积神经网络、强化学习、随机森林、朴素贝叶斯、高斯混合、隐马尔可夫模型、蒙特卡罗、限制玻尔兹曼机、线性回归或其任何组合。
在一些情况下,机器学习算法可以包括集成学习算法,如装袋、提升和堆叠。机器学习算法可以被单独地应用于多个特征。在一些实施方式中,系统可以应用一个或多个机器学习算法。
预测模型可以包括任意数目的机器学习算法。在一些实施方式中,随机森林机器学习算法可以是袋装决策树的集合。集合可以是至少约1、2、3、4、5、10、20、30、40、50、60、70、80、90、100、120、140、160、180、200、250、500、1000个或更多个袋装决策树。集合可以是至多约1000、500、250、200、180、160、140、120、100、90、80、70、60、50、40、30、20、10、5、4、3、2个或更少个袋装决策树。集合可以是约1至1000、1至500、1至200、1至100或1至10个袋装决策树。
在一些实施方式中,机器学习算法可以具有各种参数。各种参数可以是,例如,学习率、小批量大小、要训练的轮数的数目、动量、学习权重衰减或神经网络层等。
在一些实施方式中,学习率可以在约0.00001至0.1之间。
在一些实施方式中,小批量大小可以在约16至128之间。
在一些实施方式中,神经网络可以包括神经网络层。神经网络可以具有至少约2至1000个或更多个神经网络层。
在一些实施方式中,要训练的轮数的数目可以是至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、500、1000、10000或更多。
在一些实施方式中,动量可以是至少约0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9或更大。在一些实施方式中,动量可以是至多约0.9、0.8、0.7、0.6、0.5、0.4、0.3、0.2、0.1或更小。
在一些实施方式中,学习权重衰减可以是至少约0.00001、0.0001、0.001、0.002、0.003、0.004、0.005、0.006、0.007、0.008、0.009、0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1或更大。在一些实施方式中,学习权重衰减可以是至多约0.1、0.09、0.08、0.07、0.06、0.05、0.04、0.03、0.02、0.01、0.009、0.008、0.007、0.006、0.005、0.004、0.003、0.002、0.001、0.0001、0.00001或更小。
在一些实施方式中,机器学习算法可以使用损失函数。损失函数可以是,例如,回归损失、平均绝对误差、平均偏差误差、铰链损失、Adam优化器和/或交叉熵。
在一些实施方式中,机器学习算法的参数可以在人类和/或计算机系统的帮助下进行调整。
在一些实施方式中,机器学习算法可以优先考虑某些特征。机器学习算法可以优先考虑可以与检测癌症更相关的特征。如果特征在确定癌症时比另一个特征分类更频繁,则该特征可能与检测癌症更相关。在一些情况下,可以使用加权系统对特征进行优先级排序。在一些情况下,可以基于特征出现的频率和/或数量基于概率统计来对特征进行优先级排序。机器学习算法可以在人类和/或计算机系统的帮助下对特征进行优先级排序。
在一些情况下,机器学习算法可以优先考虑某些特征,以降低计算成本、节省处理能力、节省处理时间、提高可靠性或减少随机存取存储器的使用等。
计算机系统701可以包括中央处理单元(CPU,本文也称为“处理器”和“计算机处理器”)705,其可以是单核或多核处理器,或用于并行处理的多个处理器。计算机系统701还可以包括存储器或存储器位置704(例如,随机存取存储器、只读存储器、闪存)、电子存储单元706(例如,硬盘)、用于与一个或多个其他设备通信的通信接口708(例如,网络适配器)以及外围设备707,诸如高速缓存、其他存储器、数据存储器和/或电子显示适配器。存储器704、存储单元706、接口708和外围设备707通过诸如母板的通信总线(实线)与CPU 705通信。存储单元706可以是用于存储数据的数据存储单元(或数据储存库),如本文其他地方所述。计算机系统701可以在通信接口708的帮助下可操作地耦合到计算机网络(“网络”)700。网络700可以是因特网、内联网和/或与因特网通信的外联网。在一些情况下,网络700可以是电信和/或数据网络。网络700可以包括一个或多个计算机服务器,其可以实现诸如云计算的分布式计算。在一些情况下,在计算机系统701的帮助下,网络700可以实现对等网络,该对等网络可以使得耦合到计算机系统701上的设备能够充当客户端或服务器。
CPU 705可以执行一系列机器可读指令,这些指令可以体现在程序或软件中。指令可以指向CPU 705,其随后可以对CPU 705进行编程或以其他方式配置以实现本文其他地方描述的本公开内容的方法。由CPU 705执行的操作的示例可以包括获取、解码、执行和写回。
CPU 705可以是诸如集成电路的电路的一部分。系统701的一个或多个其他组件可以包括在电路中。在一些情况下,该电路是专用集成电路(ASIC)。
存储单元706可以存储文件,例如驱动程序、库和保存的程序。存储单元706可以另外和/或替代地存储一个或多个对象的生物样本的一个或多个测序读段、下游测序读段过程数据(例如,k-mer序列、癌症突变丰度等)、癌症类型(例如,癌症分期、癌症来源器官等)(如果存在)、为治疗癌症而施用的治疗、所施用治疗的疗效或其任何组合。在一些情况下,计算机系统701可以包括在计算机系统701外部的一个或多个附加数据存储单元,例如位于通过内联网或互联网与计算机系统701通信的远程服务器上。
本文所述的方法可以通过存储在计算机设备701的电子存储位置上(例如,存储在存储器704或电子存储单元706上)的机器(例如,计算机处理器)可执行代码来实现。机器可执行或机器可读代码可以以软件的形式提供。在使用期间,该代码可以由处理器705执行。在一些情况下,可以从存储单元706检索代码并将其存储在存储器704上以供处理器705随时访问。在一些情况下,可以排除电子存储单元706,并且将机器可执行指令存储在存储器704上。
代码可以被预编译并配置成与具有适于执行代码的处理器的机器一起使用,或者可以在运行时进行编译。该代码可以用编程语言提供,该编程语言可以被选择以使得该代码能够以预编译或即时编译(as-compiled)的方式执行。
本文提供的系统和方法的各个方面,诸如计算机系统701,可以在编程中体现。该技术的各个方面可以被认为是“产品”或“制品”,其一般为在一种类型的机器可读介质上携带或体现的机器(或处理器)可执行代码和/或相关数据的形式。机器可执行代码可以存储在电子存储单元如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘上。“存储”型介质可以包括计算机的任何或全部有形存储器、处理器等,或其相关模块,诸如各种半导体存储器、磁带驱动器、磁盘驱动器等,其可以在任何时间为软件编程提供非暂时性存储。软件的全部或部分有时可以通过因特网或各种其他电信网络进行通信。例如,这样的通信可以使软件从能够一台计算机或处理器装载到另一台计算机或处理器中,例如从管理服务器或主机装载到应用服务器的计算机平台中。因此,可以承载软件元素的另一类型的介质包括光波、电波和电磁波,诸如跨本地设备之间的物理接口、通过有线和光学陆线网络以及各种空中链路而使用的。携载此类波的物理元件,诸如有线或无线链路、光学链路等,也可以被视为承载软件的介质。如本文所用,除非仅限于非暂时性有形的“存储”介质,否则计算机或机器“可读介质”等术语是指参与向处理器提供指令以供执行的任何介质。
因此,机器可读介质如计算机可执行代码可采取多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质可以包括例如光盘或磁盘,诸如任何计算机中的任何存储设备等,诸如可用于实现数据库等。易失性存储介质包括动态存储器,诸如这样的计算机平台的主存储器。有形传输介质包括同轴缆线、铜线和光纤,包括构成计算机设备内的总线的线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式,诸如在射频(RF)和红外(IR)数据通信期间产生的那些。因此,计算机可读介质的常见形式包括例如:软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、任何其他具有孔洞图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或匣盒、传送数据或指令的载波、传送此类载波的电缆或链路,或者计算机可以从中读段编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多介质可以参与将一个或多个指令的一个或多个序列携载到处理器以供执行。
计算机系统可以包括电子显示器702或与电子显示器702通信,电子显示器702包括用户界面(UI)703,用于查看一个或多个对象的k-mer序列的丰度和流行率、癌症突变的丰度和流行率、由经训练预测模型输出的建议治疗性处理和/或一个或多个对象的癌症存在与否的建议或确定。UI的示例包括但不限于图形用户界面(GUI)和基于web的用户界面。
本公开内容的方法和系统可以通过一个或多个算法以及用配备有如本文所公开的一个或多个处理器的指令来实现。在由中央处理单元705执行时,可以通过软件的方式来实现算法。该算法可以是,例如机器学习算法,例如随机森林、超向量机、神经网络和/或图形模型。
在一些情况下,本文提供的公开内容描述了一种用于利用经训练预测模型来确定一个或多个对象的癌症的存在与否的计算机实现的方法。在一些情况下,该方法可以包括:(a)接收第一一个或多个对象的核酸样本的多个体细胞突变和非人类k-mer序列;(b)提供第一一个或多个对象的多个体细胞突变和非人类k-mer序列作为经训练预测模型的输入,其中经训练预测模型用第二一个或多个对象的多个体细胞突变序列、非人类k-mer序列和第二一个或多个对象的相应临床分类来训练,并且其中第一一个或多个对象和第二一个或多个对象是不同的对象;以及(c)至少部分地基于经训练预测模型的输出来确定第一一个或多个对象的癌症的存在与否。
在一些情况下,接收多个体细胞突变还可以包括对第一一个或多个对象的核酸样本的体细胞突变进行计数。在一些情况下,接收多个非人类k-mer序列可以包括对第一一个或多个对象的核酸样本的非人类k-mer序列进行计数。在一些情况下,确定第一一个或多个对象的癌症的存在与否还可以包括确定第一一个或多个对象的癌症的类别或位置。在一些情况下,确定第一一个或多个对象的癌症的存在与否还可以包括确定第一一个或多个对象的癌症的一种或多种类型。在一些情况下,确定第一一个或多个对象的癌症的存在与否还可以包括确定第一一个或多个对象的癌症的一种或多种亚型。在一些情况下,确定第一一个或多个对象的癌症的存在与否还可以包括确定癌症的分期、癌症预后或其任何组合。在一些情况下,确定第一一个或多个对象的癌症的存在与否还可以包括确定处于早期的癌症的类型。在一些情况下,处于早期的癌症的类型可以包括I期或II期癌症。在一些情况下,确定第一一个或多个对象的癌症的存在与否还可以包括确定第一一个或多个对象的癌症的突变状态。在一些情况下,突变状态可以包括恶性、良性或原位癌。在一些情况下,确定第一一个或多个对象的癌症的存在与否还可以包括确定第一一个或多个对象对治疗第一一个或多个对象的癌症的疗法的反应。
在一些情况下,通过该方法确定的癌症可以包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。
在一些情况下,第一一个或多个对象和第二一个或多个对象可以是非人类哺乳动物对象。在一些情况下,第一一个或多个对象和第二一个或多个对象可以是人类。在一些情况下,第一一个或多个对象和第二一个或多个对象可以是哺乳动物。在一些情况下,多个非人类k-mer序列可以来源于以下非哺乳动物生命域:病毒、细菌、古菌、真菌或其任何组合。
尽管上述步骤显示了根据实施方式的每个方法或操作集,但本领域普通技术人员将认识到基于本文所述教导的许多变化。这些步骤可以按不同的顺序完成。可以添加或省略步骤。一些步骤可以包括子步骤。许多步骤可以尽可能频繁地重复。每个方法或操作集的一个或多个步骤可以用本文所述的电路来执行,例如,诸如用于现场可编程门阵列的可编程阵列逻辑等的处理器或逻辑电路中的一个或多个。该电路可以被编程以提供每个方法或操作集的一个或多个步骤,并且该程序可以包括存储在计算机可读存储器上的程序指令或逻辑电路(例如可编程阵列逻辑或现场可编程门阵列)的编程步骤。
将参考以下实施例进一步描述附加的示例性实施方式;然而,这些示例性实施方式不限于这样的实施例。
实施例
实施例1:训练预测模型以区分早期肺癌和肺肉芽肿
用18例早期肺癌(3例II期和15例III期)和11例肺肉芽肿患者的非映射无细胞DNA(cfDNA)k-mer训练预测模型,并利用该预测模型根据其非映射无细胞DNA k-mer预测患者作为患有早期癌症或肺部疾病的分类。将早期肺癌和肺部疾病患者的cfDNA测序读段映射到人类基因组参考文库中,以将可映射的人类测序读段与不可映射的人类测序读段和非人类测序读段分开。接下来,去除作为聚合酶链式反应(PCR)伪影产生的重复测序读段。使用Gerbil软件包从未映射的测序读段中提取k值为31的所有k-mer的流行率和丰度。然后通过去除空白对照样本中识别的k-mer以及“GGAAT”和“CCATT”重复序列的k-mer序列来过滤k-mer流行率和丰度。接下来,过滤具有低丰度和低流行率的k-mer。从先前经过滤的k-mer集中去除每样本丰度小于5例并且在所有总样本中的流行率小于25个样本的k-mer。然后,在70:30的训练-测试数据划分中,用得到的经过滤k-mer和患者的临床分类(即,肺癌或肺部疾病),用10倍交叉验证,训练随机森林预测模型。使用接收者操作特性曲线下面积(AUC)分析得到的经训练预测模型的准确性,如图5中所示,显示AUC为0.792。
实施例2:训练预测模型以区分I期肺癌和肺部疾病
用51例I期肺腺癌和60例肺部疾病(7例肺炎、20例错构瘤、12例间质纤维化、5例支气管扩张和16例肉芽肿)患者的非映射无细胞DNA(cfDNA)k-mer训练预测模型,并利用该预测模型根据其非映射无细胞DNA k-mer预测患者作为患有I期腺癌或肺部疾病的分类。将早期肺癌和肺部疾病患者的cfDNA测序读段映射到人类基因组参考文库中,以将可映射的人类测序读段与不可映射的人类和非人类测序读段分开。接下来,去除作为聚合酶链式反应(PCR)伪影产生的重复测序读段。使用Gerbil软件包从非映射的测序读段中提取k值为31的所有k-mer的流行率和丰度。然后通过去除空白对照样本中识别的k-mer以及“GGAAT”和“CCATT”重复序列的k-mer序列来过滤k-mer流行率和丰度。接下来,过滤具有低丰度和低流行率的k-mer。从先前经过滤的k-mer集中去除每样本丰度小于5例并且在所有总样本中的流行率小于20个样本的k-mer。然后,在70:30的训练测试数据划分中,用得到的经过滤k-mer和患者的临床分类(即,肺癌或肺部疾病),用10倍交叉验证,训练随机森林预测模型。使用接收者操作特性曲线下面积(AUC)分析得到的经训练预测模型的准确性,如图6中所示,显示AUC为0.756。
实施例3:训练预测模型以对具有未知癌症诊断的对象进行分类
将用已知健康和癌症患者的无细胞DNA训练预测模型,以生成经训练预测模型,该经训练预测模型被配置成将怀疑患有癌症的个体分类为健康或患有癌症。确认健康和癌症患者的无细胞DNA(cfDNA)将从生物样本(例如,痰、血液、唾液或任何其他带有cfDNA的体液)中提取,并进行测序。然后将得到的cfDNA测序读段映射到人类基因组文库,使得可以从cfDNA测序读段中去除精确匹配的人类测序读段。接下来,将从非映射的测序读段中提取所有k-mer的流行率和丰度。然后过滤k-mer序列以过滤可能由于文库制备PCR步骤期间cfDNA的扩增和/或重复而产生的重复k-mer序列。此外,空白对照样本中识别的k-mer和“GGAAT”或“CCATT”重复序列的k-mer序列将被去除。然后,预测模型将用k-mer和其来源的患者的相应分类(例如,健康或癌症)进行训练。确认患有癌症的个体的相应分类将包括癌症亚型、分期和/或癌症的来源组织。
然后,疑似患有癌症的患者将提供包含cfDNA的生物样本,并将完成如以上提供的cfDNA处理的类似工作流程。然后将得到的k-mer作为输入提供给上述经训练预测模型。然后,经训练预测模型将提供患者是否患有癌症的可能性的概率。此外,经训练预测模型将提供识别的癌症的临床亚型、分期和/或来源组织。
实施例4:用分类学上可分配和不可分配的“暗物质”读段的组合训练预测模型以 对患有未知癌症诊断的对象进行分类
将用已知健康和癌症患者的无细胞DNA训练预测模型,以生成经训练预测模型,该经训练预测模型被配置成将疑似患有癌症的患者分类为健康或患有癌症。确认健康和癌症患者的无细胞DNA(cfDNA)将从生物样本(例如,痰、血液、唾液或任何其他带有cfDNA的体液)中提取,经由聚合酶链式反应(PCR)扩增并测序。然后,使用精确匹配将所得的经测序cfDNA测序读段映射到人类基因组文库,以获得所有非映射的携带突变的人类读段(相对于选定的参考基因组构建)和所有非人类读段的输出。所得的非人类读段将通过与微生物参考基因组比对经由Kraken或bowtie 2或其等效物进行分类学上的分配,以产生分类学上分配的微生物读段及其相关联丰度的输出。所有剩余的非映射的非人类读段(通俗地说,包括测序的“暗物质”)将用于k-mer生成。所有暗物质k-mer的流行率和丰度将从暗物质测序读段中提取,并且所有人类体细胞突变k-mer的流行率和丰度将从经由与人类参考基因组严格精确匹配经过滤的人类测序读段中提取。接下来,在空白对照样本中识别的k-mer和“GGAAT”或“CCATT”重复序列的k-mer序列将从暗物质k-mer中去除。然后,预测模型将用组合数据集进行训练,该组合数据集包括人类体细胞突变k-mer的丰度、分类学上分配的微生物读段和暗物质k-mer,以及它们来源的患者的相应分类(例如,健康或癌症)。确认患有癌症的个体的相应分类将包括癌症亚型、分期和/或癌症的来源组织。
然后,疑似患有癌症的患者将提供包含cfDNA的生物样本,并将如完成以上提供的cfDNA处理的类似工作流程,以提取人类体细胞突变、分类学上可分配的微生物和暗物质k-mer。然后将得到的特征集作为输入提供给上述经训练预测模型。然后,经训练预测模型将提供患者是否患有癌症的可能性的概率。此外,经训练预测模型将提供识别的癌症的临床亚型、分期和/或来源组织。
实施例5:用分类学上可分配的k-mer和癌症突变丰度训练预测模型以对患有未知 癌症诊断的对象进行分类
将用已知健康和癌症患者的无细胞DNA训练预测模型,以生成经训练预测模型,该经训练预测模型被配置成将怀疑患有癌症的个体分类为健康或患有癌症,如图1A-图1C所示。确认健康和癌症患者的无细胞DNA(cfDNA)将从生物样本(例如,痰、血液、唾液或任何其他带有cfDNA的体液)中提取,并进行测序。然后,使用软件包Kraken将得到的cfDNA测序读段映射到人类基因组文库,使得可以从cfDNA测序读段中去除精确匹配的人类测序读段,留下不匹配的人类测序读段(即,突变的人类序列)和非人类测序读段以供进一步分析。下一个软件包Bowtie 2将用于将剩余的测序读段映射到非人类测序读段和突变的人类测序读段。突变的人类测序读段将根据癌症突变数据库进行查询,以生成癌症突变ID和相关联丰度的数据集。接下来,将从非人类映射的测序读段中提取k-mer。然后将过滤k-mer序列以过滤可能由于文库制备PCR步骤期间cfDNA的扩增和/或重复而产生的重复k-mer序列。此外,空白对照样本中识别的k-mer和“GGAAT”或“CCATT”重复序列的k-mer序列将被去除。然后,预测模型将用k-mer、癌症突变ID和相关联丰度以及其来源的患者的相应分类(例如,健康或癌症)进行训练。确认患有癌症的个体的相应分类将包括癌症亚型、分期和/或癌症的来源组织。
然后,疑似患有癌症的患者将提供包含cfDNA的生物样本,并将完成如以上提供的cfDNA处理的类似工作流程。然后将得到的k-mer以及癌症突变ID和丰度作为输入提供到上述经训练预测模型中。然后,经训练预测模型将提供患者是否患有癌症的可能性的概率。此外,经训练预测模型将提供识别的癌症的临床亚型、分期和/或来源组织。
定义
除非另有定义,否则本文中使用的所有技术术语、符号和其他技术和科学术语或专有名词旨在具有与所要求保护的主题所属领域的普通技术人员通常理解的相同的含义。在一些情况下,为了清楚和/或便于参考,在本文中定义了具有通常理解的含义的术语,并且在本文中包含这样的定义不一定应被解释为表示与本领域中通常理解的内容的实质性差异。
在整个本申请中,各种实施方式可以以范围格式呈现。应当理解,范围格式的描述仅仅是为了方便和简洁,不应当被解释为对本公开内容的范围的不灵活的限制。因此,对范围的描述应该被认为已经具体公开了所有可能的子范围以及该范围内的单个数值。例如,对诸如1至6的范围的描述应当被认为已经具体公开了诸如1至3、1至4、1至5、2至4、2至6、3至6等的子范围,以及该范围内的单个数字,例如1、2、3、4、5和6。这不论范围的广度而均适用。
如说明书和权利要求书中所用,单数形式“一个”、“一种”和“所述”包括复数引用,除非上下文另有明确规定。例如,术语“样本”包括多个样本,包括它们的混合物。
术语“确定”、“测量”、“评估”、“评定”、“测定”和“分析”在本文中经常互换使用,以指代测量形式。术语包括确定元素是否存在(例如,检测)。这些术语可以包括定量、定性或定量和定性确定。评估可以是相对的或绝对的。“检测存在”可以包括确定存在的某物的量,以及根据上下文确定它存在或不存在。
术语“对象”、“个体”或“患者”在本文中经常可互换使用。“对象”可以是包含表达的遗传物质的生物实体。生物实体可以是植物、动物或微生物,包括例如细菌、病毒、真菌和原生动物。对象可以是体内获得或体外培养的生物实体的组织、细胞及其后代。对象可以是哺乳动物。哺乳动物可以是人类。对象可能被诊断或怀疑处于疾病的高风险。在一些情况下,对象不一定被诊断或怀疑处于该疾病的高风险。
术语“k-mer”用于描述可用于识别生物分子(如DNA)内某些区域的特定n元组或n克核酸或氨基酸序列。在该实施方式中,k-mer是长度为“n”的短DNA序列,通常范围为源自宏基因组序列数据的20-100个碱基对。
术语“暗物质”、“微生物暗物质”、“暗物质测序读段”和“微生物暗物质测序读段”用于描述无法映射到已知微生物参考基因组并因此代表无法在分类学上进行分配的核酸序列的非人类测序读段。
术语“体内”用于描述发生在对象体内的事件。
术语“离体”用于描述发生在对象体外的事件。不在对象上执行离体测定。相反,它是在与对象分离的样本上执行的。对样本执行的离体测定的示例是“体外”测定。
术语“体外”用于描述发生在容器中的事件,该容器用于容纳实验室试剂从而使其与获得材料的生物源分离。体外测定可以涵盖其中采用活细胞或死细胞的基于细胞的测定。体外测定也可以涵盖其中不采用完整细胞的无细胞测定。
如本文所用,术语“约”一个数字是指该数字加上或减去该数字的10%。术语“约”一个范围是指该范围减去其最低值的10%,以及加上其最大值的10%。
使用绝对或顺序术语,例如,“将”、“将不”、“应该”、“不应”、“必须”、“必须不”、“第一”、“最初”、“接下来”、“随后”、“之前”、“之后”、“最后”和“最终”,并不意味着限制本文公开的本实施方式的范围,而是作为示例性的。
本文所述的任何系统、方法、软件、组成和平台都是模块化的,并且不限于顺序步骤。因此,诸如“第一”和“第二”等术语并不一定意味着优先、重要性顺序或行为顺序。
如本文所用,术语“治疗”是指用于在接受者中获得有益的或期望的结果的药物或其他干预方案。有益的或期望的结果包括但不限于治疗性益处和/或预防益处。治疗性益处可以指正在被治疗的症状或潜在病症的根除或缓解。此外,可以通过根除或缓解与潜在病症相关联的一种或多种生理症状来实现治疗性益处,使得在对象中观察到改善,尽管对象可能仍受潜在病症的困扰。预防效果包括延迟、预防或消除疾病或病况的出现,延迟或消除疾病或病况的症状的发作,减缓、阻止或逆转疾病或病况的进展,或其任何组合。出于预防益处,有患上特定疾病风险的对象,或报告疾病的一种或多种生理症状的对象,可以接受治疗,即使可能尚未诊断出这种疾病。
本文使用的章节标题仅用于组织目的,不得解释为限制所述主题。
实施方式
1.一种生成预测癌症模型的方法,所述方法包括:
(a)对一个或多个对象的生物样本的核酸组成进行测序,从而生成一个或多个测序读段;
(b)用人类基因组数据库过滤所述一个或多个测序读段,从而产生一个或多个经过滤的测序读段;
(c)从所述一个或多个经过滤的测序读段生成多个k-mer;以及
(d)通过用所述多个k-mer和所述一个或多个对象的相应临床分类训练预测模型来生成预测癌症模型。
2.根据实施方式1所述的方法,其还包括确定所述多个k-mer的丰度,并用所述多个k-mer的所述丰度训练所述预测模型。
3.根据实施方式1所述的方法,其中通过所述一个或多个测序读段与所述人类参考基因组数据库之间的精确匹配来执行过滤。
4.根据实施方式3所述的方法,其中精确匹配包括用软件程序Kraken或Kraken 2对所述一个或多个测序读段进行计算过滤。
5.根据实施方式3所述的方法,其中精确匹配包括用软件程序bowtie 2或其任何等效物对所述一个或多个测序读段进行计算过滤。
6.根据实施方式1所述的方法,其还包括对所述一个或多个经过滤的测序读段执行计算机内净化,从而产生一个或多个经净化的测序读段。
7.根据实施方式6所述的方法,其还包括将所述一个或多个经净化的测序读段映射到人类参考基因组数据库的构建,以产生多个突变的人类序列比对。
8.根据实施方式7所述的方法,其中通过bowtie 2序列比对工具或其任何等效物来执行映射。
9.根据实施方式7所述的方法,其中映射包括端到端比对、局部比对或其任何组合。
10.根据实施方式7所述的方法,其还包括通过查询癌症突变数据库来识别所述多个突变的人类序列比对中的癌症突变。
11.根据实施方式10所述的方法,其还包括用所述癌症突变生成癌症突变丰度表。
12.根据实施方式1所述的方法,其中所述多个k-mer包括非人类k-mer、人类突变的k-mer、未分类的DNA k-mer或其任何组合。
13.根据实施方式1所述的方法,其中所述生物样本包括组织样本、液体活检样本或其任何组合。
14.根据实施方式1所述的方法,其中所述一个或多个对象是人类或非人类哺乳动物。
15.根据实施方式1所述的方法,其中所述核酸组成包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA、循环肿瘤细胞DNA、循环肿瘤细胞RNA或其任何组合。
16.根据实施方式1所述的方法,其中所述人类参考基因组数据库是GRCh38。
17.根据实施方式2所述的方法,其中所述预测癌症模型的输出提供与对象的癌症的存在或不存在相关联的对癌症的所述存在或所述不存在、癌症身体部位位置、癌症体细胞突变或其任何组合的诊断。
18.根据实施方式17所述的方法,其中所述预测癌症模型的所述输出包括对所述癌症体细胞突变、所述多个k-mer的所述丰度或其任何组合的分析。
19.根据实施方式1所述的方法,其中用一组癌症突变和k-mer丰度训练经训练预测模型,所述组癌症突变和k-mer丰度已知在感兴趣的癌症中以特性丰度存在或不存在。
20.根据实施方式12所述的方法,其中所述非人类k-mer来源于以下生命域:细菌、古菌、真菌、病毒或其任何组合生命域。
21.根据实施方式1所述的方法,其中所述预测癌症模型被配置成确定对象中的癌症的一种或多种类型的存在与否。
22.根据实施方式21所述的方法,其中癌症的所述一种或多种类型处于早期。
23.根据实施方式22所述的方法,其中所述早期包括癌症的I期、II期或其任何组合期。
24.根据实施方式1所述的方法,其中所述预测癌症模型被配置成确定对象中癌症的一种或多种亚型的存在与否。
25.根据实施方式1所述的方法,其中所述预测癌症模型被配置成预测对象的癌症分期、癌症预后或其任何组合。
26.根据实施方式1所述的方法,其中所述预测癌症模型被配置成预测当施用治疗性化合物治疗癌症时对象的治疗性反应。
27.根据实施方式1所述的方法,其中所述预测癌症模型被配置成确定对象的最佳疗法。
28.根据实施方式1所述的方法,其中所述预测癌症模型被配置成对对象的一种或多种癌症对疗法的反应的过程进行纵向建模,从而产生所述对象的一种或多种癌症对所述疗法的反应的所述过程的纵向模型。
29.根据实施方式28所述的方法,其中所述预测癌症模型被配置成至少部分基于所述纵向模型来确定对对象的一种或多种癌症的疗法的所述过程的调整。
30.根据实施方式1所述的方法,其中所述预测癌症模型被配置成确定对象的以下癌症的存在与否:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。
31.根据实施方式6所述的方法,其中所述计算机内净化识别并去除非人类污染物特征,同时保留其他非人类信号特征。
32.根据实施方式13所述的方法,其中所述液体活检包括:血浆、血清、全血、尿液、脑脊髓液、唾液、汗液、眼泪、呼出的呼吸冷凝物或其任何组合。
33.根据实施方式10所述的方法,其中所述癌症突变数据库源自癌症体细胞突变目录(COSMIC)、癌症基因组项目(CGP)、癌症基因组图谱(TGCA)、国际癌症基因组联盟(ICGC)或其任何组合。
34.根据实施方式2所述的方法,其中通过Jellyfish、UCLUST、GenomeTools(Tallymer)、KMC2、Gerbil、DSK或其任何组合来确定所述多个k-mer的所述丰度。
35.根据实施方式1所述的方法,其中所述一个或多个对象的所述临床分类包括健康、癌性、非癌性疾病或其任何组合。
36.根据实施方式1所述的方法,其中所述一个或多个经过滤的测序读段包括与参考人类基因组的非精确匹配、非人类测序读段、非匹配的非人类测序读段或其任何组合。
37.根据实施方式36所述的方法,其中所述非匹配的非人类测序读段包括与非人类参考基因组数据库不匹配的测序读段。
38.一种诊断对象的癌症的方法,所述方法包括:
(a)确定对象的样本的多个体细胞突变和非人类k-mer序列;
(b)将所述对象的所述多个体细胞突变和所述多个非人类k-mer序列与给定癌症的多个体细胞突变和非人类k-mer序列进行比较;以及
(c)通过至少部分基于所述对象的多个体细胞突变和非人类k-mer序列与所述给定癌症的所述多个体细胞突变和非人类k-mer序列的比较提供癌症存在与否的概率来诊断所述对象的癌症。
39.根据实施方式38所述的方法,其中确定所述多个体细胞突变还包括对所述对象的样本的体细胞突变进行计数。
40.根据实施方式38所述的方法,其中确定所述多个非人类k-mer序列包括对所述对象的样本的所述非人类k-mer序列进行计数。
41.根据实施方式38所述的方法,其中诊断所述对象的所述癌症还包括确定所述癌症的类别或位置。
42.根据实施方式38所述的方法,其中诊断所述对象的所述癌症还包括确定所述对象的癌症的一种或多种类型。
43.根据实施方式38所述的方法,其中诊断所述对象的所述癌症还包括确定所述对象的癌症的一种或多种亚型。
44.根据实施方式38所述的方法,其中诊断所述对象的所述癌症还包括确定所述对象的癌症的分期、癌症预后或其任何组合。
45.根据实施方式38所述的方法,其中诊断所述对象的所述癌症还包括确定处于早期的癌症的类型。
46.根据实施方式45所述的方法,其中处于所述早期的癌症的所述类型包括I期或II期癌症。
47.根据实施方式38所述的方法,其中诊断所述对象的所述癌症还包括确定所述对象的癌症的突变状态。
48.根据实施方式38所述的方法,其中诊断所述对象的所述癌症还包括确定所述对象对治疗所述对象的癌症的疗法的反应。
49.根据实施方式38所述的方法,其中所述癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。
50.根据实施方式38所述的方法,其中所述对象是非人类哺乳动物。
51.根据实施方式38所述的方法,其中所述对象是人类。
52.根据实施方式38所述的方法,其中所述对象是哺乳动物。
53.根据实施方式38所述的方法,其中所述多个非人类k-mer序列来源于以下非哺乳动物生命域:病毒、细菌、古菌、真菌或其任何组合。
54.一种生成预测癌症模型的方法,所述方法包括:
(a)提供一个或多个对象的生物样本的一个或多个核酸测序读段;
(b)用人类基因组数据库过滤所述一个或多个核酸测序读段,从而产生一个或多个经过滤的测序读段;
(c)从所述一个或多个经过滤的测序读段生成多个k-mer;以及
(d)通过用所述多个k-mer和所述一个或多个对象的相应临床分类训练预测模型来生成预测癌症模型。
55.根据实施方式54所述的方法,其还包括确定所述多个k-mer的丰度,并用所述多个k-mer的所述丰度训练所述预测模型。
56.根据实施方式54所述的方法,其中通过所述一个或多个核酸测序读段与所述人类参考基因组数据库之间的精确匹配来执行过滤。
57.根据实施方式56所述的方法,其中精确匹配包括用软件程序Kraken或Kraken2对所述一个或多个核酸测序读段进行计算过滤。
58.根据实施方式56所述的方法,其中精确匹配包括用软件程序bowtie 2或其任何等效物对所述一个或多个核酸测序读段进行计算过滤。
59.根据实施方式54所述的方法,其还包括对所述一个或多个经过滤的测序读段执行计算机内净化,从而产生一个或多个经净化的测序读段。
60.根据实施方式59所述的方法,其还包括将所述一个或多个经净化的测序读段映射到人类参考基因组数据库的构建,以产生多个突变的人类序列比对。
61.根据实施方式60所述的方法,其中通过bowtie 2序列比对工具或其任何等效物来执行映射。
62.根据实施方式60所述的方法,其中映射包括端到端比对、局部比对或其任何组合。
63.根据实施方式60所述的方法,其还包括通过查询癌症突变数据库来识别所述多个突变的人类序列比对中的癌症突变。
64.根据实施方式63所述的方法,其还包括用所述癌症突变生成癌症突变丰度表。
65.根据实施方式54所述的方法,其中所述多个k-mer可以包括非人类k-mer、人类突变的k-mer、未分类的DNA k-mer或其任何组合。
66.根据实施方式54所述的方法,其中所述一个或多个生物样本包括组织样本、液体活检样本或其任何组合。
67.根据实施方式54所述的方法,其中所述一个或多个对象是人类或非人类哺乳动物。
68.根据实施方式54所述的方法,其中所述一个或多个核酸测序读段包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA、循环肿瘤细胞DNA、循环肿瘤细胞RNA或其任何组合。
69.根据实施方式54所述的方法,其中所述人类参考基因组数据库是GRCh38。
70.根据实施方式54所述的方法,其中所述预测癌症模型的输出提供与对象的癌症的存在或不存在相关联的对癌症的所述存在或所述不存在、癌症身体部位位置、癌症体细胞突变或其任何组合的诊断。
71.根据实施方式70所述的方法,其中所述预测癌症模型的所述输出包括对所述癌症体细胞突变、所述多个k-mer的所述丰度或其任何组合的分析。
72.根据实施方式54所述的方法,其中用一组癌症突变和k-mer丰度训练经训练预测模型,所述组癌症突变和k-mer丰度已知在感兴趣的癌症中以特性丰度存在或不存在。
73.根据实施方式65所述的方法,其中所述非人类k-mer来源于以下生命域:细菌、古菌、真菌、病毒或其任何组合生命域。
74.根据实施方式54所述的方法,其中所述预测癌症模型被配置成确定对象的癌症的一种或多种类型的存在与否。
75.根据实施方式74所述的方法,其中癌症的所述一种或多种类型处于早期。
76.根据实施方式75所述的方法,其中所述早期包括癌症的I期、II期或其任何组合期。
77.根据实施方式54所述的方法,其中所述预测癌症模型被配置成确定对象的癌症的一种或多种亚型的存在与否。
78.根据实施方式54所述的方法,其中所述预测癌症模型被配置成预测对象的癌症分期、癌症预后或其任何组合。
79.根据实施方式54所述的方法,其中所述预测癌症模型被配置成预测当施用治疗性化合物治疗癌症时对象的治疗性反应。
80.根据实施方式54所述的方法,其中所述预测癌症模型被配置成确定对象的最佳疗法。
81.根据实施方式54所述的方法,其中所述预测癌症模型被配置成对对象的一种或多种癌症对疗法的反应的过程进行纵向建模,从而产生对象的一种或多种癌症对所述疗法的反应的所述过程的纵向模型。
82.根据实施方式81所述的方法,其中所述预测癌症模型被配置成至少部分基于所述纵向模型来确定对对象的一种或多种癌症的疗法的所述过程的调整。
83.根据实施方式54所述的方法,其中所述预测癌症模型被配置成确定对象的以下癌症的存在与否:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。
84.根据实施方式59所述的方法,其中所述计算机内净化识别并去除非人类污染物特征,同时保留其他非人类信号特征。
85.根据实施方式66所述的方法,其中所述液体活检包括:血浆、血清、全血、尿液、脑脊髓液、唾液、汗液、眼泪、呼出的呼吸冷凝物或其任何组合。
86.根据实施方式63所述的方法,其中所述癌症突变数据库源自癌症体细胞突变目录(COSMIC)、癌症基因组项目(CGP)、癌症基因组图谱(TGCA)、国际癌症基因组联盟(ICGC)或其任何组合。
87.根据实施方式55所述的方法,其中通过Jellyfish、UCLUST、GenomeTools(Tallymer)、KMC2、Gerbil、DSK或其任何组合来确定所述多个k-mer的所述丰度。
88.根据实施方式54所述的方法,其中所述一个或多个对象的所述临床分类包括健康、癌性、非癌性疾病或其任何组合。
89.根据实施方式54所述的方法,其中所述一个或多个经过滤的测序读段包括非人类测序读段、非匹配的非人类测序读段或其任何组合。
90.根据实施方式89所述的方法,其中所述非匹配的非人类测序读段包括与非人类参考基因组数据库不匹配的测序读段。
91.一种使用经训练预测模型诊断对象的癌症的方法,所述方法包括:
(a)接收第一一个或多个对象的核酸样本的多个体细胞突变和非人类k-mer序列;
(b)提供所述第一一个或多个对象的多个体细胞突变和非人类k-mer序列作为经训练预测模型的输入,其中所述经训练预测模型用第二一个或多个对象的多个体细胞突变序列、非人类k-mer序列和所述第二一个或多个对象的相应临床分类训练,并且其中所述第一一个或多个对象和所述第二一个或多个对象是不同的对象;以及
(c)至少部分基于所述经训练预测模型的输出来诊断所述第一一个或多个对象的癌症。
92.根据实施方式91所述的方法,其中接收所述多个体细胞突变还包括对所述第一一个或多个对象的核酸样本的体细胞突变进行计数。
93.根据实施方式91所述的方法,其中接收所述多个非人类k-mer序列包括对所述第一一个或多个对象的核酸样本的所述非人类k-mer序列进行计数。
94.根据实施方式91所述的方法,其中诊断所述第一一个或多个对象的癌症还包括确定所述第一一个或多个对象癌症的类别或位置。
95.根据实施方式91所述的方法,其中诊断所述第一一个或多个对象的所述癌症还包括确定所述第一一个或多个对象的癌症的一种或多种类型。
96.根据实施方式91所述的方法,其中诊断所述第一一个或多个对象的所述癌症还包括确定所述第一一个或多个对象的癌症的一种或多种亚型。
97.根据实施方式91所述的方法,其中诊断所述第一一个或多个对象的所述癌症还包括确定所述第一一个或多个对象的癌症分期、癌症预后或其任何组合。
98.根据实施方式91所述的方法,其中诊断所述第一一个或多个对象的所述癌症还包括确定处于早期的癌症的类型。
99.根据实施方式98所述的方法,其中处于所述早期的癌症的所述类型包括I期或II期癌症。
100.根据实施方式91所述的方法,其中诊断所述第一一个或多个对象的所述癌症还包括确定所述第一一个或多个对象的癌症的突变状态。
101.根据实施方式91所述的方法,其中诊断所述第一一个或多个对象的所述癌症还包括确定所述第一一个或多个对象对治疗所述第一一个或多个对象的癌症的疗法的反应。
102.根据实施方式91所述的方法,其中所述癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。
103.根据实施方式91所述的方法,其中所述第一一个或多个对象和所述第二一个或多个对象是非人类哺乳动物。
104.根据实施方式91所述的方法,其中所述第一一个或多个对象和所述第二一个或多个对象是人类。
105.根据实施方式91所述的方法,其中所述第一一个或多个对象和所述第二一个或多个对象是哺乳动物。
106.根据实施方式91所述的方法,其中所述多个非人类k-mer序列来源于以下非哺乳动物生命域:病毒、细菌、古菌、真菌或其任何组合。
107.一种用于利用经训练预测模型来确定一个或多个对象的癌症的存在与否的计算机实现的方法,所述方法包括:
(a)接收第一一个或多个对象的核酸样本的多个体细胞突变和非人类k-mer序列;
(b)提供所述第一一个或多个对象的多个体细胞突变和非人类k-mer序列作为经训练预测模型的输入,其中所述经训练预测模型用第二一个或多个对象的多个体细胞突变序列、非人类k-mer序列和所述第二一个或多个对象的相应临床分类来训练,并且其中所述第一一个或多个对象和所述第二一个或多个对象是不同的对象;和
(c)至少部分基于所述经训练预测模型的输出来确定所述第一一个或多个对象的癌症的存在与否。
108.根据实施方式107所述的计算机实现的方法,其中接收所述多个体细胞突变还包括对所述第一一个或多个对象的核酸样本的体细胞突变进行计数。
109.根据实施方式107所述的计算机实现的方法,其中接收所述多个非人类k-mer序列包括对所述第一一个或多个对象的核酸样本的所述非人类k-mer序列进行计数。
110.根据实施方式107所述的计算机实现的方法,其中确定所述第一一个或多个对象的癌症的存在与否还包括确定所述第一一个或多个对象的癌症的类别或位置。
111.根据实施方式107所述的计算机实现的方法,其中确定所述第一一个或多个对象的癌症的存在与否还包括确定所述第一一个或多个对象的癌症的一种或多种类型。
112.根据实施方式107所述的计算机实现的方法,其中确定所述第一一个或多个对象的癌症的存在与否还包括确定所述第一一个或多个对象的癌症的一种或多种亚型。
113.根据实施方式107所述的计算机实现的方法,其中确定所述第一一个或多个对象的癌症的存在与否还包括确定所述癌症的分期、癌症预后或其任何组合。
114.根据实施方式107所述的计算机实现的方法,其中确定所述第一一个或多个对象的癌症的存在与否还包括确定处于早期的癌症的类型。
115.根据实施方式114所述的计算机实现的方法,其中处于所述早期的癌症的所述类型包括I期或II期癌症。
116.根据实施方式107所述的计算机实现的方法,其中确定所述第一一个或多个对象的癌症的存在与否还包括确定所述第一一个或多个对象的癌症的突变状态。
117.根据实施方式107所述的计算机实现的方法,其中确定所述第一一个或多个对象的癌症的存在与否还包括确定所述第一一个或多个对象对治疗所述第一一个或多个对象的癌症的疗法的反应。
118.根据实施方式107所述的计算机实现的方法,其中所述癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。
119.根据实施方式107所述的计算机实现的方法,其中所述第一一个或多个对象和所述第二一个或多个对象是非人类哺乳动物。
120.根据实施方式107所述的计算机实现的方法,其中所述第一一个或多个对象和所述第二一个或多个对象是人类。
121.根据实施方式107所述的计算机实现的方法,其中所述第一一个或多个对象和所述第二一个或多个对象是哺乳动物。
122.根据实施方式107所述的计算机实现的方法,其中所述多个非人类k-mer序列源自以下非哺乳动物生命域:病毒、细菌、古菌、真菌或其任何组合。

Claims (122)

1.一种生成预测癌症模型的方法,所述方法包括:
(a)对一个或多个对象的生物样本的核酸组成进行测序,从而生成一个或多个测序读段;
(b)用人类基因组数据库过滤所述一个或多个测序读段,从而产生一个或多个经过滤的测序读段;
(c)从所述一个或多个经过滤的测序读段生成多个k-mer;以及
(d)通过用所述多个k-mer和所述一个或多个对象的相应临床分类训练预测模型来生成预测癌症模型。
2.根据权利要求1所述的方法,其还包括确定所述多个k-mer的丰度,并用所述多个k-mer的所述丰度训练所述预测模型。
3.根据权利要求1所述的方法,其中通过所述一个或多个测序读段与所述人类参考基因组数据库之间的精确匹配来执行过滤。
4.根据权利要求3所述的方法,其中精确匹配包括用软件程序Kraken或Kraken 2对所述一个或多个测序读段进行计算过滤。
5.根据权利要求3所述的方法,其中精确匹配包括用软件程序bowtie 2或其任何等效物对所述一个或多个测序读段进行计算过滤。
6.根据权利要求1所述的方法,其还包括对所述一个或多个经过滤的测序读段执行计算机内净化,从而产生一个或多个经净化的测序读段。
7.根据权利要求6所述的方法,其还包括将所述一个或多个经净化的测序读段映射到人类参考基因组数据库的构建,以产生多个突变的人类序列比对。
8.根据权利要求7所述的方法,其中通过bowtie 2序列比对工具或其任何等效物来执行映射。
9.根据权利要求7所述的方法,其中映射包括端到端比对、局部比对或其任何组合。
10.根据权利要求7所述的方法,其还包括通过查询癌症突变数据库来识别所述多个突变的人类序列比对中的癌症突变。
11.根据权利要求10所述的方法,其还包括用所述癌症突变生成癌症突变丰度表。
12.根据权利要求1所述的方法,其中所述多个k-mer包括非人类k-mer、人类突变的k-mer、未分类的DNA k-mer或其任何组合。
13.根据权利要求1所述的方法,其中所述生物样本包括组织样本、液体活检样本或其任何组合。
14.根据权利要求1所述的方法,其中所述一个或多个对象是人类或非人类哺乳动物。
15.根据权利要求1所述的方法,其中所述核酸组成包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA、循环肿瘤细胞DNA、循环肿瘤细胞RNA或其任何组合。
16.根据权利要求1所述的方法,其中所述人类参考基因组数据库是GRCh38。
17.根据权利要求2所述的方法,其中所述预测癌症模型的输出提供与对象的癌症的存在或不存在相关联的对癌症的所述存在或所述不存在、癌症身体部位位置、癌症体细胞突变或其任何组合的诊断。
18.根据权利要求17所述的方法,其中所述预测癌症模型的所述输出包括对所述癌症体细胞突变、所述多个k-mer的所述丰度或其任何组合的分析。
19.根据权利要求1所述的方法,其中用一组癌症突变和k-mer丰度训练经训练预测模型,所述组癌症突变和k-mer丰度已知在感兴趣的癌症中以特性丰度存在或不存在。
20.根据权利要求12所述的方法,其中所述非人类k-mer来源于以下生命域:细菌、古菌、真菌、病毒或其任何组合生命域。
21.根据权利要求1所述的方法,其中所述预测癌症模型被配置成确定对象的癌症的一种或多种类型的存在与否。
22.根据权利要求21所述的方法,其中癌症的所述一种或多种类型处于早期。
23.根据权利要求22所述的方法,其中所述早期包括癌症的I期、II期或其任何组合期。
24.根据权利要求1所述的方法,其中所述预测癌症模型被配置成确定对象中癌症的一种或多种亚型的存在与否。
25.根据权利要求1所述的方法,其中所述预测癌症模型被配置成预测对象的癌症分期、癌症预后或其任何组合。
26.根据权利要求1所述的方法,其中所述预测癌症模型被配置成预测当施用治疗性化合物治疗癌症时对象的治疗性反应。
27.根据权利要求1所述的方法,其中所述预测癌症模型被配置成确定对象的最佳疗法。
28.根据权利要求1所述的方法,其中所述预测癌症模型被配置成对对象的一种或多种癌症对疗法的反应的过程进行纵向建模,从而产生所述对象的一种或多种癌症对所述疗法的反应的所述过程的纵向模型。
29.根据权利要求28所述的方法,其中所述预测癌症模型被配置成至少部分基于所述纵向模型来确定对对象的一种或多种癌症的疗法的所述过程的调整。
30.根据权利要求1所述的方法,其中所述预测癌症模型被配置成确定对象的以下癌症的存在与否:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。
31.根据权利要求6所述的方法,其中所述计算机内净化识别并去除非人类污染物特征,同时保留其他非人类信号特征。
32.根据权利要求13所述的方法,其中所述液体活检包括:血浆、血清、全血、尿液、脑脊髓液、唾液、汗液、眼泪、呼出的呼吸冷凝物或其任何组合。
33.根据权利要求10所述的方法,其中所述癌症突变数据库源自癌症体细胞突变目录(COSMIC)、癌症基因组项目(CGP)、癌症基因组图谱(TGCA)、国际癌症基因组联盟(ICGC)或其任何组合。
34.根据权利要求2所述的方法,其中通过Jellyfish、UCLUST、GenomeTools(Tallymer)、KMC2、Gerbil、DSK或其任何组合来确定所述多个k-mer的所述丰度。
35.根据权利要求1所述的方法,其中所述一个或多个对象的所述临床分类包括健康、癌性、非癌性疾病或其任何组合分类。
36.根据权利要求1所述的方法,其中所述一个或多个经过滤的测序读段包括与参考人类基因组的非精确匹配、非人类测序读段、非匹配的非人类测序读段或其任何组合。
37.根据权利要求36所述的方法,其中所述非匹配的非人类测序读段包括与非人类参考基因组数据库不匹配的测序读段。
38.一种诊断对象的癌症的方法,所述方法包括:
(a)确定对象的样本的多个体细胞突变和非人类k-mer序列;
(b)将所述对象的所述多个体细胞突变和所述多个非人类k-mer序列与给定癌症的多个体细胞突变和非人类k-mer序列进行比较;以及
(c)通过至少部分基于所述对象的多个体细胞突变和非人类k-mer序列与所述给定癌症的所述多个体细胞突变和非人类k-mer序列的比较提供癌症存在与否的概率来诊断所述对象的癌症。
39.根据权利要求38所述的方法,其中确定所述多个体细胞突变还包括对所述对象的样本的体细胞突变进行计数。
40.根据权利要求38所述的方法,其中确定所述多个非人类k-mer序列包括对所述对象的样本的所述非人类k-mer序列进行计数。
41.根据权利要求38所述的方法,其中诊断所述对象的所述癌症还包括确定所述癌症的类别或位置。
42.根据权利要求38所述的方法,其中诊断所述对象的所述癌症还包括确定所述对象的癌症的一种或多种类型。
43.根据权利要求38所述的方法,其中诊断所述对象的所述癌症还包括确定所述对象的癌症的一种或多种亚型。
44.根据权利要求38所述的方法,其中诊断所述对象的所述癌症还包括确定所述对象的癌症的分期、癌症预后或其任何组合。
45.根据权利要求38所述的方法,其中诊断所述对象的所述癌症还包括确定处于早期的癌症的类型。
46.根据权利要求45所述的方法,其中处于所述早期的癌症的所述类型包括I期或II期癌症。
47.根据权利要求38所述的方法,其中诊断所述对象的所述癌症还包括确定所述对象的癌症的突变状态。
48.根据权利要求38所述的方法,其中诊断所述对象的所述癌症还包括确定所述对象对治疗所述对象的癌症的疗法的反应。
49.根据权利要求38所述的方法,其中所述癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。
50.根据权利要求38所述的方法,其中所述对象是非人类哺乳动物。
51.根据权利要求38所述的方法,其中所述对象是人类。
52.根据权利要求38所述的方法,其中所述对象是哺乳动物。
53.根据权利要求38所述的方法,其中所述多个非人类k-mer序列来源于以下非哺乳动物生命域:病毒、细菌、古菌、真菌或其任何组合。
54.一种生成预测癌症模型的方法,所述方法包括:
(a)提供一个或多个对象的生物样本的一个或多个核酸测序读段;
(b)用人类基因组数据库过滤所述一个或多个核酸测序读段,从而产生一个或多个经过滤的测序读段;
(c)从所述一个或多个经过滤的测序读段生成多个k-mer;以及
(d)通过用所述多个k-mer和所述一个或多个对象的相应临床分类训练预测模型来生成预测癌症模型。
55.根据权利要求54所述的方法,其还包括确定所述多个k-mer的丰度,并用所述多个k-mer的所述丰度训练所述预测模型。
56.根据权利要求54所述的方法,其中通过所述一个或多个核酸测序读段与所述人类参考基因组数据库之间的精确匹配来执行过滤。
57.根据权利要求56所述的方法,其中精确匹配包括用软件程序Kraken或Kraken 2对所述一个或多个核酸测序读段进行计算过滤。
58.根据权利要求56所述的方法,其中精确匹配包括用软件程序bowtie 2或其任何等效物对所述一个或多个核酸测序读段进行计算过滤。
59.根据权利要求54所述的方法,其还包括对所述一个或多个经过滤的测序读段执行计算机内净化,从而产生一个或多个经净化的测序读段。
60.根据权利要求59所述的方法,其还包括将所述一个或多个经净化的测序读段映射到人类参考基因组数据库的构建,以产生多个突变的人类序列比对。
61.根据权利要求60所述的方法,其中通过bowtie 2序列比对工具或其任何等效物来执行映射。
62.根据权利要求60所述的方法,其中映射包括端到端比对、局部比对或其任何组合。
63.根据权利要求60所述的方法,其还包括通过查询癌症突变数据库来识别所述多个突变的人类序列比对中的癌症突变。
64.根据权利要求63所述的方法,其还包括用所述癌症突变生成癌症突变丰度表。
65.根据权利要求54所述的方法,其中所述多个k-mer可以包括非人类k-mer、人类突变的k-mer、未分类的DNA k-mer或其任何组合。
66.根据权利要求54所述的方法,其中所述一个或多个生物样本包括组织样本、液体活检样本或其任何组合。
67.根据权利要求54所述的方法,其中所述一个或多个对象是人类或非人类哺乳动物。
68.根据权利要求54所述的方法,其中所述一个或多个核酸测序读段包含DNA、RNA、无细胞DNA、无细胞RNA、外泌体DNA、外泌体RNA、循环肿瘤细胞DNA、循环肿瘤细胞RNA或其任何组合。
69.根据权利要求54所述的方法,其中所述人类参考基因组数据库是GRCh38。
70.根据权利要求54所述的方法,其中所述预测癌症模型的输出提供与对象的癌症的存在或不存在相关联的对癌症的所述存在或所述不存在、癌症身体部位位置、癌症体细胞突变或其任何组合的诊断。
71.根据权利要求70所述的方法,其中所述预测癌症模型的所述输出包括对所述癌症体细胞突变、所述多个k-mer的所述丰度或其任何组合的分析。
72.根据权利要求54所述的方法,其中用一组癌症突变和k-mer丰度训练经训练预测模型,所述组癌症突变和k-mer丰度已知在感兴趣的癌症中以特性丰度存在或不存在。
73.根据权利要求65所述的方法,其中所述非人类k-mer来源于以下生命域:细菌、古菌、真菌、病毒或其任何组合生命域。
74.根据权利要求54所述的方法,其中所述预测癌症模型被配置成确定对象的癌症的一种或多种类型的存在与否。
75.根据权利要求74所述的方法,其中癌症的所述一种或多种类型处于早期。
76.根据权利要求75所述的方法,其中所述早期包括癌症的I期、II期或其任何组合期。
77.根据权利要求54所述的方法,其中所述预测癌症模型被配置成确定对象的癌症的一种或多种亚型的存在与否。
78.根据权利要求54所述的方法,其中所述预测癌症模型被配置成预测对象的癌症分期、癌症预后或其任何组合。
79.根据权利要求54所述的方法,其中所述预测癌症模型被配置成预测当施用治疗性化合物治疗癌症时对象的治疗性反应。
80.根据权利要求54所述的方法,其中所述预测癌症模型被配置成确定对象的最佳疗法。
81.根据权利要求54所述的方法,其中所述预测癌症模型被配置成对对象的一种或多种癌症对疗法的反应的过程进行纵向建模,从而产生对象的一种或多种癌症对所述疗法的反应的所述过程的纵向模型。
82.根据权利要求81所述的方法,其中所述预测癌症模型被配置成至少部分基于所述纵向模型来确定对对象的一种或多种癌症的疗法的所述过程的调整。
83.根据权利要求54所述的方法,其中所述预测癌症模型被配置成确定对象的以下癌症的存在与否:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。
84.根据权利要求59所述的方法,其中所述计算机内净化识别并去除非人类污染物特征,同时保留其他非人类信号特征。
85.根据权利要求66所述的方法,其中所述液体活检包括:血浆、血清、全血、尿液、脑脊髓液、唾液、汗液、眼泪、呼出的呼吸冷凝物或其任何组合。
86.根据权利要求63所述的方法,其中所述癌症突变数据库源自癌症体细胞突变目录(COSMIC)、癌症基因组项目(CGP)、癌症基因组图谱(TGCA)、国际癌症基因组联盟(ICGC)或其任何组合。
87.根据权利要求55所述的方法,其中通过Jellyfish、UCLUST、GenomeTools(Tallymer)、KMC2、Gerbil、DSK或其任何组合来确定所述多个k-mer的所述丰度。
88.根据权利要求54所述的方法,其中所述一个或多个对象的所述临床分类包括健康、癌性、非癌性疾病或其任何组合。
89.根据权利要求54所述的方法,其中所述一个或多个经过滤的测序读段包括非人类测序读段、非匹配的非人类测序读段或其任何组合。
90.根据权利要求89所述的方法,其中所述非匹配的非人类测序读段包括与非人类参考基因组数据库不匹配的测序读段。
91.一种使用经训练预测模型诊断对象的癌症的方法,所述方法包括:
(a)接收第一一个或多个对象的核酸样本的多个体细胞突变和非人类k-mer序列;
(b)提供所述第一一个或多个对象的多个体细胞突变和非人类k-mer序列作为经训练预测模型的输入,其中所述经训练预测模型用第二一个或多个对象的多个体细胞突变序列、非人类k-mer序列和所述第二一个或多个对象的相应临床分类来训练,并且其中所述第一一个或多个对象和所述第二一个或多个对象是不同的对象;以及
(c)至少部分基于所述经训练预测模型的输出来诊断所述第一一个或多个对象的癌症。
92.根据权利要求91所述的方法,其中接收所述多个体细胞突变还包括对所述第一一个或多个对象的核酸样本的体细胞突变进行计数。
93.根据权利要求91所述的方法,其中接收所述多个非人类k-mer序列包括对所述第一一个或多个对象的核酸样本的所述非人类k-mer序列进行计数。
94.根据权利要求91所述的方法,其中诊断所述第一一个或多个对象的所述癌症还包括确定所述第一一个或多个对象的癌症的类别或位置。
95.根据权利要求91所述的方法,其中诊断所述第一一个或多个对象的所述癌症还包括确定第一一个或多个对象的癌症的一种或多种类型。
96.根据权利要求91所述的方法,其中诊断所述第一一个或多个对象的所述癌症还包括确定所述第一一个或多个对象的癌症的一种或多种亚型。
97.根据权利要求91所述的方法,其中诊断所述第一一个或多个对象的所述癌症还包括确定所述第一一个或多个对象的癌症分期、癌症预后或其任何组合。
98.根据权利要求91所述的方法,其中诊断所述第一一个或多个对象的所述癌症还包括确定处于早期的癌症的类型。
99.根据权利要求98所述的方法,其中处于所述早期的癌症的所述类型包括I期或II期癌症。
100.根据权利要求91所述的方法,其中诊断所述第一一个或多个对象的所述癌症还包括确定所述第一一个或多个对象的癌症的突变状态。
101.根据权利要求91所述的方法,其中诊断所述第一一个或多个对象的所述癌症还包括确定所述第一一个或多个对象对治疗所述第一一个或多个对象的癌症的疗法的反应。
102.根据权利要求91所述的方法,其中所述癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。
103.根据权利要求91所述的方法,其中所述第一一个或多个对象和所述第二一个或多个对象是非人类哺乳动物。
104.根据权利要求91所述的方法,其中所述第一一个或多个对象和所述第二一个或多个对象是人类。
105.根据权利要求91所述的方法,其中所述第一一个或多个对象和所述第二一个或多个对象是哺乳动物。
106.根据权利要求91所述的方法,其中所述多个非人类k-mer序列来源于以下非哺乳动物生命域:病毒、细菌、古菌、真菌或其任何组合。
107.一种用于利用经训练预测模型来确定一个或多个对象的癌症的存在与否的计算机实现的方法,所述方法包括:
(a)接收第一一个或多个对象的核酸样本的多个体细胞突变和非人类k-mer序列;
(b)提供所述第一一个或多个对象的多个体细胞突变和非人类k-mer序列作为经训练预测模型的输入,其中所述经训练预测模型用第二一个或多个对象的多个体细胞突变序列、非人类k-mer序列和所述第二一个或多个对象的相应临床分类来训练,并且其中所述第一一个或多个对象和所述第二一个或多个对象是不同的对象;以及
(c)至少部分基于所述经训练预测模型的输出来确定所述第一一个或多个对象的癌症的存在与否。
108.根据权利要求107所述的计算机实现的方法,其中接收所述多个体细胞突变还包括对所述第一一个或多个对象的核酸样本的体细胞突变进行计数。
109.根据权利要求107所述的计算机实现的方法,其中接收所述多个非人类k-mer序列包括对所述第一一个或多个对象的核酸样本的所述非人类k-mer序列进行计数。
110.根据权利要求107所述的计算机实现的方法,其中确定所述第一一个或多个对象的癌症的存在与否还包括确定所述第一一个或多个对象的癌症的类别或位置。
111.根据权利要求107所述的计算机实现的方法,其中确定所述第一一个或多个对象的癌症的存在与否还包括确定所述第一一个或多个对象的癌症的一种或多种类型。
112.根据权利要求107所述的计算机实现的方法,其中确定所述第一一个或多个对象的癌症的存在与否还包括确定所述第一一个或多个对象的癌症的一种或多种亚型。
113.根据权利要求107所述的计算机实现的方法,其中确定所述第一一个或多个对象的癌症的存在与否还包括确定所述癌症的分期、癌症预后或其任何组合。
114.根据权利要求107所述的计算机实现的方法,其中确定所述第一一个或多个对象的癌症的存在与否还包括确定处于早期的癌症的类型。
115.根据权利要求114所述的计算机实现的方法,其中处于所述早期的癌症的所述类型包括I期或II期癌症。
116.根据权利要求107所述的计算机实现的方法,其中确定所述第一一个或多个对象的癌症的存在与否还包括确定所述第一一个或多个对象的癌症的突变状态。
117.根据权利要求107所述的计算机实现的方法,其中确定所述第一一个或多个对象的癌症的存在与否还包括确定所述第一一个或多个对象对治疗所述第一一个或多个对象的癌症的疗法的反应。
118.根据权利要求107所述的计算机实现的方法,其中所述癌症包括:急性骨髓性白血病、肾上腺皮质癌、膀胱尿路上皮癌、低级别脑胶质瘤、浸润性乳腺癌、宫颈鳞状细胞癌和宫颈内腺癌、胆管癌、结肠腺癌、食管癌、多形性胶质母细胞瘤、头颈部鳞状细胞癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、肝细胞癌、肺腺癌、肺鳞状细胞癌、淋巴样肿瘤弥漫大B细胞淋巴瘤、间皮瘤、卵巢浆液性囊腺癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠腺癌、肉瘤、皮肤黑色素瘤、胃腺癌、睾丸生殖细胞瘤、胸腺瘤、甲状腺癌、子宫癌肉瘤、子宫体子宫内膜癌、葡萄膜黑色素瘤或其任何组合。
119.根据权利要求107所述的计算机实现的方法,其中所述第一一个或多个对象和所述第二一个或多个对象是非人类哺乳动物。
120.根据权利要求107所述的计算机实现的方法,其中所述第一一个或多个对象和所述第二一个或多个对象是人类。
121.根据权利要求107所述的计算机实现的方法,其中所述第一一个或多个对象和所述第二一个或多个对象是哺乳动物。
122.根据权利要求107所述的计算机实现的方法,其中所述多个非人类k-mer序列来源于以下非哺乳动物生命域:病毒、细菌、古菌、真菌或其任何组合。
CN202180094414.3A 2020-12-22 2021-12-22 使用微生物核酸和体细胞突变的独立于分类学的癌症诊断和分类 Pending CN117203705A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063128971P 2020-12-22 2020-12-22
US63/128,971 2020-12-22
PCT/US2021/064977 WO2022140616A1 (en) 2020-12-22 2021-12-22 Taxonomy-independent cancer diagnostics and classification using microbial nucleic acids and somatic mutations

Publications (1)

Publication Number Publication Date
CN117203705A true CN117203705A (zh) 2023-12-08

Family

ID=82158458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180094414.3A Pending CN117203705A (zh) 2020-12-22 2021-12-22 使用微生物核酸和体细胞突变的独立于分类学的癌症诊断和分类

Country Status (9)

Country Link
US (1) US20240035093A1 (zh)
EP (1) EP4268232A1 (zh)
JP (1) JP2024500881A (zh)
KR (1) KR20230134491A (zh)
CN (1) CN117203705A (zh)
CA (1) CA3202888A1 (zh)
IL (1) IL303849A (zh)
MX (1) MX2023007515A (zh)
WO (1) WO2022140616A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9873913B2 (en) * 2013-03-08 2018-01-23 Roche Molecular Systems, Inc. Mutation testing
WO2016097251A1 (en) * 2014-12-19 2016-06-23 Danmarks Tekniske Universitet Method for identification of tissue or organ localization of a tumour
US11615864B2 (en) * 2017-02-17 2023-03-28 The Board Of Trustees Of The Leland Stanford Junior University Accurate and sensitive unveiling of chimeric biomolecule sequences and applications thereof
CA3096678A1 (en) * 2018-04-13 2019-10-17 Grail, Inc. Multi-assay prediction model for cancer detection

Also Published As

Publication number Publication date
CA3202888A1 (en) 2022-06-30
JP2024500881A (ja) 2024-01-10
WO2022140616A1 (en) 2022-06-30
EP4268232A1 (en) 2023-11-01
US20240035093A1 (en) 2024-02-01
KR20230134491A (ko) 2023-09-21
IL303849A (en) 2023-08-01
MX2023007515A (es) 2023-09-12

Similar Documents

Publication Publication Date Title
US11367508B2 (en) Systems and methods for detecting cellular pathway dysregulation in cancer specimens
EP4073805B1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
JP2022532897A (ja) マルチラベルがん分類のためのシステムおよび方法
CA3129831A1 (en) An integrated machine-learning framework to estimate homologous recombination deficiency
US11961589B2 (en) Models for targeted sequencing
US20220367010A1 (en) Molecular response and progression detection from circulating cell free dna
US20220215900A1 (en) Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
Hu et al. Classifying the multi-omics data of gastric cancer using a deep feature selection method
CN113862351B (zh) 体液样本中鉴定胞外rna生物标志物的试剂盒及方法
Tang et al. A Wavelet‐Based Learning Model Enhances Molecular Prognosis in Pancreatic Adenocarcinoma
EP4222751A1 (en) Systems and methods for using a convolutional neural network to detect contamination
Vijayan et al. Blood-based transcriptomic signature panel identification for cancer diagnosis: benchmarking of feature extraction methods
Mishra et al. Pan-cancer analysis for studying cancer stage using protein and gene expression data
JP2024535736A (ja) がん関連微生物バイオマーカーを特定する方法
CN117203705A (zh) 使用微生物核酸和体细胞突变的独立于分类学的癌症诊断和分类
Yang et al. Gene features selection for three-class disease classification via multiple orthogonal partial least square discriminant analysis and S-plot using microarray data
Balov A categorical network approach for discovering differentially expressed regulations in cancer
Smedley et al. Identifying transcription patterns of histology and radiomics features in NSCLC with neural networks
WO2019016353A1 (en) CLASSIFICATION OF SOMATIC MUTATIONS FROM A HETEROGENEOUS SAMPLE
US20240203530A1 (en) Machine learning techniques to determine base methylations
WO2022104278A1 (en) Cancer diagnosis and classification by non-human metagenomic pathway analysis
WO2024079279A1 (en) Disease characterisation
Wei et al. Subclassification of lung adenocarcinoma through comprehensive multi-omics data to benefit survival outcomes
WO2024192121A1 (en) White blood cell contamination detection
Mohammed et al. An Integrated RNA and DNA Molecular Signature for Colorectal Cancer Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination