CN116640847A - 癌症进化检测和诊断 - Google Patents

癌症进化检测和诊断 Download PDF

Info

Publication number
CN116640847A
CN116640847A CN202310567684.2A CN202310567684A CN116640847A CN 116640847 A CN116640847 A CN 116640847A CN 202310567684 A CN202310567684 A CN 202310567684A CN 116640847 A CN116640847 A CN 116640847A
Authority
CN
China
Prior art keywords
state
subject
subjects
states
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310567684.2A
Other languages
English (en)
Inventor
埃尔米·埃尔图凯
阿米尔阿里·塔拉萨兹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guardant Health Inc
Original Assignee
Guardant Health Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guardant Health Inc filed Critical Guardant Health Inc
Publication of CN116640847A publication Critical patent/CN116640847A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Abstract

本申请涉及癌症进化检测和诊断。本公开内容提供了用于确定在多种治疗干预中的任何一种之后,受试者的初始状态,比如患有癌症的受试者的体细胞突变状态,将发展成后续状态的概率的方法。这种概率可以用于告知医疗保健提供者特定的治疗过程,以最大化对于受试者的期望结果的概率。

Description

癌症进化检测和诊断
本申请是申请日为2017年02月02日,申请号为201780021370.5,发明名称为“癌症进化检测和诊断”的申请的分案申请。
交叉引用
本申请要求2016年2月2日提交的美国临时专利申请号62/290,375的优先权,其通过引用整体并入本文。
背景
癌症为全世界疾病的主要负担。每年,全世界有数千万人被诊断患有癌症,并且这些人的一半以上可能无法有效地治疗癌症,并且最终可能会死亡。在许多国家,癌症列为继心血管疾病之后的第二大最常见的死亡原因。
靶向人类肿瘤中遗传易损性(genetic vulnerability)的药物现在已经被临床验证为有效的癌症疗法。然而,对这种治疗的耐药性的获得可能会显著地限制它们的效用,并且对晚期癌症的临床管理仍然是一个实质性的挑战。对用抗癌药物的治疗的耐药性可能由多种因素导致,包括受试者中的个体差异以及肿瘤内遗传变体的出现和扩展。对于获得对广谱抗癌药物的耐药性的最常见原因是一种或更多种能量依赖转运蛋白的表达,这些转运蛋白检测并从细胞中排出抗癌药物,但是其他耐药性机制可能包括对药物诱导的细胞凋亡的不敏感和药物解毒机制的诱导。
对于有已经转移或扩散到全身各处的实体瘤(比如乳腺癌、前列腺癌、肺癌和结肠癌的那些)的癌症患者,化学疗法耐药性的发展是常见的、往往致命的后果。在一些情况下,特定的突变机制直接导致获得性药物耐药性,并且在其他情况下,非突变机制和可能的表观遗传机制似乎发挥了显著作用。
对于肿瘤药物耐药的机制表征的黄金标准涉及治疗前和复发后获得的肿瘤组织的详细研究,以及候选耐药性效应物的实验确认。
概述
如本文所认识到的,对于预测患者应答和对癌症治疗出现耐药性的替代工具存在相当大的需求。
本公开内容提供了用于检测或监测癌症进化的方法和系统。这些方法和系统可以被用于预测患者应答和对癌症治疗出现耐药性,以及其他优势。
在一方面,本公开内容提供了计算机实施的方法,所述方法包括:(a)在第一时间点获得关于患有癌症的多个受试者的信息,其中所述信息包含对于所述多个受试者中的每个受试者,通过对来自无细胞体液的核酸进行基因分型而获得的至少肿瘤的遗传档案(genetic profile)以及在第一时间点之前提供给受试者的任何治疗,并且基于在第一时间点的信息确定多个受试者中的每个受试者的第一状态以产生第一状态集;(b)在第一时间点之后的一个或更多个第二时间点获得关于多个受试者的信息,并且基于在一个或更多个第二时间点中给定的一个时间点的信息,在一个或更多个第二时间点的每一个处确定多个受试者中的每个受试者的第二状态,以产生后续状态集;以及(c)使用来自(a)的第一状态集和来自(b)的后续状态集来生成预测算法,该预测算法被配置为确定给定的第一状态将在给定的第一状态之后的稍后时间点的状态集中导致第二状态的概率。在一些实施方案中,该方法进一步包括(d)对于在较早时间点的状态集中的给定的第一状态,确定给定的第一状态将在稍后时间点的状态集中导致第二状态的概率;以及(e)生成指示在(d)中确定的概率的电子输出。
在一方面,本公开内容提供了计算机实施的方法,所述方法包括:(a)在第一时间点获得关于患有癌症的多个受试者的信息,其中所述信息包含,对于所述多个受试者中的每个受试者,通过对至少50个基因进行基因分型而获得的至少肿瘤的遗传档案以及在第一时间点之前提供给受试者的任何治疗,并且基于在第一时间点的信息确定多个受试者中的每个受试者的第一状态以产生第一状态集;(b)在第一时间点之后的一个或更多个第二时间点获得关于多个受试者的信息,并且基于在一个或更多个第二时间点中给定的一个时间点的信息,在一个或更多个第二时间点的每一个处确定多个受试者中的每个受试者的第二状态,以产生后续状态集;以及(c)使用来自(a)的第一状态集和来自(b)的后续状态集来生成预测算法,该预测算法被配置为确定给定的第一状态将在给定的第一状态之后的稍后时间点的状态集中导致第二状态的概率。在一些实施方案中,该方法进一步包括(d)对于在较早时间点的状态集中的给定的第一状态,确定给定的第一状态将在稍后时间点的状态集中导致第二状态的概率;以及(e)生成指示在(d)中确定的概率的电子输出。
在一些实施方案中,获得信息包括对来自多个受试者的无细胞脱氧核糖核酸(cfDNA)进行测序,并且任选地对多个受试者中的每一个进行医学访谈。在一些实施方案中,治疗在第一时间点之前提供给受试者。在一些实施方案中,该方法包括生成一个或更多个决策树,每个决策树包括根节点、一个或更多个决策分支、一个或更多个决策节点以及一个或更多个终端节点,其中在根节点的状态表示第一时间点,一个或更多个决策分支表示替代治疗,并且一个或更多个决策节点和一个或更多个终端节点表示后续状态。在一些实施方案中,一个或更多个决策分支包含多个决策分支。在一些实施方案中,后续状态包括受试者的生存状态,指示受试者是存活的还是死亡的。在一些实施方案中,后续状态包括受试者存活率。在一些实施方案中,第一状态中的每一个包括一种或更多种体细胞突变的共有集。在一些实施方案中,信息还包含受试者档案(subject profile)。
在一些实施方案中,概率至少部分地是来自多个治疗选择中的治疗选择的函数。在一些实施方案中,一个或更多个第二时间点包含多个后续时间点。在一些实施方案中,该方法还包括在多个后续时间点确定概率。在一些实施方案中,时间点包括至少三个时间点或至少四个时间点。在一些实施方案中,第一时间点是在受试者接受治疗之前且后续时间点是受试者接受治疗之后。在一些实施方案中,基于在后续时间点的后续状态,在后续时间点之后施用第二治疗。
在一些实施方案中,关于多个受试者的信息包括来自受试者的患者档案的一个或更多个特征,这些特征选自由以下组成的组:年龄、生理性别(sex)、心理性别(gender)、遗传档案、酶水平、器官功能、生活质量、医疗干预频率、缓解状态和患者结果。在一些实施方案中,遗传档案包括在一个或更多个基因座处的受试者的基因型,其增加癌症风险,影响药代动力学或影响药物敏感性。在一些实施方案中,关于多个受试者的信息包括来自受试者的肿瘤档案的一个或更多个特征,这些特征选自由以下组成的组:一个或更多个遗传变体、来源组织、肿瘤负荷、肿瘤药物敏感性以及肿瘤阶段。在一些实施方案中,一个或更多个特征通过测定来自受试者的无细胞核酸分子来确定。在一些实施方案中,一个或更多个遗传变体被定量以确定包含一种或更多种体细胞突变的无细胞核酸分子的比例。在一些实施方案中,该方法还包括确定在第一时间点和一个或更多个后续时间点之间,一种或更多种体细胞突变的比例是增加的还是降低的。在一些实施方案中,该方法还包括确定在一个或更多个后续时间点的多个时间点之间,一种或更多种体细胞突变的比例是增加的还是降低的。在一些实施方案中,一种或更多种体细胞突变的比例是增加的。在一些实施方案中,一种或更多种体细胞突变是增加的,并且进一步地,其中体细胞突变与对治疗的耐药性相关联。在一些实施方案中,测定包括高通量测序。
在另一方面,本公开内容提供了一种方法,所述方法包括:(a)在第一时间点获得关于患有癌症的受试者的信息,其中该信息包括受试者的来自患者档案、肿瘤档案或治疗的至少一个特征;(b)基于在第一时间点的信息确定受试者的初始状态;(c)基于受试者的初始状态,确定在一个或更多个后续时间点的每一个处,多个后续状态中的每一个的概率,从而提供关于状态结果的概率集;(d)至少部分基于该关于状态结果的概率集来生成对于癌症的治疗的推荐,该治疗的推荐对于受试者获得特定结果的概率进行优化;以及(e)生成指示在(d)中生成的推荐的电子输出。在一些实施方案中,概率至少部分地是来自多个治疗选择中的治疗选择的函数。在一些实施方案中,一个或更多个后续时间点包含多个后续时间点。在一些实施方案中,该方法还包括在多个后续时间点确定概率。在一些实施方案中,时间点包括至少三个时间点。在一些实施方案中,时间点包括至少四个时间点。在一些实施方案中,第一时间点是在受试者接受治疗之前且后续时间点是受试者接受治疗之后。在一些实施方案中,基于在后续时间点的后续状态,在后续时间点之后施用第二治疗。在一些实施方案中,受试者的至少一个特征来自患者档案并且选自由以下组成的组:年龄、心理性别、遗传档案、酶水平、器官功能、生活质量、医疗干预频率、缓解状态和患者结果。
在一些实施方案中,遗传档案包括在一个或更多个基因座处为可遗传的致癌基因的受试者的基因型。在一些实施方案中,遗传档案包括在一个或更多个基因座处影响药代动力学的受试者的基因型。在一些实施方案中,遗传档案包括在一个或更多个基因座处影响药物敏感性的受试者的基因型。在一些实施方案中,受试者的至少一个特征来自肿瘤档案并且选自由以下组成的组:一种或更多种体细胞突变、来源组织、肿瘤负荷、肿瘤药物敏感性以及肿瘤阶段。在一些实施方案中,至少一个特征通过测定来自受试者的无细胞核酸分子来确定。
在一些实施方案中,体细胞突变被定量以确定衍生自包含一种或更多种体细胞突变的肿瘤的无细胞核酸分子的比例。
在一些实施方案中,该方法还包括确定在第一时间点和一个或更多个后续时间点之间,一种或更多种体细胞突变的比例是增加的还是降低的。在一些实施方案中,该方法还包括确定在一个或更多个后续时间点的多个时间点之间,一种或更多种体细胞突变的比例是增加的还是降低的。在一些实施方案中,测定包括高通量测序。在一些实施方案中,肿瘤档案不是衍生自肿瘤组织活检的。
在一方面,本公开内容提供了一种方法,包括:(a)获得关于受试者的信息,所述信息包括至少肿瘤的遗传档案和先前或当前提供给受试者的治疗(如果有的话),并基于该信息确定受试者的初始状态;(b)提供决策树,其中根节点表示初始受试者状态,决策分支表示受试者可用的替代治疗,机会节点表示不确定性的点,并且决策节点或终端节点表示后续状态;(c)为受试者提供治疗过程,该治疗过程最大化受试者在终端节点达到生存状态的概率;以及(d)生成指示在(c)中确定的治疗过程的电子输出。
在一方面,本公开内容提供了一种方法,所述方法包括:(a)通过通信网络与一个或更多个医疗服务提供者建立一个或更多个通信链接;(b)通过通信网络从一个或更多个医疗服务提供者接收关于一个或更多个受试者的医疗信息;(c)从医疗服务提供者接收来自一个或更多个受试者的每一个的一个或更多个包含无细胞脱氧核糖核酸(cfDNA)的样品;(d)对cfDNA进行测序并鉴定cfDNA中存在的一种或更多种遗传变体;(e)用对于一个或更多个受试者的每一个的信息创建或补充数据库,所述信息包含鉴定的遗传变体和接收的医疗信息两者;以及(f)使用数据库和计算机实现的算法,生成至少一个预测模型,该预测模型基于受试者的初始状态对于多种不同治疗干预的每一种预测后续状态的概率。
在一方面,本公开内容提供了非暂时性计算机可读介质(non-transitorycomputer readable medium),该非暂时性计算机可读介质包含机器可执行代码,该机器可执行代码在被一个或更多个计算机处理器执行时实施(implement)包括以下的方法:(a)在第一时间点获得关于患有癌症的多个受试者的信息,其中所述信息包含对于所述多个受试者中的每个受试者,通过对来自无细胞体液的核酸进行基因分型而获得的至少肿瘤的遗传档案以及在第一时间点之前提供给受试者的任何治疗,并且基于在第一时间点的信息确定多个受试者中的每个受试者的第一状态以产生第一状态集;(b)在第一时间点之后的一个或更多个第二时间点获得关于多个受试者的信息,并且基于在一个或更多个第二时间点中给定的一个时间点的信息,在一个或更多个第二时间点的每一个处确定多个受试者中的每个受试者的第二状态,以产生后续状态集;以及(c)使用来自(a)的第一状态集和来自(b)的后续状态集来生成预测算法,该预测算法被配置为确定给定的第一状态将在给定的第一状态之后的稍后时间点的状态集中导致第二状态的概率。
在一方面,本公开内容提供了非暂时性计算机可读介质,该非暂时性计算机可读介质包含机器可执行代码,该机器可执行代码在被一个或更多个计算机处理器执行时实施包括以下的方法:(a)在第一时间点获得关于患有癌症的多个受试者的信息,其中所述信息包含,对于所述多个受试者中的每个受试者,通过对至少50个基因进行基因分型而获得的至少肿瘤的遗传档案以及在第一时间点之前提供给受试者的任何治疗,并且基于在第一时间点的信息确定多个受试者中的每个受试者的第一状态以产生第一状态集;(b)在第一时间点之后的一个或更多个第二时间点获得关于多个受试者的信息,并且基于在一个或更多个第二时间点中给定的一个时间点的信息,在一个或更多个第二时间点的每一个处确定多个受试者中的每个受试者的第二状态,以产生后续状态集;以及(c)使用来自(a)的第一状态集和来自(b)的后续状态集来生成预测算法,该预测算法被配置为确定给定的第一状态将在给定的第一状态之后的稍后时间点的状态集中导致第二状态的概率。
在一方面,本公开内容提供了一种方法,所述方法包括:(a)获得关于受试者的信息,所述信息包括至少肿瘤的遗传档案和先前或当前提供给受试者的治疗(如果有的话),并基于该信息确定受试者的初始状态;(b)提供决策树,其中根节点表示初始受试者状态,决策分支表示受试者可用的替代治疗,机会节点表示不确定性的点,并且决策节点或终端节点表示后续状态;(c)为受试者提供治疗过程,该治疗过程最大化受试者在终端节点达到生存状态的概率;以及(d)向受试者施用治疗过程。在一些实施方案中,该方法还包括:(e)在初始状态后续的第二时间点,获得关于受试者的信息,所述信息包括至少肿瘤的遗传档案和先前或当前提供给受试者的治疗(如果有的话),并基于该信息,在多种后续状态中,确定受试者的第二状态;(f)基于第二状态,对于受试者提供后续治疗过程,该后续治疗过程最大化受试者在终端节点达到生存状态的概率;以及(g)向受试者施用后续治疗过程。在一些实施方案中,该方法还包括:(e)在初始状态后续的第二时间点,获得关于受试者的信息,所述信息包括至少肿瘤的遗传档案和先前或当前提供给受试者的治疗(如果有的话),并基于该信息,在多种后续状态中,确定受试者的第二状态;(f)基于第二状态,对于受试者提供后续治疗过程,该后续治疗过程最大化受试者在终端节点达到生存状态的概率;以及(g)向受试者施用后续治疗过程。
在一方面,本公开内容提供了一种方法,所述方法包括对患有癌症的受试者,提供多种替代治疗中的治疗过程,其中所述受试者已经由决策树表征了(characterized)哪种治疗过程最大化受试者在终端节点达到生存状态的概率,其中所述决策树包括多个决策分支,每个决策分支表示多种替代治疗中的替代治疗。
从以下详述的描述,本公开内容的另外的方面和优势对本领域技术人员而言将变得明显,详细描述中仅示出和描述了本公开内容的说明性实施方案。如将会意识到的,本公开内容能够具有其他和不同的实施方案,并且其若干细节能够在多种明显的方面进行修改,所有这些都不偏离本公开内容。相应地,附图和描述被认为是本质上是说明性的而不是限制性的。
通过引用并入
本说明书中提及的所有出版物、专利和专利申请通过引用并入本文,其程度如同每一个单独的出版物、专利或专利申请被具体和单独地指明通过引用并入的相同程度。
附图简述
本发明的新颖特征在所附权利要求中具体地阐述。通过参考以下详细描述和附图将获得对本发明的特征和优点的更好理解,该详细描述阐述了利用本发明的原理的说明性实施方案,在附图中:
图1示出了用于分析受试者各种疾病状态中的突变的示例性方法。
图2A示出了癌症基因组中的各种常见畸变。
图2B示出了检测逃逸的进化路径的示例性系统。
图2C示出了由图2B的系统生成的示例性模型。
图2D示出了正常细胞和癌症亚克隆的示例性异质集合,其是在肿瘤的进化历史中发展的。
图3示出了在脱氧核糖核酸(DNA)序列读段中降低错误率和偏差的示例性过程。
图4示出了经互联网访问患有癌症的受试者的报告的示意表示。
图5示出了多种与遗传变体相关联的基因。
图6示出了决策树,其包括指示初始状态的根节点(长方形)、指示不同治疗干预的决策分支(箭头)以及机会节点(圆圈),其中机会分支(箭头)从机会节点(圆圈)发出,至指示后续状态的终端节点(三角形)或决策节点(正方形)。
图7示出了被编程或以其他方式配置以实现本文提供的方法的计算机系统。
详细描述
遗传变体是在遗传基因座处的替代形式。在人类基因组中,大约0.1%的核苷酸位置是多态的,也就是说,以第二遗传形式存在,发生在群体的至少1%中。突变可以将遗传变体导入种系,也可以导入疾病细胞,比如癌症。参考序列,比如hg19或NCBI Build 37或Build 38,意在表示“野生型”或“正常”基因组。然而,就它们具有单一序列的程度而言,它们没有鉴定出也可能被认为正常的常见多态性。
遗传变体包括序列变体、拷贝数变体和核苷酸修饰变体。序列变体是遗传核苷酸序列中的变异。拷贝数变体是基因组的一部分的拷贝数与野生型的偏差。遗传变体包括例如单核苷酸变异(SNP)、插入、缺失、倒位、颠换、易位、基因融合、染色体融合、基因截短、拷贝数变异(例如非整倍性、部分非整倍性、多倍性、基因扩增)、核酸化学修饰的异常改变、表观遗传模式的异常改变和核酸甲基化的异常改变。
如本文所用,术语“多核苷酸”通常指包含一个或更多个核酸亚单位的分子。多核苷酸可以包含选自腺苷(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)或其变体的一个或更多个亚单位。核苷酸可以包含A、C、G、T或U或其变体。核苷酸可以包含可以被掺入到增长的核酸链中的任何亚单位。此类亚单位可以是A、C、G、T或U,或对一个或更多个互补A、C、G、T或U特异性的或与嘌呤(即,A或G或其变体)或嘧啶(即,C、T或U或其变体)互补的任何其他亚单位。亚单位能够使得个体核酸碱基或碱基组(例如,AA、TA、AT、GC、CG、CT、TC、GT、TG、AC、CA或尿嘧啶-其对应物)得以解析。在一些实例中,多核苷酸为脱氧核糖核酸(DNA)或核糖核酸(RNA)或其衍生物。多核苷酸可以是单链或双链的。
如本文所用,术语“受试者”通常指动物,比如哺乳动物(例如人类)或禽类(例如鸟),或其他生物体,比如植物。更特别的是,受试者可以是脊椎动物、哺乳动物、小鼠、灵长类动物、猴(simian)或人类。动物包括,但不限于,农场动物、运动动物和宠物。受试者可以是健康的个体、患有或怀疑患有疾病或对疾病的事前倾向(pre-disposition to thedisease)的个体,或者需要疗法或怀疑需要疗法的个体。受试者可以是患者。
术语“基因组”通常指生物体的遗传信息的整体。基因组可以以DNA或以RNA来编码。基因组可以包含编码蛋白的编码区域和非编码区域。基因组可以包含生物体中所有染色体的序列的集。例如,人类基因组具有总计46条染色体。所有这些的序列共同构成人类基因组。“参考基因组”通常指单倍体基因组。参考基因组包括,例如,hg19或NCBI Build 37或Build 38。
术语“适配子(adaptor)”、“适配子(adapter)”和“标签”在本说明书中同义使用。适配子或标签可以通过包括连接(ligation)、杂交或其他方法在内的任何方法与待“加标签”的多核苷酸序列偶联。
如本文所用,术语“文库适配子(library adaptor)”或“文库适配子(libraryadapter)”通常指其身份(例如序列)可以用于在生物样品(本文也称“样品”)中区分多核苷酸的分子(例如多核苷酸)。
如本文所用,术语“测序适配子”通常指适配为允许测序仪器对靶多核苷酸进行测序的分子(例如多核苷酸),比如通过与靶多核苷酸相互作用来实现测序。测序适配子允许靶多核苷酸通过测序仪器被测序。在一个实例中,测序适配子包含核苷酸序列,该核苷酸序列与附接于测序系统的固体支持物(比如流通池)的捕获多核苷酸杂交或结合。在另一个实例中,测序适配子包含与多核苷酸杂交或结合以产生发夹环的核苷酸序列,其允许通过测序系统对靶多核苷酸进行测序。测序适配子可以包含测序仪基序(sequencer motif),该测序仪基序可以是与其它分子(例如多核苷酸)的流通池序列互补的核苷酸序列,并且可由测序系统使用以对靶多核苷酸进行测序。测序仪基序也可以包括用于在测序(比如通过合成测序(SBS))中使用的引物序列。测序仪基序可以包括将文库适配子偶合到测序系统并对靶多核苷酸测序所需的序列。
如本文所用,术语“至少”、“至多”或“大约”,当在一个系列之前时,指该系列的每个成员,除非另有说明。
与参考数值相关的术语“大约”及其语法等同语可以包括从该值起直到正负10%的值范围。例如,量“大约10”可以包括从9到11的量。在其他实施方案中,与参考数值相关的术语“大约”可以包括从该值起正负10%、9%、8%、7%、6%、5%、4%、3%、2%或1%的值范围。
一般来说,本文公开了生成应答于各种治疗的肿瘤随时间进化的预测模型并使用该模型为受试者(例如,患者)选择治疗的方法。预测模型基于至少肿瘤的遗传档案,以及任选地,患者档案和/或治疗。结果可以向患者或医疗保健提供者公开,以改善护理。
在一些情况下,信息包含来自肿瘤的遗传档案,该遗传档案是通过对无细胞体液(例如cfDNA)进行基因分型而获得的。在一些情况下,信息还包含提供给受试者的治疗和/或治疗干预。在一些情况下,信息还包含受试者档案。
信息可以用于确定与受试者相关联的状态。状态可以包含与预测受试者的后续状态相关的信息。例如,状态可以指示受试者存活的还是死亡的。状态可以指示对于受试者的预期寿命中值。状态可以指示肿瘤中医学相关的体细胞突变(例如,KRAS变体)。状态可以指示药物耐药性(例如,西妥昔单抗耐药性)。
信息可以用于生成一个或更多个决策树,该决策树对于呈现特定状态的受试者指示各种终点的概率。决策分支可以从根节点(其可以被认为是第一决策点)发出。决策分支可以通向终点(也称为终端节点)或机会节点。终端节点或终点可以表示状态。机会节点(或事件节点)可以是不确定性的点,从其不同的结果是可能的。不确定性可以通过从机会节点发出的机会分支(事件分支)来分辨。每个机会分支可以通向终端节点或决策节点(其本身可以表示状态),从其发出多个决策分支。这些决策分支继而可以通向终点或以继续的方式通向机会节点,直到每个分支通向终点或终端节点。
在决策树中的根节点可以是初始状态。初始状态可以宽至“癌症诊断”。更典型地,根节点将指示受试者遗传档案的一些方面。例如,根节点可以指示在cfDNA中检测到的一种或更多种遗传变体,例如特定致癌基因中突变体的存在,和/或它们相对于正常DNA的量。每个来自根节点的决策分支可以表示不同的治疗过程(或无治疗)。例如,治疗过程可以表示不同的化学疗法或免疫疗法方案、手术类型或放射。终端节点可以表示状态,例如,存活或死亡,例如,在一定的诊断时间之内(例如,5年存活)。决策节点表示新的状态,从决策节点可以做出新的决策。例如,决策节点是提供化学疗法耐药性的遗传变体的出现(emergence)。此类变体可以表示逃逸路径,通过所述逃逸路径,肿瘤逃逸对化学疗法的应答,并且可能需要不同的治疗方法(therapeutic approach)。
有利地,本文公开的方法可以生成预测算法,所述算法被配置为确定应用于特定状态的任何治疗干预(例如,用于具有特定遗传档案的癌症的特定化学治疗剂)将导致特定状态(例如,遗传变体)的概率,其中癌症可以从所述特定状态逃逸治疗干预。此类概率可以通过数轮治疗和逃逸来确定。作为结果,人们可以确定,特定系列的治疗干预以给定的频率或概率导致特定的癌症逃逸模式、最终逃逸(例如死亡)或者不可检测性。
本公开内容提供了生成对决策树中的每个分支或每个终端节点分配概率的预测算法的方法。所述方法可以使用数据库,其中在每个分支处的结果可以从对其存储数据的多个受试者计算。概率可以通过例如以下来确定:获得受试者的训练集(training set),将它们分类成状态,记录治疗和/或治疗干预,并且然后确定结果(例如,最终状态)的频率。在训练集中的给定结果的频率可以用于确定它的概率。
因此,对于呈现特定状态的多个受试者,可以鉴定多个决策分支,并且可以确定在分支末端的特定终点或决策节点的机会。例如,参照图6,在呈现状态“EGFR突变体”的个体中,决策分支可以包括治疗A和治疗B。
在图6中,治疗A通向机会节点A,治疗B通向机会节点B。机会节点A 75%的时间通向5年存活(终端节点),并且25%的时间通向“逃逸A”(决策节点A)的发展。逃逸A可以具有一个决策分支--治疗C。其通向机会节点C,从其发出两个机会分支至终端节点:40%五年存活以及60%死亡。总之,这个分支产生85%的5年生存机会和15%的死亡机会。
在图6中,治疗B通向机会节点B。机会节点B 60%的时间通向5年存活(终端节点),并且40%的时间通向“逃逸B”的发展(决策节点B)。逃逸B可以具有一个决策分支--治疗D。其通向机会节点D,从其发出两个机会分支至终端节点:40%五年存活以及60%死亡。总之,这个分支产生76%的5年生存机会和24%的死亡机会。
在任何决策节点添加更多数据点(受试者)可增加最终确定的概率的可靠性。在一些情况下,初始状态可以用于预测后续状态(例如,中间状态(例如,在决策节点)或最终状态)。在一些情况下,初始状态可以被分类为以给定频率通向后续状态(例如,中间状态或最终状态)。后续状态可以是从先前状态在决策之后实现的状态。例如,在状态1之后,应用了治疗干预,并且在时间上稍后的状态是后续状态。后续状态可以是终端状态,从其不做出进一步的决策,或者后续状态可以是中间状态,从其做出另一个决策。
初始状态可以通过基于所确定的关于受试者的信息或信息的子集对受试者进行聚类来确定。关于受试者或受试者训练集的信息可以用于生成聚类。例如,信息可以是分类的(例如,肿瘤样品中存在或不存在KRAS变体),并且受试者可以基于共享的分类值进行聚类。在一些情况下,关于受试者的信息是定量的。可以通过本领域已知的任何方法使用定量数据对受试者进行聚类。示例性方法包括但不限于k均值聚类、分级聚类或基于质心的聚类。聚类可以基于对数据的视觉检查,包括通过比如主要成分分析(Principle ComponentAnalysis)等方法投影到数量减少的维度上的数据。聚类可以用于创建聚类边界,定义将放置入哪些聚类受试者。
档案包括对于一个或更多个特征的每一个的(定量的或定性的)值。档案可以包括关于例如表型特征、遗传特征、人口学特征或医疗历史(包括所递送的治疗干预的历史)的信息。遗传档案包括关于多种遗传特征的值,所述遗传特征例如在基因座的遗传变体(例如拷贝数信息的序列信息)。例如,遗传档案可以包括在多个基因座的种系基因型或在病理(例如,癌症)细胞中的体细胞基因型。状态可以是在档案中的一个或更多个特征值。
信息可以包含肿瘤档案,包括肿瘤的遗传档案。信息可以包含受试者档案,包括关于受试者的遗传档案。信息可以包含受试者已经经历的先前的治疗或治疗干预。
肿瘤的档案可以包含来源组织、肿瘤负荷、肿瘤药物敏感性、肿瘤阶段、肿瘤尺寸、肿瘤的代谢档案、肿瘤的转移状态、肿瘤负荷或肿瘤异质性。
肿瘤的档案可以包含肿瘤遗传档案,其可以通过多种方法获得。例如,肿瘤遗传档案可以通过分析来自生物样品的核酸来获得,其中所述生物样品来自受试者,所述分析为通过高通量测序或基因分型阵列。核酸可以是DNA或RNA。核酸是从样品中分离的。用于产生遗传档案的样品可以是肿瘤活检、细针抽吸活检或来自肿瘤细胞的含有核酸的无细胞体液。例如,所述无细胞体液可以来源自选自以下组成的组的体液:受试者的血液、血浆、血清、尿液、唾液、粘膜排泄物、痰、粪便、脑脊液和泪液。
例如,可以从处于患癌风险的受试者抽取血液并如本文描述地制备以生成无细胞多核苷酸群体。在一个实例中,这是无细胞DNA(cfDNA)。本公开内容的系统和方法可以用于检测可存在于某些现有癌症中的突变或拷贝数变异。该方法可以帮助检测身体中癌细胞的存在,即使不存在疾病的症状或其他标志(hallmarks)。
用于提取和纯化核酸的方法是本领域熟知的。例如,核酸可以通过使用苯酚、苯酚/氯仿/异戊醇或相似制剂,包括TRIzol和TriReagent的有机提取来纯化。提取技术的其他非限制性实例包括:(1)有机提取后进行乙醇沉淀,例如使用苯酚/氯仿有机试剂,伴随或不伴随自动化核酸提取器的使用,所述提取器例如可从Applied Biosystems(FosterCity,CA)获得的Model341DNA Extractor;(2)固定相吸附法;以及(3)盐诱导的核酸沉淀方法,这种沉淀方法通常被称为“盐析”方法。核酸分离和/或纯化的另一个实例是磁性颗粒的使用,核酸可以特异性或非特异性地结合该磁性颗粒,随后是使用磁体分离珠子,以及从珠子洗涤并洗脱核酸。在一些实施方案中,可以在上述分离方法之前进行酶消化步骤,以帮助从样品中去除不想要的蛋白质,例如用蛋白酶K或其他类似蛋白酶消化。如果期望,可以将RNA酶抑制剂添加到裂解缓冲液中。对于某些细胞或样品类型,向方案中添加蛋白质变性/消化步骤可能是期望的。纯化方法可旨在分离DNA、RNA或两者。当DNA和RNA两者在提取过程期间或之后被一起分离时,可以采用进一步的步骤来与另一个分离地纯化其之一或两者。也可以产生提取的核酸的子级分,例如,通过大小、序列或其他物理或化学性质进行纯化。
从样品中提取的多核苷酸可以被测序以产生测序读段。示例性的测序技术可以包括,例如,乳液聚合酶链式反应(PCR)(例如,来自Roche 454的焦磷酸测序、来自IonTorrent的半导体测序、来自Life Technologies的通过连接的SOLiD测序、来自Intelligent Biosystems的通过合成的测序)、流通池上的桥扩增(例如Solexa/Illumina)、通过Wildfire技术的等温扩增(Life Technologies)或通过滚环扩增产生的滚圈球(rolonies)/纳米球(Complete Genomics、Intelligent Biosystems、Polonator)。允许在没有事先克隆扩增的情况下直接测序单分子的测序技术如Heliscope(Helicos)、SMRT技术(Pacific Biosciences)或纳米孔测序(Oxford Nanopore)可以是合适的测序平台。测序可以在有或没有靶富集的情况下进行。在图5中找到可以富集的示例性基因和/或区域。富集可以,例如,通过核酸样品或测序文库与布置在阵列上或附接在珠子上的探针杂交来进行。在一些情况下,在测序之前和/或测序期间通过任何合适的方法(例如PCR)扩增来自样品的多核苷酸。
作为非限制性实例,提供包含初始遗传物质的样品,并且可以提取无细胞DNA。样品可以包含呈低丰度的靶核酸。例如,来自正常或种系基因组的核酸可以在样品中占绝大多数,该样品还包括不多于20%、不多于10%、不多于5%、不多于1%、不多于0.5%或不多于0.1%的来自包含遗传变异的至少一个其他基因组(例如,癌症基因组、胎儿基因组或来自另一个个体或物种的基因组)的核酸。接下来,可以将初始遗传物质转化为加标签的亲本多核苷酸集并测序以产生测序读段。在一些情况下,这些序列读段可以包含条形码信息。在其他实例中,不利用条码。加标签可包括将序列标签附接至初始遗传物质中的分子。可以选择序列标签,使得所有映射至同一参考序列中的独特多核苷酸都具有独特的鉴定标签。可以选择序列标签,使得不是所有映射至同一参考序列中的独特多核苷酸具有独特的鉴定标签。转化可以以高效率进行,例如初始核酸分子的至少40%、至少50%、至少60%、至少70%或至少80%。加标签的亲本多核苷酸集可以被扩增,以产生扩增的子代多核苷酸集。扩增可以是,例如,至少10倍、100倍、1,000倍或10,000倍。对该组扩增的子代多核苷酸以一定采样速率进行采样以用于测序,使得产生的测序读段既(1)覆盖加标签的亲本多核苷酸集中的靶数目的独特分子,又(2)以靶覆盖度倍数(例如,亲本多核苷酸的5倍至10倍覆盖度)覆盖加标签的亲本多核苷酸集中的独特分子。可以叠并该组测序读段,以产生对应于独特加标签的亲本多核苷酸的共有序列集。可以审查测序读段被包含在分析中的资格。例如,不满足质量控制评分的测序读段可以从汇集物中去除。
测序读段可以被分类为表示源自特定独特亲本分子的子代分子的读段的家族。例如,扩增的子代多核苷酸的家族可以构成源自单个亲本多核苷酸的那些扩增的分子。通过比较家族中的子代的序列,可以推断原始亲本多核苷酸的共有序列。这产生表示加标签的汇集物中的独特亲本多核苷酸的共有序列集。该过程可以为序列分配置信度评分。在测序之后,可以对读段分配质量评分。质量评分可以是读段的表示,其基于阈值指示这些读段是否可以用于随后的分析。在一些情况下,一些读段不具有足够的质量或长度来进行随后的映射步骤。可以将具有预定质量评分(例如,高于90%)的测序读段从数据中过滤掉。可以将满足规定的质量评分阈值的测序读段映射至参考基因组或者已知不包含拷贝数变异的模板序列。在映射对齐之后,可以对测序读段分配映射评分。映射评分可以是映射回至参考序列的表示或读段,指示每一个位置是或者不是独特地可映射的。在一些情况下,读段可以是与拷贝数变异分析无关的序列。例如,一些测序读段可以源于污染物多核苷酸。具有指示测序读段具有至少90%、95%、99%、99.9%、99.99%或99.999%被错误映射(例如,不正确地映射)的映射评分的测序读段可以从数据集中过滤掉。在其他情况下,被分配了少于预定百分比的映射评分的测序读段可以从数据集中过滤掉。
可以将满足规定的质量评分阈值的测序读段映射至参考基因组或者已知不包含拷贝数变异的模板序列。在映射对齐之后,可以对测序读段分配映射评分。在一些情况下,读段可以是与拷贝数变异分析无关的序列。在数据过滤和映射之后,多个测序读段生成覆盖的染色体区域(chromosomal region of coverage)。可以将这些染色体区域划分为可变长度的窗口或箱元。在一些情况下,可以设置窗口区域的每一个的大小,使得它们包含约相同数目的独特的可映射的碱基。另外,在整个基因组中已知难以测序或包含基本上高GC偏倚的预定窗口可以被从数据集中过滤掉。例如,已知落在染色体的着丝粒附近的区域(即着丝粒DNA)已知包含可以产生假阳性结果的高度重复序列。这些区域可以被过滤掉。可以进行归一化以补偿GC含量对样品测序读段的影响。基因组的其他区域,比如包含异常高浓度的其他高度重复序列比如微卫星DNA的区域,可以被从数据集中过滤掉。
对于源自无细胞多核苷酸序列的示例性基因组,下一个步骤包括确定每一个窗口区域的读段覆盖度。这可以使用具有或不具有条形码的读段来进行。在不具有条形码的情况下,先前的映射步骤可以提供不同碱基位置的覆盖度。可以对具有足够的映射和质量评分并落入未过滤掉的染色体窗口内的测序读段进行计数。可以对每个可映射位置给覆盖度读段的数目分配评分。在涉及条形码的情况下,具有相同条形码、物理特性或二者组合的所有序列可以被叠并为一个读段,因为它们均源自样品亲本分子。该步骤可以减少可能在任何先前的步骤中,比如涉及扩增的步骤期间已引入的偏倚。例如,如果一个分子被扩增10倍但另一个被扩增1000倍,则每个分子在叠并之后仅被呈现一次,从而消除了不均匀扩增的效果。对每一个可映射位置可以仅对具有独特条形码的读段进行计数并且只有这些读段影响所分配的评分。出于该原因,条形码连接步骤以为了产生最低量的偏倚而优化的方式来进行是重要的。可以将针对每个碱基的序列对齐为该具体位置的最主要的(dominant)核苷酸读段。此外,可以在每一个位置处对独特分子的数目进行计数,以得到在每一个位置处的同时定量。该步骤可以减少可能在任何先前的步骤中,比如涉及扩增的步骤期间已引入的偏倚。
每一个窗口区域的离散拷贝数状态可以用于鉴定在染色体区域中的拷贝数变异。在一些情况下,具有相同拷贝数的所有相邻窗口区域可以被合并为一个区段,以报告拷贝数变异状态的存在或不存在。在一些情况下,多个窗口可以在它们与其他区段合并之前被过滤。
确定遗传档案(例如肿瘤或受试者遗传档案)的方法可能具有错误率。例如,测序方法可具有约0.1%、约0.5%、约1%或更高的每碱基错误率。在一些情况下,来源自在给定基因座包含遗传变体的肿瘤细胞的核酸以部分存在于包含所述基因座的总核酸,其比例与每碱基测序错误率相比相似或更低。在这样的情况下,可能难以区别基因分型或测序错误以及以低频率存在的遗传变体。可以进行某些方法,比如在WO 2014/149134(通过引用以其整体并入)中描述的那些,来降低错误率。
肿瘤遗传档案可以包括相对于参考(reference)的体细胞突变。参考可以是参考基因组,比如人类参考基因组。参考基因组可以是受试者的种系基因组。遗传档案可以包含由一些或所有肿瘤细胞获得的各种遗传变体。遗传变体可以,例如,是单核苷酸变体、总的或小的结构变体、或短的插入或缺失。例如,如图2A所示,癌症基因组中常见的畸变会导致癌症基因组的染色体数目(非整倍体)和染色体结构异常。在图2A中,线指示上方有种系基因组的基因组和下方有体细胞畸变的癌症基因组。当区分杂合子和纯合子变化有用时,使用双线。点表示单核苷酸的变化,而线和箭头表示结构的变化。
肿瘤遗传档案可以包含关于每个变体的定量信息。例如,通过数字测序对无细胞DNA进行的遗传分析可以产生1,000个映射到第一致癌基因基因座的读段,其中900个读段对应于种系序列,并且100个读段对应于肿瘤细胞中存在的变体。相同的遗传分析可以产生1,000个映射到第二致癌基因基因座的读段,其中980个读段对应于种系序列,并且20个读段对应于指示肿瘤负荷为10%的变体。人们可以推断,基于第一致癌基因基因座,无细胞DNA中总的肿瘤负荷为约10%,但是一小部分肿瘤细胞(约20%)可能在第二致癌基因基因座有变体。这样的定量信息可以被包括在肿瘤遗传档案中,并且随着时间或对治疗的应答而被监测。
肿瘤遗传档案可以包括关于体细胞变体的信息。这些可以包括但不限于突变、插入缺失(indel)(插入或缺失)、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常改变、表观遗传模式的异常改变、核酸甲基化的异常改变、感染及癌症。
在一些情况下,基因分型包括对来自无细胞体液的核酸进行基因分型。这样的方法可以从多个肿瘤细胞中捕获遗传信息,从而允许推断出关于肿瘤异质性和肿瘤进化两者的信息。在一些情况下,基因分型可以对从至少一个时间点、至少两个时间点、至少三个时间点、至少四个时间点、至少五个时间点、至少六个时间点、至少七个时间点、至少八个时间点、至少九个时间点或至少十个时间点提供的样品进行。在一些情况下,基因分型包括在至少50个、55个、60个、65个、70个、75个、80个、85个、90个、95个、100个、120个、140个、160个、180个或200个或更多个遗传基因座确定基因型。在一些情况下,遗传基因座是基因。在一些情况下,遗传基因座是致癌基因。致癌基因是包含驱使肿瘤生长的突变的基因。可以在WO2009045443(在此通过引用以其整体并入)中找到示例性致癌基因。致癌基因可以包含列在图5中的基因。
在一些情况下,肿瘤遗传档案可以包含关于肿瘤进化的信息。例如,如果KRAS突变在来源自肿瘤的无细胞DNA中以增加的比例存在,则可以推断,对靶向KRAS的特定治疗有耐药性的肿瘤细胞的比例随着时间的推移而增加。图1示出了开发对治疗的应答的肿瘤进化模型的示例性方法。图1的过程包括收集多个受试者的肿瘤和肿瘤治疗(10)以及原始治疗的遗传档案数据。遗传档案可以用于鉴定或推断肿瘤细胞所采取的导致对治疗的耐药性的进化逃逸路径(12)。可以将个体受试者的肿瘤遗传档案拟合到模型中,以提供肿瘤细胞获得对治疗产生耐药性的遗传变体的可能性(14)。
更复杂的模型可以用于测量肿瘤异质性,例如,基于不同变体在无细胞DNA中的相对流行度(prevalence)。图2B示出了确定各种状态结果的概率的示例性系统。所述系统可以是隐马尔可夫模型(HMM),它是统计马尔可夫模型,其中被建模的系统被假设为具有未观察到的(隐)状态的马尔可夫过程。在简单的马尔可夫模型(如马尔可夫链)中,状态对于观察者是直接可见的,并且因此状态转换概率(state transition probability)是仅有的参数。在隐马尔可夫模型中,状态不是直接可见的,但是依赖于状态,输出是可见的。每个状态在可能的输出令牌(output token)上具有概率分布。因此,由HMM生成的令牌的顺序可以给出一些关于状态顺序的信息。隐马尔可夫模型可以被认为是混合模型的一般化,其中隐变量(或潜变量)通过马尔可夫过程被联系起来而不是彼此独立,其中所述隐变量(或潜变量)控制为每次观察选择的混合物组分。如在图2B中所示出的,HMM通常由隐状态的集、状态转换概率矩阵和发射概率矩阵定义。构建这样的模型的一般方法包括,但不限于,隐马尔可夫模型(HMM)、人工神经网络、贝叶斯网络、支持向量机(support vector machines)以及随机森林。这些方法是本领域普通技术人员已知的,并在由MIT Press(2012)出版的,Mohri等人,Foundations of Machine Learning中详细描述,在此通过引用以其整体并入,并且在由Cambridge University Press(2003)出版的,MacKay,Information Theory,Inference,and Learning Algorithms中详细描述,在此通过引用以其整体并入。
无细胞多核苷酸样品中肿瘤多核苷酸的相对量在本文被称为“肿瘤负荷”。肿瘤负荷可与肿瘤尺寸相关。随着时间的推移测试时,肿瘤负荷可以用于确定癌症是进展的、稳定的还是处于缓解的。在一些实施方案中,推断出的肿瘤负荷的置信区间不重叠,指示疾病发展的方向。肿瘤负荷和疾病发展的方向可以有诊断置信度指示。如本文所用,术语“诊断置信度指示”指被分配为指示遗传变体的存在以及该存在以多少被信任的表示、数目、排序、程度或值。例如,除其他以外,该表示可以是二进制值或从A至Z排序的字母数字。又在另一个实例中,除其他以外,诊断置信度指示可以具有从0至100的任何值。又在另一个实例中,诊断置信度指示可以被表示为范围或程度,例如,“低”或“高”、“较多”或“较少”、“增加的”或“降低的”。低诊断置信度指示可意味着,不能太多地相信遗传变体的存在(遗传变体可以是噪声)。高诊断置信度指示可意味着,可能存在遗传变体,并且一个实施方案认为如果其诊断置信度指示在100之25-30之下,则结果不可信。
在一个实施中,使用来自基本上同时或在多于一个时间点内收集的多于一个样品的测量,可以调整每一个变体的诊断置信度指示以指示预测拷贝数变异(CNV)或突变的观察的置信度。可以通过使用在多于一个时间点的测量来增加置信度,以确定癌症是否进展、缓解或稳定。诊断置信度指示可以通过许多已知的统计方法中的任何一种来分配,并且可以至少部分地基于在一段时间段内观察测量的频率。例如,可以做出当前和先前结果的统计相关性。可选地,对于每一个诊断,可以建立隐马尔可夫模型(hidden Markov model),使得可以基于来自多于一个测量或时间点的特定测试事件的发生频率来做出最大似然性或最大后验概率决定。作为该模型的一部分,也可以输出特定决定的误差概率和所得的诊断置信度指示。以这种方式,参数的测量,无论它们是否在噪声范围内,均可以被提供置信区间。随时间推移进行测试,人们可以通过比较随时间推移的置信区间来增加癌症是否进展、稳定或缓解的预测置信度。两个时间点可以被分开约一个月至约一年、约一年至约5年、或不超过约三个月。
图2C示出了由图2B的系统生成的用于从下一代测序数据推断肿瘤系统发育的示例性模型。亚克隆由获得突变的进化过程相互关联。在此实例中,三个克隆(叶节点)以四个单核苷酸变体(SNV)集A、B、C和D的不同组合为特征。在树的边缘的百分比指示具有这一特定SNV集的细胞部分,例如,70%的所有细胞携带A,另外40%的所有细胞携带B,以及仅7%携带A、B和D。
图2D示出了正常细胞和癌症亚克隆的示例性异质集合,其是在肿瘤的进化历史中发展的。肿瘤的进化历史产生了正常细胞(小圆形)和癌症亚克隆(大圆形、三角形、正方形)的异质集合。已经被他们的后代完全取代的内部节点(如携带SNV集A和B、没有C或D的节点)不再是肿瘤的一部分。
可以在医疗预后提供者和一个或更多个医疗服务提供者,比如医生、医院、医疗保险者(例如Blue Cross)或管理的护理组织(例如Kaiser Permanente)之间建立合作关系。医疗服务提供者可以将一个或更多个包含cfDNA的受试者样品以及一份或更多份包括除关于受试者的遗传信息之外或以外的医疗信息的医疗记录提供给医疗预后提供者。医疗信息可以通过安全的通信链接来提供,其允许医疗预后提供者访问医疗记录。医疗预后提供者可以对来自样品的cfDNA进行测序(或已经测序),并创建包括将在本公开内容的方法中使用的信息的医疗记录。医疗服务提供者可以提供包含cfDNA的新样品和/或更新受试者通过决策节点的信息。预测模型可以随着新信息变得可用而迭代更新。
在图3中提供了确定遗传档案的过程的概述。该过程接收来自血液样品或其他身体样品的遗传物质(102)。该过程将来自遗传物质的多核苷酸转化为加标签的亲本核苷酸(104)。加标签的亲本核苷酸被扩增以产生扩增的子代多核苷酸(106)。对扩增的多核苷酸的子集进行测序以产生测序读段(108),所述测序读段被分组为家族,每一个家族由独特的加标签的亲本核苷酸生成(110)。在选择的基因座处,该过程为每一个家族分配每一个家族的置信度评分(112)。接下来,使用先前读段来确定一致性。这通过审查每一个家族的先前的置信度评分来完成,并且如果存在一致的先前的置信度评分,则增加当前的置信度评分(114)。在一个实施方案中,如果存在先前的置信度评分,但是它们不一致,则不修改当前的置信度评分(116)。在其他实施方案中,针对不一致的先前的置信度评分,以预定方式调整置信度评分。如果这是第一次检测到家族,则可以降低当前的置信度评分,因为这可能是假读段(118)。该过程可以基于置信度评分推断加标签的亲本多核苷酸集中在基因座处的家族的频率(120)。
尽管时间信息能增强用于突变或拷贝数变异检测的信息,但可以应用其他一致的方法。在其他实施方案中,历史比较可以与映射至特定参考序列的其他共有序列结合使用以检测遗传变异的情况。可以测量映射至特定参考序列的共有序列并且相对于对照样品进行归一化。映射至参考序列的分子的度量可以在整个基因组上进行比较,以鉴定基因组中拷贝数变化或杂合性丢失的区域。一致方法包括例如,由数字通信理论、信息论或生物信息学得到的构建共有序列的线性或非线性方法(比如选举、平均、统计、最大后验概率或最大似然性检测、动态编程、贝叶斯、隐马尔可夫或支持向量机方法等)。在已经确定序列读段覆盖度之后,应用随机建模算法将每一个窗口区域的归一化的核酸序列读段覆盖度转化为离散的拷贝数状态。在一些情况下,该算法可以包括以下中的一个或更多个:隐马尔可夫模型、动态编程、支持向量机、贝叶斯网络、网格解码、维特比解码、期望最大化、卡尔曼过滤方法和神经网络。
在这之后,可以生成报告。例如,拷贝数变异(CNV)可以被报告为图表,指示基因组中的不同位置以及在每一个对应位置处拷贝数变异的对应增加或降低或维持。另外,拷贝数变异可以用于报告指示在无细胞多核苷酸样品中存在多少疾病物质(或具有拷贝数变异的核酸)的百分比评分。
图4示出了经互联网访问患有癌症的受试者的报告的示意性图。图4的系统可以使用手持式DNA测序仪或台式DNA测序仪。DNA测序仪为用于自动化DNA测序过程的科学仪器。提供了DNA样品后,DNA测序仪用于确定四种碱基的顺序:腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶。DNA碱基的顺序被报告为文本字符串,称为读段。一些DNA测序仪也可以被认为是光学仪器,因为它们分析源于与核苷酸附接的荧光染料的光信号。
肿瘤档案可以包括关于肿瘤来源组织的信息。可以被检测到和建档的癌症的类型和数目包括但不限于血癌、脑癌、肺癌、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、实体瘤、异质肿瘤、均质肿瘤等。
肿瘤档案可以包含关于肿瘤药物敏感性的信息。肿瘤药物敏感性可以通过测量或确定分离的肿瘤细胞对感兴趣药物的应答来直接确定。肿瘤药物敏感性可以通过对肿瘤进行基因分型来确定。
肿瘤档案可以包含关于肿瘤尺寸和/或肿瘤阶段的信息。肿瘤尺寸可以通过身体扫描技术、外科手术或任何已知的方法来测量。肿瘤阶段可以基于身体检查、成像研究、实验室测试、病理学报告和/或外科手术报告来确定。
受试者档案可以包含受试者遗传档案。受试者的遗传档案可以通过测定来自受试者的非癌组织来确定。受试者的遗传档案可以通过测定来源自无细胞体液的核酸来确定,所述无细胞体液来自受试者。来自非癌组织的核酸可以通过例如它们在初始核酸汇集物中的频率或通过核酸分子的长度来鉴定。来源自肿瘤细胞的核酸分子可以具有在160个和180个碱基之间的第一模式和在320个至360个碱基之间的第二模式。来自非癌组织的核酸分子可以具有更宽的分布,具有许多长度大于400个碱基的分子。分子的尺寸可以由初始DNA分子或文库片段的尺寸选择来控制,或可以通过将配对的读段映射到参考基因组来信息学地(informatically)控制。
受试者的遗传档案可以包括对于能够改变治疗效果的变体的测定。例如,这样的变体能影响药物的药代动力学。影响药代动力学的常见变体能影响药物运输或药物代谢。在M.A.Rudek等人,The Handbook of Anticancer Pharmacokinetics andPharmacodynamics,由Springer Science&Business Media出版,2014中描述了影响药代动力学的变体,在此通过引用以其整体并入。
受试者的遗传档案可以包括对于影响癌症发展的变体的测定。这样的突变可以是,例如,降低肿瘤抑制基因产物比如TP53或BRCA1效率的可遗传突变。
在一些实施方案中,受试者档案包括非遗传信息。这种信息可以包括受试者的年龄、患者已经接受的其他药物的功效、关于受试者的临床信息以及家庭医疗历史。关于受试者的临床信息可以包含额外的临床信息,例如器官功能,比如肝肾功能;血细胞计数;心脏功能;肺和呼吸功能;以及感染状态。关于受试者的临床信息可以包含年龄、生理性别、心理性别、遗传档案、酶水平、器官功能、生活质量、医疗干预的频率、缓解状态和/或患者结果。受试者的档案可以包括关于先前治疗的信息。治疗可以是,例如,外科手术移除、放射、或化学疗法施用。信息可以是定性的(指示接受了什么治疗),或定量的,例如包含剂量、持续时间和时机信息(timing information)。受试者信息可以包括受试者是存活的还是死亡的。可以在各种时间点收集受试者信息,为受试者群体生成中位生存率、6个月生存率、1年生存率、2年生存率、3年生存率、5年生存率或更长的。
确定状态(例如,初始状态)可以包括获得关于受试者的信息并且基于所述信息为受试者分配状态。在一些情况下,基于信息的子集来确定状态。例如,状态可以由对来自训练集的受试者进行聚类来确定,并且新的受试者可以由确定他们最接近的聚类来为他们分配状态。
聚类可以用于将定量数据转换成分类数据。例如,某些癌症药物治疗(medication)可能引起肝损伤。可以测量处于这种癌症药物治疗的受试者血液中的肝酶(例如AST和ALT)水平。肝酶水平的聚类或视觉检查可以揭示一些具有升高的肝酶水平的受试者和一些具有正常的肝酶水平的受试者。通过将肝酶高于给定水平的受试者定义为“升高的”以及肝酶水平低于给定水平的受试者定义为“正常的”,肝酶水平可以转化为分类变量。
分类数据和定量数据可以组合。在一种示例性方法中,分类数据可以通过将分类数据转化为‘虚设值’而转化为用于在要求定量数据的方法中使用。例如,具有升高的肝酶水平的患者可以被分配值1,而具有正常肝酶水平的患者可以被分配值0。其他将分类变量转化为定量变量的方法包括效果编码(effects coding)、对比编码(contrast coding)以及无义编码(nonsense coding)。
状态可以表示感兴趣的结果(例如生存、缓解状态或耐药性出现之前的时间长度),其可以被记录。受试者集(例如,训练集)可以用于确定初始状态和/或治疗对所确定的感兴趣结果的效果大小和相互作用。这些效果大小和相互作用可以用于开发分类器(classifier)或预测模型。从初始状态确定特征的效果大小和相互作用项的方法可以包括,例如,回归分析,包括线性和对数回归分析;最近收缩质心分析;稳定线性判别分析;支持向量机(Support Vector Machine);高斯过程(Gaussian Process);条件推断树森林(Conditional Inference Tree Forest);随机森林(Random Forest);最近质心(NearestCentroid);朴素贝叶斯(Naive Bayes);投影寻踪LDA树(Projection Pursuit LDA Tree);多项式逻辑回归(Multinomial Logistic Regression);树桩决策树(Stump DecisionTrees);人工神经网络(Artificial Neural Networks);二元决策树(Binary DecisionTrees);和/或条件推断树(Conditional Inference Trees)。分类器或预测模型的准确性和敏感性可以通过测量未用于构建分类器或预测模型的受试者子集(例如,测试集)上的预测准确性来确定。
在一些情况下,确定了预测因子(predictor)的效果大小,并去除了低影响变量。变量选择的方法在本领域中是已知的,并且可以包括,例如,用于变量选择的过滤器方法(filter method)和/或包装纸方法(wrapper method)。过滤器方法基于一般特征,比如变量与结果的相关性。包装纸方法一起评估变量的子集,以确定变量的最佳组合。所选的变量可以用于确定被用于确定受试者状态的信息的子集。
在一些情况下,受试者的训练集在相同类型的组织中具有肿瘤。在一些情况下,受试者具有相似的人口档案,比如相同的性别、相同的年龄、相同的种族背景或相同的风险因素。性别可以是男性或女性。示例性的风险因素包括酒精消耗、烟草使用以及使用的方法、饮食、锻炼、致癌物质的职业暴露、旅行频率以及紫外光暴露和/或晒黑(tanning)。在一些情况下,训练集受试者都是患有癌症的患者。在一些情况下,训练集受试者都是患有与癌症相一致的症状的患者,所述患者正在接受对于癌症的测试。在一些情况下,训练集受试者是患有与癌症相一致的症状的患者,所述患者正在接受对于癌症的治疗。受试者的特征可以被包括在关于多个受试者中的每个受试者的信息中。
受试者的初始状态可以用于确定受试者的给定后续状态的概率。概率可以使用分类器或预测模型来确定。
分类器或预测模型可以用于鉴定对于具有给定档案的受试者的优选治疗。例如,使用分类器或预测模型来确定对于受试者的给定结果的概率可以包含生成一个或更多个决策树。第一时间点的状态可以由根节点(它是初始决策节点)表示,替代治疗可以由决策分支表示。在一些情况下,决策分支可以通向终端状态(不从其做出进一步的决策)或中间状态节点,其本身可以是决策节点。中间状态节点可以表示在受试者的一个或更多个肿瘤中出现的遗传变体,这些遗传变体赋予肿瘤对治疗的耐药性;后续的活检或成像过程的结果;和/或通常在某个时间点来自受试者的信息的变化或无变化。例如,中间节点可以包含受试者在从治疗后1周、治疗后2周、治疗后3周、治疗后4周、治疗后1个月、治疗后2个月、治疗后3个月、治疗后6个月、治疗后1年、治疗后2年、治疗后3年、治疗后4年或治疗后5年的信息。中间节点可以表示中间状态,其中医疗护理提供者就未来的治疗选项做出决定(例如,在化学疗法方案完成之后、在外科手术干预以去除肿瘤之后以及在主动监测方案期间的特定时间点)。
中间节点可以包含关于对治疗的耐药性出现的信息。例如,在肿瘤中特定变体的存在可以指示耐药性正在出现。在治疗期间特定变体随时间的增加可以指示该变体、或至少第二个未看见的变体,与对治疗的耐药性的出现相关联。这种变体出现的概率可能会由特定变体的存在而改变,所述变体会以特定的进化轨迹事前倾向肿瘤。中间节点可以包含关于受试者的(例如患者的)健康的信息。
肿瘤档案和/或受试者档案可以在一个或更多个后续时间点确定。来自后续时间点的肿瘤和/或受试者档案的信息可以用于确定后续状态。在确定后续状态后,后续状态可以用作新的初始状态来更新其他后续节点的概率。例如,如果受试者发展不与KRAS基因扩增事件同时发生的KRAS变体,决策树可以被更新以反映KRAS基因扩增事件的降低的概率。
在一些情况下,后续状态由终端节点表示(例如,受试者已经死亡或已经经历完全缓解)。后续状态可以是治疗后的时间点。后续状态可以是进行额外活检的点。活检可以是液体活检。
在一些情况下,终端节点表示不作进一步医疗决策的状态。在一些情况下,终端节点表示受试者的死亡。在一些情况下,终端节点表示无法检测受试者中的癌症。
在一些情况下,推荐治疗包括确定来自受试者的信息属于为分类器或预测模型生成的哪些聚类。确定可以基于通过以上所描述的方法确定的聚类边界。在一些情况下,确定可以基于选择与来自受试者的信息最近的聚类。选择可以至少部分基于距离相关性。
这样的分类器或预测模型可以用于为患者选择治疗。例如,对于具有给定遗传档案和肿瘤遗传档案的患者,可以选择最大化生存率(例如,五年生存率和/或缓解率)的疗法。可以随着时间的推移监测患者。如果出现了遗传突变,赋予对疗法的耐药性或提供增加的对疗法产生耐药性的风险,则可以根据新的状态施用第二种或不同的疗法,所述疗法最大化五年生存率和/或缓解率。可以选择适当的治疗以使受试者的生存和/或存活年限最大化。
治疗是本领域技术人员已知的,并且在the NCCN Clinical PracticeGuidelines in OncologyTM或American Society of Clinical Oncology(ASCO)clinicalpractice guidelines中描述了实例。用于治疗使用的药物的实例可以在CMS批准的纲要中找到,包括the National Comprehensive Cancer Network(NCCN)Drugs and BiologicsCompendiumTM、Thomson MicromedexElsevier Gold Standard's ClinicalPharmacology compendium、和American Hospital Formulary Service—DrugInformation/>
计算机系统
本公开内容提供了被编程为实现本公开内容的方法的计算机系统。图7示出了被编程或以其他方式配置为检测或监测癌症进化的计算机系统701。
计算机系统701包括中央处理单元(CPU,本文也被称为“处理器”和“计算机处理器”)705,其可以是单核或多核处理器或用于并行处理的多个处理器。计算机系统701还包括存储器或存储器位置710(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元715(例如,硬盘)、用于与一个或更多个其他系统进行通信的通信界面720(例如,网络适配器)和外围设备725,比如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器710、储存单元715、界面720和外围设备725与CPU 705通过通信总线(实线),比如主板(motherboard)通信。存储单元715可以是用于存储数据的数据存储单元(或数据储存库)。计算机系统701可以借助于通信界面720被可操作地耦合至计算机网络(“网络”)730。网络730可以是因特网(Internet)、互联网(internet)和/或外联网、或与因特网通信的内联网和/或外联网。在一些情况下,网络730为电信和/或数据网络。网络730可以包括一个或更多个计算机服务器,这可以支持分布式计算,比如云计算。在一些情况下,借助于计算机系统701,网络730可以实现对等网络(peer-to-peer network),其可以使耦合至计算机系统701的设备能够作为客户端或服务器运行。
CPU 705可以执行一系列的机器可读指令,该机器可读指令可以以程序或软件来体现。指令可以被存储于存储器位置,比如存储器710中。指令可以被导向CPU 705,其可以随后编程或以其他方式配置CPU 705,以实现本公开内容的方法。由CPU 705进行的操作的实例可以包括读取、解码、执行和写回。
CPU 705可以是电路比如集成电路的一部分。系统701的一个或更多个其他组件可以被包含在该电路中。在一些情况下,电路为专用集成电路(ASIC)。
存储单元715可以存储文件,比如驱动程序、库和保存的程序。存储单元715可以存储用户数据,例如,用户偏好和用户程序。在一些情况下,计算机系统701可以包括一个或更多个另外的数据存储单元,该数据存储单元在计算机系统701的外部,比如位于通过内联网或因特网而与计算机系统701通信的远程服务器上。
计算机系统701可以与一个或更多个远程计算机系统通过网络730进行通信。例如,计算机系统701可以与用户(例如,患者或医疗保健提供者)的远程计算机系统进行通信。远程计算机系统的实例包括个人计算机(例如便携式PC)、板型或平板PC(例如Galaxy Tab)、电话、智能电话(例如/>iPhone、Android支持的设备、/>)或个人数字助理。用户可以经由网络730访问计算机系统701。
如本文描述的方法可以通过机器(例如,计算机处理器)可执行代码的方式实现,该机器可执行代码被存储在计算机系统701的电子存储位置,比如,例如存储器710或电子存储单元715上。机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间,代码可以由处理器705执行。在一些情况下,代码可以从存储单元715检索并存储在存储器710上,以用于由处理器705迅速访问。在一些情况下,可以排除电子存储单元715,而将机器可执行指令存储于存储器710中。
代码可以被预编译并配置为用于与具有适用于执行该代码的处理器的机器一起使用,或者可以在运行时间期间被编译。代码可以以编程语言的形式提供,该编程语言可被选择以便使得代码能够以预编译的或按编译原样(as-compiled)的方式被执行。
本文所提供的系统和方法的方面,比如计算机系统701,可以以编程来体现。技术的多个方面可以被认为是通常呈一种机器可读介质进行或体现的机器(或处理器)可执行代码和/或相关数据的形式的“产品”或“制品(articles of manufacture)”。机器可执行代码可以被存储于电子存储单元比如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等的任何或所有有形存储器,或其相关模块,比如多种半导体存储器、磁带驱动器、磁盘驱动器等,其可以在任何时间为软件编程提供非暂时性存储。该软件的所有或部分有时可以通过因特网或多种其他电信网络进行通信。例如,此类通信可以使得将软件从一个计算机或处理器加载到另一个计算机或处理器,例如,从管理服务器或主机加载到应用服务器的计算机平台。因此,能够携带软件元件的另一类型的介质包括比如在本地设备之间的物理界面、通过有线和光纤陆线网络以及在多种空中链路(air-links)上使用的光波、电波和电磁波。携带此类波的物理元件,比如有线或无线链路、光链路等,也可以被认为是携带软件的介质。如本文使用的,除非被限制为非暂时性的、有形的“储存”介质,否则术语比如计算机或机器“可读介质”指参与将指令提供至处理器用于执行的任何介质。
因此,机器可读介质,比如计算机可执行代码,可以采取多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括,例如光盘或磁盘,比如在任何计算机等中的任何存储设备,比如可以用于实现如附图中示出的数据库等。易失性存储介质包括动态存储器,比如此类计算机平台的主存储器。有形的传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内的总线的导线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式,比如在射频(RF)和红外(IR)数据通信期间生成的那些。因此,计算机可读介质的常见形式包括,例如:软盘(floppy disk)、软性磁盘(flexibledisk)、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有打孔模式的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、传输数据或指令的载波、传输此类载波的缆线或链路,或者计算机可以从其读取编程代码和/或数据的任何其他介质。这些计算机可读介质的形式中的许多形式可以参与向处理器传送一个或更多个顺序的一个或更多个指令以用于执行。
计算机系统701可以包括电子显示器735或与之通信,所述电子显示器735包括用户界面(UI)740,用于提供例如一个或更多个与癌症进化相关联或指示癌症进化的结果。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。
本公开内容的方法和系统可以通过一个或更多个算法来实现。算法可以在由中央处理器705执行后通过软件来实现。该算法可以,例如,实现本公开内容的方法以检测或监测癌症进化。
实施例:
实施例1:构建出现治疗耐药性的模型
患有癌症的受试者经历身体筛查,以确定患者档案,包括他们的年龄、性别、癌症类型、癌症阶段和器官功能。受试者经历抽血,其被处理以除去细胞以提供具有核酸的无细胞体液。对核酸进行测序,并且确定患者的遗传档案和肿瘤遗传档案。受试者由他们的医生开处方治疗。随着时间的推移追踪患者,并且每三个月获得一份肿瘤遗传档案。在每个时间点记录患者结果。
基于具有给定患者档案(包括患者遗传档案)和肿瘤遗传档案的患者在任何给定时间点将具有特定患者结果的概率,构建隐马尔可夫模型。
实施例2:使用出现治疗耐药性的模型
患有癌症的受试者被医院收治。获取受试者档案和肿瘤档案。受试者档案和肿瘤档案被用作为对于模型(比如在实施例1中生成的模型)的初始状态。基于模型,预测受试者的结果,并且选择治疗以最大化受试者的预期生存时间(例如,以月或年测量)。每三个月更新受试者的肿瘤档案,并且用作进入模型的新初始状态输入。在给定的后续时间点,肿瘤档案指示,已经出现具有对于当前治疗的耐药性的亚克隆。作为应答,选择新的治疗以最大化受试者的预期生存时间。给予受试者靶向对第一治疗(例如,第一线疗法)耐药的肿瘤细胞的第二治疗(例如,第二线疗法)。
实施例3:用决策树表示受试者
将受试者与一个初始节点相关联,指示他是一名患有结肠癌的65岁男性,并且肿瘤档案指示在受试者的无细胞DNA中检测到低频率的KRAS突变。从初始节点出现的一个分支指示帕尼单抗(panitumumab)和西妥昔单抗(cetuximab)治疗,并且第二个分支指示帕尼单抗和西妥昔单抗治疗与丝裂原活化蛋白激酶(MEK)抑制剂联合施用。这些分支与指示耐药性出现以及无耐药性出现的中间节点相连。与没有用MEK抑制剂共同治疗的分支相比,沿着包含用MEK抑制剂共同治疗的分支的中间节点出现耐药性的概率更低。每个中间节点与指示死亡和完全缓解的终端节点相关联。沿着包括与MEK抑制剂共同治疗的决策分支的终端节点的完全缓解的概率更高。
本文所描述的实施方案的说明旨在提供对各种实施方案的结构的一般理解。这些说明并不旨在作为利用本文描述的结构或方法的设备和系统的所有元件和特征的完整描述。在回顾本公开内容之后,许多其他实施方案对于本领域技术人员来说可以是明显的。可以利用其他实施方案和从本公开内容中导出其他实施方案,使得可以在不脱离本公开内容的范围的情况下进行结构和逻辑替换和改变。因此,本公开内容和附图是被视为说明性的而不是限制性的。
仅为了方便,本公开内容的一个或更多个实施方案在本文中可单独地和/或共同地由术语“发明”来提及,并且不意图将本申请的范围主动地限制为任何特定发明或发明构思。此外,尽管本文已经说明和描述了特定的实施方案,但是应当理解,被设计成实现相同或相似目的的任何后续布置可以替代所示的特定实施例。本公开内容旨在覆盖各种实施方案的任何和所有后续的修改或变型。在阅读本描述后,以上实施方案的组合以及本文未具体描述的其它实施方案对于本领域的技术人员将是明显的。
虽然本文已经显示和描述了本发明的优选实施方案,但对于本领域技术人员将明显的是,此类实施方案仅通过示例的方式提供。并非意图将本发明限制于本说明书中提供的具体实例。虽然已参考以上提及的说明书描述了本发明,但本文实施方案的描述和说明并不意图以限制性的意义来解释。在不偏离本发明的情况下,本领域技术人员现在将想到许多变化、改变和替换。此外,应当理解,本发明的所有方面并不限于本文阐述的取决于多种条件和变量的具体描写、配置或相对比例。应当理解,在实践本发明时可以采用本文描述的本发明的实施方案的各种替代选择。因此可以预期,本发明还应涵盖任何此类的替代选择、修改、变化或等同物。以下权利要求意图界定本发明的范围,并且从而涵盖在这些权利要求范围内的方法和结构及其等同物。

Claims (10)

1.一种计算机实施的方法,包括:
(a)在第一时间点获得关于患有癌症的多个受试者的信息,其中所述信息包含对于所述多个受试者中的每个受试者,通过对来自无细胞体液的核酸进行基因分型而获得的至少肿瘤的遗传档案以及在所述第一时间点之前提供给所述受试者的任何治疗,并且基于在第一时间点的信息确定所述多个受试者中的每个受试者的第一状态以产生第一状态集;
(b)在所述第一时间点之后的一个或更多个第二时间点获得关于所述多个受试者的信息,并且基于在所述一个或更多个第二时间点中给定的一个时间点的信息,在所述一个或更多个第二时间点的每一个处确定所述多个受试者中的每个受试者的第二状态,以产生后续状态集;以及
(c)使用来自(a)的所述第一状态集和来自(b)的所述后续状态集来生成预测算法,该预测算法被配置为确定给定的第一状态将在所述给定的第一状态之后的稍后时间点的状态集中导致第二状态的概率。
2.如权利要求1所述的方法,所述方法还包括:
(d)对于在较早时间点的状态集中的所述给定的第一状态,确定所述给定的第一状态将在稍后时间点的状态集中导致第二状态的概率;以及
(e)生成指示在(d)中确定的概率的电子输出。
3.一种计算机实施的方法,包括:
(a)在第一时间点获得关于患有癌症的多个受试者的信息,其中所述信息包含,对于所述多个受试者中的每个受试者,通过对至少50个基因进行基因分型而获得的至少肿瘤的遗传档案以及在所述第一时间点之前提供给受试者的任何治疗,并且基于在所述第一时间点的信息确定所述多个受试者中的每个受试者的第一状态以产生第一状态集;
(b)在所述第一时间点之后的一个或更多个第二时间点获得关于所述多个受试者的信息,并且基于在所述一个或更多个第二时间点中给定的一个时间点的信息,在所述一个或更多个第二时间点的每一个处确定所述多个受试者中的每个受试者的第二状态,以产生后续状态集;以及
(c)使用来自(a)的所述第一状态集和来自(b)的所述后续状态集来生成预测算法,该预测算法被配置为确定给定的第一状态将在所述给定的第一状态之后的稍后时间点的状态集中导致第二状态的概率。
4.如权利要求3所述的方法,所述方法还包括:
(d)对于在较早时间点的状态集中的所述给定的第一状态,确定所述给定的第一状态将在稍后时间点的状态集中导致第二状态的概率;以及
(e)生成指示在(d)中确定的概率的电子输出。
5.如权利要求1或3所述的方法,其中获得信息包括对来自所述多个受试者的无细胞脱氧核糖核酸(cfDNA)进行测序,并且任选地对所述多个受试者中的每一个进行医学访谈。
6.如权利要求1或3所述的方法,其中所述治疗在所述第一时间点之前被提供给受试者。
7.如权利要求1或3所述的方法,还包括生成一个或更多个决策树,每个决策树包括根节点、一个或更多个决策分支、一个或更多个决策节点以及一个或更多个终端节点,其中在所述根节点的状态表示所述第一时间点,所述一个或更多个决策分支表示替代治疗,并且所述一个或更多个决策节点和所述一个或更多个终端节点表示后续状态。
8.如权利要求7所述的方法,其中所述一个或更多个决策分支包含多个决策分支。
9.如权利要求1或3所述的方法,其中所述后续状态包括受试者的生存状态,指示受试者是存活的还是死亡的。
10.如权利要求1或3所述的方法,其中所述后续状态包括受试者存活率。
CN202310567684.2A 2016-02-02 2017-02-02 癌症进化检测和诊断 Pending CN116640847A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201662290375P 2016-02-02 2016-02-02
US62/290,375 2016-02-02
PCT/US2017/016295 WO2017136603A1 (en) 2016-02-02 2017-02-02 Cancer evolution detection and diagnostic
CN201780021370.5A CN109072309B (zh) 2016-02-02 2017-02-02 癌症进化检测和诊断

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201780021370.5A Division CN109072309B (zh) 2016-02-02 2017-02-02 癌症进化检测和诊断

Publications (1)

Publication Number Publication Date
CN116640847A true CN116640847A (zh) 2023-08-25

Family

ID=59500171

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201780021370.5A Active CN109072309B (zh) 2016-02-02 2017-02-02 癌症进化检测和诊断
CN202310567684.2A Pending CN116640847A (zh) 2016-02-02 2017-02-02 癌症进化检测和诊断

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201780021370.5A Active CN109072309B (zh) 2016-02-02 2017-02-02 癌症进化检测和诊断

Country Status (7)

Country Link
US (4) US11335463B2 (zh)
EP (1) EP3411505A4 (zh)
JP (2) JP6987786B2 (zh)
CN (2) CN109072309B (zh)
CA (1) CA3013366A1 (zh)
SG (1) SG11201806609TA (zh)
WO (1) WO2017136603A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3246416A1 (en) 2011-04-15 2017-11-22 The Johns Hopkins University Safe sequencing system
EP2912468B1 (en) 2012-10-29 2018-09-12 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
WO2017027653A1 (en) 2015-08-11 2017-02-16 The Johns Hopkins University Assaying ovarian cyst fluid
CN109072309B (zh) 2016-02-02 2023-05-16 夸登特健康公司 癌症进化检测和诊断
CA3027919C (en) 2016-09-30 2023-02-28 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
US10346454B2 (en) * 2017-04-17 2019-07-09 Mammoth Medical, Llc System and method for automated multi-dimensional network management
AU2018342007A1 (en) 2017-08-07 2020-02-27 Board Of Regents, The University Of Texas Systems Methods and materials for assessing and treating cancer
US20200303036A1 (en) * 2017-10-17 2020-09-24 The Broad Institute, Inc. Methods and systems for detection of somatic structural variants
JP7304852B2 (ja) * 2017-11-03 2023-07-07 ガーダント ヘルス, インコーポレイテッド 脱アミノ化に誘導される配列エラーの補正
EP3728642A4 (en) * 2017-12-18 2021-09-15 Personal Genome Diagnostics Inc. AUTOMATIC LEARNING SYSTEM AND SOMATIC MUTATION DISCOVERY PROCESS
AU2019351130A1 (en) 2018-09-27 2021-04-08 Grail, Llc Methylation markers and targeted methylation probe panel
CN111382756B (zh) * 2018-12-28 2023-06-02 台湾中国医药大学附设医院 影像电脑辅助直肠癌治疗反应预测系统及方法
AU2020216438A1 (en) 2019-01-31 2021-07-29 Guardant Health, Inc. Compositions and methods for isolating cell-free DNA
US11586964B2 (en) * 2020-01-30 2023-02-21 Dell Products L.P. Device component management using deep learning techniques
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1198195A1 (en) 1999-06-29 2002-04-24 Intercet, Ltd. Human cancer virtual simulation system
US20050170528A1 (en) * 2002-10-24 2005-08-04 Mike West Binary prediction tree modeling with many predictors and its uses in clinical and genomic applications
US20090247475A1 (en) * 2004-03-05 2009-10-01 The Regents Of The University Of California Methods and compositions relating to pharmacogenetics of different gene variants in the context of irinotecan-based therapies
US7943306B2 (en) 2005-01-12 2011-05-17 The Board Of Trustees Of The Leland Stanford Junior University Gene expression signature for prediction of human cancer progression
NZ544432A (en) 2005-12-23 2009-07-31 Pacific Edge Biotechnology Ltd Prognosis prediction for colorectal cancer using a prognositc signature comprising markers ME2 and FAS
US8768629B2 (en) 2009-02-11 2014-07-01 Caris Mpi, Inc. Molecular profiling of tumors
EP2087140A2 (en) * 2006-11-13 2009-08-12 Source Precision Medicine, Inc. Gene expression profiling for identification, monitoring, and treatment of lung cancer
AU2008298612A1 (en) 2007-09-14 2009-03-19 University Of South Florida Gene signature for the prediction of radiation therapy response
US20090105167A1 (en) * 2007-10-19 2009-04-23 Duke University Predicting responsiveness to cancer therapeutics
US9858392B2 (en) 2008-05-12 2018-01-02 Koninklijke Philips N.V. Medical analysis system
WO2010028288A2 (en) 2008-09-05 2010-03-11 Aueon, Inc. Methods for stratifying and annotating cancer drug treatment options
CN102858995B (zh) * 2009-09-10 2016-10-26 森特瑞隆技术控股公司 靶向测序方法
US20120053073A1 (en) * 2010-07-23 2012-03-01 President And Fellows Of Harvard College Methods for Detecting Signatures of Disease or Conditions in Bodily Fluids
EP2913405B1 (en) 2010-07-27 2016-11-09 Genomic Health, Inc. Method for using gene expression to determine prognosis of prostate cancer
US8548937B2 (en) * 2010-08-17 2013-10-01 Wisercare Llc Medical care treatment decision support system
EP2648762B1 (en) * 2010-12-09 2018-02-21 Biotheranostics, Inc. Post-treatment breast cancer prognosis
US20140038197A1 (en) 2011-01-07 2014-02-06 Thomas Jefferson University System for and method of determining cancer prognosis and predicting response to therapy
WO2012129363A2 (en) 2011-03-24 2012-09-27 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
ES2828661T3 (es) 2012-03-20 2021-05-27 Univ Washington Through Its Center For Commercialization Métodos para reducir la tasa de error de la secuenciación de ADN masiva en paralelo mediante el uso de la secuenciación de secuencia consenso bicatenaria
US11261494B2 (en) * 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
KR102028375B1 (ko) * 2012-09-04 2019-10-04 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
WO2014149134A2 (en) 2013-03-15 2014-09-25 Guardant Health Inc. Systems and methods to detect rare mutations and copy number variation
NZ706269A (en) * 2012-09-20 2016-08-26 Univ Hong Kong Chinese Non-invasive determination of methylome of fetus or tumor from plasma
US20140088989A1 (en) 2012-09-27 2014-03-27 Balaji Krishnapuram Rapid Learning Community for Predictive Models of Medical Knowledge
EP3004394A4 (en) * 2013-06-04 2016-12-21 Univ Miami ASSAYS, METHODS AND KITS FOR ANALYZING SENSITIVITY AND RESISTANCE TO ANTICANCER DRUGS, GIVING PROGNOSTIC CANCER PATIENT, AND PERSONALIZED THERAPEUTIC STRATEGIES
ES2925014T3 (es) 2014-09-12 2022-10-13 Univ Leland Stanford Junior Identificación y uso de ácidos nucleicos circulantes
CA2970931C (en) 2014-12-17 2023-05-23 Foundation Medicine, Inc. Computer-implemented system and method for identifying similar patients
JP6995625B2 (ja) 2015-05-01 2022-01-14 ガーダント ヘルス, インコーポレイテッド 診断方法
CN108474040B (zh) 2015-10-09 2023-05-16 夸登特健康公司 使用无细胞dna的基于群体的治疗推荐
CN109072309B (zh) 2016-02-02 2023-05-16 夸登特健康公司 癌症进化检测和诊断

Also Published As

Publication number Publication date
WO2017136603A1 (en) 2017-08-10
EP3411505A1 (en) 2018-12-12
JP6987786B2 (ja) 2022-01-05
US20220359085A1 (en) 2022-11-10
US11621083B2 (en) 2023-04-04
CN109072309B (zh) 2023-05-16
US11335463B2 (en) 2022-05-17
JP2019512823A (ja) 2019-05-16
US20230197284A1 (en) 2023-06-22
EP3411505A4 (en) 2020-01-15
US20210050072A1 (en) 2021-02-18
JP2022028907A (ja) 2022-02-16
SG11201806609TA (en) 2018-09-27
US20190005194A1 (en) 2019-01-03
US11282610B2 (en) 2022-03-22
CN109072309A (zh) 2018-12-21
CA3013366A1 (en) 2017-08-10

Similar Documents

Publication Publication Date Title
US11621083B2 (en) Cancer evolution detection and diagnostic
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
CN112888459B (zh) 卷积神经网络系统及数据分类方法
US11756655B2 (en) Population based treatment recommender using cell free DNA
US11164655B2 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
US20190065670A1 (en) Predicting disease burden from genome variants
US20140229495A1 (en) Method for processing genomic data
CN113930507A (zh) 疾病的检测和治疗以及用于传送测试结果的系统和方法
JP2023507252A (ja) パッチ畳み込みニューラルネットワークを用いる癌分類
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
Chieruzzi Identification of RAS co-occurrent mutations in colorectal cancer patients: workflow assessment and enhancement
AU2022349855A1 (en) Methods of cancer prognosis
EP4142730A1 (en) Methods and systems for assessing fibrotic disease with deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination