CN116640849A - 使用无细胞dna的基于群体的治疗推荐 - Google Patents

使用无细胞dna的基于群体的治疗推荐 Download PDF

Info

Publication number
CN116640849A
CN116640849A CN202310625686.2A CN202310625686A CN116640849A CN 116640849 A CN116640849 A CN 116640849A CN 202310625686 A CN202310625686 A CN 202310625686A CN 116640849 A CN116640849 A CN 116640849A
Authority
CN
China
Prior art keywords
cancer
genetic
subject
information
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310625686.2A
Other languages
English (en)
Inventor
埃尔米·埃尔图凯
阿米尔阿里·塔拉萨兹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guardant Health Inc
Original Assignee
Guardant Health Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guardant Health Inc filed Critical Guardant Health Inc
Publication of CN116640849A publication Critical patent/CN116640849A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Abstract

本申请涉及使用无细胞DNA的基于群体的治疗推荐。公开了通过以下生成治疗应答预测或者检测疾病的系统和方法:使用遗传分析仪来生成遗传信息;接收训练数据集到计算机存储器中,所述训练数据集针对具有疾病的多于一个个体中的每一个,包括(1)在第一时间点生成的来自个体的遗传信息和(2)在第二、稍后的时间点确定的所述个体对一种或更多种治疗干预的治疗应答;以及使用所述数据集实现机器学习算法以生成至少一个计算机实现的分类算法,其中所述分类算法基于来自受试者的遗传信息预测所述受试者对治疗干预的治疗应答。

Description

使用无细胞DNA的基于群体的治疗推荐
本申请是申请日为2016年10月07日,申请号为201680072321.X,发明名称为“使用无细胞DNA的基于群体的治疗推荐”的申请的分案申请。
交叉引用
本申请要求于2015年10月9日提交的美国临时申请号62/239,390的权益,该申请通过引用以其整体并入本文。
背景
个体患者对医学治疗的反应不同,部分原因是影响基因表达的遗传和表观遗传差异。这些差异可能存在于正常的宿主组织中,或者它们可能被癌细胞在转化过程中获得。这些差异可能影响治疗应答的不同部分,包括:药物的药代动力学(例如代谢或转运)或药效动力学(例如靶或调节酶);宿主组织对辐射的敏感性;恶性细胞对细胞毒性剂包括药物和辐射的敏感性;和恶性细胞侵袭和转移的能力。
癌症如此难以治疗的原因之一是当前的测试方法通常不能帮助医生将特定的癌症与有效的药物治疗匹配。此外,疾病状态本身可以是一个移动的目标——癌细胞在不断地变化和突变。尽管癌症肿瘤不断地将其独特的基因组物质注入血流,但不幸的是,这些能说明问题的基因组“信号”非常弱,以至于当前的基因组分析技术(包括下一代测序)仅能偶尔地或者在具有晚期高肿瘤负荷的患者中检测到这种信号。其主要原因是此类技术受到错误率和偏倚的困扰,这些错误率和偏倚可能比可靠地检测与癌症相关的从头基因组改变所需要的数量级要高。因此,需要用于确定癌症有效治疗的改进的系统和方法。
发明概述
本发明涉及用于基于预测的治疗应答对癌症患者进行分类的系统和方法。
在一个方面,本公开提供了一种通过以下分析受试者的疾病状态的方法:用遗传分析仪,例如DNA测序仪在两个或更多个时间点表征受试者的遗传信息;和使用来自两个或更多个人或时间点的信息产生受试者的遗传信息的表征中的调整的测试结果。
在另一个方面,公开了通过以下检测疾病的系统和方法:使用DNA测序仪来生成遗传信息;接收训练数据集到计算机存储器中,所述训练数据集针对具有疾病的多于一个(aplurality of)个体中的每一个,包括(1)在第一时间点生成的来自个体的遗传信息和(2)在第二、稍后的时间点确定的所述个体对一种或更多种治疗干预的治疗应答;以及使用所述数据集实现机器学习算法以生成至少一个计算机实现的分类算法,其中所述分类算法基于来自受试者的遗传信息来预测所述受试者对治疗干预的治疗应答。如本文中使用的,治疗应答是对特定治疗干预的治疗应答。
在另一个方面,方法通过以下检测来自受试者的样品中的癌症多核苷酸的量随时间的趋势:在多于一个时间点确定癌症多核苷酸的频率;确定所述多于一个时间点中的每一个时间点处的频率的误差范围;确定较早和稍后的时间点之间的误差范围(1)是否重叠,指示频率的稳定性,(2)在误差范围之外的稍后的时间点的增加,指示频率的增加或(3)在误差范围之外的稍后的时间点的下降,指示频率下降。
在又另一个方面,方法通过以下检测异常细胞活性:用遗传分析仪,例如DNA测序仪对无细胞核酸进行测序;将稍后的(例如当前的)序列读段与至少两个时间点的先前的序列读段进行比较并相应地更新诊断置信度指示;以及基于序列读段的诊断置信度指示检测个体中遗传改变的存在或不存在和/或遗传变异量。遗传分析仪包括用于遗传分析的任何系统,例如通过测序(DNA测序仪)或杂交(微阵列、荧光原位杂交、生物纳米基因组学)或其他。
在另一个方面,方法通过以下检测从受试者获得的无细胞样品或基本上无细胞的样品中的突变:通过用遗传分析仪例如DNA测序仪比较稍后的(例如当前的)序列读段与来自先前的时间段的先前的序列读段来生成共有序列,并基于先前的序列读段更新诊断置信度指示,每个共有序列对应于一组加标签的亲本多核苷酸中的独特多核苷酸,以及生成受试者中胞外多核苷酸的遗传谱(genetic profile),其中所述遗传谱包括由拷贝数变异或突变分析产生的多于一个数据。
在另一个方面,本文公开了通过以下检测异常细胞活性的方法:提供至少一组加标签的亲本多核苷酸,以及对于每组加标签的亲本多核苷酸;扩增该组中的加标签的亲本多核苷酸以产生相应的一组扩增的子代多核苷酸;用遗传分析仪,例如DNA测序仪对扩增的子代多核苷酸集的子集进行测序,以产生一组测序读段;以及通过将当前序列读段与来自至少一个先前时间段的先前序列读段进行比较使该组测序读段叠并(collapsing)以生成一组共有序列,并且相应地更新诊断置信度指示,每个共有序列对应于该组加标签的亲本多核苷酸中的独特多核苷酸。
在又另一个方面,方法通过以下检测从受试者获得的无细胞样品或基本上无细胞的样品中的突变:用遗传分析仪,例如DNA测序仪对来自受试者的身体样品的胞外多核苷酸进行测序;对于每种胞外多核苷酸,生成多于一个测序读段;过滤掉不符合设定阈值的读段;将源自测序的序列读段映射到参考序列上;鉴定在每个可映射碱基位置处与参考序列的变体对齐的映射序列读段的子集;对于每个可映射碱基位置,计算(a)与参考序列相比包括变体的映射序列读段的数目与(b)每个可映射碱基位置的总序列读段的数目的比率;以及比较当前序列读段与来自至少一个其他时间点的先前序列读段并相应地更新诊断置信度指示。
在另一个方面,本文公开了通过以下表征受试者中的异常状况的不均一性的方法:比较稍后的(例如当前的)序列读段与来自至少一个其他时间点的先前的序列读段并相应地更新诊断置信度指示,每个共有序列对应于加标签的亲本多核苷酸集中的独特的多核苷酸,以及生成所述受试者中细胞外多核苷酸的遗传谱,其中所述遗传谱包括由拷贝数变异或突变分析产生的多于一个数据。
以上系统/方法的实现可以包括以下中的一个或更多个。该方法包括生成所述受试者中的细胞外多核苷酸的遗传谱,其中所述遗传谱包括由拷贝数变异或突变分析得到的多于一个数据。如果来自第一时间点的信息证实了来自第二时间点的信息,则该方法包括增加随后表征中的诊断置信度指示。如果来自第一时间点的信息证实了来自第二时间点的信息,则可以增加随后表征中的诊断置信度指示。如果来自第一时间点的信息与来自第二时间点的信息矛盾,则该方法包括降低随后表征中的诊断置信度指示。
以上系统的优点可以包括以下中的一个或更多个。肿瘤衍生的拷贝数畸变、单核苷酸变异和甲基化改变可以使用本文的系统/方法检测,并且信息可以应用于群体以增加准确性。此外,该系统可以鉴定遗传相似病例的成功治疗,包括对循环肿瘤细胞(CTC)和释放到外周血中的无细胞循环肿瘤DNA(ctDNA)分析治疗靶以及赋予药物耐受性的基因突变。CTC和ctDNA二者都提供了关于评估群体中新药物或药物组合的补充信息。液体活组织检查概念将有助于更好地了解和临床管理癌症患者的耐药性。外周血中循环肿瘤细胞(CTC)的计数和表征可以提供重要的预后信息,并可能帮助监测疗法的效力。由于目前的测定不能区分凋亡的和有活力的CTC,所以检测从单个上皮癌细胞分泌/释放/脱落的蛋白的fluoroEPISPOT测定可以用于乳腺癌、结肠癌、前列腺癌、头颈癌和卵巢癌以及黑素瘤。该系统能够满足诊断性生物标志物发现和体液验证的特殊要求和挑战,可实现全系列高通量技术(例如平面和珠微阵列、微流体定量PCR、Luminex珠技术)。用于4大类癌症实体(乳腺癌、结肠癌、前列腺癌、肺癌)的基于自身抗体和DNA甲基化的诊断标志物组可以在血清或血浆中进行。该系统可以将血液、尿液或唾液作为诊断基质工作。基因组分析技术结构将下一代测序生成的噪声和失真降低到几乎为零。数字测序技术能够对癌症中可起作用的(actionable)肿瘤特异性基因组改变进行超高保真、单分子检测,具有无与伦比的特异性和广度。换句话说,临床医生现在可以非侵入性地看到整个患者的癌症的基因组维度。该系统全面检测肿瘤活组织检查外的耐受性和和敏感性突变。一次简单的抽血测试许多基因,包括SNV、CNV、得失位和跨越大量碱基对的重排,帮助治疗管理。该系统还允许使用癌症的基因组维度来指导患者的治疗方案。药物治疗效力与患者样品中分子标志物的存在或不存在之间的相关性可用于改善治疗。由此产生的建议和临床报告直观易懂,并且要求具有测试过程的基本的熟练水平,以及熟悉用于描述测试结果的科学术语。这不需要解释用于测试的指征和测试结果的解释的额外的教育材料来进行。实验室报告集中于帮助治疗专业人员了解和在临床实践中正确应用这些信息的能力的重要信息。这些报告有助于正确解释复杂的DNA测试信息。基因测试结果的改善沟通导致基因测试结果错误解读的减少,并且改进基于DNA测序结果的干预或治疗的递送。
在一个方面,本公开内容提供了用于生成治疗应答预测(predictor)的方法,包括:使用遗传分析仪来生成遗传信息;接收训练数据集到计算机存储器中,所述训练数据集针对具有疾病的多于一个个体中的每一个,包括(1)在第一时间点生成的来自个体的遗传信息和(2)在第二、稍后的时间点确定的所述个体对一种或更多种治疗干预的治疗应答;以及使用所述数据集实现机器学习算法以生成至少一个计算机实现的分类算法,其中所述分类算法基于来自受试者的遗传信息来预测所述受试者对治疗干预的治疗应答。
在一些实施方案中,所述机器学习算法选自由以下组成的组:选自支持向量机、随机森林、最近邻分析、线性回归、二元决策树、判别分析(discriminant analyses)、逻辑分类器和聚类分析的有监督或无监督的学习算法。在一些实施方案中,所述方法包括基于在两个或更多个时间点的测试预测肿瘤发展的方向。在一些实施方案中,所生成的预测包括确定发展远端转移的可能性。在一些实施方案中,所述训练数据集还包括选自由以下组成的组的临床数据:癌症阶段、外科手术的类型、年龄、肿瘤分级、肿瘤浸润的深度、术后并发症的发生和静脉侵袭的存在。在一些实施方案中,所述遗传信息包括定义癌细胞的基因组结构的变量。在一些实施方案中,所述遗传信息包括定义单个散播性癌细胞的基因组结构的变量。在一些实施方案中,所述方法包括预处理所述训练数据集。在一些实施方案中,预处理所述训练数据集包括将所提供的数据变换成类别条件概率。
在一些实施方案中,所述遗传信息包括来自所述个体的无细胞DNA中的一个或更多个遗传基因座的序列或丰度数据。在一些实施方案中,所述治疗应答包括在第二、稍后的时间点生成的来自所述个体的遗传信息。在一些实施方案中,疾病状态为癌症,并且遗传分析仪为DNA测序仪。
在一个方面,本公开内容提供了一种方法,其包括:使用遗传分析仪来生成受试者的遗传信息;接收包含遗传信息的测试数据集到计算机存储器中;以及实现计算机实现的分类算法,其中所述分类算法基于遗传信息预测受试者对治疗干预的治疗应答。
在一些实施方案中,所述方法包括预测肿瘤的发展。在一些实施方案中,所述方法包括预测远端转移的发展。在一些实施方案中,所述训练数据集还包括选自由以下组成的组的变量:癌症阶段、外科手术的类型、年龄、肿瘤分级、肿瘤浸润的深度、术后并发症的发生和静脉侵袭的存在。在一些实施方案中,所述遗传信息包括定义癌细胞的基因组结构的变量。在一些实施方案中,所述遗传信息包括定义单个散播性癌细胞的基因组结构的变量。在一些实施方案中,所述方法包括预处理所述测试数据集。在一些实施方案中,预处理所述测试数据集包括将所提供的数据变换成类别条件概率。在一些实施方案中,选择20个或更少的变量。在一些实施方案中,选择10个或更少的变量。在一些实施方案中,分类算法利用人工神经网络。在一些实施方案中,所述人工神经网络使用贝叶斯框架训练。
在一个方面,本公开提供了用于分析受试者的疾病状态的方法,包括:从遗传分析仪接收两个或更多个时间点的关于受试者的遗传信息的数据;使用来自两个或更多个时间点的信息以在受试者的遗传信息表征中产生调整的测试结果;从群体中鉴定具有匹配遗传信息的受试者;以及基于具有匹配的遗传信息的受试者的先前的治疗而推荐治疗。在一些实施方案中,方法包括比较当前的序列读段与先前的序列读段并相应地更新诊断置信度指示。在一些实施方案中,方法包括生成当前序列读段的置信区间。在一些实施方案中,方法包括将所述置信区间与一个或更多个先前的置信区间进行比较和基于重叠的置信区间确定疾病进展。
在一些实施方案中,方法包括如果来自第一时间点的信息证实了来自第二时间点的信息,则增加随后表征或先前表征中的诊断置信度指示。在一些实施方案中,表征包括确定在来自所述受试者的样品中的DNA的序列读段的集合中检测到的一个或更多个遗传变体的频率,并且产生调整的测试结果,包括比较所述具有匹配的遗传信息的受试者的所述两个或更多个时间点的所述一个或更多个遗传变体的频率。在一些实施方案中,表征包括确定来自匹配受试者的样品中的DNA的序列读段的集合中检测到的一个或更多个遗传基因座处的拷贝数变异的量,并且产生调整的测试结果包括将在两个或更多个时间点的量进行比较。在一些实施方案中,表征包括做出健康或疾病的诊断。
在一些实施方案中,遗传信息包括来自包含疾病相关或癌症相关遗传变体的基因组的部分的序列数据。在一些实施方案中,方法包括通过增加两个或更多个时间点的来自所述受试者的样品中的多核苷酸的读段深度来增加检测遗传变体的灵敏度。在一些实施方案中,表征包括对来自所述受试者的样品中疾病多核苷酸的存在进行诊断,并且调整包括当在多于一个采样实例或时间点中在所述噪声范围内检测到相同的遗传变体时,将所述诊断从阴性或不确定性调整为阳性。在一些实施方案中,表征包括对来自所述受试者的样品中疾病多核苷酸的存在进行诊断,并且调整包括当在较早的时间点在所述噪声范围和在稍后的时间点在高于所述噪声范围检测到相同的遗传变体时,将来自较早时间点的表征中的所述诊断从阴性或不确定性调整为阳性。在一些实施方案中,表征包括对来自所述受试者的样品中疾病多核苷酸的存在进行诊断,并且调整包括当在较早的时间点在所述噪声范围和在稍后的时间点在高于所述噪声范围检测到相同的遗传变体时,将来自较早时间点的表征中的所述诊断从阴性或不确定性调整为阳性。
在一个方面,本公开提供了一种方法,包括:a)提供来自受试者的多于一个核酸样品,所述样品在连续的时间点收集;b)对来自样品的多核苷酸进行测序;c)确定每个样品中多核苷酸中多于一个体细胞突变体中每一个的定量测量;d)以图形方式表示在至少一个连续时间点以非零量存在的那些体细胞突变的每个连续时间点的体细胞突变体的相对量;和e)将来自一组遗传相似受试者的突变体相关联,并基于遗传相似受试者的先前的治疗数据生成治疗推荐。
在一个方面,本公开提供了从遗传分析仪生成的数据中推荐癌症治疗的方法,包括:从癌症患者群体中识别具有匹配的遗传谱的一个或更多个受试者并检索来自匹配的受试者的先前的治疗数据;并基于匹配的受试者的先前的历史鉴定最佳治疗选项;在纸质或电子患者测试报告上呈现建议。在一些实施方案中,所述方法包括使用基于体液的测试中检测到的基因组改变的量值的组合来推断疾病负荷。在一些实施方案中,所述方法包括使用检测到的突变、等位基因不平衡或基因特异性覆盖的等位基因分数(allele fractions)来推断疾病负荷。在一些实施方案中,总体堆叠高度代表所述个体中的总体疾病负荷或疾病负荷评分。在一些实施方案中,不同的颜色用于表示每个基因组改变。在一些实施方案中,仅绘制检测的改变的子集。在一些实施方案中,基于为驱动改变(driver alteration)的可能性或与对治疗的升高或降低的应答的关联来选择子集。在一些实施方案中,所述方法包括为基因组测试产生测试报告。在一些实施方案中,非线性绘制用于表示每个呈现的基因组改变的高度或宽度。在一些实施方案中,先前的测试点的图绘制在所述报告上。在一些实施方案中,所述方法包括基于每个测试结果的变化速率和/或定量精确性估计疾病进展或减退。在一些实施方案中,所述方法包括展示干预测试点之间的治疗干预。
本文还提供了以下项目:
1.一种用于生成治疗应答预测的方法,包括:
使用遗传分析仪来生成遗传信息;
接收训练数据集到计算机存储器中,所述训练数据集针对具有疾病的多于一个个体中的每一个,包括(1)在第一时间点生成的来自所述个体的遗传信息和(2)在第二、稍后的时间点确定的所述个体对一种或更多种治疗干预的治疗应答;以及
使用所述数据集实现机器学习算法以生成至少一个计算机实现的分类算法,其中所述分类算法基于来自受试者的遗传信息来预测所述受试者对治疗干预的治疗应答。
2.如项目1所述的方法,其中所述机器学习算法选自由以下组成的组:选自支持向量机、随机森林、最近邻分析、线性回归、二元决策树、判别分析、逻辑分类器和聚类分析的有监督或无监督的学习算法。
3.如项目1所述的方法,包括基于在两个或更多个时间点的测试预测肿瘤发展的方向。
4.如项目1所述的方法,其中所生成的预测包括确定发展远端转移的概率。
5.如项目1所述的方法,其中所述训练数据集还包括选自由以下组成的组的临床数据:癌症阶段、外科手术的类型、年龄、肿瘤分级、肿瘤浸润的深度、术后并发症的发生和静脉侵袭的存在。
6.如项目1所述的方法,其中所述遗传信息包括定义癌细胞的基因组结构的变量。
7.如项目1所述的方法,其中所述遗传信息包括定义单个播散性癌细胞的基因组结构的变量。
8.如项目1所述的方法,包括预处理所述训练数据集。
9.如项目8所述的方法,其中预处理所述训练数据集包括将所提供的数据变换成类别条件概率。
10.如项目1所述的方法,其中所述遗传信息包括来自所述个体的无细胞DNA中的一个或更多个遗传基因座的序列或丰度数据。
11.如项目1所述的方法,其中所述治疗应答包括在第二、稍后的时间点生成的来自所述个体的遗传信息。
12.如项目1所述的方法,其中所述疾病状态为癌症,并且所述遗传分析仪为DNA测序仪。
13.一种方法,所述方法包括:
使用遗传分析仪来生成受试者的遗传信息;
接收包括所述遗传信息的测试数据集到计算机存储器中;以及
实现计算机实现的分类算法,其中所述分类算法基于所述遗传信息预测所述受试者对治疗干预的治疗应答。
14.如项目13所述的方法,包括预测肿瘤的发展。
15.如项目13所述的方法,包括预测远端转移的发展。
16.如项目13所述的方法,其中所述训练数据集还包括选自由以下组成的组的变量:癌症阶段、外科手术的类型、年龄、肿瘤分级、肿瘤浸润的深度、术后并发症的发生和静脉侵袭的存在。
17.如项目13所述的方法,其中所述遗传信息包括定义癌细胞的基因组结构的变量。
18.如项目13所述的方法,其中所述遗传信息包括定义单个播散性癌细胞的基因组结构的变量。
19.如项目13所述的方法,包括预处理所述测试数据集。
20.如项目19所述的方法,其中预处理所述测试数据集包括将所提供的数据转化成类别条件概率。
21.如项目13所述的方法,其中20个或更少的变量被选择。
22.如项目13所述的方法,其中10个或更少的变量被选择。
23.如项目13所述的方法,其中所述分类算法利用人工神经网络。
24.如项目23所述的方法,其中所述人工神经网络使用贝叶斯框架训练。
25.一种用于分析受试者的疾病状态的方法,所述方法包括:
从遗传分析仪接收关于所述受试者在两个或更多个时间点的遗传信息的数据;
使用来自所述两个或更多个时间点的信息来产生表征所述受试者的遗传信息的调整的测试结果;
从群体中识别具有匹配的遗传信息的受试者;以及
基于具有匹配的遗传信息的受试者的先前的治疗推荐治疗。
26.如项目25所述的方法,包括比较当前的序列读段与先前的序列读段并相应地更新诊断置信度指示。
27.如项目25所述的方法,包括为当前的序列读段生成置信区间。
28.如项目25所述的方法,包括将所述置信区间与一个或更多个先前的置信区间进行比较和基于重叠的置信区间确定疾病进展。
29.如项目25所述的方法,包括如果来自第一时间点的信息证实了来自第二时间点的信息,则增加随后表征或先前表征中的诊断置信度指示。
30.如项目25所述的方法,其中表征包括确定在来自所述受试者的样品中的DNA的序列读段的集合中检测到的一个或更多个遗传变体的频率,并且产生调整的测试结果包括比较所述具有匹配的遗传信息的受试者的所述两个或更多个时间点的所述一个或更多个遗传变体的频率。
31.如项目25所述的方法,其中表征包括确定来自匹配的受试者的样品中的DNA的序列读段的集合检测的一个或更多个遗传基因座处的拷贝数变异的量,并且产生调整的测试结果包括比较所述两个或更多个时间点处的量。
32.如项目25所述的方法,其中表征包括进行健康或疾病的诊断。
33.如项目25所述的方法,其中遗传信息包括来自包含疾病相关的或癌症相关的遗传变体的基因组的部分的序列数据。
34.如项目25所述的方法,包括通过增加两个或更多个时间点的来自所述受试者的样品中的多核苷酸的读段深度来增加检测遗传变体的灵敏度。
35.根据项目25所述的方法,其中表征包括对来自所述受试者的样品中疾病多核苷酸的存在进行诊断,并且调整包括当在多个采样实例或时间点中在噪声范围内检测到相同的遗传变体时,将所述诊断从阴性或不确定性调整为阳性。
36.根据项目25所述的方法,其中表征包括对来自所述受试者的样品中疾病多核苷酸的存在进行诊断,并且调整包括当在较早的时间点在噪声范围和在稍后的时间点在高于所述噪声范围检测到相同的遗传变体时,将来自较早时间点的表征中的所述诊断从阴性或不确定性调整为阳性。
37.一种方法,所述方法包括:
a)提供来自受试者的多于一个核酸样品,所述样品在连续时间点收集;
b)对来自所述样品的多核苷酸进行测序;
c)确定每个样品中的所述多核苷酸中的多于一个体细胞突变体的每一个的定量测量;
d)对于在至少一个连续时间点以非零数量存在的那些体细胞突变,以图形方式表示在每个连续时间点的体细胞突变体的相对量;和
e)将来自一组遗传相似受试者的突变体相关联,并基于所述遗传相似受试者的先前的治疗数据生成治疗推荐。
38.一种从通过遗传分析仪生成的数据推荐癌症治疗的方法,所述方法包括:
从癌症患者群体识别具有匹配的遗传谱的一个或更多个受试者和从匹配的受试者检索先前的治疗数据;和
基于所述匹配的受试者的先前的历史识别最佳治疗选项;
在纸质或电子患者测试报告上提供建议。
39.如项目38所述的方法,包括使用基于体液的测试中检测到的基因组改变的量值的组合来推断疾病负荷。
40.如项目38所述的方法,包括使用检测到的突变、等位基因不平衡或基因特异性覆盖的等位基因分数来推断疾病负荷。
41.如项目38所述的方法,其中总体堆叠高度代表所述个体中的总体疾病负荷或疾病负荷评分。
42.如项目38所述的方法,其中不同的颜色用于表示每个基因组改变。
43.如项目38所述的方法,其中仅绘制检测到的改变的子集。
44.如项目43所述的方法,其中基于作为驱动改变的可能性或与对治疗的升高或降低的应答的关联来选择子集。
45.如项目38所述的方法,包括为基因组测试产生测试报告。
46.如项目38所述的方法,其中非线性量度用于表示每个呈现的基因组改变的高度或宽度。
47.如项目38所述的方法,其中先前的测试点的图绘制在所述报告上。
48.如项目38所述的方法,包括基于每个测试结果的变化速率或定量精确性估计疾病进展或减退。
49.如项目38所述的方法,包括展示干预测试点之间的治疗干预。
在阅读以下说明书和权利要求书后,本公开内容的其他目的对于本领域技术人员来说可能是明显的。
通过引用并入
本说明书中提及的所有出版物、专利和专利申请通过引用并入本文,其程度如同每一个单独的出版物、专利或专利申请被具体和单独地指明通过引用并入的相同程度。
附图简述
本公开内容的新的特征特别地在所附权利要求中阐述。通过参考以下详述及其附图将会获得对本公开内容的特征和优势的更好的理解,详述对其中利用了本公开内容的原理的说明性实施方案加以阐述,在附图中:
图1A示出了基于示例性群体的遗传癌症治疗系统。
图1B显示了基于示例性推荐人群的遗传癌症治疗。
图1C示出了用于推荐治疗的示例性系统以及测试结果。
图1D示出了减少DNA序列读段中的错误率和偏倚并基于群体测试结果为用户生成遗传报告的示例性过程。
图2A-2B示出了用于向用户报告遗传测试结果并基于人口数据推荐治疗的示例性过程。
图2C-2I示出了来自示例性遗传测试报告的页面。
图3A-3B示出了用于检测突变并向用户报告测试结果的示例性过程。
发明详述
癌症就众多类型的癌症以及特定类型的癌症如何在个体中表现两个方面而言都是特别异质的疾病。因此,难以预测给定患者的最佳治疗过程。本公开内容提供了用于改善癌症患者的治疗结果的系统和方法。
参考图1A,示出了基于群体的遗传癌症治疗系统。在一个实施方案中,该系统挖掘来自癌症受试者或患者群体中的历史无细胞DNA(cfDNA)(2)。挖掘采用从正在经历治疗的患者或健康人中获取的遗传数据进行。数据挖掘完成后,系统可基于先前的成功和通过将治疗与受试者/患者遗传特征相匹配来推荐治疗。首先,系统获得遗传特征的受试者标准(4)。接下来,系统识别具有相似遗传特征的相似受试者(6)。随后,系统鉴定来自这些相似受试者的成功的治疗(8)。基于类似受试者的先前的治疗和结果,系统鉴定为当前受试者推荐的治疗(10)。
接下来,该系统迭代地监测治疗过程。这是通过随后的遗传读段完成(12)。基于读段,系统鉴定最佳的匹配治疗并基于成功和随后的遗传分析推荐治疗(14)。然后系统追踪患者是否有积极的结果(16)。如果患者未被治愈,通过循环回到12基于建议进行另外的治疗,否则患者出院(18)。
图1B示出了示例性推荐器290。在此系统中,临床信息210储存在数据库阵列中。例如,系统可以在此数据库中储存来自医师和测试实验室的患者信息。文本数据220诸如基因组序列也被捕获,并报告每个患者的组织学。例如,数据可以来自cBio癌症基因组学门户(http://cbioportal.org),cBio癌症基因组学门户是用于多维癌症基因组学数据集的交互式探索的开放获取资源,目前提供了对来自20个癌症研究的超过5,000个肿瘤样品的数据访问。cBio癌症基因组学门户显著降低了复杂的基因组学数据和希望从大规模癌症基因组学项目快速、直观和高质量地获取分子谱(molecular profiles)和临床属性(clinicalattributes)的癌症研究人员之间的障碍,并使研究人员能够将这些丰富的数据集转化为生物学见解和临床应用。图像数据230诸如CT扫描可以与其他信息诸如MRI扫描、超声扫描、骨扫描、PET扫描、骨髓测试、钡X射线、内窥镜检查、淋巴管造影片、IVU(静脉内尿路造影照片)或IVP(IV肾盂X线照片)、腰椎穿刺、膀胱镜检查、免疫学测试(抗毒曲菌素抗体筛查)和癌症标志物测试一起捕获。然后由提取器240提取特征。然后可以由一个或更多个分类器诸如神经网络250、向量机260和隐马尔可夫机(HMM)270使用这些特征。在一些实施方案中,神经网络使用贝叶斯框架训练。然后将分类器的输出提供给推理单元或引擎280。结果被提供为推荐器290的输出,其结果被图1C的报告生成器21用于报告中。在一些实施方案中,来自以上类别中的两个或更多个的数据可以被用于产生比来自单个类别的数据更强健的分类。
在一些实施方案中,非结构化文本取自可用的组织学报告。文本首先被规范化以减少基本变化:首字母缩写词、数字和维度的格式被标准化、相关的缩写被扩展、拼写变体被映射到通用形式并且任何非信息性字符序列被删除。这组规范化规则使用正则表达式编码,并使用简单的搜索和替换操作来实现。
一些实施方案使用在经验证的体细胞突变样品上训练的基于特征的分类器,同时受益于其他可用信息诸如碱基质量、映射质量、链偏倚和尾部距离。给定配对的正常/肿瘤bam文件,实施方案将输出每个候选位点为体细胞的概率。通过本文描述的系统和方法,本公开内容提供了一种将对治疗干预的治疗应答进行分类并随后确定给定个体是否落入特定分类(例如,对治疗有应答、对治疗无应答或者特定水平的应答诸如完全应答或部分应答)的途径。
在一些实施方案中,提供了用于创建经训练的分类器的方法,包括以下步骤:(a)提供多于一个不同的类别,其中每个类别代表具有共有特征的对象的集合(例如来自一个或更多个队列);(b)提供代表来自属于每个类别的多于一个样品的每一个样品的无细胞DNA分子的多参数模型,从而提供训练数据集;以及(c)在训练数据集上训练学习算法以创建一个或更多个经训练的分类器,其中每个经训练的分类器将测试样品分类到多于一个类别中的一个或更多个类别中。
作为示例,经训练的分类器可以使用选自由以下组成的组的学习算法:随机森林、神经网络、支持向量机和线性分类器。多于一个不同类别中的每一个可以选自由以下组成的组:健康、乳腺癌、结肠癌、肺癌、胰腺癌、前列腺癌、卵巢癌、黑素瘤和肝癌。
经训练的分类器可以应用于对来自受试者的样品进行分类的方法。此分类方法可以包括:(a)提供代表来自受试者的测试样品的无细胞DNA分子的多参数模型;和(b)使用经训练的分类器对测试样品进行分类。在将测试样品分类到一个或更多个类别中后,可以基于样品的分类对受试者进行治疗干预。
在一些实施方案中,训练集被提供给机器学习单元,诸如神经网络或支持向量机。使用训练集,机器学习单元可以生成模型以根据对一个或更多个治疗干预的治疗应答对样品进行分类。这也被称为“判定(calling)”。所开发的模型可以使用来自测试向量的任何部分的信息。
在一些实施方案中,来自几个个体的群体的DNA可以通过一组多路复用阵列进行分析。每个多路复用阵列的数据可以使用包含于该特定阵列中的信息进行自我归一化。该归一化算法可以针对在两个颜色通道中观察到的标称强度变化、通道之间的背景差异以及染料之间可能的串流(crosstalk)进行调整。然后,每个碱基位置的行为可以使用结合SNP基因分型上的几种生物学启发法的聚类算法来建模。在观察到少于三个簇(例如,由于次要等位基因频率低)的情况下,可以使用神经网络估计丢失的簇的位置和形状。根据簇的形状和彼此的相对距离,可以设计一个统计评分(训练评分)。诸如GenCall评分的评分被设计为模拟人类专家的视觉和认知系统所做的评估。此外,它使用来自顶部和底部链的基因分型数据进化。为了补充训练评分,可以将该评分与若干罚分项(例如低强度、现有簇和预测簇之间的不匹配)组合。训练评分以及每个SNP的簇位置和形状被保存以供判定算法使用。
为了判定治疗应答,判定算法可以采取患有疾病或状况的多于一个个体的遗传信息和治疗应答。数据可以首先被归一化(使用与聚类算法相同的程序)。判别操作(分类)可以使用例如贝叶斯模型来执行。每个判定的判定评分的评分可以是训练评分和数据对模型拟合评分的积。在对所有治疗应答进行评分后,应用程序可以计算综合评分。
在一些实施方案中,训练数据集包括选自由以下组成的组的临床数据:癌症阶段、外科手术的类型、年龄、肿瘤分级、肿瘤浸润的深度、术后并发症的发生和静脉侵袭的存在。在一些实施方案中,训练数据集被预处理,包括将所提供的数据转化成类别条件概率。
另一个实施方案使用机器学习技术来基于每个患者的组织学报告语料库中的词语出现来针对每个癌症阶段类别训练统计分类器,特别是支持向量机。然后根据最可能的阶段对新报告进行分类,便于收集和分析群体阶段数据。
·将数据转换为支持向量机(SVM)软件包的格式
·对数据进行缩放(scaling)
·考虑RBF内核
·使用交叉验证来找到最佳参数C和γ
·使用最佳参数C和γ来训练整个训练集
·测试
·在患者数据上实时运行
本实施方案使用SVMlight,它是C中的支持向量机(SVM)的开源实现。该程序的主要特征如下:
快速优化算法
基于最陡峭的可行下降的工作集选择
“缩小”启发法
缓存内核评估
在线性情况下使用折叠
解决分类和回归问题。对于多变量和结构化输出使用SVMstruct。
解决排名问题(例如,在STRIVER搜索引擎中学习检索功能)。
计算错误率、精确性和重新判定(recall)的XiAlpha估计值
高效计算错误率、精确性和重新判定的留一法(Leave-One-Out)估计值
包括用于近似训练大型直推式支持向量机(TSVM)的算法(也参见直推式谱图(Spectral Graph Transducer))
可以使用成本模型和示例相关的成本来训练SVM
允许从双变量的分配向量重新启动
处理成千上万的支持向量
处理几十万个训练实例
支持标准的内核函数,并让你自己定义
使用稀疏矢量表示
在一些实施方案中,机器学习算法选自由以下组成的组:选自支持向量机、随机森林、最近邻分析、线性回归、二元决策树、判别分析、逻辑分类器和聚类分析的有监督或无监督的学习算法。
现在参考图1C,示意性地示出了具有用于报告癌症测试结果和来自其的治疗选项的报告生成器21的系统。报告生成器系统可以是被配置为通过通信链路建立直接与远程数据站点或实验室22、医疗诊所(medical practice)/医疗保健提供者(治疗专业人员)24和/或患者/受试者26通信的中央数据处理系统。实验室22可以是医学实验室、诊断实验室、医疗设施、医疗诊所、定点护理测试设备或能够生成受试者临床信息的任何其他远程数据站点。受试者临床信息包括但不限于实验室测试数据、X射线数据、检查和诊断。医疗保健提供者或诊所24包括医疗服务提供者诸如医生、护士、家庭健康助手、技术人员和医师助理,并且诊所是配备了医疗保健提供者的任何医疗保健设施。在某些情况下,医疗保健提供者/诊所也是远程数据站点。在癌症治疗实施方案中,受试者可能罹患癌症,除了其他以外。
癌症受试者26的其他临床信息包括实验室测试的结果、本领域普通技术人员可以容易地鉴定的针对特定癌症的成像或医疗程序。癌症临床信息的适当来源的列表包括但不限于:CT扫描、MRI扫描、超声扫描、骨扫描、PET扫描、骨髓测试、钡X射线、内窥镜检查、淋巴管造影片、IVU(静脉内尿路造影照片)或IVP(IV肾盂X线照片)、腰椎穿刺、膀胱镜检查、免疫学测试(抗毒曲菌素抗体筛查)和癌症标志物测试。
受试者26的临床信息可以从实验室22手动地或自动地获得。为了简化系统,信息以预定的或规则的时间间隔自动获得。规则的时间间隔是指基于时间的测量(诸如小时、天、周、月、年等)通过本文描述的方法和系统自动执行实验室数据的收集的时间间隔。在本发明的一个实施方案中,数据的收集和处理每天至少进行一次。在一个实施方案中,数据的传输和收集每月一次的、每两周一次地(biweekly)或每周一次地或每隔几天一次地进行。可选地,信息的检索可以以预定的但不是规则的时间间隔进行。例如,第一个检索步骤可能在一周后发生且第二个检索步骤可能在一个月后发生。数据的传输和收集可以根据正在管理的紊乱的性质以及受试者所需的测试和医疗检查的频率来定制。
图1D示出了生成遗传报告的示例性过程,遗传报告包括肿瘤应答图和相关的改变概要。此过程减少可能比可靠地检测出与癌症相关的从头基因组改变所需要的数量级高几个数量级的错误率和偏倚。该过程通过以下捕获遗传信息:首先收集体液样品作为遗传物质的来源(例如血液、血清、血浆、尿液、脑脊液、唾液、粪便、淋巴液、滑液、囊液、腹水、胸膜渗出物、羊水、绒毛膜绒毛样品、来自植入前胚胎的液体、胎盘样品、灌洗液和宫颈阴道液、组织间隙液、颊拭子样品、痰、支气管灌洗液、巴氏涂片样品(Pap smear sample)或眼液),并然后该过程对该物质进行测序(71)。例如,样品中的多核苷酸可以被测序,产生多于一个序列读段。包含多核苷酸的样品中的肿瘤负荷可以被估计为携带变体的序列读段的相对数目与从该样品生成的序列读段的总数目。而且,在拷贝数变体的情况下,肿瘤负荷可以被估计为测试基因座与对照基因座的序列读段总数目的相对过量(在基因复制的情况下)或相对缺乏(在基因消除的情况下)。因此,例如,运行可以产生映射至癌基因基因座的1000个读段,其中900个对应于野生型,并且100个对应于癌症突变体,表明此基因处的拷贝数变体。在一些实施方案中,遗传信息包括定义癌细胞的基因组结构或单个散播性癌细胞的基因组结构的变量。在一些实施方案中,所述遗传信息包括来自所述个体的无细胞DNA中的一个或更多个遗传基因座的序列或丰度数据。下文在图3A-3B中讨论关于遗传物质的示例性样品收集和测序的更多细节。
接下来,对遗传信息进行处理(72)。然后鉴定遗传变体。遗传变体包括序列变体、拷贝数变体和核苷酸修饰变体。序列变体是遗传核苷酸序列中的变异。拷贝数变体是基因组的一部分的拷贝数与野生型的偏差。遗传变体包括例如单核苷酸变异(SNP)、插入、缺失、倒位、颠换、易位、基因融合、染色体融合、基因截短、拷贝数变异(例如非整倍性、部分非整倍性、多倍性、基因扩增)、核酸化学修饰的异常改变、表观遗传模式的异常改变和核酸甲基化的异常改变。然后该过程确定包含遗传物质的样品中的遗传变体的频率。由于该过程为噪声的,该过程将信息与噪声分开(73)。通过增加多核苷酸的读段深度(例如,通过在两个或更多个时间点的来自受试者的样品中测序至更大的读段深度)可以增加检测遗传变体的灵敏度。
测序方法具有错误率。例如,Illumina的mySeq系统可以产生低个位数的错误率百分比。因此,对于映射至基因座的1000个序列读段,人们可以预期约50个读段(约5%)包括错误。某些方法,诸如在WO 2014/149134(Talasaz and Eltoukhy)中描述的那些方法可以显著降低错误率。错误产生噪声,噪声致使样品中以低水平存在的来自癌症的信号模糊。因此,如果样品具有在测序系统错误率附近的水平(例如约0.1%-5%)的肿瘤负荷,则可能难以将对应于由于癌症引起的遗传变体的信号与由噪声引起的信号区分开。
甚至在噪声的存在下,也可以通过分析遗传变体做出癌症诊断。分析可以基于序列变体的频率或CNV的水平(74),并且可以建立用于检测在噪声范围内的遗传变体的诊断置信度指示或水平(75)。
接下来,该过程增加了诊断置信度。这可以通过以下做出:使用多于一个测量来增加诊断的置信度(76),或者可选地,使用在多于一个时间点(例如2、3、4、5、6、7、8、9、10或更多个时间点)的测量来确定癌症是否进展、缓解或稳定(77)。诊断置信度可以用来鉴定疾病状态。例如,从受试者取得的无细胞多核苷酸可以包括源自正常细胞的多核苷酸,以及源自病变细胞诸如癌细胞的多核苷酸。来自癌细胞的多核苷酸可以携带遗传变体,诸如体细胞突变和拷贝数变体。当来自受试者的样品的无细胞多核苷酸被测序时,这些癌症多核苷酸被检测为序列变体或被检测为拷贝数变体。无细胞多核苷酸样品中肿瘤多核苷酸的相对量被称为“肿瘤负荷”。
对参数的测量,无论它们是否在噪声范围内,均可以提供置信区间。随时间推移进行测试,人们可以通过比较随时间推移的置信区间确定癌症是否进展、稳定或缓解。在置信区间不重叠的情况下,这指示疾病的方向。
接下来,该过程生成遗传报告/诊断。首先,该过程从具有相似遗传谱的群体检索先前的治疗(78)。该过程包括生成示出了突变趋势的多于一个测量的遗传谱(79)并生成示出了治疗结果和选项的报告(80)。
一个应用为癌症的检测。许多癌症可以使用本文描述的方法和系统来检测。癌细胞,如大部分细胞一样,可以用更新率表征,其中旧细胞死亡并被较新的细胞代替。通常,与给定受试者中的脉管系统相接触的死亡的细胞可以将DNA或DNA片段释放至血流中。在疾病不同时期中的癌细胞也是如此。根据疾病的时期,癌细胞还可以表征为多种遗传畸变,诸如拷贝数变异以及突变。这种现象可以用于使用本文描述的方法和系统检测癌症个体的存在或不存在。
例如,可以从处于患癌风险的受试者抽取血液并如本文描述地制备以生成无细胞多核苷酸群体。在一个实例中,这可以是无细胞DNA。本公开内容的系统和方法可以用于检测可存在于某些现有癌症中的突变或拷贝数变异。该方法可以帮助检测身体中癌细胞的存在,即使不存在疾病的症状或其他标志(hallmarks)。
如本文使用的,术语“癌症”包括但不限于各种类型的恶性赘生物,其中大多数可侵入周围组织,并可以转移至不同部位(参见例如PDR Medical Dictionary,第1版(1995),其出于所有目的通过引用整体并入本文)。术语“赘生物(neoplasm)”和“肿瘤(tumor)”是指通过细胞增殖比正常组织更迅速地生长并且在去除引发增殖的刺激之后继续生长的异常组织。这种异常组织显示部分或完全缺乏结构组织和正常组织的功能协调,其可以是良性(例如良性肿瘤)或恶性(例如恶性肿瘤)的。癌症的一般类别的实例包括但不限于上皮癌(carcinoma)(源自上皮细胞的恶性肿瘤诸如例如例如乳腺癌、前列腺癌、肺癌和结肠癌的常见形式)、肉瘤(源自结缔组织或间充质细胞的恶性肿瘤)、淋巴瘤(源自造血细胞的恶性肿瘤)、白血病(源自造血细胞的恶性肿瘤)和生殖细胞肿瘤(源自全能性细胞的肿瘤,在成人中最常见于睾丸或卵巢中;在胎儿、婴儿和年幼儿童中,最常见于身体中线,特别是在尾骨尖处)、母细胞肿瘤(blastic tumor)(类似未成熟组织或胚胎组织的典型恶性肿瘤)等。意图被本发明涵盖的赘生物类型的实例包括但不限于与神经组织、血液形成组织、乳房、皮肤、骨骼、前列腺、卵巢、子宫、子宫颈、肝、肺、脑、喉、胆囊、胰腺、直肠、甲状旁腺、甲状腺、肾上腺、免疫系统、头和颈、结肠、胃、支气管和/或肾的癌症相关的那些肿瘤。在特定实施方案中,可以被检测到的癌症的类型和数目包括但不限于血癌、脑癌、肺癌、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、实体瘤、异质肿瘤、均质肿瘤等。
在癌症的早期检测中,本文描述的任何系统或方法(包括突变检测或拷贝数变异检测)可以用于检测癌症。这些系统和方法可以用于检测可能导致或起因于癌症的任何数目的遗传畸变。这些可以包括点不限于突变、得失位、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常改变、表观遗传模式的异常改变、核酸甲基化的异常改变。
另外,本文描述的系统和方法还可以用于帮助表征某些癌症。由本公开内容的系统和方法产生的遗传数据可以允许帮助从业者更好地表征具体形式的癌症。许多时候,癌症在组成和分期两个方面是异质的。遗传谱数据可以允许表征癌症的具体亚型,该表征在该具体亚型的诊断或治疗中可能是重要的。该信息还可以为受试者或从业者提供关于癌症具体类型的预后的线索。
本文提供的系统和方法可以用于监测特定受试者中已经知晓的癌症或其他疾病。这可以允许受试者或从业者根据疾病的进展调整治疗选项。在该实例中,本文描述的系统和方法可用于构建疾病进程中特定受试者的遗传谱。在一些情况下,癌症可以进展,变成更具侵袭性和遗传上不稳定性。在其他实例中,癌症可以保持为良性的、非活动的、或休眠的。本公开内容的系统和方法可以用于确定疾病进展。
此外,本文描述的系统和方法可以用于确定特定治疗选项的功效。在一个实例中,如果治疗成功,则成功的治疗选项可以实际上增加在受试者血液中检测到的拷贝数变异或突变的量,因为更多的癌症可能死亡并使DNA脱落。在其他实例中,这可能不会发生。在另一个实例中,也许某些治疗选项可能与癌症随时间推移的遗传谱相关。这种相关性可以用于选择疗法。另外,如果观察到癌症在治疗之后减退,则本文描述的系统和方法可以用于监测残余的疾病或疾病的复发。
本文描述的方法和系统可以不限于仅与癌症相关的突变和拷贝数变异的检测。多种其他疾病和感染可能导致可以适用于早期检测和监测的其他类型的状况。例如,在某些情况下,遗传紊乱(genetic disorders)或传染性疾病可能在受试者中引起某些遗传镶嵌现象(genetic mosaicism)。这种遗传镶嵌现象可以引起可观察到的拷贝数变异和突变。在另一个实例中,本公开内容的系统和方法也可以用于监测身体内免疫细胞的基因组。当存在某些疾病后,免疫细胞,诸如B细胞,可以经历快速克隆扩增。克隆扩增可以使用拷贝数变异检测来监测并且可以监测某些免疫状态。在该实例中,拷贝数变异分析可以随时间推移而进行,以产生特定疾病可能如何进展的谱。
此外,本公开内容的系统和方法还可以用于监测自身的系统性感染,其可以由病原体诸如细菌或病毒引起。拷贝数变异或甚至突变检测可以用于确定病原体群体在感染过程期间是如何改变的。这在慢性感染诸如HIV/AIDS或肝炎感染期间可能特别重要,其中病毒可以在感染过程期间改变生命周期状态和/或突变为毒力更强的形式。
可以使用本公开内容的系统和方法的又另一个实例为监测移植受试者。通常,移植组织在移植后经历一定程度的身体排斥。当免疫细胞试图破坏移植组织时,本公开内容的方法可以用于确定或谱分析宿主体的排斥活动。这可以用于监测移植组织的状态以及改变治疗过程或预防排斥。
此外,本公开内容的方法可以用于表征受试者中的异常状况的异质性,所述方法包括生成受试者中的细胞外多核苷酸的遗传谱,其中所述遗传谱包含由拷贝数变异和突变分析得到的多于一个数据。在一些情况下,包括但不限于癌症,疾病可以是异质的。疾病细胞可以不相同。在癌症的实例中,已知一些肿瘤包含不同类型的肿瘤细胞,一些细胞处于癌症的不同时期。在其他实例中,异质性可以包括疾病的多个病灶。再次,在癌症的实例中,可以存在多个肿瘤病灶,或许其中一个或更多个病灶为已从原发部位扩散的转移(也被称为远端转移)的结果。
本公开内容的方法可以用于生成为由异质性疾病中的不同细胞得到的遗传信息的总和的谱、指纹图谱或数据集。该数据集可以包含单独的或组合的拷贝数变异和突变分析。
另外,本公开内容的系统和方法可以用于诊断、预后、监测或观察胎儿来源的癌症或其他疾病。即,这些方法可以用于妊娠的受试者,以诊断、预后、监测或观察未出生受试者的癌症或其他疾病,未出生受试者的DNA和其他多核苷酸可以与母体分子共循环。
此外,这些报告经由因特网以电子方式进行提交和访问。在除受试者的位置外的地点进行序列数据的分析。生成报告并发送至受试者的位置。经由支持因特网的计算机(internet enabled computer),受试者访问反映其肿瘤负荷的报告。
注释的信息可以由医学护理提供者使用以选择其他药物治疗选项和/或向保险公司提供关于药物治疗选项的信息。该方法可以包括以例如OncologyTM的NCCN临床实践指南或美国临床肿瘤学会(ASCO)临床实践指南为状况注释药物治疗选项。
在报告中被分级的药物治疗选项可以通过列出另外的药物治疗选项在报告中加以注释。另外的药物治疗可以是用于非正式批准用途(off-label use)的FDA批准的药物。1993年综合预算调节法案(Omnibus Budget Reconciliation Act)(OBRA)中的一项规定要求Medicare覆盖标准医学纲要(standard medical compendia)中包含的抗癌药物的非正式批准用途。用于注释列表的药物可以见于CMS批准的纲要,包括the NationalComprehensive Cancer Network)(NCCN)Drugs and Biologics CompendiumTM、ThomsonMicromedexElsevier Gold Standard's Clinical Pharmacologycompendium(爱思唯尔金标准的临床药理学纲要)、和American Hospital FormularyService(美国医院处方服务机构)—Drug Information/>
药物治疗选项可以通过列出可以用于治疗具有特定状态的一个或更多个分子标志物的癌症的实验药物来注释。实验药物可以是可以获得其体外数据、体内数据、动物模型数据、临床前试验数据或临床试验数据的药物。数据可以被公布于同行评议的医学文献中,所述同行评议的医学文献参见CMS医学保险福利政策手册(the CMS Medicare BenefitPolicy Manual)中列出的期刊,包括,例如,American Journal of Medicine、Annals ofInternal Medicine、Annals of Oncology、Annals of Surgical Oncology、Biology ofBlood and Marrow Transplantation、Blood、Bone Marrow Transplantation、BritishJournal of Cancer、British Journal of Hematology、British Medical Journal、Cancer、Clinical Cancer Research、Drugs、European Journal of Cancer(原先是European Journal of Cancer and Clinical Oncology)、Gynecologic Oncology、International Journal of Radiation,Oncology,Biology,and Physics、The Journalof the American Medical Association、Journal of Clinical Oncology、Journal ofthe National Cancer Institute、Journal of the National Comprehensive CancerNetwork(NCCN)、Journal of Urology、Lancet、Lancet Oncology、Leukemia、The NewEngland Journal of Medicine、和Radiation Oncology。
药物治疗选项可以通过提供基于电子报告的链接来连接列出的药物与关于该药物的科学信息来注释。例如,可以提供关于药物临床试验信息的链接(clinicaltrials.gov)。如果报告经由计算机或计算机网站来提供,则链接可以是脚注、至网站的超链接、具有信息的弹出框或悬浮框等。报告和注释信息可以以印刷形式提供,并且注释可以是,例如,参考的脚注。
在报告中,用于注释一个或更多个药物治疗选项的信息可以由例如存储科学信息的商业实体提供。健康护理提供者可以用注释信息中列出的实验药物来治疗受试者诸如癌症受试者,并且健康护理提供者可以访问注释的药物治疗选项,检索科学信息(例如,打印医学期刊文章)并将科学信息(例如,打印的期刊文章)连同用于提供药物治疗的报销要求提交至保险公司。医师可以使用多种诊断相关组(Diagnosis-related group)(DRG)代码中的任何一种来实现报销。
报告中的药物治疗选项也可以用关于药物影响的途径中的其他分子组分的信息(例如,关于靶向在作为药物靶的细胞表面受体下游的激酶的药物的信息)来注释。药物治疗选项可以用关于靶向一个或更多个其他分子途径组分的药物的信息来注释。与途径相关的信息的鉴定和/或注释可以外包或分包给另一家公司。注释的信息可以是,例如,药物名称(例如,用于非正式批准用途的FDA批准的药物;在CMS批准的纲要中发现的药物、和/或科学(医学)期刊文章中描述的药物)、关于一个或更多个药物治疗选项的科学信息、关于一个或更多个药物的科学信息的一个或更多个链接、关于一个或更多个药物的临床试验信息(例如来自clinicaltrials.gov/的信息)、关于药物的科学信息的引用的一个或更多个连接等。注释的信息可以被插入到报告中的任何位置。注释的信息可以被插入到报告中的多个位置。注释的信息可以被插入在报告中关于分级药物治疗选项的部分的附近。注释的信息可以被插入到报告中在与分级药物治疗选项分开的页面上。不包含分级药物治疗选项的报告可以用信息注释。
所提供的方法也可以包括研究药物对从受试者(例如癌症受试者)分离的样品(例如肿瘤细胞)的影响的手段。使用来自癌症受试者的肿瘤的体外培养可以使用本领域技术人员已知的技术来建立。所提供的方法还可以包括使用所述体外培养和/或异种移植模型(xenograft model)高通量筛选FDA批准的非正式批准的药物或实验药物。所提供的方法还可以包括监测肿瘤抗原以用于复发检测。
为患有癌症的受试者生成映射基因组位置及拷贝数变异的报告。与具有已知结果的受试者的其他谱相比较,这些报告可以指示特定的癌症为侵袭性的并且对治疗具有抗性。受试者被监测一段时间并重新测试。如果在该时间段结束时,拷贝数变异谱开始急剧增加,这可以指示当前的治疗不起作用。与其他前列腺受试者的遗传谱进行比较。例如,如果确定拷贝数变异的这种增加指示癌症正在进展,则按照所开处的原治疗方案不再治疗癌症,并且开处了新的治疗方法。
图2A-2B更详细地示出了用于生成遗传报告和诊断的一个实施方案。在一个实现中,图2B示出了由图1A-1D的系统执行的示例性伪代码来处理非CNV报道的突变等位基因频率。但是,该系统也可以处理CNV报道的突变等位基因频率。
现在转向图2A,该过程接收来自DNA测序仪的遗传信息(30)。随后,该过程确定特定的基因改变及其量(32)。接下来,生成肿瘤应答图。为了生成该图,该过程对每个基因改变的量进行归一化,以跨所有测试点进行呈现,并随后生成缩放因子(scaling factor)(34)。如本文所使用的,术语“归一化”通常指将不同尺度上测量的值调整为理论上(notionally)共有尺度的手段。例如,对在不同点处测量的数据进行转换/调整,以使所有值可以被调整到共有尺度。如本文中使用的,术语“缩放因子”通常指的是缩放或乘以一定量的数字。例如,在等式y=Cx中,C是x的缩放因子。C也是x的系数,并且可以称为y与x的比例常数。这些值被归一化以允许在视觉上友好的共有尺度上绘图。并且缩放因子用于知晓与待被绘制的值相对应的确切高度(例如10%突变等位基因频率意味着报告上的1cm)。缩放因子适用于所有测试点,并因此被认为是通用缩放因子。对于每个测试点,该过程呈现肿瘤反应图上的信息(36)。在操作38中,该过程使用确定的缩放因子呈现改变和相对高度(38),并为每个改变分配独特的视觉指示符。除了应答图之外,该过程生成改变和治疗选项的概述。此外,来自临床试验的可能有助于特定基因改变和其他有用治疗建议的信息与术语解释、测试方法和其他信息一起呈现,并且其他信息被添加到报告并呈现给用户。
在一个实施方案中,拷贝数变异可以被报告为图表,指示基因组中的不同位置以及在每一个对应位置处拷贝数变异的对应增加或降低或维持。另外,拷贝数变异可以用于报告指示在无细胞多核苷酸样品中存在多少疾病物质(或具有拷贝数变异的核酸)的百分比评分。
这些报告经由因特网以电子方式进行提交和访问。在除受试者的位置外的地点进行序列数据的分析。生成报告并发送至受试者的位置。经由支持因特网的计算机(internetenabled computer),受试者访问反映其肿瘤负荷的报告。
接下来,公开了示例性基因测试过程的细节。现在转向图3A,示例性过程接收来自血液样品或其他身体样品的遗传物质(102)。该过程将来自遗传物质的多核苷酸转化为加标签的亲本核苷酸(104)。加标签的亲本核苷酸被扩增以产生扩增的子代多核苷酸(106)。对扩增的多核苷酸的子集进行测序以产生序列读段(108),所述序列读段被分组为家族,每一个家族由独特的加标签的亲本核苷酸生成(110)。在选择的基因座处,该过程为每一个家族分配每一个家族的置信度评分(112)。接下来,使用先前读段(readings)来确定一致性。这通过审查每一个家族的先前的置信度评分来完成,并且如果存在一致的先前的置信度评分,则增加当前的置信度评分(114)。在一个实施方案中,如果存在先前的置信度评分,但是它们不一致,则不修改当前的置信度评分(116)。在其他实施方案中,针对不一致的先前的置信度评分,以预定方式调整置信度评分。如果这是第一次检测到该家族,则可以降低当前的置信度评分,因为这可能是假读段(118)。该过程可以基于置信度评分推断该组加标签的亲本多核苷酸中在基因座处的家族的频率。然后如上所述生成基因测试报告(120)。
在一些实施方案中,仅绘制检测的改变的子集。在一些实施方案中,基于为驱动改变的可能性或与对治疗的升高或降低的应答的关联来选择子集。在一些实施方案中,使用基于体液的测试中检测到的基因组改变的量值的组合来推断疾病负荷。在一些实施方案中,使用检测到的突变、等位基因不平衡或基因特异性覆盖的等位基因分数来推断疾病负荷。在一些实施方案中,总体堆叠高度代表所述受试者中的总体疾病负荷或疾病负荷评分。在一些实施方案中,不同的颜色用于表示每个遗传变体。在一些实施方案中,仅绘制检测的遗传变体的子集。在一些实施方案中,基于为驱动改变的可能性或与对治疗的升高或降低的应答的关联来选择子集。
尽管在图3A-3B中时间信息已经被用于增强用于突变或拷贝数变异检测的信息,但可以应用其他一致的方法。在其他实施方案中,历史比较可以与映射至特定参考序列的其他共有序列结合使用以检测遗传变异的情况。可以测量映射至特定参考序列的共有序列并且相对于对照样品进行归一化。映射至参考序列的分子的度量可以在整个基因组上进行比较,以鉴定基因组中拷贝数变化或杂合性丢失的区域。一致方法包括例如,由数字通信理论、信息论或生物信息学得到的构建共有序列的线性或非线性方法(诸如选举、平均、统计、最大后验概率或最大似然性检测、动态编程、贝叶斯、隐马尔可夫或支持向量机方法等)。在已经确定序列读段覆盖度之后,应用随机建模算法将每一个窗口区域的归一化的核酸序列读段覆盖度转化为离散的拷贝数状态。在一些情况下,该算法可以包括以下中的一个或更多个:隐马尔可夫模型、动态编程、支持向量机、贝叶斯网络、网格解码、维特比解码、期望最大化、卡尔曼过滤方法和神经网络。
人工神经网络(NNet)基于脑的神经结构模拟“神经元”的网络。它们一次处理一个记录,或者以批处理模式处理记录,并通过比较其记录的分类(其一开始主要是任意的)和记录的已知实际分类来“学习”。在MLP-NNet中,来自第一条记录的初始分类的错误被反馈到网络中,并被用于在第二次修改网络的算法,并且持续许多迭代。
神经网络使用迭代学习过程,其中数据案例(行)一次一个地呈现给网络,并且每次调整与输入值相关联的权重。
在呈现所有案例后,该过程通常重新开始。在此学习阶段期间,网络通过调整权重来学习,以能够预测输入样品的正确类别标签。由于单元之间的联系,神经网络学习也被称为“连接学习(connectionist learning)”。神经网络的优点包括对噪声数据的高耐受性,以及其对未经过训练的模式进行分类的能力。一种神经网络算法是反向传播算法,例如Levenberg-Marquadt。一旦为特定应用程序构建了网络,该网络即准备好进行训练。为了开始此过程,初始权重是随机选择的。然后开始训练或学习。
网络使用隐藏层的权重和函数一次一个地处理训练数据中的记录,然后将所得的输出与期望的输出进行比较。然后,错误通过系统传回,引起系统调整应用于待处理的下一个记录的权重。随着权重不断地调整,此过程一遍又一遍地发生。在网络的训练期间,随着连接权重不断地完善,同一组数据被处理多次。
在一个实施方案中,机器学习单元在训练数据集上的训练步骤可以生成用于应用于测试样品的一个或更多个分类模型。这些分类模型可以应用于测试样品以预测受试者对治疗干预的应答。
如在图3B中描绘的,序列覆盖度与对照样品或参考序列的比较可以有助于在整个窗口上的归一化。在该实施方案中,无细胞DNA被从容易获得的体液诸如血液中提取和分离。例如,无细胞DNA可以使用本领域中已知的多种方法进行提取,所述多种方法包括但不限于异丙醇沉淀和/或基于二氧化硅的纯化。无细胞DNA可以从任何数目的受试者中提取,诸如未患有癌症的受试者、处于患有癌症风险的受试者或已知患有癌症的受试者(例如通过其他手段)。
在分离/提取步骤后,可对无细胞多核苷酸样品进行许多不同测序操作中任何操作。样品在测序之前可以用一种或更多种试剂(例如,酶、独特标识符(例如条形码)、探针等)进行处理。在一些情况下,如果用独特标识符诸如条形码处理样品,则该样品或该样品的片段可以用独特标识符单独地或成亚组地(in subsets)加标签。加标签的样品然后可以用于下游应用,诸如测序反应,藉此可以将个体分子追溯至亲本分子。
无细胞多核苷酸可以被加标签或追溯以允许随后对特定多核苷酸的鉴定和起源确定。将标识符(例如条形码)分配至个体多核苷酸或多核苷酸的亚组可以允许将独特的身份(identity)分配至个体序列或序列的片段。这可以允许从个体样品获取数据而不限于样品的平均值。在一些实例中,源自单链的核酸或其他分子可以共享共同的标签或标识符并因此可以随后被鉴定为源自该链。类似地,来自核酸的单链的所有片段可以用相同的标识符或标签来加标签,从而允许随后鉴定来自该亲本链的片段。在其他情况下,可以对基因表达产物(例如,mRNA)加标签以对表达进行定量,藉以可以对条形码或对条形码与其所附接的序列的组合进行计数。仍在其他情况下,该系统和方法可以用作PCR扩增对照。在此类情况下,来自PCR反应的多个扩增产物可以用相同的标签或标识符进行加标签。如果该产物随后被测序并表现出序列差异,则在具有相同标识符的产物间的差异可以归因于PCR错误。另外,可以基于读段自身的序列数据的特征鉴定个体序列。例如,在个体测序读段的开始(起始)和结束(终止)部分的独特序列数据的检测可以单独地使用,或与每一个序列读段独特序列的长度或碱基对数目相组合地使用,以将独特的身份分配至个体分子。来自已经分配了独特身份的核酸单链的片段可以从而允许随后鉴定来自该亲本链的片段。这可以与瓶颈化初始起始遗传物质结合使用以限制多样性。
此外,使用在个体测序读段的开始(起始)和结束(终止)部分的独特序列数据和测序读段长度可以单独地使用或与条形码的使用组合地使用。在一些情况下,条形码可以如本文描述为独特的。在其他情况下,条形码自身可以不是独特的。在此情况下,非独特条形码的使用与在个体测序读段的开始(起始)和结束(终止)部分的序列数据以及测序读段长度组合可以允许将独特的身份分配至个体序列。类似地,来自已经分配了独特身份的核酸单链的片段可以从而允许随后鉴定来自该亲本链的片段。
通常,本文提供的方法和系统对于制备无细胞多核苷酸序列以用于下游应用测序反应是有用的。通常,测序方法是经典的Sanger测序。
如本文中使用的,术语“测序”是指用于确定生物分子例如核酸诸如DNA或RNA的序列的若干种技术中的任一种。示例性测序方法包括但不限于靶向测序、单分子实时测序、外显子测序、基于电子显微镜的测序、小组测序(panel sequencing)、晶体管介导的测序、直接测序、随机鸟枪测序、Sanger双脱氧终止测序、全基因组测序、杂交测序、焦磷酸测序、毛细管电泳、凝胶电泳、双链测序、循环测序、单碱基延伸测序、固相测序、高通量测序、大规模平行签名测序(massively parallel signature sequencing)、乳液PCR、低变性温度共扩增-PCR(COLD-PCR)、多重PCR、可逆染料终止子测序、配对的末端测序、近末端测序(near-term sequencing)、核酸外切酶测序、边连接边测序、短读段测序、单分子测序、边合成边测序、实时测序、反向终止子测序、纳米孔测序、454测序、Solexa基因组分析仪测序、SOLiDTM测序、MS-PET测序及其组合。在一些实施方案中,测序可以通过基因分析仪进行,诸如例如可以从Illumina或Applied Biosystems商业获得的基因分析仪。在一些实施方案中,测序方法可以是大规模平行测序,即,同时(或以快速相继)测序至少100、1000、10,000、100,000、1百万、1千万、1亿、或10亿个多核苷酸分子的任一个。
测序方法通常涉及样品制备,对制备的样品中的多核苷酸进行测序以产生序列读段和对序列读段进行生物信息学操作以产生关于样品的定量和/或定性遗传信息。样品制备通常涉及将样品中的多核苷酸转换成与所用测序平台相容的形式。该转换可以涉及将多核苷酸加标签。在本发明的某些实施方案中,标签包括多核苷酸序列标签。测序中使用的转换方法可能不是100%有效。例如,以约1-5%的转化效率转换样品中的多核苷酸并不少见,即样品中的约1-5%的多核苷酸被转换为加标签的多核苷酸。未转换为加标签的分子的多核苷酸在用于测序的加标签的文库中未显示。因此,在最初的遗传物质中以低频率表示的具有遗传变体的多核苷酸可能在加标签的文库未显示,并因此可能不被测序或检测。通过提高转化效率,初始遗传物质中的多核苷酸将在加标签的文库中显示并因此通过测序检测的概率增加。此外,迄今为止大多数方案都要求大于1微克的DNA作为输入材料,而非直接解决文库制备的低转换效率的问题。然而,当输入样品材料受限或期望检测具有低表示的多核苷酸时,高转换效率可以高效地对样品进行测序和/或充分检测此类多核苷酸。
通常,可以对纯化和分离的基因组或转录物组的选择性富集区域进行突变检测(302)。如本文描述的,可以从无细胞多核苷酸的总群体中选择性地扩增特定区域,所述特定区域可以包括但不限于基因、癌基因、肿瘤抑制基因、启动子、调节序列元件、非编码区、miRNA、snRNA等。这可以如本文描述来进行。在一个实例中,在使用或不使用针对个体多核苷酸序列的条形码标记物下,可以使用多重测序。在其他实例中,测序可以使用本领域已知的任何核酸测序平台进行。该步骤生成多于一个基因组片段序列读段(304)。另外,参考序列获自从另一个受试者取得的对照样品。在一些情况下,对照受试者可以是已知不具有已知遗传畸变或疾病的受试者。在一些情况下,这些序列读段可以包含条形码信息。在其他实例中,不利用条码。
在测序之后,对读段分配质量评分。质量评分可以是读段的表示,其基于阈值指示这些读段是否可以用于随后的分析。在一些情况下,一些读段不具有足够的质量或长度来进行随后的映射步骤。具有至少90%、95%、99%、99.9%、99.99%或99.999%的质量评分的测序读段可能从数据集中过滤掉。在其他情况下,被分配了至少90%、95%、99%、99.9%、99.99%或99.999%的质量评分的测序读段可能从数据集中过滤掉。在步骤306中,将满足规定的质量评分阈值的基因组片段读段映射至已知不包含突变的参考基因组或参考序列。在映射对齐之后,对序列读段分配映射评分。映射评分可以是映射回至参考序列的表示或读段,指示每一个位置是或者不是独特地可映射的。在一些情况下,读段可能是与突变分析无关的序列。例如,一些序列读段可以源于污染物多核苷酸。具有至少90%、95%、99%、99.9%、99.99%或99.999%的映射评分的测序读段可能从数据集中过滤掉。在其他情况下,被分配了少于90%、95%、99%、99.9%、99.99%或99.999%的映射评分的测序读段可能从数据集中过滤掉。
对于每一个可映射的碱基,不满足可映射性的最小阈值的碱基或低质量碱基可以被替代为如在参考序列中发现的对应碱基。
在可以确定读段覆盖度并鉴定了在每一个读段中相对于对照序列的变体碱基之后,变体碱基的频率可以被计算为包含变体的读段的数目除以读段的总数目。这可以被表示为在基因组中的每一个可映射位置的比率。
对于每一个碱基位置,与参考序列相比,分析所有四种核苷酸即胞嘧啶、鸟嘌呤、胸腺嘧啶、腺嘌呤的频率。随机或统计建模算法用于将每一个可映射位置的归一化比率转化为反映每一个碱基变体的频率状态。在一些情况下,该算法可以包括以下中的一个或更多个:隐马尔可夫模型、动态编程、支持向量机、贝叶斯或概率建模、网格解码、维特比解码、期望最大化、卡尔曼过滤方法和神经网络。
在步骤310中,每一个碱基位置的离散突变状态可以用于鉴定与参考序列的基线相比具有高变异频率的碱基变体。在一些情况下,基线可能表示至少0.0001%、0.001%、0.01%、0.1%、1.0%、2.0%、3.0%、4.0%、5.0%、10%或25%的频率。在其他情况下,基线可能表示至少0.0001%、0.001%、0.01%、0.1%、1.0%、2.0%、3.0%、4.0%、5.0%、10%或25%的频率。在一些情况下,具有碱基变体或突变的所有相邻碱基位置可以被合并为一个区段,以报告突变的存在或不存在。在一些情况下,多个位置可以在它们与其他区段合并之前被过滤。
在计算每一个碱基位置的变异频率之后,源自受试者的序列中的特定位置的与参考序列相比具有最大偏差的变体被鉴定为突变。在一些情况下,突变可以是癌症突变。在其他情况下,突变可以与疾病状态相关。
突变或变体可以包括遗传性畸变,所述遗传性畸变包括但不限于单个碱基置换、或小的得失位、颠换、易位、倒位、缺失、截短或基因截短。在一些情况下,突变可以是至多1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个或20个核苷酸的长度。在其他情况下,突变可以是至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个或20个核苷酸的长度。
接下来,使用先前读段来确定一致性。这通过审查对应碱基的先前的置信度评分来完成,并且如果存在一致的先前的置信度评分,则当前的置信度评分被增加(314)。在一个实施方案中,如果存在先前的置信度评分,但是它们不一致,则不修改当前的置信度评分(316)。在其他实施方案中,针对不一致的先前的置信度评分,以预定方式调整置信度评分。如果这是第一次检测到家族,则可以降低当前的置信度评分,因为这可能是假读段(318)。该过程然后将变异频率/每一个碱基转化为每一个碱基位置的离散变体状态(320)。
许多癌症可以使用本文描述的方法和系统来检测。癌细胞,如大部分细胞一样,可以用更新率表征,其中旧细胞死亡并被较新的细胞代替。通常,与给定受试者中的脉管系统相接触的死亡的细胞可以将DNA或DNA片段释放至血流中。在疾病不同时期中的癌细胞也是如此。根据疾病的时期,癌细胞还可以表征为多种遗传畸变,诸如拷贝数变异以及突变。这种现象可以用于使用本文描述的方法和系统检测癌症个体的存在或不存在。
例如,可以从处于患癌风险的受试者抽取血液并如本文描述地制备以生成无细胞多核苷酸群体。在一个实例中,这可以是无细胞DNA。本公开内容的系统和方法可以用于检测可存在于某些现有癌症中的突变或拷贝数变异。该方法可以帮助检测身体中癌细胞的存在,即使不存在疾病的症状或其他标志(hallmarks)。
可以被检测到的癌症的类型和数目可以包括但不限于血癌、脑癌、肺癌、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、实体瘤(solid state tumors)、异质肿瘤、均质肿瘤等。
系统和方法可以用于检测可能导致或起因于癌症的任何数目的遗传畸变。这些可以包括点不限于突变、得失位、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰的异常改变、表观遗传模式的异常改变、核酸甲基化的异常改变、感染及癌症。
另外,本文描述的系统和方法还可以用于帮助表征某些癌症。由本公开内容的系统和方法产生的遗传数据可以允许帮助从业者更好地表征具体形式的癌症。许多时候,癌症在组成和分期两个方面是异质的。遗传谱数据可以允许表征癌症的具体亚型,该表征在该具体亚型的诊断或治疗中可能是重要的。该信息还可以为受试者或从业者提供关于癌症具体类型的预后的线索。
本文提供的系统和方法可以用于监测特定受试者中已经知晓的癌症或其他疾病。这可以允许受试者或从业者根据疾病的进展调整治疗选项。在该实例中,本文描述的系统和方法可用于构建疾病进程中特定受试者的遗传谱。在一些情况下,癌症可以进展,变成更具侵袭性和遗传上不稳定性。在其他实例中,癌症可以保持为良性的、非活动的、或休眠的。本公开内容的系统和方法可以用于确定疾病进展。
此外,本文描述的系统和方法可以用于确定特定治疗选项的功效。在一个实例中,如果治疗成功,则成功的治疗选项可以实际上增加在受试者血液中检测到的拷贝数变异或突变的量,因为更多的癌症可能死亡并使DNA脱落。在其他实例中,这可能不会发生。在另一个实例中,也许某些治疗选项可能与癌症随时间推移的遗传谱相关。这种相关性可以用于选择疗法。另外,如果观察到癌症在治疗之后减退,则本文描述的系统和方法可以用于监测剩余的疾病或疾病的复发。
本文描述的方法和系统可以不限于仅与癌症相关的突变和拷贝数变异的检测。多种其他疾病和感染可能导致其他类型的状况,这可以适用于早期检测和监测。例如,在某些情况下,遗传紊乱或传染性疾病可能在受试者中引起某些遗传镶嵌现象(geneticmosaicism)。这种遗传镶嵌现象可以引起可观察到的拷贝数变异和突变。在另一个实例中,本公开内容的系统和方法也可以用于监测身体内免疫细胞的基因组。当存在某些疾病后,免疫细胞,诸如B细胞,可以经历快速克隆扩增。克隆扩增可以使用拷贝数变异检测来监测并且可以监测某些免疫状态。在该实例中,拷贝数变异分析可以随时间推移而进行,以产生特定疾病可能如何进展的谱。
此外,本公开内容的系统和方法还可以用于监测系统性感染本身,其可以由病原体诸如细菌或病毒引起。拷贝数变异或甚至突变检测可以用于确定病原体群体在感染过程期间是如何改变的。这在慢性感染诸如HIV/AIDS或肝炎感染期间可能特别重要,其中病毒可以在感染过程期间改变生命周期状态和/或突变为毒力更强的形式。
可以使用本公开内容的系统和方法的又另一个实例为监测移植受试者。通常,移植组织在移植后经历一定程度的身体排斥。当免疫细胞试图破坏移植组织时,本公开内容的方法可以用于确定或谱分析宿主体的排斥活动。这可以用于监测移植组织的状态以及改变治疗过程或预防排斥。
此外,本公开内容的方法可以用于表征受试者中的异常状况的异质性,所述方法包括生成受试者中的细胞外多核苷酸的遗传谱,其中所述遗传谱包含由拷贝数变异和突变分析得到的多于一个数据。在一些情况下,包括但不限于癌症,疾病可以是异质的。疾病细胞可以不相同。在癌症的实例中,已知一些肿瘤包含不同类型的肿瘤细胞,一些细胞处于癌症的不同时期。在其他实例中,异质性可以包括疾病的多个病灶。再次,在癌症的实例中,可以存在多个肿瘤病灶,或许其中一个或更多个病灶为已从原发部位扩散的转移的结果。
本公开内容的方法可以用于生成或谱分析为由异质性疾病中的不同细胞得到的遗传信息的总和的指纹图谱或数据集。该数据集可以包含单独的或组合的拷贝数变异和突变分析。
另外,本公开内容的系统和方法可以用于诊断、预后、监测或观察胎儿来源的癌症或其他疾病。即,这些方法可以用于妊娠的受试者,以诊断、预后、监测或观察未出生受试者的癌症或其他疾病,未出生受试者的DNA和其他多核苷酸可以与母体分子共循环。
此外,这些报告经由因特网以电子方式进行提交和访问。在除受试者的位置外的地点进行序列数据的分析。生成报告并发送至受试者的位置。经由支持因特网的计算机(internet enabled computer),受试者访问反映其肿瘤负荷的报告。
注释的信息可以由医学护理提供者使用以选择其他药物治疗选项和/或向保险公司提供关于药物治疗选项的信息。该方法可以包括以例如OncologyTM的NCCN临床实践指南或美国临床肿瘤学会(ASCO)临床实践指南为状况注释药物治疗选项。
在报告中被分级的药物治疗选项可以通过列出另外的药物治疗选项在报告中加以注释。另外的药物治疗可以是用于非正式批准用途的FDA批准的药物。1993年综合预算调节法案(Omnibus Budget Reconciliation Act)(OBRA)中的一项规定要求Medicare覆盖标准医学纲要(standard medical compendia)中包含的抗癌药物的非正式批准用途。用于注释列表的药物可以见于CMS批准的纲要,包括the National Comprehensive CancerNetwork(NCCN)Drugs and Biologics CompendiumTM、Thomson MicromedexElsevier Gold Standard's Clinical Pharmacology compendium、和American HospitalFormulary Service—Drug Information/>
药物治疗选项可以通过列出可以用于治疗具有特定状态的一个或更多个分子标志物的癌症的实验药物来注释。实验药物可以是可以获得其体外数据、体内数据、动物模型数据、临床前试验数据或临床试验数据的药物。数据可以被公布于同行评议的医学文献中,所述同行评议的医学文献参见CMS医学保险福利政策手册(the CMS Medicare BenefitPolicy Manual)中列出的期刊,包括,例如,American Journal of Medicine、Annals ofInternal Medicine、Annals of Oncology、Annals of Surgical Oncology、Biology ofBlood and Marrow Transplantation、Blood、Bone Marrow Transplantation、BritishJournal of Cancer、British Journal of Hematology、British Medical Journal、Cancer、Clinical Cancer Research、Drugs、European Journal of Cancer(原先是European Journal of Cancer and Clinical Oncology)、Gynecologic Oncology、International Journal of Radiation,Oncology,Biology,and Physics、The Journalof the American Medical Association、Journal of Clinical Oncology、Journal ofthe National Cancer Institute、Journal of the National Comprehensive CancerNetwork(NCCN)、Journal of Urology、Lancet、Lancet Oncology、Leukemia、The NewEngland Journal of Medicine、和Radiation Oncology。
药物治疗选项可以通过提供基于电子报告的链接来连接列出的药物与关于该药物的科学信息来注释。例如,可以提供关于药物临床试验信息的链接(clinicaltrials.gov)。如果报告经由计算机或计算机网站来提供,则链接可以是脚注、至网站的超链接、具有信息的弹出框或悬浮框等。报告和注释信息可以以印刷形式提供,并且注释可以是,例如,参考的脚注。
在报告中,用于注释一个或更多个药物治疗选项的信息可以由存储科学信息的商业实体提供。健康护理提供者可以用注释信息中列出的实验药物来治疗受试者诸如癌症患者,并且健康护理提供者可以访问注释的药物治疗选项,检索科学信息(例如,打印医学期刊文章)并将科学信息(例如,打印的医学期刊文章)连同用于提供药物治疗的报销要求提交至保险公司。医师可以使用多种诊断相关组(Diagnosis-related group)(DRG)代码中的任何一种来实现报销。
报告中的药物治疗选项也可以用关于药物影响的途径中的其他分子组分的信息(例如,关于靶向在作为药物靶的细胞表面受体下游的激酶的药物的信息)来注释。药物治疗选项可以用关于靶向一个或更多个其他分子途径组分的药物的信息来注释。与途径相关的信息的鉴定和/或注释可以外包或分包给另一家公司。
注释的信息可以是,例如,药物名称(例如,用于非正式批准用途的FDA批准的药物;在CMS批准的纲要中发现的药物、和/或科学(医学)期刊文章中描述的药物)、关于一个或更多个药物治疗选项的科学信息、关于一个或更多个药物的科学信息的一个或更多个链接、关于一个或更多个药物的临床试验信息(例如来自clinicaltrials.gov/的信息)、关于药物的科学信息的引用的一个或更多个连接等。
注释的信息可以被插入到报告中的任何位置。注释的信息可以被插入到报告中的多个位置。注释的信息可以被插入在报告中关于分级药物治疗选项的部分附近。注释的信息可以被插入到报告中在与分级药物治疗选项分开的页面上。不包含分级药物治疗选项的报告可以用信息注释。
系统还可以包括药物对从受试者(例如癌症患者)分离的样品(例如肿瘤细胞)的影响的报告。使用来自癌症患者的肿瘤的体外培养可以使用本领域技术人员已知的技术来建立。系统还可以包括使用所述体外培养和/或异种移植模型(xenograft model)高通量筛选FDA批准的非正式批准的药物或实验药物。系统还可以包括监测肿瘤抗原以用于复发检测。
系统可以提供经因特网访问患有癌症的受试者的报告。系统可以使用手持式DNA测序仪或台式DNA测序仪。DNA测序仪为用于自动化DNA测序过程的科学仪器。给定DNA样品,DNA测序仪用于确定四种碱基的顺序:腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶。DNA碱基的顺序被报告为文本字符串,称为读段。一些DNA测序仪也可以被认为是光学仪器,因为它们分析源于与核苷酸附接的荧光染料的光信号。
DNA测序仪可以应用基于DNA的化学修饰随后在特定碱基处裂解的Gilbert测序方法,或者DNA测序仪可以应用基于双脱氧核苷酸链终止的Sanger技术。Sanger方法由于其增加的效率和低放射性而变得流行。DNA测序仪可以使用不需要DNA扩增(聚合酶链式反应——PCR)的技术,这加快了测序前的样品制备并减少错误。另外,从互补链中的核苷酸的实时添加引起的反应收集测序数据。例如,DNA序列分析仪可以利用被称为单分子实时(Single-molecule real-time)(SMRT)的方法,其中测序数据通过当核苷酸由包含荧光染料的酶添加至互补链时发射的光(由相机捕获)来产生。可选地,DNA测序仪可以使用基于纳米孔感测技术的电子系统。
数据由DNA测序仪通过直接连接或通过互联网发送至计算机进行处理。系统的数据处理方面可以以数字电子电路或以计算机硬件、固件、软件或其组合来实现。本发明的数据处理装置可以有形地体现在机器可读存储设备中以用于通过可编程处理器执行的计算机程序产品来实施;并且本发明的数据处理方法步骤可以由执行指令程序的可编程处理器执行,以通过操作输入数据并生成输出来进行本发明的功能。本发明的数据处理方面可以有利地在一个或更多个计算机程序中实施,所述一个或更多个计算机程序可在可编程系统中执行,所述可编程系统包括耦合以从数据存储系统接收数据和指令并向数据存储系统传输数据和指令的至少一个可编程处理器、至少一个输入设备以及至少一个输出设备。如果需要,每一个计算机程序可以以高级过程或面向对象编程语言或者汇编或机器语言来实施;并且,在任何情况下,语言可以是编译或解译语言。合适的处理器包含,例如,通用和专用的微处理器两者。通常,处理器将从只读存储器和/或随机存取存储器接收指令和数据。适用于有形地体现计算机程序指令和数据的存储设备包括非易失性存储器的所有形式,包括例如半导体存储器设备,诸如EPROM、EEPROM和闪存设备;磁盘,诸如内置硬盘和可移动磁盘;磁光磁盘;CD-ROM磁盘。前述中的任一项可以由ASIC(专用集成电路)补充或并入ASIC中。
为了提供与用户的交互,本发明可以使用具有显示设备和输入设备的计算机系统来实现,所述显示设备诸如监视器或LCD(液晶显示器)屏幕用于向用户显示信息,用户可以通过所述输入设备将输入提供至计算机系统,所述输入设备诸如键盘、二维点击设备诸如鼠标或轨迹球、或者三维点击设备诸如数据手套或陀螺仪鼠标。计算机系统可以被编程为提供图形用户界面,计算机程序通过该图形用户界面与用户交互。计算机系统可以被编程为提供虚拟现实的三维显示界面。
虽然本文已经显示和描述了本发明的优选实施方案,但对于本领域技术人员将明显的是,此类实施方案仅通过示例的方式提供。在不偏离本发明的情况下,本领域技术人员现在将想到许多变化、改变和替换。应当理解,在实践本发明时可以采用本文描述的本发明的实施方案的各种替代选择。以下权利要求意图界定本发明的范围,并且从而涵盖在这些权利要求范围内的方法和结构及其等同物。

Claims (10)

1.一种用于预测受试者对治疗干预的治疗应答的系统,所述系统包括:
存储器,其经配置以存储包括所述受试者的遗传信息的训练数据集到所述存储器中;以及
一个或多个处理器,其单独地或共同配置为实现分类算法,其中所述分类算法基于所述遗传信息预测所述受试者对所述治疗干预的治疗应答。
2.根据权利要求1所述的系统,其中所述一个或多个处理器进一步配置为预测肿瘤的发展。
3.根据权利要求1所述的系统,其中所述一个或多个处理器进一步配置为预测远端转移的发展。
4.根据权利要求1所述的系统,其中所述训练数据集还包括选自由以下组成的组的变量:癌症阶段、外科手术的类型、年龄、肿瘤分级、肿瘤浸润的深度、术后并发症的发生和静脉侵袭的存在。
5.根据权利要求1所述的系统,其中所述遗传信息包括定义癌细胞的基因组结构的变量。
6.根据权利要求1所述的系统,其中所述遗传信息包括定义单个播散性癌细胞的基因组结构的变量。
7.根据权利要求1所述的系统,其中所述一个或多个处理器进一步配置为预处理所述训练数据集。
8.根据权利要求7所述的系统,其中预处理所述训练数据集包括将所提供的数据转化成类别条件概率。
9.根据权利要求5或6所述的系统,其中20个或更少的变量被选择。
10.根据权利要求5或6所述的系统,其中10个或更少的变量被选择。
CN202310625686.2A 2015-10-09 2016-10-07 使用无细胞dna的基于群体的治疗推荐 Pending CN116640849A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201562239390P 2015-10-09 2015-10-09
US62/239,390 2015-10-09
CN201680072321.XA CN108474040B (zh) 2015-10-09 2016-10-07 使用无细胞dna的基于群体的治疗推荐
PCT/US2016/056131 WO2017062867A1 (en) 2015-10-09 2016-10-07 Population based treatment recommender using cell free dna

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201680072321.XA Division CN108474040B (zh) 2015-10-09 2016-10-07 使用无细胞dna的基于群体的治疗推荐

Publications (1)

Publication Number Publication Date
CN116640849A true CN116640849A (zh) 2023-08-25

Family

ID=58488667

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201680072321.XA Active CN108474040B (zh) 2015-10-09 2016-10-07 使用无细胞dna的基于群体的治疗推荐
CN202310625686.2A Pending CN116640849A (zh) 2015-10-09 2016-10-07 使用无细胞dna的基于群体的治疗推荐

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201680072321.XA Active CN108474040B (zh) 2015-10-09 2016-10-07 使用无细胞dna的基于群体的治疗推荐

Country Status (5)

Country Link
US (2) US11756655B2 (zh)
EP (1) EP3359694A4 (zh)
JP (2) JP6991134B2 (zh)
CN (2) CN108474040B (zh)
WO (1) WO2017062867A1 (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
US10364467B2 (en) 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
CN108474040B (zh) 2015-10-09 2023-05-16 夸登特健康公司 使用无细胞dna的基于群体的治疗推荐
KR20180113973A (ko) 2015-11-11 2018-10-17 레졸루션 바이오사이언스, 인크. Dna 라이브러리의 고효율 작제
EP3411505A4 (en) 2016-02-02 2020-01-15 Guardant Health, Inc. DETECTION AND DIAGNOSIS OF CANCER EVOLUTION
WO2017181146A1 (en) 2016-04-14 2017-10-19 Guardant Health, Inc. Methods for early detection of cancer
US11384382B2 (en) 2016-04-14 2022-07-12 Guardant Health, Inc. Methods of attaching adapters to sample nucleic acids
JP7217224B2 (ja) 2016-08-25 2023-02-02 レゾリューション バイオサイエンス, インコーポレイテッド Dna試料中のゲノムコピー変化の検出方法
CA3126055A1 (en) 2016-09-30 2018-04-05 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
CN107437004B (zh) * 2017-08-07 2020-06-19 深圳华大基因研究院 一种用于肿瘤个体化基因检测智能解读的系统
JP2021500883A (ja) 2017-10-27 2021-01-14 ジュノ ダイアグノスティックス,インク. 超微量リキッドバイオプシーのためのデバイス、システム、および方法
EP3728642A4 (en) * 2017-12-18 2021-09-15 Personal Genome Diagnostics Inc. AUTOMATIC LEARNING SYSTEM AND SOMATIC MUTATION DISCOVERY PROCESS
CA3095030A1 (en) * 2018-03-30 2019-10-03 Juno Diagnostics, Inc. Deep learning-based methods, devices, and systems for prenatal testing
WO2019200410A1 (en) 2018-04-13 2019-10-17 Freenome Holdings, Inc. Machine learning implementation for multi-analyte assay of biological samples
WO2019200398A1 (en) * 2018-04-13 2019-10-17 Dana-Farber Cancer Institute, Inc. Ultra-sensitive detection of cancer by algorithmic analysis
JP2019213473A (ja) * 2018-06-12 2019-12-19 国立大学法人 鹿児島大学 膵腫瘍摘出術後予後リスク判別法
US20210217493A1 (en) * 2018-07-27 2021-07-15 Seekin, Inc. Reducing noise in sequencing data
CN109344017A (zh) * 2018-09-06 2019-02-15 浪潮电子信息产业股份有限公司 一种基于机器学习预测内存故障的方法,设备及可读存储介质
WO2020077232A1 (en) * 2018-10-12 2020-04-16 Cambridge Cancer Genomics Limited Methods and systems for nucleic acid variant detection and analysis
CN109271374B (zh) * 2018-10-19 2021-01-26 国网江苏省电力有限公司信息通信分公司 一种基于机器学习的数据库健康度打分方法和打分系统
EP3871232A4 (en) * 2018-10-22 2022-07-06 The Jackson Laboratory METHOD AND APPARATUS FOR PHENOLIC DRIVEN CLINICAL GENOMICS USING A LIKELIHOOD RATIO PARADIGM
WO2020132148A1 (en) * 2018-12-18 2020-06-25 Grail, Inc. Systems and methods for estimating cell source fractions using methylation information
AU2019418813A1 (en) * 2018-12-31 2021-07-22 Tempus Ai, Inc. A method and process for predicting and analyzing patient cohort response, progression, and survival
US11875903B2 (en) 2018-12-31 2024-01-16 Tempus Labs, Inc. Method and process for predicting and analyzing patient cohort response, progression, and survival
EP3918089A1 (en) 2019-01-31 2021-12-08 Guardant Health, Inc. Compositions and methods for isolating cell-free dna
CN109829425B (zh) * 2019-01-31 2020-12-22 沈阳农业大学 一种农田景观小尺度地物分类方法及系统
US11676727B2 (en) 2019-08-14 2023-06-13 Optum Technology, Inc. Cohort-based predictive data analysis
IL294083A (en) * 2019-12-27 2022-08-01 Vetology Innovations Llc Analyzing information using artificial intelligence along with predictive models
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
CN111584002B (zh) * 2020-05-22 2022-04-29 至本医疗科技(上海)有限公司 用于检测肿瘤突变负荷的方法、计算设备和计算机存储介质
CN112185583B (zh) * 2020-10-14 2022-05-31 天津之以科技有限公司 一种基于贝叶斯网络的数据挖掘检疫方法
CA3198341A1 (en) * 2020-11-12 2022-05-19 Eddie Adams Systems and methods to improve therapeutic outcomes
CN112466389A (zh) * 2020-12-04 2021-03-09 深圳市新合生物医疗科技有限公司 一种基于机器学习算法获取肿瘤标记物的方法和系统
CN114913986B (zh) * 2022-07-15 2022-10-14 四川大学华西医院 一种医疗对象聚类方法、装置、电子设备及存储介质
CN116525105B (zh) * 2023-06-29 2023-10-03 中国人民解放军总医院 一种心源性休克预后预测预警系统、设备及可存储介质

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020077756A1 (en) 1999-11-29 2002-06-20 Scott Arouh Neural-network-based identification, and application, of genomic information practically relevant to diverse biological and sociological problems, including drug dosage estimation
US20020029113A1 (en) * 2000-08-22 2002-03-07 Yixin Wang Method and system for predicting splice variant from DNA chip expression data
EP1394715A1 (en) * 2002-08-02 2004-03-03 Europroteome AG An expert system for clinicial outcome prediction
US7020593B2 (en) 2002-12-04 2006-03-28 International Business Machines Corporation Method for ensemble predictive modeling by multiplicative adjustment of class probability: APM (adjusted probability model)
US9342657B2 (en) * 2003-03-24 2016-05-17 Nien-Chih Wei Methods for predicting an individual's clinical treatment outcome from sampling a group of patient's biological profiles
US9109256B2 (en) 2004-10-27 2015-08-18 Esoterix Genetic Laboratories, Llc Method for monitoring disease progression or recurrence
US8349555B2 (en) * 2005-03-16 2013-01-08 Gennadi V. Glinsky Methods and compositions for predicting death from cancer and prostate cancer survival using gene expression signatures
US8129114B2 (en) * 2005-08-24 2012-03-06 Bristol-Myers Squibb Company Biomarkers and methods for determining sensitivity to epidermal growth factor receptor modulators
US20100041048A1 (en) * 2008-07-31 2010-02-18 The Johns Hopkins University Circulating Mutant DNA to Assess Tumor Dynamics
US20110166030A1 (en) * 2009-09-30 2011-07-07 Yixin Wang Prediction of response to docetaxel therapy based on the presence of TMPRSSG2:ERG fusion in circulating tumor cells
KR20130115250A (ko) * 2010-09-15 2013-10-21 알막 다이아그노스틱스 리미티드 암에 대한 분자적 진단 테스트
DK3214091T3 (en) * 2010-12-09 2019-01-07 Univ Pennsylvania USE OF CHEMICAL ANTIGEN RECEPTOR MODIFIED T CELLS FOR TREATMENT OF CANCER
US20140371094A1 (en) * 2011-11-10 2014-12-18 F. Hoffman-La Roche Ag Methods for treating, diagnosing and monitoring alzheimer's disease
US8768668B2 (en) * 2012-01-09 2014-07-01 Honeywell International Inc. Diagnostic algorithm parameter optimization
WO2013151677A1 (en) * 2012-04-02 2013-10-10 Broad Institute, Inc. Ddr2 mutations in cancer
WO2013160315A2 (en) * 2012-04-23 2013-10-31 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Genetic predictors of response to treatment with crhr1 antagonists
EP2882867A1 (en) * 2012-08-10 2015-06-17 The Broad Institute, Inc. Methods and apparatus for analyzing and quantifying dna alterations in cancer
EP2893040B1 (en) 2012-09-04 2019-01-02 Guardant Health, Inc. Methods to detect rare mutations and copy number variation
CN105408496A (zh) 2013-03-15 2016-03-16 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
EP2971152B1 (en) * 2013-03-15 2018-08-01 The Board Of Trustees Of The Leland Stanford Junior University Identification and use of circulating nucleic acid tumor markers
AU2014278296B2 (en) * 2013-06-11 2020-09-17 Dana-Farber Cancer Institute, Inc. Non-invasive blood based monitoring of genomic alterations in cancer
CA2928779A1 (en) * 2013-10-21 2015-04-30 The General Hospital Corporation Methods relating to circulating tumor cell clusters and the treatment of cancer
WO2015138774A1 (en) * 2014-03-13 2015-09-17 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CN107075730A (zh) 2014-09-12 2017-08-18 利兰·斯坦福青年大学托管委员会 循环核酸的鉴定及用途
WO2016094330A2 (en) 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
WO2016100638A1 (en) 2014-12-17 2016-06-23 Foundation Medicine, Inc. Computer-implemented system and method for identifying similar patients
US20170342500A1 (en) * 2014-12-19 2017-11-30 Danmarks Tekniske Universitet Method for identification of tissue or organ localization of a tumour
ES2923602T3 (es) 2014-12-31 2022-09-28 Guardant Health Inc Detección y tratamiento de enfermedades que muestran heterogeneidad celular de enfermedad y sistemas y métodos para comunicar los resultados de las pruebas
WO2016179049A1 (en) 2015-05-01 2016-11-10 Guardant Health, Inc Diagnostic methods
CN108474040B (zh) 2015-10-09 2023-05-16 夸登特健康公司 使用无细胞dna的基于群体的治疗推荐
JP2019521673A (ja) * 2016-06-07 2019-08-08 ザ リージェンツ オブ ザ ユニヴァーシティー オブ カリフォルニア 疾患および状態の分析のためのセルフリーdnaメチル化パターン

Also Published As

Publication number Publication date
WO2017062867A1 (en) 2017-04-13
JP2022043124A (ja) 2022-03-15
CN108474040B (zh) 2023-05-16
EP3359694A1 (en) 2018-08-15
JP6991134B2 (ja) 2022-01-12
US20200395100A1 (en) 2020-12-17
EP3359694A4 (en) 2019-07-17
US11756655B2 (en) 2023-09-12
JP2018537754A (ja) 2018-12-20
CN108474040A (zh) 2018-08-31
US20180300456A1 (en) 2018-10-18

Similar Documents

Publication Publication Date Title
CN108474040B (zh) 使用无细胞dna的基于群体的治疗推荐
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
US11282610B2 (en) Cancer evolution detection and diagnostic
CN107406876B (zh) 表现出病变细胞异质性的疾病的检测和治疗以及用于传送测试结果的系统和方法
US20230187021A1 (en) Methods for Non-Invasive Assessment of Genomic Instability
JP6680680B2 (ja) 染色体変化の非侵襲性評価のための方法およびプロセス
US20210327534A1 (en) Cancer classification using patch convolutional neural networks
JP2003021630A (ja) 臨床診断サービスを提供するための方法
CN101743320A (zh) 来自基因转录产物检测的具有广泛基础的疾病结合
US20220399087A1 (en) Method and system for improved management of genetic diseases
US20230005569A1 (en) Chromosomal and Sub-Chromosomal Copy Number Variation Detection
US20240076744A1 (en) METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination