CN113826167A - 基于模型的特征化和分类 - Google Patents

基于模型的特征化和分类 Download PDF

Info

Publication number
CN113826167A
CN113826167A CN202080036172.8A CN202080036172A CN113826167A CN 113826167 A CN113826167 A CN 113826167A CN 202080036172 A CN202080036172 A CN 202080036172A CN 113826167 A CN113826167 A CN 113826167A
Authority
CN
China
Prior art keywords
cancer
sequence reads
tissue
probability
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080036172.8A
Other languages
English (en)
Inventor
A·P·菲尔茨
J·F·博桑格
O·C·维恩
A·詹希迪
M·C·马赫
刘勤文
J·舍伦贝格
J·纽曼
R·卡尔夫
S·S·格罗斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Greer Co ltd
Original Assignee
Grail LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grail LLC filed Critical Grail LLC
Publication of CN113826167A publication Critical patent/CN113826167A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis

Abstract

在各种实施方式中,分析系统使用模型来确定疾病状态的特征和分类。疾病状态可以指示癌症的存在或不存在、癌症类型或者癌症的来源组织。所述模型可以包括二进制分类器和来源组织分类器。所述分析系统可以处理来自测试生物样品的序列读取,以产生用于训练所述分类器的数据。所述分析系统还可以使用机器学习技术的组合来训练所述模型,所述模型可以包括多层感知器。在一些实施方式中,所述分析系统使用甲基化信息来训练所述模型以确定关于疾病状态的预测。

Description

基于模型的特征化和分类
背景技术
1.技术领域
本公开内容一般地涉及用于从核酸样品预测疾病状态的基于模型的特征化和分类器。
2.相关技术的描述
DNA甲基化在调控基因表达中发挥作用。异常的DNA甲基化与包括癌症在内的很多疾病过程有关。使用甲基化测序(例如,全基因组亚硫酸氢盐测序(WGBS))进行DNA甲基化分析越来越被认为是检测、诊断和/或监测癌症的有价值的诊断工具。例如,差异甲基化区域的特定模式可用作各种疾病状态的分子标志物。
发明内容
本文公开了使用核酸样品训练和应用模型以产生疾病状态的特征和/或分类(例如,癌症的存在或不存在、癌症类型和/或癌症的来源组织)的方法。在一个方面中,本公开内容提供了一种分析序列读取以产生多种特征的方法,其包括:从第一参考样品产生第一多个参考序列读取,所述第一样品来自具有第一疾病状态的受试者;从第二参考样品产生第二多个参考序列读取,所述第二样品来自具有第二疾病状态的受试者,使用所述第一多个参考序列读取训练第一概率模型,所述第一概率模型与所述第一疾病状态相关;使用所述第二多个参考序列读取训练第二概率模型,所述第二概率模型与所述第二疾病状态相关;从训练样品产生多个训练序列读取,并且针对所述多个训练序列读取的每个序列读取:将所述序列读取应用于所述第一概率模型以确定第一概率值,所述第一概率值是来源于与所述第一疾病状态相关的样品的所述序列读取的概率,和将所述序列读取应用于所述第二概率模型以确定第二概率值,所述第二概率值是来源于与所述第二疾病状态相关的样品的所述序列读取的概率;和通过比较每个序列读取的所述第一概率值和所述第二概率值来鉴定一个或多个特征。
在另一个方面中,本公开内容提供了一种系统,其包括计算机处理器和存储器,所述存储器存储计算机程序指令,当由所述计算机处理器执行时,所述指令使所述处理器执行包括以下步骤的步骤:访问来自第一参考样品的第一多个参考序列读取,所述第一样品来自具有第一疾病状态的受试者;访问来自第二参考样品的第二多个参考序列读取,所述第二样品来自具有第二疾病状态的受试者,使用所述第一多个参考序列读取训练第一概率模型,所述第一概率模型与所述第一疾病状态相关;使用所述第二多个参考序列读取训练第二概率模型,所述第二概率模型与所述第二疾病状态相关;访问来自训练样品的多个训练序列读取,并且针对所述多个训练序列读取的每个序列读取:将所述序列读取应用于所述第一概率模型以确定第一概率值,所述第一概率值是来源于与所述第一疾病状态相关的样品的所述序列读取的概率,和将所述序列读取应用于所述第二概率模型以确定第二概率值,所述第二概率值是来源于与所述第二疾病状态相关的样品的所述序列读取的概率;和通过比较每个序列读取的所述第一概率值和所述第二概率值来鉴定一个或多个特征。
在另一个方面中,本公开内容提供了一种非暂时性计算机可读介质,其包括指令,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器实施包括以下的步骤:访问来自第一参考样品的第一多个参考序列读取,所述第一样品来自具有第一疾病状态的受试者;访问来自第二参考样品的第二多个参考序列读取,所述第二样品来自具有第二疾病状态的受试者,使用所述第一多个参考序列读取训练第一概率模型,所述第一概率模型与所述第一疾病状态相关;使用所述第二多个参考序列读取训练第二概率模型,所述第二概率模型与所述第二疾病状态相关;访问来自训练样品的多个训练序列读取,并且针对所述多个训练序列读取的每个序列读取:将所述序列读取应用于所述第一概率模型以确定第一概率值,所述第一概率值是来源于与所述第一疾病状态相关的样品的所述序列读取的概率,和将所述序列读取应用于所述第二概率模型以确定第二概率值,所述第二概率值是来源于与所述第二疾病状态相关的样品的所述序列读取的概率;和通过比较每个序列读取的所述第一概率值和所述第二概率值来鉴定一个或多个特征。
在一些实施方式中,所述第一疾病状态是癌症和所述第二疾病状态是非癌症。在一些实施方式中,所述第一疾病状态是第一种类型的癌症和所述第二疾病状态是第二种类型的癌症,并且其中所述第一种类型的癌症和所述第二种类型的癌症是不同的。
在一些实施方式中,所述方法、系统或非暂时性计算机可读介质还包括从第三、第四、第五、第六、第七、第八、第九和/或第十参考样品产生多个参考序列读取,每个所述第三、第四、第五、第六、第七、第八、第九和/或第十参考样品具有不同疾病状态,并且其中每个所述不同疾病状态是不同类型的癌症;和使用所述第三、第四、第五、第六、第七、第八、第九和/或第十多个参考序列读取训练第三、第四、第五、第六、第七、第八、第九和/或第十概率模型,其中每个所述第三、第四、第五、第六、第七、第八、第九和/或第十概率模型各自与不同类型的癌症相关。
在一些实施方式中,所述癌症或癌症的类型选自以下,包括:乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾盂输尿管尿路上皮癌、尿路上皮癌以外的肾癌、前列腺癌、肛门直肠癌、结直肠癌、食管鳞状细胞癌、鳞状细胞癌以外的食管癌、胃癌、源自肝细胞的肝胆管癌、源自肝细胞以外的细胞的肝胆管癌、胰腺癌、与人乳头瘤病毒相关的头颈癌、与人乳头瘤病毒不相关的头颈癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌和腺癌或小细胞肺癌以外的肺癌、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病。在一些实施方式中,所述癌症类型另外地选自以下,包括:脑癌、外阴癌、阴道癌、睾丸癌、胸膜间皮瘤、腹膜间皮瘤和胆囊癌。
在一些实施方式中,所述第一疾病状态包括第一来源组织和所述第二疾病状态包括第二来源组织。所述第一来源组织或所述第二来源组织选自以下,包括:乳腺组织、甲状腺组织、肺组织、膀胱组织、宫颈组织、小肠组织、结直肠组织、食管组织、胃组织、扁桃体组织、肝组织、卵巢组织、输卵管组织、胰腺组织、前列腺组织、肾组织和子宫组织。在一些实施方式中,所述第一来源组织或所述第二来源组织另外地选自以下,包括:脑组织和细胞、内分泌组织和细胞、血管内皮组织和细胞、头颈部组织和细胞、外分泌胰腺组织和细胞、内分泌胰腺组织和细胞、淋巴样组织和细胞、间充质组织和细胞、髓样组织和细胞、胸膜组织和细胞、肌肉组织和细胞、骨髓组织和细胞、脂肪组织和细胞、胆囊组织和细胞。
在一些实施方式中,所述第一概率模型或第二概率模型是常数模型、二项式模型、独立位点模型、神经网络模型或马尔可夫模型。
在一些实施方式中,本公开内容的方法、系统或非暂时性计算机可读介质还包括确定所述第一多个参考序列读取或第二多个参考序列读取中针对多个CpG位点的每一个的甲基化率,其中所述第一概率模型或第二概率模型是通过所述甲基化率的乘积参数化的。
在一些实施方式中,本公开内容的方法、系统或非暂时性计算机可读介质还包括针对所述第一多个参考序列读取或所述第二多个序列读取中的每个序列读取,确定所述序列读取是否是异常甲基化的;和使用p值过滤(filtering)通过从所述第一多个参考序列读取或所述第二多个参考序列读取除去具有低于阈值p值的序列读取来过滤所述第一多个参考序列读取或所述第二多个参考序列读取。
在一些实施方式中,本公开内容的方法、系统或非暂时性计算机可读介质还包括针对所述第一多个参考序列读取、所述第二多个序列读取或所述多个训练序列读取中的每个序列读取,通过确定具有至少一个阈值百分比的所述CpG位点的至少阈值数量的CpG位点是未甲基化还是甲基化来分别确定所述序列读取是低甲基化的还是高甲基化的。
在一些实施方式中,本公开内容的方法、系统或非暂时性计算机可读介质还包括针对所述第一多个参考序列读取、所述第二多个序列读取或所述多个训练序列读取中的每个序列读取,确定所述序列读取是否是异常甲基化的;和使用p值过滤通过从所述第一多个参考序列读取除去具有低于阈值p值的序列读取来过滤所述第一多个参考序列读取。
在一些实施方式中,所述第一概率模型或所述第二概率模型是通过多个混合分量的总和参数化的,每个分量与所述甲基化率的乘积相关。在一些实施方式中,所述多个混合分量的每个混合分量与分数赋值相关,并且其中所述分数赋值总和为一。
在一些实施方式中,训练所述第一概率模型或第二概率模型包括针对所述概率模型确定参数集合,所述参数集合使来源于与所述第一疾病状态或所述第二疾病状态相关的受试者的所述第一多个参考序列读取或第二多个参考序列读取总对数似然性最大化,所述疾病状态与所述概率模型相关。
在一些实施方式中,本公开内容的方法、系统或非暂时性计算机可读介质还包括针对多个窗口的每一个:选择来源于所述窗口的所述第一多个参考序列读取的多个,并且利用来源于所述窗口的所述序列读取来训练用于所述窗口的所述第一概率模型;和选择来源于所述窗口的所述第二多个参考序列读取的多个,并且利用所述序列读取来训练用于每个窗口的所述概率模型。
在一些实施方式中,本公开内容的方法、系统或非暂时性计算机可读介质还包括针对所述多个窗口的每一个,选择来源于所述窗口的多个所述训练序列读取的子集;和针对所述子集的每个序列读取比较所述第一概率值和所述第二概率值鉴定所述一个或多个特征。在一些实施方式中,每个所述窗口在CpG位点之间被至少阈值数量的碱基对分开。在一些实施方式中,所述多个窗口的每一个包含约200个碱基对(bp)至约10千碱基对(kbp)。
在一些实施方式中,所述一个或多个特征包括其中所述第一概率值大于所述第二概率值的所述多个训练序列读取的离群序列读取的计数。在一些实施方式中,所述一个或多个特征包括二进制计数。在一些实施方式中,所述一个或多个特征包括离群序列读取的总计数。在一些实施方式中,所述一个或多个特征包括匿名(anonymously)甲基化序列读取的总计数。在一些实施方式中,所述一个或多个特征包括包含一种或多种特定甲基化模式的片段的计数。在一些实施方式中,使用在单一基因组区域内训练的鉴别式分类器的输出来鉴定所述一个或多个特征。在一些实施方式中,所述鉴别式分类器是多层感知器或卷积神经网络模型。在一些实施方式中,比较所述第一概率值和所述第二概率值包括确定所述第一概率值和所述第二概率值的比率,并且其中所述一个或多个特征包括超过比率阈值的序列读取的序列读取计数。在一些实施方式中,所述第一概率值或所述第二概率值是对数似然性值。在一些实施方式中,所述一个或多个特征包括基于在所述第一疾病状态中所述序列读取的稀有性(rarity)对信息序列读取进行排序。
在一些实施方式中,鉴定所述一个或多个特征包括:针对所述多个训练序列读取的每个序列读取:确定所述第一概率值与所述第二概率值的对数似然性比率;和针对一个或多个阈值,确定具有超过所述阈值的对数似然性比率的所述序列读取的计数。
在一些实施方式中,本公开内容的方法、系统或非暂时性计算机可读介质还包括:针对所述一个或多个特征的每一个,确定区分所述第一疾病状态和所述第二疾病状态的所述特征的指标。
在一些实施方式中,确定所述一个或多个特征的每一个的所述指标包括:确定所述特征与所述第一疾病状态和所述第二疾病状态存在的概率之间的交互(mutual)信息。在一些实施方式中,本公开内容的方法还包括:通过基于所述指标对所述特征进行排序来过滤用于训练分类器的所述一个或多个特征。
在一些实施方式中,本公开内容的方法、系统或非暂时性计算机可读介质还包括从所述一个或多个特征训练分类器,所述分类器经训练以针对来自测试受试者的测试样品的多个序列读取预测一种或多种疾病状态,其中所述一种或多种疾病状态包括疾病的存在或不存在、疾病类型和/或疾病来源组织。在一些实施方式中,所述分类器是逻辑回归、多项逻辑回归、广义线性模型(GLM)、支持向量机、多层感知器、随机森林或神经网络分类器。在一些实施方式中,所述分类器是多层感知器模型。在一些实施方式中,所述分类器是使用L1或L2正则化逻辑回归产生的。在一些实施方式中,本公开内容的方法还包括确定针对所述测试样品的概率向量;和基于所述概率向量确定所述测试样品的标记。
在一些实施方式中,本公开内容的方法、系统或非暂时性计算机可读介质还包括使用混淆矩阵确定所述分类器的准确度,所述混淆矩阵包括描述所述分类器在鉴定所述多种疾病状态的每一种时的成功率的信息。
在一些实施方式中,所述第一参考样品或所述第二参考样品是来自具有已知疾病状态的受试者的无细胞核酸样品或组织核酸样品。
在一些实施方式中,所述已知疾病状态是所述疾病的存在或不存在、疾病类型和/或疾病来源组织。
在一些实施方式中,所述训练样品包括无细胞核酸样品或组织样品。在一些实施方式中,所述测试样品包括无细胞核酸样品。
在一些实施方式中,所述第一多个参考序列读取、所述第二多个参考序列读取、所述多个训练序列读取或者来自所述测试样品的所述多个序列读取是由甲基化测序(或甲基化感知测序)产生的。在一些实施方式中,所述甲基化测序包括全基因组亚硫酸氢盐测序。在一些实施方式中,所述甲基化测序包括靶向测序。
在其他方面中,本公开内容提供了一种用于产生分类器以预测与疾病状态相关的来源组织的方法,所述方法包括:从具有多种疾病状态的一种的参考样品产生第一多个参考序列读取,每种疾病状态与来源组织相关;使用所述第一多个参考序列读取训练多个概率模型,每个概率模型与所述多种疾病状态的不同疾病状态相关;针对所述多个概率模型的每个概率模型:针对第二多个序列读取的每一个,将所述概率模型应用于所述序列读取以确定至少基于源自与所述概率模型相关的所述疾病状态相关的样品的所述序列读取的第一概率的值;和通过确定具有超过阈值的值的所述第二多个序列读取的计数鉴定特征;和使用所述特征产生分类器,所述分类器经训练以针对来自测试受试者的测试样品的输入序列读取预测疾病状态和/或与多种疾病状态的一种疾病状态相关的来源组织。在一些实施方式中,所述多种疾病状态包括至少两种、至少三种、至少四种、至少五种或至少十种不同疾病状态。
在一些实施方式中,所述方法还包括确定所述第一多个参考序列读取中针对多个CpG位点的每一个的甲基化率,其中多个概率模型的每一个是通过所述甲基化率的乘积参数化的。
在一些实施方式中,所述多个概率模型的每个概率模型是通过多个混合分量的总和参数化的,每个分量与所述甲基化率的乘积相关。在一些实施方式中,所述多个混合分量的每个混合分量与分数赋值相关,并且其中所述分数赋值总和为一。
在一些实施方式中,训练所述多个概率模型包括:针对所述多个概率模型的一个概率模型确定参数集合,所述参数集合使来源于与所述疾病状态相关的受试者的所述第一多个参考序列读取总对数似然性最大化,所述疾病状态与所述概率模型相关。在一些实施方式中,所述方法还包括确定针对所述测试样品的概率向量;和基于所述概率向量确定所述测试样品的标记。
在一些实施方式中,确定所述值包括确定源自与所述概率模型相关的所述疾病状态相关的样品的所述序列读取的所述第一概率,其中所述疾病状态与癌症存在或癌症类型相关;确定源自健康样品的所述序列读取的第二概率;和确定所述第一概率与所述第二概率的对数似然性比率。
在一些实施方式中,鉴定所述特征包括针对多个阈值,确定具有超过所述阈值的对数似然性比率的所述第二多个序列读取的计数。
在一些实施方式中,所述方法还包括针对所述特征的每一个,确定区分所述多种疾病状态的第一疾病状态和第二疾病状态之间的所述特征的指标。
在一些实施方式中,确定所述特征的所述指标包括:确定所述特征与所述第一疾病状态和所述第二疾病状态存在的概率之间的交互(mutual)信息。
在一些实施方式中,所述第一疾病状态的第一概率等于所述第二疾病状态的第二概率。在一些实施方式中,所述方法还包括通过基于所述特征的所述指标进行排序来过滤用于训练所述分类器的所述特征。
在一些实施方式中,所述方法还包括使用混淆矩阵确定所述分类器的准确度,所述混淆矩阵包括描述所述分类器在鉴定所述多种疾病状态的每一种时的成功率的信息。
在一些实施方式中,所述方法还包括确定参考基因组的多个区块,所述区块的每一个在CpG位点之间被至少阈值数量的碱基对分开,其中使用所述多个区块产生所述第一多个参考序列读取。在一些实施方式中,针对多个CpG位点确定具有超过所述阈值的所述值的所述第二多个序列读取的所述计数。
在一些实施方式中,所述参考样品包括以下一种或多种:无细胞核酸样品和组织样品。
在一些实施方式中,所述多种疾病状态包括以下一种或多种:癌症类型、疾病类型和健康状态。
在一些实施方式中,所述分类器是逻辑回归、多项逻辑回归、广义线性模型(GLM)、多层感知器、支持向量机、随机森林或神经网络模型分类器。在一些实施方式中,所述分类器是使用L1或L2正则化逻辑回归产生的。在一些实施方式中,所述分类器是多层感知模型。
在一些实施方式中,所述方法还包括二进制化所述特征以指示所述多种疾病状态之一存在或不存在,其中使用所述二进制化特征产生所述分类器。所述二进制化特征各自具有0或1的值。
在一些实施方式中,所述方法还包括针对所述参考样品,确定定位中不确定的度量;和根据所述度量,将所述分类器的至少一种预测标记为不确定来源组织。
在其他方面中,本公开内容提供了一种方法,其包括:从一个或多个生物样品产生多个序列读取;针对染色体多个位置的每个位置:使用所述多个序列读取确定在所述位置内并且与同所述疾病状态相关的片段具有至少阈值相似性的所述一个或多个生物样品的核酸片段的计数;使用所述多个位置的所述计数作为特征训练机器学习模型;和使用经训练的机器学习模型确定具有疾病状态的测试样品的概率。
在一些实施方式中,所述方法还包括在所述多个位置的每一个中二进制化所述特征以指示所述多种疾病状态之一存在或不存在,其中在一个位置中至少一个核酸片段的计数指示在所述位置中所述疾病状态之一的存在。
在一些实施方式中,所述方法还包括根据所述多个序列读取的p值评分过滤所述多个序列读取,其中一个序列读取的所述p值评分指示在对应于所述序列读取的所述一个或多个生物样品的核酸片段中观察到甲基化的概率。
在一些实施方式中,所述机器学习模型是多层感知器模型。在一些实施方式中,所述机器学习模型使用逻辑回归。在一些实施方式中,所述多个位置的每一个代表所述染色体的多个连续碱基对。
在一些实施方式中,针对基因组的多个区域处理所述多个序列读取。在一些实施方式中,所述多个序列读取代表所述基因组区域靶子集的核酸片段。在一些实施方式中,所述多个序列读取代表全基因组的核酸片段。在一些实施方式中,所述疾病状态与至少一种癌症类型相关。在一些实施方式中,所述疾病状态与至少一种癌症类型的阶段相关。在一些实施方式中,所述方法还包括使用测试样品具有所述疾病状态的所述概率确定治疗。
在其他方面中,本公开内容提供了一种方法,其包括:从多个生物样品的核酸片段产生多个序列读取;通过处理所述多个序列读取确定第一训练数据集;使用所述第一训练数据集训练第一分类器,所述第一分类器经训练以针对来自第一测试生物样品的第一输入序列读取预测在所述第一测试生物样品中至少一种疾病状态的存在或不存在;使用所述第一分类器的预测确定所述多个生物样品的子集已存在一种或多种疾病状态;使用对应于所述多个生物样品的所述子集的所述核酸片段的所述多个序列读取的所述子集确定第二训练数据集;和使用所述第二训练数据集训练第二分类器,所述第二分类器经训练以针对来自第二测试生物样品的第二输入序列读取预测与在所述第二测试生物样品中存在的疾病状态相关的来源组织。
在一些实施方式中,所述第二分类器是包含至少一个隐藏层的多层感知器。在一些实施方式中,所述第一分类器不包含隐藏层。在一些实施方式中,所述多层感知器包含100单元隐藏层或200单元隐藏层。在一些实施方式中,所述多层感知器完全连接并使用修正线性单元激活函数。在一些实施方式中,所述第二分类器是逻辑回归或多项式逻辑回归模型。在一些实施方式中,所述第一分类器是包含至少一个隐藏层的多层感知器。在一些实施方式中,所述多层感知器(第一分类器)包含100单元或更多单元的隐藏层,并且其中所述多层感知器完全连接并使用修正线性单元激活函数。在一些实施方式中,所述第二分类器是包含至少一个隐藏层的第二多层感知器。在一些实施方式中,所述第一分类器是逻辑回归或多项式逻辑回归模型。
在一些实施方式中,所述方法还包括对所述第一分类器进行第一交叉验证;使用基于所述第一交叉验证的输出选择的第一超参数再训练所述第一分类器;对所述第二分类器进行第二交叉验证;和使用基于所述第二交叉验证的输出选择的第二超参数再训练所述第二分类器。在一些实施方式中,分别使用来自所述第一交叉验证和所述第二交叉验证的所有折叠的总和结果选择所述第一超参数和第二超参数。在一些实施方式中,选择所述第二超参数以最佳化所述第二分类器的来源组织的准确度。
在一些实施方式中,在不使用提前停止的情况下训练所述第一分类器和所述第二分类器。在一些实施方式中,使用一种或多种以下机器学习技术训练所述第二分类器:随机梯度下降、权重衰减、丢弃正则化、亚当最佳化、何氏初始化、学习速率调度、修正线性单元激活函数、泄露修正线性单元激活函数、S形激活函数和提升法。
在一些实施方式中,通过处理所述多个序列读取确定所述第一训练数据集包括在所述多个生物样品的所述核酸片段中确定观察到的甲基化的概率。在一些实施方式中,针对所述多个序列读取中多个CpG位点的每一个确定所述观察到的甲基化的概率。
在一些实施方式中,通过处理所述多个序列读取确定所述第一训练数据集包括:通过针对所述多个序列读取的每一个确定具有至少阈值百分比的CpG位点的至少阈值数量的CpG位点是未甲基化还是甲基化来分别确定所述多个序列读取是低甲基化的还是高甲基化的。
在一些实施方式中,通过处理所述多个序列读取确定所述第一训练数据集包括通过确定对应于所述多个序列读取的所述一个或多个的阈值数量或百分比的CpG位点是未甲基化的来确定所述多个序列读取的一个或多个是低甲基化的。在一些实施方式中,通过处理所述多个序列读取确定所述第一训练数据集包括通过确定对应于所述多个序列读取的所述一个或多个的阈值数量或百分比的CpG位点是未甲基化的来确定所述多个序列读取的一个或多个是低甲基化的。
在一些实施方式中,通过处理所述多个序列读取确定所述第一训练数据集包括确定所述多个序列读取的一个或多个是异常甲基化的;和使用p值过滤来过滤所述多个序列读取以产生所述第一训练数据集,其中所述p值过滤包括去除p值小于阈值p值的序列读取。
在一些实施方式中,所述方法还包括通过所述第二分类器确定指示与所述疾病状态相关的所述来源组织存在于所述第二测试生物试剂中的概率的评分;和校正所述评分。在一些实施方式中,通过所述第二分类器使用特征空间输出来进行与所述评分相关的k最邻近操作。在一些实施方式中,所述特征空间包含预测标记,所述预测标记指示在所述第二测试生物样品中存在的分别与第一和第二疾病状态相关的至少第一和第二来源组织。在一些实施方式中,所述特征空间还包含所述第二测试生物样品的正确来源组织预测与所述第一和第二来源组织不同的指示。
在一些实施方式中,校正所述评分包括使用在所述第二生物样品中存在的至少一种疾病状态的不同存在概率归一化所述概率,通过所述第一分类器确定所述不同概率。
在一些实施方式中,所述方法还包括通过所述第一分类器确定在所述第一测试生物样品中存在的所述至少一种疾病状态的概率;和响应于确定所述概率大于二进制阈值预测在所述第一测试生物样品中存在所述至少一种疾病状态。在一些实施方式中,所述二进制阈值的特异性在90%至99.9%之间。在一些实施方式中,所述第二测试生物样品具有由所述第一分类器预测的大于所述二进制阈值的概率。
在一些实施方式中,所述第一测试生物样品是所述第二测试生物样品。
在一些实施方式中,所述方法还包括通过所述第二分类器确定在所述第二测试生物样品中存在的与所述疾病状态相关的所述来源组织的概率;和响应于确定所述概率大于来源组织阈值预测在所述第二测试生物样品中存在与所述疾病状态相关的所述来源组织。在一些实施方式中,所述方法还包括通过所述第二分类器确定在所述第二测试生物样品中存在的与不同疾病状态相关的不同来源组织的不同概率;和响应于确定所述不同概率大于第二来源组织阈值预测在所述第二测试生物样品中存在与所述不同疾病状态相关的所述不同来源组织。
在一些实施方式中,所述方法还包括针对所述第二分类器,通过以下确定与给定疾病状态相关的来源组织阈值:针对候选来源组织阈值的多个不同概率,确定所述第二分类器在给定特异性率下的灵敏度率。在一些实施方式中,通过所述第一分类器使用评分输出确定所述灵敏度率。在一些实施方式中,通过所述第二分类器使用评分输出确定所述灵敏度率以对样品分层。
在一些实施方式中,所述方法还包括针对给定疾病状态最佳化所述第二分类器的灵敏度率和特异性率之间的权衡(tradeoff)。在一些实施方式中,根据来自参考样品的信息将所述多个生物样品的所述子集标记为存在已知来源组织的癌症。
在各种实施方式中,一种系统包括计算机处理器和存储器,所述存储器存储计算机程序指令,当由所述计算机处理器执行时,所述计算机程序指令使所述处理器执行本文所述的任何方法。在各种实施方式中,一种非暂时性计算机可读介质存储一个或多个程序,所述一个或多个程序包括指令,当由包含处理器的电子设备执行时,使所述设备执行本文所述的任何方法。
附图说明
图1是根据各种实施方式的用于产生分类器以预测疾病状态的方法的流程图。
图2A显示了根据一个实施方式的用于对核酸样品进行测序的装置的流程图。
图2B是根据各种实施方式的用于处理序列读取的处理系统的框图。
图3是根据各种实施方式描述对核酸进行测序的过程的流程图。
图4A显示了根据各种实施方式的图3的过程的一部分,测序核酸以获得甲基化信息和甲基化状态向量。
图4B显示了根据各种实施方式来产生对照组的数据结构。
图4C显示了根据各种实施方式的描述确定来自样品的异常甲基化片段的过程的流程图。
图5显示了根据各种实施方式的参考基因组的区块。
图6显示了根据各种实施方式的确定特征以训练分类器的过程。
图7A、图7B和图7C包括根据各种实施方式的指示分类器的准确度的混淆矩阵。
图8是根据各种实施方式的基于模型的特征化方法的流程图。
图9A和图9B显示了根据一个实施方式的来源组织分类器的灵敏度。
图10A和图10B显示了根据一个实施方式的在不同癌症阶段的来源组织分类器的灵敏度。
图11显示了根据一个实施方式的代表来源组织定位准确度的性能网格。
图12显示了根据一个实施方式的在不同癌症阶段的来源组织分类器的准确度和灵敏度。
图13A和图13B显示了根据一个实施方式的来源组织分类器的ROC曲线。
图14描述了根据各种实施方式的用于训练模型的数据流程图。
图15显示了根据各种实施方式的用于不确定调用阈值的精确召回曲线。
图16是根据各种实施方式的用于确定样品具有疾病状态的概率的方法的流程图。
图17显示了根据一个实施方式的多层感知器模型的灵敏度的性能增益。
图18描述了根据一个实施方式的在确定起源组织中的多层感知器模型的实验结果。
图19显示了根据一个实施方式的多层感知器模型在通过癌症分期确定起源组织中的实验结果。
图20显示了根据一个实施方式的跨癌症类型的多层感知器模型的实验结果。
图21显示了95%以上特异性的非癌症样品的癌症类型可能性的图。
图22显示了非癌症样品和血液学亚型癌症样品的甲基化测序数据的图。
图23A显示了根据一个或多个实施方式的描述确定二进制癌症分类的二进制阈值截止值的过程的流程图。
图23B显示了根据一个或多个实施方式的描述确定二进制癌症分类的二进制阈值截止值的来源组织标记阈值的过程的流程图。
图24A和图24B显示了展示具有另外的血液学癌症亚型的经训练的癌症来源组织分类器的性能的混淆矩阵。
图25A和图25B显示了展示在各个癌症阶段调节和不调节多种癌症类型的阈值截止值的癌症分类器的癌症预测准确度的图。
图26A描述了显示使用测定嵌板A的靶基因组区域的甲基化数据检测癌症的灵敏度和特异性的接收者操作曲线(ROC)。
图26B是描述使用测定嵌板A的靶基因组区域的甲基化数据确定患有癌症的受试者的癌症类型分类准确度的混淆矩阵。
图27A描述了显示使用测定嵌板B的靶基因组区域的甲基化数据检测癌症的灵敏度和特异性的接收者操作曲线(ROC)。
图27B是描述使用测定嵌板B的靶基因组区域的甲基化数据确定患有癌症的受试者的癌症类型分类准确度的混淆矩阵。
图28显示了根据一个实施方式的专有癌症测定嵌板(测定嵌板C)的分类器性能。
图29显示了根据一个实施方式的代表测定嵌板C的癌症来源组织定位的准确度的来源组织(TOO)混淆矩阵。
图30显示了根据一个实施方式的测定嵌板C的个体种类(按照阶段)中的分类器灵敏度性能。
图31显示了根据各种实施方式的训练模型的多个迭代的来源组织准确度。
图32显示了根据各种实施方式的使血液学信号分层成两层的过程。
具体实施方式
现在将详细参考几个实施方式,其实例在附图中示出。值得注意的是,只要可行,类似或相似的附图标记可在图中使用并且可指示类似或相似的功能。还应注意的是,本文引用的所有已出版材料(专利申请、专利、论文、会议论文集等)的内容均通过引用整体并入本文。
I.定义
除非另有定义,否则本文使用的所有技术和科学术语均具有本说明书所属领域技术人员通常理解的含义。如本文所用,下述术语具有以下赋予的含义。
术语“个体”指人个体。术语“健康个体”指假定未患有癌症或疾病的个体。
术语“受试者”指正在分析其DNA的个体。受试者可以是使用全基因组测序或如本文所述的靶向嵌板评估其DNA以评估该人是否具有疾病状态(例如,癌症、癌症类型或癌症来源组织)的测试受试者。受试者还可以是已知未患有癌症或另一种疾病的对照组的一部分。受试者还可以是已知患有癌症或另一种疾病的癌症或其他疾病组的一部分。对照组和癌症/疾病组可用于协助设计或验证靶向嵌板。
术语“对照样品”指从具有已知疾病状态的受试者获得的样品。
术语“训练样品”指从已知疾病状态获得的可用于产生序列读取的样品。可以将训练样品应用于概率模型,以产生能够用于疾病状态分类的特征。
术语“测试样品”指可能具有未知疾病状态的样品。
术语“序列读取”指从个体获得的样品中读取的核苷酸序列。序列读取可以从样品中的核酸片段产生。序列读取可以是从源自单个原始核酸分子的多个扩增子的多个序列读取产生的折叠序列读取。在一些实施方式中,序列读取可以是去重复的序列读取。序列读取可以通过本领域公知的各种方法获得。
术语“疾病状态”指疾病、疾病类型和/或疾病来源组织的存在或不存在。例如,在一个实施方式中,本公开内容提供了用于检测癌症(即,癌症的存在或不存在)、癌症类型或癌症来源组织的方法、系统和非暂时性计算机可读介质。
术语“来源组织”或“TOO”指可产生或引起疾病状态的器官、器官群、机体区域或细胞类型。例如,来源组织或癌细胞类型的鉴定通常允许鉴定适当的下一步以进一步诊断、分期和决定治疗。
如本文所用,术语“甲基化”指通过其将甲基添加到DNA分子的化学过程。DNA的四种碱基中的两种胞嘧啶(“C”)和腺嘌呤(“A”)可以被甲基化。例如,可以将胞嘧啶碱基的嘧啶环上的氢原子转化成甲基,从而形成5-甲基胞嘧啶。甲基化往往发生在胞嘧啶和鸟嘌呤的二核苷酸(在本文中称为“CpG位点”)处。在其他情况下,甲基化可以发生在非CpG位点部分的胞嘧啶处或另一非胞嘧啶核苷酸处;然而,这些情况比较少见。在本公开内容中,为了清楚起见,参考CpG位点讨论甲基化。然而,本文所述的原理同样适用于检测非CpG背景下的甲基化,包括非胞嘧啶甲基化。例如,已经在细菌、植物和哺乳动物DNA中观察到腺嘌呤甲基化,尽管其受到的关注要少得多。
在此类实施方式中,用于检测甲基化的湿实验室测定可以不同于本领域公知的本文所述的那些。此外,甲基化状态载体可以包含通常是甲基化发生或未发生的位点的载体的元件(即使那些位点不是特定的CpG位点)。在使用置换的情况下,本文所述的其余过程相同,因此本文所述的发明概念适用于那些其他形式的甲基化。
术语“CpG位点”指DNA分子中沿其5’至3’方向的碱基线性序列中胞嘧啶核苷酸后接鸟嘌呤核苷酸的区域。“CpG”是5’-磷酸-G-3’的简写,即胞嘧啶和鸟嘌呤仅被一个磷酸基团隔开;磷酸酯将DNA中的任何两个核苷酸连接在一起。在CpG二核苷酸中的胞嘧啶可以被甲基化以形成5-甲基胞嘧啶。
术语“甲基化位点”指其中可以添加甲基的DNA分子的单一位点。“CpG”位点是最常见的甲基化位点,但是甲基化位点不限于CpG位点。例如,DNA甲基化可以发生在CHG和CHH的胞嘧啶中,其中H是腺嘌呤、胞嘧啶或胸腺嘧啶。还可以使用本公开内容的方法和程序评估5-羟甲基胞嘧啶形式的胞嘧啶甲基化(参见,例如,WO 2010/037001和WO 2011/127136,其通过引用并入本文)及其特征。术语“低甲基化”或“高甲基化”指含有多个CpG位点(例如,超过3、4、5、6、7、8、9、10个等)的DNA分子的甲基化状态,其中较高百分比的CpG位点(例如,超过80%、85%、90%或95%,或者50%-100%范围内的任何其他百分比)分别是未甲基化的或甲基化的。
术语“无细胞脱氧核糖核酸”、“无细胞DNA”或“cfDNA”指在体液如血液、汗液、尿液或唾液中循环并来源于一种或多种健康细胞和/或一种或多种癌细胞的脱氧核糖核酸片段。
术语“循环肿瘤DNA”或“ctDNA”指来源于肿瘤细胞或其他类型的癌细胞的脱氧核糖核酸片段,其可因生物过程(如濒死细胞的细胞凋亡或坏死)而释放到个体体液(如血液、汗液、尿液或唾液中)或由活肿瘤细胞主动释放。
II.方法概述
图1是根据各种实施方式的鉴定多个用于产生用于预测疾病状态(例如,疾病的存在或不存在、疾病类型和/或疾病来源组织)的分类器的特征的方法100的流程图。图2B是根据各种实施方式的用于处理序列读取的处理系统200的框图。在一些实施方式中,处理系统200执行方法100以处理来自核酸样品的片段的序列读取。方法100包括但不限于以下步骤:产生序列读取;训练与多种不同疾病状态(例如,不同癌症类型)的每一种相关的概率模型;应用概率模型来确定基于序列读取源自与每个概率模型相关的多种疾病状态中的每一种相关联的样本的概率的值;通过确定具有超过阈值的值的序列读取的计数来鉴定特征;使用所述特征产生分类器,并且任选地应用所述分类器来预测疾病状态和/或与疾病状态相关的来源组织。每一个步骤根据处理系统200的组件描述,并且参见图2-6。在图2B中所示的实施方式中,处理系统200包括序列处理器210、机器学习引擎220、概率模型230和分类器240。
在步骤110中,序列处理器210从多个样品中产生第一序列读取集,每个样品具有已知或疑似疾病状态,如疾病的存在或不存在、疾病类型和/或疾病来源组织。例如,在一些实施方式中,多个样品可以包括任何数量的来自已知患有癌症的个体的癌症样品和/或来自健康个体的非癌症样品。此外,样品可以包括任何无细胞核酸样品(例如,cfDNA)、实体瘤样品和/或其他类型的样品。本领域技术人员将意识到,新一代测序程序可以从单个原始核酸分子产生多个序列读取。因此,在一些实施方式中,序列处理器210可以使用已知方法进行重复数据删除和/或折叠序列读取以去除重复序列读取并鉴定单个原始核酸分子的单个序列读取,从中产生一个或多个原始序列读取。
II.A.测定方案
图3是根据一个实施方式的描述核酸测序过程300的流程图。在一些实施方式中,作为图1的方法100的步骤110的一部分,执行过程300以产生序列读取。
在步骤310中,从受试者中提取核酸样品(例如,DNA或RNA)。在本公开内容中,除非另有说明,否则DNA和RNA可以互换使用。即,本文描述的实施方式可适用于DNA和RNA类型的核酸序列。然而,为了清楚和解释的目的,本文描述的实例可以集中在DNA上。样品可以包括来自人类基因组的任何子集,包括全基因组的核酸分子。样品可以包括血液、血浆、血清、尿液、粪便、唾液、其他类型的体液或其任何组合。在一些实施方式中,抽取血样的方法(例如,注射器或手指穿刺)的侵入性可能小于获得组织活检的程序的侵入性,或者可能需要手术。提取的样品可以包含cfDNA和/或ctDNA。如果受试者具有疾病状态,如癌症,则从受试者提取的样品中无细胞核酸(例如,cfDNA)通常包含可用于评估疾病状态的可检测水平的核酸。
在步骤315中,处理提取的核酸(例如,包含cfDNA片段)以将未甲基化的胞嘧啶转化为尿嘧啶。在一些实施方式中,方法300使用亚硫酸氢盐处理样品,其将未甲基化的胞嘧啶转化为尿嘧啶,而不转化甲基化的胞嘧啶。例如,将市售试剂盒如EZ DNA MethylationTM–Gold,EZ DNA MethylationTM–直接或EZ DNA MethylationTM–试剂盒(可从Zymo ResearchCorp(Irvine,CA)获得)用于亚硫酸氢盐转化。在另一个实施方式中,使用酶促反应来将未甲基化胞嘧啶转化成尿嘧啶。例如,转化可以使用市售试剂盒将未甲基化胞嘧啶转化为尿嘧啶,例如,APOBEC-Seq(NEBiolabs,Ipswich,MA)。
在步骤320中,制备测序文库。在一些实施方式中,制备至少包括两个步骤。在第一个步骤中,使用ssDNA连接反应将ssDNA适体添加到经亚硫酸氢盐转化的ssDNA分子的3’-OH端。在一些实施方式中,ssDNA连接反应使用CircLigase II(Epicentre)将ssDNA适体连接到经亚硫酸氢盐转化的ssDNA分子的3’-OH端,其中适体的5’-端发生磷酸化并且经亚硫酸氢盐转化的ssDNA已发生去磷酸化(即,3’端具有羟基)。在另一个实施方式中,ssDNA连接反应使用热稳定5’AppDNA/RNA连接酶(可从New England BioLabs(Ipswich,MA)获得)将ssDNA适体连接到经亚硫酸氢盐转化的ssDNA分子的3’-OH端。在该实例中,第一UMI适体在5’端处发生腺苷酸化并且在3’端被封阻。在另一个实施方式中,ssDNA连接反应使用T4 RNA连接酶(可从New England BioLabs获得)将ssDNA适体连接到经亚硫酸氢盐转化的ssDNA分子的3’-OH端。
在第二个步骤中,在延伸反应中合成第二链DNA。例如,在引物延伸反应中使用延伸引物(其杂交至ssDNA适体中所包含的引物序列)以形成经亚硫酸氢盐转化的双链DNA分子。任选地,在一些实施方式中,延伸反应使用能够读取亚硫酸氢盐转化的模板链中尿嘧啶残基的酶。
任选地,在第三个步骤中,将dsDNA适体添加到经亚硫酸氢盐转化的双链DNA分子中。然后,可以扩增经亚硫酸氢盐转化的双链DNA以添加测序适体。例如,使用包含P5序列的正向引物和包含P7序列的反向引物的PCR扩增用于将P5和P7序列添加到亚硫酸氢盐转化的DNA。任选地,在文库制备期间,可以通过适体连接将独特分子标识符(UMI)添加到核酸分子(例如,DNA分子)中。UMI是短核酸序列(例如,4-10个碱基对),其是在适体连接期间添加到DNA片段的末端。在一些实施方式中,UMI是作为独特标签的简并碱基对,所述独特标签可用于识别源自特定DNA片段的序列读取。在适体连接后的PCR扩增期间,UMI与所附接的DNA片段一起复制,这提供了在下游分析中识别来自相同原始片段的序列读取的方式。
在任选步骤325中,可以将核酸(例如,片段)杂交。杂交探针(在本文中也称为“探针”)可用于靶向并下拉提供疾病状态信息的核酸片段。对于给定的工作流程,可以将探针设计为与目标(互补)DNA或RNA链退火(或杂交)。目标链可以是“正”链(例如,转录成mRNA且随后翻译成蛋白的链)或互补“负”链。探针的长度范围可以是数十、数百或数千个碱基对。而且,探针可以覆盖靶区域的重叠部分。
在任选步骤330中,捕获杂交的核酸片段,并且可以对其进行富集,例如,使用PCR扩增。在一些实施方式中,可以从文库富集靶向DNA序列。此用于例如针对样品进行靶向嵌板测定的情形。例如,可以富集靶序列以获得可以随后测序的富集序列。在通常情况下,可以使用本领域公知的任何方法,来分离和富集与探针杂交的靶核酸。例如,如本领域所熟知的,可以将生物素部分添加到探针的5’端(即,生物素化),以促进使用链霉亲和素包被的表面(例如,链霉亲和素包被的小珠)分离杂交至探针的靶核酸。
在步骤335中,从核酸样品(例如,富集序列)产生序列读取。可以通过本领域公知的方法从富集的DNA序列采集测序数据。例如,所述方法可以包括新一代测序(NGS)技术,包括合成技术(Illumina)、焦磷酸测序(454Life Sciences)、离子半导体技术(Ion Torrent测序)、单分子实时测序(Pacific Biosciences)、连接法测序(SOLiD测序)、纳米孔测序(Oxford Nanopore Technologies)或配对末端测序。在一些实施方式中,使用合成法测序利用可逆染料终止子进行大规模平行测序。
在步骤340中,序列处理器210可以使用序列读取产生甲基化信息。然后,可以使用从序列读取确定的甲基化信息产生甲基化状态向量。图4B显示了根据一个实施方式的过程360,其从图3中对cfDNA分子测序的过程300开始来获得甲基化状态向量352。作为一个实例,分析系统接收cfDNA分子312,在该实例中,所述分子包含三个CpG位点。如所示的,cfDNA分子312的第一和第三CpG位点是甲基化的314。在处理步骤315期间,转化cfDNA分子312以产生转化的cfDNA分子322。在处理315期间,未甲基化的第二CpG位点的胞嘧啶转化成尿嘧啶。然而,第一和第三CpG位点是未转化的。
转化后,制备测序文库330,并且测序以产生序列读取342。分析系统对序列读取342与参考基因组344进行比对(未显示)。参考基因组344提供了关于片段cfDNA源自人类基因组中哪个位置的背景。在该简化的实例中,分析系统比对序列读取342,以使得三个CpG位点与CpG位点23、24和25(为了描述方便而使用的任意参考标识符)相关。因此,分析系统产生关于cfDNA分子312上所有CpG位点的甲基化状态以及CpG位点映射到人类基因组中的位置的信息。如所示的,序列读取342上的甲基化CpG位点可以解读为胞嘧啶。在该实例中,胞嘧啶仅出现在序列读取342的第一和第三CpG位点中,这使得可以推断出原始cfDNA分子中的第一和第三CpG位点被甲基化。而第二CpG位点被读取为胸腺嘧啶(在测序过程中U转化为T),因此可以推断第二CpG位点在原始cfDNA分子中未甲基化。利用这两条信息甲基化状态和位置,分析系统200产生针对片段cfDNA 312的甲基化状态向量352。在该实例中,所得甲基化状态向量352是<M23、U24、M25>,其中M对应于甲基化CpG位点,U对应于未甲基化CpG位点,以及下标数字对应于每个CpG位点在参考基因组中的位置。
II.B.鉴定异常片段
在一些实施方式中,分析系统使用样品的甲基化状态向量来确定样品的异常片段。例如,对于样品中每个核酸分子或片段而言,分析系统使用对应于核酸分子的甲基化状态向量来确定核酸分子或片段相对于来自健康样品的预期甲基化状态向量是否是异常甲基化分子或片段(通过来源于其的序列读取分析)。在一个实施方式中,分析系统计算每个甲基化状态向量的p值分数,描述在健康对照组中观察到该甲基化状态向量或其他甲基化状态向量的概率甚至更低(如例如在美国专利申请公开号2019/0287652中所描述的,其通过引用并入本文)。在下述章节II.B.i.P-值过滤中也讨论了计算p值评分的过程。分析系统可以确定并可选地过滤掉具有甲基化状态向量的核酸分子或片段的序列读取,该向量具有低于阈值p值评分作为异常片段。在另一个实施方式中,分析系统进一步将具有至少一定数量的甲基化或未甲基化百分比超过某个阈值百分比的CpG位点的片段分别标记为高甲基化和低甲基化片段。高甲基化片段或低甲基化片段也可以称为异常甲基化片段(UFXM)。在其他实施方式中,分析系统可以执行各种其他概率模型来确定异常分子或片段。其他概率模型的实例包括混合模型、深度概率模型等。在一些实施方式中,分析系统可以使用下述过程的任何组合来鉴定异常片段。使用鉴定出的异常片段,分析系统可以过滤样品的甲基化状态向量集以用于其他过程,例如,用于训练和部署癌症分类器。
II.B.I.P-值过滤
在一个实施方式中,分析系统计算每个甲基化状态向量与来自健康对照组片段的甲基化状态向量相比的p值评分。p值评分描述了观察到具有与健康对照组中的甲基化状态向量匹配的甲基化状态的核酸分子的概率。为了确定异常甲基化的DNA片段,分析系统使用健康对照组,其中大部分片段是正常甲基化的。在进行这种确定异常片段的概率分析时,该确定与构成健康对照组的对照受试者的组相比具有重要意义。为了确保健康对照组的稳健性,分析系统可以选择一定阈值数量的健康个体来获得包含DNA片段的样品。下文的图4B描述了产生健康对照组的数据结构的方法,分析系统可以使用该数据结构来计算p值评分。图4C描述了使用所产生的数据结构来计算p值评分的方法。
图4B是根据一个实施方式的描述产生健康对照组的数据结构的过程400的流程图。为产生健康对照组数据结构,分析系统从多个健康个体接收多个DNA片段(例如,cfDNA)。通过例如过程360鉴定每个片段的甲基化状态向量。
利用每个片段的甲基化状态向量,分析系统细分405甲基化状态向量为CpG位点串。在一个实施方式中,分析系统细分405甲基化状态向量,以使得所得串都小于给定长度。例如,长度11的甲基化状态向量可以细分为长度小于等于3的串,这将产生9个长度为3的串、10个长度为2的串和11个长度为1的串。在另一个实例中,将长度7的甲基化状态向量细分为长度小于或等于4的串将产生4个长度为4的串、5个长度为3的串、6个长度为2的串和7个长度为1的串。如果甲基化状态向量的长度小于或等于指定的串长度,则甲基化状态向量可以转化为包含所述向量的所有CpG位点的单个串。
分析系统200通过针对向量中的每一可能CpG位点和甲基化状态可能性计数存在于对照组中的串数来统计410串,所述对照组具有指定CpG位点作为串中的第一CpG位点且具有甲基化状态可能性。例如,在给定CpG位点处且考虑串长度为3,存在2^3或8种串配置。在给定CpG位点处,对于8种可能串配置中的每一个,分析系统统计410每一甲基化状态向量可能性出现在对照组中的次数。继续该实例,对于参考基因组中的每一初始CpG位点x而言,这可能涉及统计以下量:<Mx、Mx+1、Mx+2>,<Mx、Mx+1、Ux+2>,...,<Ux、Ux+1、Ux+2>。分析系统产生415储存每一初始CpG位点和串可能性的统计计数的数据结构。
设定串长度上限具有若干益处。首先,根据串的最大长度,分析系统创建的数据结构的大小可显著增加。例如,最大串长度4指,对于长度为4的串而言,每一CpG位点具有最低2^4个统计数。将最大串长度增加至5指,每一CpG位点具有另外的2^4或16个统计数,从而与此前串长度相比使统计数倍增(和需要计算机内存)。减小串大小有助于使数据结构的产生和性能(例如,用于以后访问,如下所述)在计算和存储方面保持合理。其次,限制最大串长度的统计学考量是避免过度拟合使用串计数的下游模型。如果长CpG位点串并不对结局(例如,预测癌症存在的异常预测)具有强生物效果,则基于加大CpG位点串来计算概率可能会有问题,因为其需要大量可能不可用的数据,因此模型过于稀疏而无法适当执行。例如,计算前100个CpG位点上的条件化异常性/癌症的概率将需要长度为100的数据结构中的串计数,在理想情况下,一些串完全匹配此前的100种甲基化状态。如果长度为100的串仅有稀疏计数可用,则数据不足以判定测试样品中长度为100的给定串是否异常。
图4C是根据一个实施方式的描述鉴定来自个体的异常甲基化片段的过程420的流程图。在过程420中,分析系统从受试者的cfDNA片段产生甲基化状态向量352。分析系统如下所述来处理每个甲基化状态向量。
对于给定甲基化状态向量而言,分析系统列举430在甲基化状态向量中具有相同初始CpG位点和相同长度的甲基化状态向量的所有可能性(即,CpG位点集)。因为每个甲基化状态通常是甲基化或未甲基化,所以在每个CpG位点处实际上存在两种可能状态,且由此甲基化状态向量的不同可能性的计数根据2的幂而定,从而长度为n的甲基化状态向量涉及2n个可能的甲基化状态向量。在甲基化状态向量包含一个或多个CpG位点的不确定状态的情况下,分析系统可列举430个可能的甲基化状态向量,其中仅考虑观察到状态的CpG位点。
通过访问健康对照组数据结构,分析系统200计算440针对所鉴定初始CpG位点和甲基化状态向量长度观察到每个甲基化状态向量可能性的概率。在一个实施方式中,计算观察到给定可能性的概率使用马尔可夫链概率对联合概率计算进行建模。在其他实施方式中,使用除马尔可夫链概率外的计算方法来确定观察到的每个甲基化状态向量可能性的概率。
分析系统使用每个可能性的计算概率来计算450甲基化状态向量的p值评分。在一个实施方式中,其包括鉴定对应于匹配所论述甲基化状态向量的可能性的计算概率。具体而言,这是与甲基化状态向量具有相同CpG位点集或类似地具有相同初始CpG位点和长度的可能性。分析系统将概率小于或等于鉴定概率的任何可能性的计算概率求和以产生p值评分。
该p值代表观察到片段的甲基化状态向量或健康对照组中可能性极小的其他甲基化状态向量的概率。因此,低p值评分通常对应于甲基化状态向量,该向量在健康个体中很少见,并且导致片段相对于健康对照组被标记为异常甲基化。高p值评分通常与甲基化状态向量在相对意义上预期存在于健康个体中有关。如果健康对照组是非癌性组,则低p值标识,片段相对于非癌症组发生异常甲基化,且由此可能指示在测试受试者中存在癌症。
如上所述,分析系统计算多个甲基化状态向量中的每一个的p值评分,每个甲基化状态向量代表测试样品中的cfDNA片段。为鉴定哪些片段异常甲基化,分析系统可基于p值评分来过滤460甲基化状态向量集。在一个实施方式中,过滤是通过将p值评分与阈值进行比较,并仅保留低于阈值的那些片段来进行的。该阈值p值评分可以是0.1、0.01、0.001、0.0001或类似的数量级。
根据来自过程的实例结果,分析系统得出的结果为,在训练中未患癌症的参与者中具有异常甲基化模式的片段的中位数(范围)为2,800(1,500-12,000),且在训练中患有癌症的参与者中具有异常甲基化模式的片段的中位数(范围)为3,000(1,200-220,000)。具有异常甲基化模式的片段的这些过滤集合可用于如下文所述的下游分析。
在一个实施方式中,分析系统使用455滑动窗口来判定甲基化状态向量的可能性并计算p值。分析系统不是针对整个甲基化状态向量枚举可能性和计算p值,而是仅为连续CpG位点的窗口枚举可能性并计算p值,其中窗口的长度(CpG位点)至少比某些片段的长度短(否则,窗口将毫无用处)。窗口长度可以是静态的、由使用者决定、动态的或以其他方式选择。
在计算大于窗口的甲基化状态向量的p值时,该窗口从该窗口内的向量中的第一CpG位点开始鉴定来自该向量的CpG位点的顺序集。分析系统计算包含第一CpG位点的窗口的p值评分。分析系统然后使窗口“滑动”至向量中的第二CpG位点,并计算第二窗口的另一p值评分。因此,对于窗口大小l和甲基化向量长度m而言,每一甲基化状态向量将产生m-l+1个p值评分。在完成每一向量部分的p值计算之后,所有滑动窗口中的最低p值评分可视为甲基化状态向量的整体p值评分。在另一个实施方式中,分析系统汇总甲基化状态向量的p值评分以产生整体p值评分。
使用滑动窗口有助于减小甲基化状态向量的所列举可能性和需要另外实施的其相应概率计算的数量。在一个现实实例中,片段可具有54个以上的CpG位点。代替计算2^54(~1.8×10^16)种可能性的概率以产生单一p评分,分析系统可以改为使用大小为5的窗口(例如),其可针对该片段的50个甲基化状态向量窗口中的每一个计算50个p值。50个计算中的每一个列举2^5(32)种甲基化状态向量可能性,其共计计算50×2^5(1.6×10^3)种概率。这可以大大减少所进行的计算,并且不显著影响异常片段的准确鉴定。
在具有不确定状态的实施方式中,分析系统可计算汇总片段的甲基化状态向量中具有不确定状态的CpG位点的p值评分。分析系统鉴定与甲基化状态向量的所有甲基化状态(排除不确定状态)一致的所有可能性。分析系统可以将概率分配给甲基化状态向量作为所鉴定的可能性的概率之和。作为一个实例,分析系统将甲基化状态向量<M1、I2、U3>的概率计算为甲基化状态向量<M1、M2、U3>和<M1、U2、U3>的可能性的概率的总和,因为观察到CpG位点1和3的甲基化状态,并且与CpG位点1和3的片段甲基化状态一致。这种对具有不确定状态的CpG位点求和的方法使用高达2^i的可能性概率的计算,其中i表示甲基化状态向量中不确定状态的数量。在其他实施方式中,可以执行动态变成算法来计算具有一个或多个不确定状态的甲基化状态向量的概率。有利地,动态编程算法以现行计算时间运行。
在一个实施方式中,通过缓存至少一些计算,可以进一步减小计算概率和/或p值的计算负担。例如,分析系统可以将甲基化状态向量(或其窗口)的可能性的概率计算缓存在瞬时或永久存储器中。如果其他片段具有相同CpG位点,则缓存可能性概率允许有效计算p评分值而无需再计算潜在可能性概率。同样,分析系统可计算与来自向量(或其窗口)的CpG位点集有关的甲基化状态向量的每个可能的p值评分。分析系统可缓存p值评分以用于确定包含相同CpG位点的其他片段的p值评分。通常,可使用具有相同CpG位点的甲基化状态向量的可能性的p值评分来确定来自相同CpG位点集的不同可能性的p值评分。
II.B.II.高甲基化片段和低甲基化片段
在一些实施方式中,分析系统将异常片段确定为具有超过阈值数量的CpG位点且具有超过阈值百分比的甲基化CpG位点或具有超过阈值百分比的未甲基化CpG位点的片段;分析系统将此类片段鉴定为高甲基化片段或低甲基化片段。片段(或CpG位点)的长度的示例性阈值包括大于3、4、5、6、7、8、9、10等。甲基化或未甲基化的实例百分比阈值包括大于80%、85%、90%或95%或50%-100%范围内的任一其他百分比。
II.C.示例性测序仪和分析系统
图2A和图2B是根据一个实施方式的用于对核酸样品进行测序的系统和装置的流程图。该说明性流程图包括诸如测序仪270和分析系统200等装置。测序仪270和分析系统200可串联工作以进行本文所述过程中的一个或多个步骤。
在各种实施方式中,测序仪270接收富集的核酸样品260。如图2A中所示,测序仪270可以包括图形使用者界面275(其实现使用者与特定任务(例如,开始测序或终止测序)互动)以及一个或多个装载站280,以用于装载包含富集片段样品的测序盒和/或用于装载进行测序测定所需的缓冲液。因此,一旦测序仪270的使用者已将所需试剂和测序盒提供给测序仪270的装载站280,使用者即可通过与测序仪270的图形使用者界面275互动来开始测序。一旦开始,测序仪270即进行测序并输出来自核酸样品260的富集片段的序列读取。
在一些实施方式中,测序仪270以通信方式与分析系统200耦合。分析系统200包括一定数量的计算装置,所述计算装置用于处理用于各种应用(如评估一个或多个CpG位点的甲基化状态、变体调用或质量控制)的序列读取。测序仪270可向分析系统200提供呈BAM文件形式的序列读取。分析系统200可通过无线通信技术、有线通信技术或无线和有线通信技术的组合以通信方式耦合值测序仪270。通常,分析系统200被配置以具有处理器和非暂时性计算机可读存储介质,该存储介质存储在由处理器执行时使得处理器处理序列读取或进行本文所公开的任一方法或过程的一个或多个步骤的计算机指令。
在一些实施方式中,可以使用本领域公知的方法比对序列读取与参考基因组以确定比对位置信息。比对位置通常可以描述参考基因组中对应于给定序列读取的起始核苷酸碱基和末端核苷酸碱基的区域的起始位置和末端位置。对应于甲基化测序,比对位置信息可以概括为根据与参考基因组的比对来指示包含在序列读取中的第一个CpG位点和最后一个CpG位点。比对位置信息可以进一步指示给定序列读数中所有CpG位点的甲基化状态和位置。参考基因组中的区域可能与基因或基因的片段相关;因此,分析系统200可以用与序列读取比对的一个或多个基因标记序列读取。在一个实施方式中,从起始位置和末端位置来确定片段长度(或大小)。
在各种实施方式中,例如在使用配对末端测序方法时,序列读取包括表示为R_1和R_2的读取对。例如,第一读取R_1可以从双链DNA(dsDNA)分子的第一末端测序,而第二读取R_2可以从双链DNA(dsDNA)的第二末端测序。因此,第一读取R_1和第二读取R_2的核苷酸碱基对可以始终与参考基因组的核苷酸碱基对对齐(例如,以相反方向)。来源于读取配对R_1和R_2的比对位置信息可以包括参考基因组中对应于第一读取(例如,R_1)末端的起始位置和参考基因组中对应于第二读取(例如,R_2)末端的末端位置。换言之,参考基因组中的起始位置和末端位置代表参考基因组内对应于核酸片段的可能位置。在一个实施方式中,读取对R_1和R_2可组装成片段,并且该片段可用于后续分析和/或分类。可生成具有SAM(序列比对图)形式或BAM(二进制)形式的输出文件并输出以供进一步分析。
现参照图2B,图2B是根据一个实施方式的用于处理DNA样品的分析系统200的框图。分析系统包括一个或多个用于分析DNA样品的计算装置。分析系统200包括序列处理器210、序列数据库215、模型数据库225、一个或多个概率模型230和/或一个或多个分类器240以及参数数据库235。在一些实施方式中,分析系统200进行本文所公开的方法或过程中的一个或多个步骤。
序列处理器210产生来自样品片段的甲基化状态向量。在片段上的每一个CpG位点处,序列处理器210通过图4B的过程360产生每个片段的甲基化状态向量,该甲基化状态向量指定该片段在参考基因组中的位置、该片段中的CpG位点数和该片段中每一CpG位点的甲基化状态(甲基化、未甲基化或不确定)。序列处理器210可将片段的甲基化状态向量存储在序列数据库215中。序列数据库215中的数据可以被组织,以使得来自样品的甲基化状态向量彼此相关。
此外,多个不同模型230可以储存在模型数据库225中或者被检索以用于测试样品。在一个实例中,模型是训练的癌症分类器240,其用于使用来源于异常片段的特征向量来确定测试样品的癌症预测。癌症分类器的训练和使用在本文的其他地方讨论。分析系统200可训练一个或多个模型230和/或一个或多个分类器240,并将各种经训练的参数储存在参数数据库235中。分析系统200将模型230和/或分类器以及函数储存在模型数据库225中。
在推理期间,机器学习引擎220使用一个或多个模型230和/或分类器240来返回输出。机器学校引擎访问模型数据库225中的模型230和/或分类器240以及来自参数数据库235的训练参数。根据每个模型,机器学习引擎220接收模型的适当输入,并基于所接收的输入、参数和每个模型的输入和输出相关函数来计算输出。在一些用例中,机器学习引擎220进一步计算与来自模型的计算输出的置信度相关的度量。在其他用例中,机器学习引擎220计算用于模型中的其他中间值。
II.B.参考基因组的块区
图5显示了根据一个实施方式的参考基因组的区块。序列处理器210可将参考基因组(或参考基因组的子集)分割成一个或多个区段,例如,涉及靶向甲基化测定的用例。举例而言,序列处理器210将参考基因组分成CpG位点的区块。在两个相邻CpG位点间的间隔超过阈值(例如,大于200个碱基对(bp)、300bp、400bp、500bp、600bp、700bp、800bp、900bp或1,000bp以及其他值)时,定义每个区块。因此,区块的碱基对大小可能不同。对于每个区块,序列处理器210可将区块再分成具有某一长度的窗口,所述长度是(例如)500bp、600bp、700bp、800bp、900bp、1,000bp、1,100bp、1,200bp、1,300bp、1,400bp或1,500bp以及其他值。在其他实施方式中,窗口的长度可以是200bp至10千碱基对(kbp)、500bp至2kbp或约1kbp。窗口(例如,相邻窗口)的一定数量的碱基对或一定百分比的长度(例如,10%、20%、30%、40%、50%或60%以及其他值)可重叠。窗口中的两个相邻CpG位点的间隔可超过阈值,例如,大于200个碱基对(bp)、300bp、400bp、500bp、600bp、700bp、800bp、900bp或1,000bp以及其他值。
序列处理器210可以使用视窗化程序来分析来源于DNA片段的序列读取。特别地,序列处理器210逐窗口扫描区块,并读取每个窗口内的片段。所述片段可源自组织和/或高信号cfDNA。高信号cfDNA样品可由二进制分类模型、由癌症阶段或由另一度量来确定。通过分割参考基因组(例如,使用区块和窗口),序列处理器210可促进计算并行化。此外,序列处理器210可通过靶向包含CpG位点的碱基对区段而跳过不包含CpG位点的其他区段来减少处理参考基因组的计算资源。
III.基于模型的特征工程化和分类
III.A.基于模型的特征工程化
根据一个实施方式,如图8中所示,本公开内容涉及用于导出对疾病状态分类有用的特征的基于模型的特征工程化。如本文其他地方所描述的,疾病状态可以是疾病存在或不存在、疾病类型和/或疾病组织或来源。例如,如本文所述,疾病状态可以是癌症存在或不存在、癌症类型和/或癌症来源组织。癌症类型和/或癌症来源组织可以选择以下,包括:乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾盂输尿管尿路上皮癌、尿路上皮癌以外的肾癌、前列腺癌、肛门直肠癌、结直肠癌、食管癌、胃癌、源自肝细胞的肝胆管癌、源自肝细胞以外的细胞的肝胆管癌、胰腺癌、上消化道的鳞状细胞癌、除鳞状细胞癌以外的上消化道癌症、头颈癌、肺癌(如肺腺癌、小细胞肺癌、鳞状细胞肺癌以及除腺癌或小细胞肺癌以外的癌症)、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病以及其他癌症类型。
在步骤810中,如本文其他地方所描述的,从具有第一疾病状态的第一参考样品产生第一多个序列读取,和从具有第二疾病状态的第二参考样品产生第二多个序列读取。第一多个序列读取和第二多个序列读取可以是超过10,000、超过50,000、超过100,000、超过200,000、超过500,000、超过1,000,000、超过2,000,000、超过5,000,000或超过10,000,000个序列读取。如本文所用,“参考序列”是从具有已知疾病状态的受试者获得的样品。在一些实施方式中,可以使用具有一种或多种已知疾病状态的一个或多个参考样品来训练一个或多个概率模型,所述概率模型继而可用于衍生用于对未知测试样品的疾病状态分类的特征。样品可以是基因组DNA(gDNA)样品或无细胞DNA(cfDNA)样品。参考样品可以是血液、血浆、血清、尿液、粪便和唾液样品。或者,参考样品可以是全血、血液成分、组织活检样品、胸膜液、心包液、脑脊液和腹膜液。在一些实施方式中,第一参考样品来自已知患有癌症的受试者和第二参考样品来自健康受试者或非癌受试者。在一些实施方式中,第一参考样品来自已知患有第一类癌症(例如,肺癌)的受试者和第二参考样品来自已知患有第二类癌症(例如,乳腺癌)的受试者。在另外其他实施方式中,第一参考样品来自已知具有第一疾病来源组织(例如,肺病)的受试者和第二参考样品来自已知具有第二疾病状态来源组织(例如,肝病)的受试者。
在步骤815中,机器学习引擎220训练分别来自第一多个序列读取和第二多个序列读取(在步骤110中产生)的第一概率模型230和第二概率模型230,每个概率模型与一种或多种可能疾病状态的不同疾病状态相关。如此前所述,疾病状态可以是癌症的存在或不存在、癌症类型和/或癌症来源组织。在各种实施方式中,训练数据分成K个子集(折叠)以用于K折叠交叉验证。可针对以下因素来平衡折叠:癌症/非癌症状态、来源组织、癌症阶段、年龄(例如,以10年期分组)、性别、民族和吸烟状况以及其他因素。可使用来自所述折叠中的K-1的数据作为概率模型的训练数据,并且可以将保留的折叠用作测试数据。
对于第一疾病状态和第二疾病状态,机器学习引擎220通过将概率模型230中的每一个分别拟合至第一多个和第二多个序列读取来分别训练第一和第二概率模型230。例如,在一个实施方式中,使用衍生自一个或多个来自已知患有癌症的受试者的样品的第一多个序列读取来拟合第一概率模型,并使用衍生自一个或多个来自健康受试者或非癌症受试者的样品的第二多个序列读取来拟合第一概率模型。在其他实施方式中,可针对第一类癌症或第一来源组织来训练第一概率模型,并且可针对第二类癌症或第二来源组织来训练第二概率模型。如本领域技术人员将意识到的是,可利用衍生自一个或多个从具有诸多可能疾病状态中的任一者的受试者获取的样品的序列读取来训练任一数量的疾病状态概率模型。例如,在一些实施方式中,可针对第三、第四、第五、第六、第七、第八、第九、第十等(例如,最多二十、三十或更多)特定癌症类型训练其他癌症特异性概率模型(即,其他类型的癌症和或来源组织模型),并且用于确定来自训练集或未知癌症类型的序列读取较另一癌症类型(或癌症的来源组织)更可能衍生自一种癌症类型(或癌症的来源组织)的概率,如本文其他地方所描述的。
如本文所用,“概率模型”是任何能够基于序列读取上的一个或多个位点处的甲基化状态向该序列读取分配概率的数学模型。在训练期间,机器学习引擎220拟合衍生自一个或多个来自具有已知疾病的受试者的样品的序列读取,并且可用于利用甲基化信息或甲基化状态向量(例如,此前针对图3-4所描述的)来确定指示疾病状态的序列读取概率。特别地,在一个实施方式中,机器学习引擎220确定序列读取内的每个CpG位点的观察到的甲基化率。甲基化率表示CpG位点内的甲基化碱基对的分数或百分比。经训练的概率模型230可由甲基化率的乘积参数化。在通常情况下,可使用任何已知概率模型来向来自样品的序列读取分配概率。例如,概率模型可以是二项式模型,其中向核酸片段上的每个位点(例如,CpG位点)分配甲基化概率,或者独立位点模型,其中每个CpG的甲基化是由不同甲基化概率指定并假设在一个位点处的甲基化独立于核酸片段上的一个或多个其他位点处的甲基化。
在一些实施方式中,概率模型230是马尔可夫模型,其中每个CpG位点处的甲基化概率取决于序列读取或衍生序列读取的核酸分子中一定数量的此前CpG位点的甲基化状态。参见,例如,美国专利申请号16/352,602,标题“Anomalous Fragment Detection andClassification”,并在2019年03月13提交。
在一些实施方式中,概率模型230是使用来自基础模型的混合分量拟合的“混合模型”。例如,在一些实施方式中,可以使用多个独立位点模型来确定混合分量,其中假设每个CpG位点处的甲基化(例如,甲基化率)独立于其他CpG位点处的甲基化。利用独立位点模型,分配至序列读取或衍生其的核酸分子的概率是每个CpG位点处的甲基化概率的乘积(其中序列读取是甲基化的),以及1减去每个CpG位点处的甲基化概率(其中序列读取是未甲基化的)。根据该实施方式,机器学习引擎220确定混合分量中的每一个的甲基化率。混合模型由混合分量的总和参数化,每个分量与甲基化率的乘积有关。n个混合分量的概率模型Pr可表示为:
Figure BDA0003355021350000361
对于输入片段而言,mi∈{0,1}表示在参考基因组的位置i处观察的片段甲基化状态,其中0指示未甲基化和1指示甲基化。每个混合分量k的分数赋值为fk,其中fk≥0且
Figure BDA0003355021350000362
fk=1。混合分量k的CpG位点中的位置i处的甲基化概率为βki。因此,未甲基化的概率为1-βki。混合分量n的数量可以是1、2、3、4、5、6、7、8、9、10等。
在一些实施方式中,机器学习引擎220使用最大似然性估计来拟合概率模型230以根据施加至正则化强度为r的每个甲基化概率的正则化罚分鉴定最大化衍生自疾病状态的所有片段的对数似然性的参数集{βki,fk}。N个总片段的最大化数量可表示为:
Figure BDA0003355021350000371
如本领域技术人员将意识到的是,可以使用其他方式来拟合概率模型以鉴定最大化衍生自参考样品的所有序列读取的对数似然性的参数。例如,在一个实施方式中,使用贝叶斯拟合(例如,使用马尔可夫链蒙特卡洛法),其中每个参数并未分配单一值,而与分布相关。在其他实施方式中,使用基于梯度的最佳化,其中使用关于参数值似然性(或对数似然性)的梯度来穿过参数空间朝向最佳步进。在其他实施方式中,使用期望最大化,其中将潜在参数集(例如,衍生每个片段的混合分量的属性)设定于其在此前模型参数下的预期值,并且然后分配模型参数以在这些潜在变量的假设条件下最大化似然性。然后,重复两步过程直至收敛。
在步骤820处,从训练样品产生多个训练序列读取。多个训练序列读取可以是超过10,000、超过50,000、超过100,000、超过200,000、超过500,000、超过1,000,000、超过2,000,000、超过5,000,000或超过10,000,000个序列读取。如本文所用,“训练样品”是从已知疾病状态获得的可用于产生序列读取的样品,所述序列读取然后应用于第一和/或第二概率模型以产生可用于疾病状态分类的特征。在步骤825中,处理系统200应用第一和第二概率模型230来确定多个训练序列读取中的每个序列读取的第一概率值和第二概率值。第一和第二概率值是基于序列读取分别源自与第一疾病状态和第二疾病状态相关联的样品的概率来确定的。处理系统200可以针对任何其他概率模型230(例如,从来自第三、第四、第五等参考样品的序列读取进行训练)重复步骤130(未显示)。
在步骤830处,通过比较多个训练序列读取中的每一个的第一概率值和第二概率值来鉴定一个或多个特征。在通常情况下,可以利用很多方法来比较第一概率值和第二概率值并鉴定特征。例如,在一个实施方式中,一个或多个特征包括多个训练序列读取中第一概率值大于第二概率值的离群序列读取的计数。该计数可以是二进制计数、离群序列读取的总计数或匿名甲基化序列读取的总计数。在另一个实施方式中,一个或多个特征包括含有特定甲基化模式的序列读取或片段的计数。例如,一个或多个特征可以是每个CpG位点处完全甲基化的序列读取或片段的计数、部分甲基化(例如,至少20%、30%、40%、50%、60%、70%、80%、90%或95%甲基化)的序列读取或片段的计数。在另一个实施方式中,使用单一基因组区域内训练的鉴别式分类器(例如,鉴别式分类器可以是多层感知器或卷积神经网络模型)的输出来鉴定一个或多个特征。在另一个实施方式中,比较第一概率值和第二概率值包括确定第一概率值与第二概率值的比率,并且一个或多个特征包括超过比率阈值的序列读取的序列读取计数。
在另一个实施方式中,第一概率值或第二概率值是对数似然性值。例如,处理系统200可以使用分别与第一疾病状态和第二疾病状态有关的拟合概率模型来计算对数似然比R。具体而言,可以使用在与第一疾病状态和第二疾病状态有关的样品的片段上观察到的甲基化模式的概率Pr来计算对数似然比:
Figure BDA0003355021350000381
处理系统200可以使用多个层级的阈值来鉴定特征。例如,所述层级包括阈值1、2、3、4、5、6、7、8和9。在一些实施方式中,可以应用平滑函数。例如,响应于确定R是(例如,显著)小于层级值,处理系统200分配约0的特征值;响应于确定R等于层级值,处理系统200分配0.5的特征值;响应于确定R是(例如,显著)大于层级值,处理系统200分配约1的特征值。每个层级指示片段(由其产生序列读取)与来自健康样品相比更可能来自与疾病状态相关的样品的不同阈值。处理系统200可使用阈值来确定离群片段的计数,所述计数可用作特征。
通过使用阈值过滤,处理系统200可将某些片段视为离群值,因为这些片段不太可能存在于健康样品中。因此,可以将离群片段视为更可能与疾病状态或癌症样品相关(例如,源自其)。特征数量可在不同层级之间有所变化,例如,一个层级可与基于相应阈值的另一层级具有不同数量的特征。在其他实施方式中,处理系统200使用不同数量的层级或其他阈值。鉴定特征或基于区分不同疾病状态的特征的指标(例如,使用交互信息来确定特征在区分两种疾病状态时的信息含量的指标)来对所鉴定特征排序的其他方式在本文其他地方描述。
在其他实施方式中,处理系统200可使用不同类型的比率或方程式来鉴定多个特征。机器学习引擎220可基于针对各种疾病状态考虑的至少一个对数似然比是否高于阈值来确定指示疾病状态(例如,癌症)的片段。
随后,如本文其他地方进一步详细描述的,可使用多个特征来训练疾病状态分类器。例如,在一些实施方式中,可使用多个特征来训练分类器以对癌症的存在或不存在、癌症类型和/或癌症来源组织进行分类。
III.B.疾病状态来源组织分类
根据另一个实施方式,如图1的步骤120中所说明的,机器学习引擎220训练概率模型230,每个概率模型与一组多种不同疾病状态的不同疾病状态相关。为清楚起见,图1描述了用于对疾病状态来源组织分类的分类器的以模型为基础的特征化和训练。然而,如此前所述,在各种实施方式中,疾病状态可以是癌症存在或不存在、癌症类型和/或癌症来源组织。此外,疾病状态可以与另一种类型的疾病相关(不必与癌症相关)或是健康状态(不存在癌症或疾病)。
机器学习引擎220使用一个或多个序列读取集来训练概率模型230,其中从一组多种不同疾病状态的不同疾病状态产生(根据步骤110)一个或多个序列读取集中的每一个。疾病状态可以包括任何数量的选择以下的癌症类型或癌症来源组织,包括:乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾盂输尿管尿路上皮癌、尿路上皮癌以外的肾癌、前列腺癌、肛门直肠癌、结直肠癌、食管癌、胃癌、源自肝细胞的肝胆管癌、源自肝细胞以外的细胞的肝胆管癌、胰腺癌、上消化道的鳞状细胞癌、除鳞状细胞癌以外的上消化道癌症、头颈癌、肺癌(如肺腺癌、小细胞肺癌、鳞状细胞肺癌以及除腺癌或小细胞肺癌以外的癌症)、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病以及其他癌症类型。
对于多种疾病状态中的每一个,机器学习引擎220通过将概率模型230拟合至衍生自对应于每种疾病状态的每个样品的序列读取来训练概率模型230。例如,在一些实施方式中,可针对特定类型的癌症来训练概率模型。根据该实施方式,可针对第一、第二、第三等特定癌症类型来训练癌症特异性概率模型,并且用于评估癌症类型(例如,关于未知测试样品)。例如,可使用衍生自一个或多个与肺癌有关的样品的序列读取集来拟合肺癌特异性概率模型。作为另一个实例,使用衍生自一个或多个与乳腺癌有关的样品的序列读取集来拟合乳腺癌特异性概率模型。在一些实施方式中,可针对第一、第二、第三等组织类型来训练组织特异性概率模型,并用于评估疾病状态来源组织。例如,可使用衍生自第一组织类型(例如,来自肺组织样品,例如肺组织活检)的序列读取集来拟合第一来源组织概率模型,并且可使用衍生自第二组织类型(例如,来自肝组织样品,例如肝组织活检)的序列读取集来拟合第二来源组织概率模型。或者,在一些实施方式中,使用衍生自一个或多个来自已知患有癌症的受试者的样品的序列读取集来拟合癌症概率模型,并使用衍生自一个或多个来自健康受试者或非癌受试者的样品的序列读取集来拟合非癌症特异性概率模型。如本领域技术人员将意识到的是,可利用衍生自一个或多个从具有诸多可能疾病状态中的任一者的受试者获取的样品的序列读取来训练任一数量的疾病状态概率模型。例如,在一些实施方式中,可以从3、4、5、6、7、8、9、10个或更多个参考样品产生多个序列读取,每个参考样品是从一个或多个具有不同疾病状态(例如,不同癌症类型)的受试者获得,并使用所述序列读取来训练3、4、5、6、7、8、9、10个或更多个概率模型。
在训练期间,可使用指示疾病状态的序列读取利用甲基化信息或甲基化状态向量(例如,此前针对图3-4所描述的)来训练机器学习引擎220。特别地,机器学习引擎220确定序列读取内的每个CpG位点的观察的甲基化率。甲基化率表示CpG位点内的甲基化碱基对的分数或百分比。训练的概率模型230可由甲基化率的乘积参数化。如此前所描述的,可以使用任何已知的概率模型来向来自样品的序列读取分配概率。例如,概率模型可以是二项式模型,其中向核酸片段上的每个位点(例如,CpG位点)分配甲基化概率;或者是独立位点模型,其中每个CpG的甲基化是由不同甲基化概率指定,并假设一个位点处的甲基化独立于核酸片段上的一个或多个其他位点处的甲基化。
在一些实施方式中,使用马尔可夫模型,其中每个CpG位点处的甲基化概率取决于序列读取或衍生序列读取的核酸分子中一定数量的此前CpG位点的甲基化状态。参见,例如,美国专利申请号16/352,602,标题“Anomalous Fragment Detection andClassification”,并在2019年03月13提交。
在一些实施方式中,概率模型230是使用来自基础模型的混合分量拟合的“混合模型”。例如,在一些实施方式中,可以使用多个独立位点模型来确定混合分量,其中假设每个CpG位点处的甲基化(例如,甲基化率)独立于其他CpG位点处的甲基化。利用独立位点模型,分配至序列读取或衍生其的核酸分子的概率是每个CpG位点处的甲基化概率的乘积(其中序列读取是甲基化的),以及1减去每个CpG位点处的甲基化概率(其中序列读取是未甲基化的)。根据该实施方式,机器学习引擎220确定混合分量中的每一个的甲基化率。混合模型由混合分量的总和参数化,每个分量与甲基化率的乘积有关。n个混合分量的概率模型Pr可表示为:
Figure BDA0003355021350000421
对于输入片段而言,mi∈{0,1}表示在参考基因组的位置i处观察的片段甲基化状态,其中0指示未甲基化和1指示甲基化。每个混合分量k的分数赋值为fk,其中fk≥0且
Figure BDA0003355021350000422
fk=1。混合分量k的CpG位点中的位置i处的甲基化概率为βki。因此,未甲基化的概率为1-βki。混合分量n的数量可以是1、2、3、4、5、6、7、8、9、10等。
在一些实施方式中,机器学习引擎220使用最大似然性估计来拟合概率模型230以根据施加至正则化强度为r的每个甲基化概率的正则化罚分鉴定最大化衍生自疾病状态的所有片段的对数似然性的参数集{βki,fk}。N个总片段的最大化数量可表示为:
Figure BDA0003355021350000423
在步骤130中,处理系统200应用概率模型230来计算第二序列读取集(例如,不同于步骤110中所产生的第一序列读取集)中的每个序列读取的值。所述值是至少基于序列读取(和相应片段)源自与概率模型230的疾病状态有关的样品的概率所计算。处理系统200可针对不同概率模型230中的每一个重复步骤130。在一些实施方式中,处理系统200使用对于似然比R利用与某些疾病状态相关的拟合的概率模型来计算值。具体而言,可使用在与疾病状态和健康样品有关的样品的片段上观察到的甲基化模式的概率Pr来计算对数似然比:
Figure BDA0003355021350000431
在其他实施方式中,处理系统200可使用不同类型的比率或方程式来计算值。机器学习引擎220可基于针对各种疾病状态考量的至少一个对数似然比是否高于阈值来确定指示疾病状态(例如,癌症)的片段。
III.C.特征选择
图6显示了根据一个实施方式的确定用于训练分类器的特征的过程。如此前所描述的,机器学习引擎220训练与疾病状态相关的概率模型230。在图6中所示的实例中,概率模型230(“组织模型”)与非癌症(健康)、乳腺癌和肺癌相关。处理系统200处理一种或多种cfDNA和/或肿瘤样品以获得片段,并使用概率模型230向与非癌症(健康)、乳腺癌和肺癌相关的片段分配某一值。处理系统200可使用来自cfDNA和/或种类样品的序列读取的信息来鉴定分类器的特征。在一些实施方式中,处理系统200可以从分区的参考基因组的每个窗口中获得和分配片段,如图5中所示。处理系统200将来自窗口的片段汇总为用于确定分类器的特征的序列。
在步骤140中,处理系统200通过确定具有超过阈值的值的序列读取的计数来鉴定特征。在值是基于多数似然比R的实施方式中,阈值是阈值比率。处理系统200可使用多个层级的阈值来鉴定特征。例如,所述层级包括阈值1、2、3、4、5、6、7、8和9。每个层级指示片段(从其产生序列读取)与来自健康样品相比更可能来自与疾病状态相关的样品的不同阈值。处理系统200可使用阈值来确定离群片段的计数,所述计数可用作特征。
通过使用阈值加以过滤,处理系统200可将某些片段视为离群值,因为所述片段不可能存在于健康样品中。因此,离群片段可以被认为更可能与(例如,源自)疾病状态或癌症样品相关。不同层级之间特征数量可能会有所不同。在其他实施方式中,处理系统200使用不同数量的层级或其他阈值。在其他实施方式中,处理系统200可使用其他方法或评分(如p值)来过滤片段。在一些实施方式中,处理系统200计算甲基化状态向量的p值,所述p值描述观察到该甲基化状态向量或健康对照组中可能性极小的其他甲基化状态向量的概率。为确定异常甲基化的片段,处理系统200使用大部分片段正常甲基化的健康对照组(参见,例如,美国专利申请号16/352,602,标题“Anomalous Fragment Detection andClassification”,并在2019年03月13提交)。
处理系统200可针对步骤120中所训练的每个概率模型重复步骤130至140。因此,处理系统200可鉴定一种或多种与概率模型相关的疾病状态的特征。在图6中所示的实例中,处理系统200鉴定乳腺癌和肺癌的一个或多个特征。
在一些实施方式中,处理系统200基于区分不同疾病状态的特征的指标来对所鉴定的特征排序。例如,如果特征可区分某些癌症类型与其他癌症类型或健康样品,则特征具有信息性。处理系统200可使用交互信息来确定区分两种疾病状态的特征的信息内容的指标。对于每对不同疾病状态,处理系统200可将一种疾病状态(例如,癌症类型A)指定为阳性类型,并将另一疾病状态(例如,癌症类型B)指定为阴性类型。
可以使用阳性类型和阴性类型(例如,癌症类型A和B)的样品的估计分数来计算交互信息,所述样品的特征预计在最终测定中为非零。例如,如果特征频繁出现在健康cfDNA中,则处理系统200确定所述特征不可能频繁出现在与各种类型癌症有关的cfDNA中。因此,所述特征可为区分疾病状态的较弱指标。在计算交互信息I时,变量X是某一特征(例如,二进制)和变量Y表示疾病状态(例如,癌症类型A或B):
Figure BDA0003355021350000441
Figure BDA0003355021350000451
p(1|A)=fA+fH-fHfA
X和Y的联合概率质量函数为p(x,y),并且边界概率质量函数为p(x)和p(y)。处理系统200可假设特征缺失是无信息的,并且任何一种疾病状态都是先验概率相等的,例如,p(Y=A)=p(Y=B)=0.5。观察到(例如,在cfDNA中)癌症类型A的给定二进制特征的概率由p(1|A)表示,其中fA是在来自与癌症类型A相关的肿瘤的ctDNA样品(或高信号cfDNA样品)中观察到该特征的概率,并且fH是在健康或非癌症cfDNA样品中观察到该特征的概率。
在一些实施方式中,通过cfDNA预计包含非零特征值的癌症患者的分数来估计fA值。在癌症类型A的训练数据由cfDNA样品组成时,该分数可估计为仅为观察到该特征的cfDNA样品的分数。在训练数据包含种类样品时,可进行校正以补偿cfDNA中低于肿瘤的分数的肿瘤源片段。对于确定具有大于阈值的值的种类样品中的N个片段(例如,来自步骤140),处理系统200将在来自该患者的cfDNA中检测到那些片段中的每一个的概率r计算为:
Figure BDA0003355021350000452
在来自该患者的cfDNA中观察到至少一个片段的概率可然后计算为p(NcfDNA>0)=1-(1-r)N。为估计fA,可在癌症类型A的所有训练样品中对p(NcfDNA>0)取平均值,其中该概率可分配为1(对于具有该特征的cfDNA样品)、0(对于缺乏该特征的cfDNA样品)和1-(1-r)N(对于种类样品)。在一些实施方式中,估计是基于早期癌症患者的cfDNA中的种类分数的预定假设值(例如,0.1%)、拟应用至患者的最终分析中的cfDNA测序深度(例如,1000x)以及肿瘤测序深度(例如,25x)。为估计fH,处理系统200使用阳性样品的分数来确定有多少其他样品将在较大测序深度下得到阳性检测分类。
III.D.分类
在步骤150中,处理系统200使用特征产生分类器。分类器经训练以针对来自测试受试者的测试样品的输入序列读取预测与疾病状态相关的来源组织。处理系统200可针对每对疾病状态(例如)基于交互信息计算或另一计算指标来选择预定数量(例如,1024)的定级特征以训练分类器。预定数量可视为基于交叉验证中的性能而选择的超参数。处理系统200还可以从参考基因组的区域中选择经确定在区分疾病状态对方面更具有信息性的特征。在各种实施方式中,处理系统200使得每个区域和每种癌症类型对(包括非癌症作为阴性类型)保持最佳性能层级。
在一些实施方式中,处理系统200通过以下方式来训练分类器:将具有特征向量的训练样品集输入分类器中并调节分类参数,从而分类器的函数准确地使训练特征向量与其相应标记相关联。处理系统200可将训练样品分组成一个或多个训练样品集以供分类器的迭代批量训练。在输入训练样品(包括其训练特征向量)的所有集合并调节分类参数之后,可充分训练分类器以根据一定误差界限内的特征向量来标记测试样品。处理系统200可根据诸多方法中的任一种来训练分类器,例如,L1正则化逻辑回归或L2正则化逻辑回归(例如,使用对数损失函数)、广义线性模型(GLM)、随机森林、多项式逻辑回归、多层感知器、支持向量机、神经网络或任何其他适宜机器学习技术。
在各种实施方式中,处理系统200通过二进制来转变特征值。特别地,将大于0的特征值设定为1,从而特征值为0或1(指示疾病状态的存在或不存在)。在其他实施方式中,可实施平滑函数(例如,用以提供更精细的值)而不是二进制化至0或1。如图14中所示,处理系统200可在使用特征训练分类器之前在交叉验证中使特征二进制化。
在各种实施方式中,处理系统200使用折叠的训练数据来训练多项式逻辑回归分类器,并产生对保留数据的预测。对于K个折叠中的每一个,处理系统200针对每个超参数组合训练一个逻辑回归。一个实例超参数是L2罚分,即,应用至逻辑回归的权重的正则化形式。另一个实例超参数是topK,即每一组织类型对(包括非癌症)拟保留的高级区域的数量。例如,在topK=16的情况下,处理系统200是每个组织类型对保留排名居前的16个区域,如通过本文所描述的交互信息程序排序。通过根据该程序,处理系统200可以产生训练集中的每个样品的预测,同时确保并不使用产生预测的数据来训练分类器。
在各种实施方式中,对于每个超参数集,处理系统200根据完整训练集的经交叉验证的预测来评价性能,并且处理系统200选择具有最佳性能的超参数集来使用完整训练集进行再训练。可基于对数损失度量来确定性能。处理系统200可通过以下方式来计算对数损失:获得每个样品的正确暴击的预测的负对数,并且然后在样品中求和。例如,正确标记的完美预测1.0将得到对数损失0(越低越准确)。为产生新样品的预测,处理系统200可使用上述方法计算特征值,但限于在所选择topK值下选择的特征(区域/正分类组合)。处理系统200可使用所产生特征并且使用训练的逻辑回归模型来产生预测。
在可选步骤160中,处理系统200应用分类器来预测测试样品的来源组织,其中来源组织与疾病状态之一相关。在一些实施方式中,分类器可返回一种以上疾病状态或来源组织的预测或似然性。例如,分类器可返回以下预测:测试样品具有乳腺癌来源组织的似然性为65%,具有肺癌来源组织的似然性为25%,并且具有健康来源组织的似然性为10%。处理系统200可进一步处理预测值以产生单一疾病状态确定。
III.E.不确定定位
在各种实施方式中,肿瘤分数可以是通过训练的分类器或模型对样品进行预测的协变量。随着肿瘤分数降低,评分分配(例如,基于前述对数似然比R)可能变得不太确定,直至达到分类检测限值位置(即,癌症/癌症类型的检测概率为50%)。具有高cfDNA肿瘤分数的样品往往分类明确,而具有低cfDNA肿瘤分数的样品往往较为模糊。在具有模糊信号的情况下,分配变得不太可靠,并且可能是偶然的正确或不正确。在单一定位的用例中,处理系统200可鉴定模糊信号,并将那些预测分离为“不确定定位类别”。
例如,在一些实施方式中,对于癌症评分大于特异性靶阈值的个体而言,处理系统200可从来源组织定位向量集来确定事后不确定分配。处理系统200可在交叉验证下确定不确定分配。对于每个样品,处理系统200可计算捕获该样品的定位不确定性的度量。作为一个实例方法,处理系统200使用来源组织定位的信息熵(位)计算度量,其中当一个预测是确定的时,位值为零出现。在最模糊情形(所有n个种类的概率相等)下,处理系统200以log2(n)来计算位值。作为另一个实例方法,处理系统200使用顶级评分与第二级评分之间的差(Δ值)值来确定度量。Δ值1出现在一种预测是确定的是。Δ值0出现在最模糊情形下。通过包括不确定结局,处理系统200可筛选出(filter out)仅偶然正确的弱调用并提高确定定位调用的精确度(例如,来源组织分配正确的分数)。
作为post-hoc不确定分配的替代方式,处理系统200可在训练期间使用期望最大化来确定对不确定分类的分配。处理系统200亦可向分类器输出添加第二层以将病例分类成不确定分类。
考虑到度量和每个样品是否正确定位的记录,处理系统200可以计算用于不确定调用阈值的精确-召回曲线,如图18所示。可(例如)基于靶精密度水平(如图18中所示实例中的90%)来选择截止点。处理系统200可针对个别定位标记(例如,针对某一癌症类型)或针对所有癌症类型的整体来计算截止点。对取舍进行最佳化,并且可能取决于错误定位调用的成本与分配不确定结果(例如,精确度和召回率)的调用数量。
III.F.防止分类失衡
在各种实施方式中,单个样品的要素评分向量si包含每个预测种类(例如,疾病状态)的信号定位的事后概率。每个要素按与每个类的训练实例比例成比例的先验概率进行缩放:
Figure BDA0003355021350000491
Figure BDA0003355021350000492
如果分类失衡,则具有弱信号的样品可移位到不适当分类。例如,训练集可包含99%的检测到肝癌但极少检测到不同癌症类型的样品。因此,使用该集合训练的分类器可倾向肝癌预测(或总是猜测该分类)。此外,如果分类器训练中的分类比例与应用分类器的总体频率(例如,其中分类比例更平衡)不兼容,则可能会产生不正确的预测。
为评估分离器从甲基化和/或基因组和/或临床特征来定位cfDNA样品的能力,处理系统200可靶向跨类比例等值性。处理系统200可以针对筛选群体中疾病状态的发生率校准分数,任选地考虑疾病通过肿瘤分数的可检测性。通过修订应用至使用一般训练集训练的分类器的先验,处理系统200可定制分类器以改良针对与先验有关的特定群体的预测(例如,指示该特定群体中的疾病状态的分布)。基于特定疾病状态或癌症类型在相应个体子群体中的流行率,不同地理区域或国家可具有不同先验。
作为一个实例方式,处理系统200对模型评分进行事后再校准。具体而言,处理系统200通过将所分配概率除以某一分类的训练集实例的频率来校正该分类的评分。可任选地通过添加伪计数来稳定校正。处理系统200然后可正规化每个评分向量si,且总和为一。
作为另一种方式,处理系统200可将低频训练实例再取样至所需比例。作为又一种方式,处理系统200可在分类器训练中再加权损失函数。
IV.多层感知器模型
在一些实施方式中,可使用多层感知器模型(“MLP”)来替代逻辑回归以供分类。对于基于国际回归的分类器而言,MLP分类器可以是单一多分类分类器,其用于检测癌症和确定癌症的来源组织(TOO)或癌症类型两者。例如,多类分类器可被训练以区分两种或更多种、三种或更多种、五种或更多种、十种或更多种、十五种或更多种或者二十种或更多种不同癌症类型。在一个实施方式中,多类癌症MPL模型亦可包含非癌症的分类标记,并且可确定癌症检测(例如,以1-非癌症形式)。在另一个实施方式中,多层感知器模型可以是两阶段分类器,第一阶段用于二进制分类(例如,癌症或非癌症),和第二阶段多层感知器模型用于多类分类(例如,TOO),例如,具有一个或多个隐藏层。
在一个实施方式中,多层感知器包括以下两阶段分类器:第一阶段多层感知器(MLP)二进制分类器,其并无隐藏层;和第二阶段多层感知器(MLP)多类分类器,其具有单一隐藏层。在一个实施方式中,使用第一阶段分类器确定为具有癌症的样品随后通过第二阶段分类器进行分析。
在第一训练阶段中,可训练用于检测癌症存在的无隐藏层的二进制(两类)多层感知器模型以区分癌症样品(不论TOO如何)与非癌症。对于每个样品,二进制分类器输出指示癌症的存在或不存在的似然性的预测评分。
在第二训练阶段中,可训练用于确定癌症类型或癌症的来源组织的平行多类多层感知器模型。在一个实施方式中,仅评分高于截止阈值的癌症样品(例如,第一阶段分类器中的95%的非癌症样品)可纳入该多类MLP分类器的训练中。对于训练和测试中所使用的每个癌症样品而言,多类MLP分类器输出关于所分类癌症类型的预测值,其中每个预测值是给药样品具有某一癌症类型的似然性。例如,癌症分类器可返回测试样品的癌症预测,该癌症预测包括乳腺癌预测评分、肺癌预测评分和/或无癌症预测评分。
图16是根据各种实施方式的用于确定样品具有疾病状态的概率的方法1600的流程图。在一些实施方式中,处理系统200进行方法1600以处理来自核酸样品的片段的序列读取。方法1600包括但不限于针对处理系统200的组件所描述的以下步骤。
在步骤1610中,处理系统200从一个或多个生物样品产生序列读取。在一些实施方式中,处理系统200根据序列读取的p值评分来过滤序列读取。序列读取的p值评分指示在一个或多个生物样品中对应于序列读取的核酸片段中观察到甲基化的概率。
在步骤1620中,处理系统200使用序列读取来确定针对染色体位置集中的每个位置在该位置内与疾病状态相关片段(例如,癌症样片段)具有至少阈值相似性的一个或多个生物样品的核酸片段的计数。疾病状况可与至少一类癌症、癌症阶段或另一类疾病或病况相关。
每个位置可代表染色体的连续碱基对的数量。碱基对数量可在不同位置之间所有变化。处理系统200可产生基因组的多个区域的序列读取。可以有多达数万个或更多的区域。每个区域可以包含数百、数千或更多碱基对。方法1600可进行全基因组亚硫酸氢盐测序(WGBS)或靶向嵌板测定。
在步骤1630中,处理系统200使用位置计数作为特征来训练机器学习模型。在一些实施方式中,处理系统200将特征二进制化以指示一种疾病状态在每个位置中的存在或不存在(例如,Boolean值)。某一位置中的至少一个核酸片段的计数指示在该位置中存在一种疾病状态。某一位置中的零个核酸片段的计数指示在该位置中不存在一种疾病状态。在一些实施方式中,机器学习模型可以是逻辑回归模型。在一些实施方式中,机器学习模型可以是多层感知器模型(神经网络)。如本领域技术人员将容易理解的是,可使用其他机器学习模型,包括,例如,广义线性模型(GLM)、多层感知器、支持向量机、随机森林或神经网络分类器。
在步骤1640中,训练的机器学习模型确定测试样品具有疾病状态的概率。检测样品可从患者获得,并且可以包括血液和/或组织。在可选的步骤1650中,根据该概率向患者提供治疗。例如,可响应于确定该概率大于阈值而向患者提供治疗(例如,药物或干预程序)。在另一个实施方式中,在可选的步骤1650中,可产生测试报告以向患者提供其测试结果(包括测试样品具有疾病的概率)。
通过训练模型使用来自CCGA研究(其在下文中进一步描述)的样品获得图17-20中所显示的实验结果。
图17显示了根据一个实施方式的多层感知器模型的灵敏度的性能增益。与逻辑回归模型相比,多层感知器模型(MLP)显示癌症阶段I、II、III和IV中的疾病检测灵敏度的性能增益。
图18显示了根据一个实施方式的多层感知器模型确定来源组织的实验结果。与逻辑回归模型(LR:1803和1804)相比,多层感知器模型(MLP:1801和1802)在确定来源组织方面具有改善的准确度。在处理与训练集的所有癌症类型有关的序列读取时,以及在处理训练集的序列读取(包括训练集中的每种癌症类型的10个以上实例序列读取)时,可改善准确度。
图19显示了根据一个实施方式的多层感知器模型根据癌症阶段来确定来源组织的实验结果。与逻辑回归(LR)相比,多层感知器模型(MLP)显示癌症阶段I、II、III和IV中的来源组织(TOO)检测准确度的性能增益。在该癌症阶段中,MLP模型针对阶段I的性能增益最大。
图20显示了根据一个实施方式的多层感知器模型在各种类型癌症中的实验结果。对于图20中所显示的大部分癌症类型,多层感知器模型(MLP)所达到的来源组织(TOO)检测准确度大于逻辑回归模型。
在一些实施方式中,分析系统使用两阶段模型来确定癌症或另一类疾病状态的来源组织(TOO)。分析系统从生物样品的核酸片段产生序列读取。分析系统通过例如使用部分II.A.测定方案中所描述的任一过程处理序列读取来确定第一训练数据集。分析系统可使用甲基化信息来确定第一训练数据集。例如,分析系统通过确定阈值数量或百分比的对应于序列读取的CpG位点未甲基化来确定低甲基化序列读取。此外,分析系统通过确定阈值数量或百分比的对应于序列读取的CpG位点经甲基化来确定高甲基化序列读取。分析系统还可以确定序列读取发生异常甲基化。在一些实施方式中,分析系统通过去除p值小于阈值p值的序列读取来过滤序列读取。
分析系统使用第一训练数据集训练二进制分类器。二进制分类器经训练以针对来自第一测试生物样品的输入序列读取来预测二进制输出,即,在第一测试生物样品中存在或不存在至少一种疾病状态。
使用二进制分类器的预测,分析系统可确定,生物样品的子集存在一种或多种疾病状态。可使用二进制分类器来训练来源组织分类器。特别地,分析系统使用对应于生物样品子集的核酸片段的序列读取来确定第二训练数据集。分析系统使用第二训练数据集来训练来源组织分类器。来源组织分类器经训练以针对来自第二测试生物样品的输入序列读取来预测与存在于第二测试生物样品中的疾病状态有关的来源组织。第一测试生物样品和第二测试生物样品可以是相同样品或不同样品。
在一些实施方式中,分析系统使用来源组织分类器来确定指示与疾病状态相关的来源组织存在于第二测试生物样品中的概率的评分。分析系统可校准评分以例如调整过度自信模型的输出。例如,分析系统结合评分使用由来源组织分类器输出的特征空间来进行k-最临近(KNN)操作。在一个实施方式中,特征空间包括来自来源组织分类器的排名考前的两种预测标记(例如,肺癌和前列腺癌)以及关于是否正确分类是不同于最主要两种预测的疾病状态的指示。分析系统还可通过使用二进制分类器的输出正规化概率来校正评分,该输出指示存在于第二测试生物样品中的至少一种疾病状态的不同存在概率。
在一些实施方式中,来源组织分类器是包括至少一个隐藏层的多层感知器。来源组织分类器还可以包括100-单元隐藏层或200-单元隐藏层以及其他大小的隐藏层。多层感知器可完全连接,并使用修正线性单元激活函数。在一些实施方式中,二进制分类器是不包括隐藏层的多层感知器。在一个不同实施方式中,二进制分类是包括至少一个隐藏层的多层感知器。在其他实施方式中,这些分类器可以是逻辑回归模型、多项式逻辑回归模型或其他类型的机器学习模型。
此外,分析系统可使用本领域技术人员公知的一种或多种机器学习技术来训练来源组织分类器和二进制分类器,所述技术尤其包括例如非早停法(而是选择既定数量的训练时期)、随机梯度下降、权重衰减、丢弃正则化、亚当最佳化、何氏初始化和学习速率调度、修正线性单元激活函数、泄露修正线性单元激活函数、S形激活函数和提升法。如图31中所示,来源组织分类器的来源组织准确度随训练迭代而有所改良。每一迭代可包含机器学习技术的不同组合。另外,在不同癌症阶段:I、II和III中来源组织准确度有所增加。
在一些实施方式中,分析系统对来源组织分类器和二进制分类器中的一者或两者进行交叉验证。分析系统可以使用基于交叉验证的输出选择的超参数再训练分类器。分析系统可通过汇总来自交叉验证中的所有折叠的结果来选择超参数。在一个实施方式中,分析系统选择超参数以通过最佳化来源组织准确度(而非对数似然性)来训练来源组织分类器,这是因为分类器对信号更强的样品可以更有信心。
在一些实施方式中,分析系统通过来源组织分类器来确定与疾病状态相关的来源组织存在于第二测试生物样品中的概率。分析系统响应于确定该概率大于来源组织阈值而预测,与疾病状态有关的来源组织存在于第二测试生物样品中。分析系统可确定与不同来源组织有关的不同来源组织阈值。此外,分析系统可通过迭代通过候选来源组织阈值的多种不同概率来确定与给定疾病状态相关的来源组织阈值。对于每一迭代而言,分析系统确定在来源组织分类器的给定特异性下的灵敏度。分析系统可最佳化来源组织分类器针对给定疾病状态的灵敏度率与特异性率之间的取舍。分析系统可使用由二进制分类器或来源组织分类器输出的评分来确定灵敏度率。另外,分析系统可使用来自来源组织分类器的评分来对样品分层。
在一些实施方式中,分析系统使用二进制化特征来训练二进制分类器和来源组织分类器,每个特征具有0或1的值。在二进制化中使用1代替大于1的值。
V.二进制分类阈值的调谐
分析系统可以调谐经训练的癌症分类器以修剪用于训练癌症分类器的样品。特别地,分析系统可试图去除具有高组织信号的非癌症样品,从而降低癌症分类器在癌症预测中的灵敏度。高组织信号是指与健康分布相比样品具有显著分数的来自来源组织(TOO)的cfDNA,例如,通过来源组织分类器、多类癌症分类器或其他方式所确定。具有高组织信号的非癌症样品在非癌症分布中是离群值,并且可以是前期癌症、早期癌症或未诊断癌症。分析系统可鉴定至少一种癌症类型中具有高组织信号的非癌症样品。在一些实施方式中,某些癌症类型进一步分成癌症亚型。例如,血液学癌症类型可进一步分成例如以下各种的组合:循环淋巴样亚型、非霍奇金氏淋巴瘤(NHL)惰性亚型、NHL侵袭性亚型、霍奇金氏淋巴瘤(HL)亚型、髓样亚型和浆细胞亚型。
参见图21,图21显示了高于95%特异性的非癌症样品的癌症类型似然性的图形。计算来自多个非癌症样品(即,来自当前未经诊断患有癌症的健康个体的样品)的每个非癌症样品的癌症评分。癌症评分可由二进制分类器在考虑样品的甲基化测序数据下确定为样品具有癌症的似然性。在其他实施方式中,可根据其他方法来计算癌症评分,所述方法至少输入测序数据(例如,甲基化、单核苷酸多态性(SNP)、DNA、RNA等)和基于所输入测序数据输出样品具有癌症的似然性。分类器的一个实例是混合模型分类器。可根据非癌症样品的癌症评分来产生非癌症样品的分布。可设定二进制阈值截止值以确保一定程度的二进制分类特异性(例如,真阴率)。通常,使用高特异性截止值来对癌症分类,例如,介于90%和99.9%之间或99.5%的特异性或更高。然而,很多用于训练癌症分类器且刚好低于特异性截止值的非癌症样品可具有高组织信号,从而正偏离二进制阈值截止值。
为加以证实,选择高于95%特异性的非癌症样品,并且然后输入至多类癌症分类器中,以确定每种癌症类型或来源组织(TOO)的概率。在多类癌症分类器的该实施方式中使用的癌症类型或TOO标记包括循环淋巴样、髓样、NHL惰性、结直肠、NHL侵袭性、肺、子宫、乳腺、前列腺、胰腺和胆囊、上消化道、膀胱和尿路上皮、浆细胞、头颈、肾、卵巢、肉瘤、肝和胆管、宫颈、其他组织、HL、肛门直肠、黑色素瘤、甲状腺。图21中的图显示了来自至少一种组织类型的具有高组织信号的很多非癌症样品。组织类型列中的每个点对应于高于95%特异性阈值的非癌症样品的来源组织似然性。值得注意的是,很多组织类型具有多个具有显著组织贡献的肺癌样品离群值,这对于非癌症样品而言并不常见。这可以发生在当此类非癌症样品具有由癌症样甲基化、克隆分数和/或生长/周转速率驱动的cfDNA信号时。可以推断,用于训练癌症分类器的大量非癌症样品可能是前期癌症、早期癌症或未确诊癌症。然而,这些具有显著组织贡献的非癌症样品使二进制分类截止值阈值向上移位,从而降低了癌症分类的灵敏度,特别是对于组织信号明显低于此前设置的二进制分类截止值阈值的样品。在实践中,此类信号(例如,对应于循环淋巴样、髓样和NHL惰性)可以是假阳性判定的主要诱因。应注意的是,循环淋巴样、髓样、NHL惰性、结直肠、NHL侵袭性、肺、子宫、乳腺、前列腺、胰腺和胆囊、上消化道、浆细胞、头颈、宫颈、HL标记具有至少一种来源组织概率高于0.1的非癌症样品。特别地,循环淋巴样、髓样、NHL惰性和NHL侵袭性标记(所有血液学亚型)具有两种或更多种来源组织概率高于0.5的非癌症样品。
参见图22,图22显示了根据甲基化测序数据划分的血液学亚型的图。图22的图显示了对血液学亚型建模的能力。这可以证明有利于为多类癌症分类提供更高精细度(例如,另外使用血液学亚型标记进行分类),或在训练癌症分类器之前通过修剪具有高血液学亚型信号的非癌症样品作为调谐癌症分类的方式。如上所述,甲基化信号可涵盖多个CpG位点,由此产生高维向量空间。使用血液学亚型样品和非癌症样品,分析系统可进行主成分分析。主成分分析按照样品中的甲基化信号的变化顺序来鉴定向量空间的正交主成分(或嵌入)。第一主成分(在图上显示为水平轴上的V1)具有最高方差,且第二主成分(在图上显示为垂直轴上的V2)具有第二高方差。在图900上注释每个血液学亚型和非癌症样品簇。所显示的血液学亚型包括循环淋巴样、实体淋巴样、浆细胞和髓样。实体淋巴样亚型可进一步分成HLp、NHL惰性和NHL侵袭性。该图显示了根据血液学亚型进行分类的可能-对于在多类癌症分类中添加血液学亚型或对于对每种血液学亚型建模以调谐癌症分类器。
V.A.高信号非癌症样品的去除
图23A显示了根据一个或多个实施方式的描述确定二进制癌症分类的二进制阈值截止值的过程1000的流程图。用于预测癌症和非癌症的二进制分类针对所确定二进制阈值截止值来评价样品癌症评分,其中将癌症评分低于二进制阈值截止值的样品确定为非癌症,并将癌症评分为二进制阈值截止值或更高者确定为癌症。经训练的多类癌症分类器评估样品的甲基化信号(和/或其他测序数据)以确定多个由多类癌症分类器分类的TPP标记的概率。多类癌症分类器中所使用的TOO标记可为癌症组织类型或癌症组织亚型(例如,上述血液学亚型)。过程1000可由分析系统进行或实现。
分析系统接收1010多个含有cfDNA片段的生物样品的测序数据,所述生物样品包括癌症样品或非癌症样品。测序数据可以是甲基化测序数据、SNP测序数据、另一DNA测序数据、RNA测序数据等。
针对每个非癌症样品,分析系统使用多类癌症分类器基于源自测序的特征来对非癌症样品进行分类1020,其中多类癌症分类器预测多种TOO标记中的每一个的概率。分析系统可以产生非癌症样品的特征向量,从而基于至少与所考虑每个CpG位点重叠的异常甲基化cfDNA片段来向该CpG位点分配异常评分。
针对每个非癌症样品,分析系统针对一种或多种TOO标记确定1030所预测概率似然性是否超过TOO阈值。TOO阈值的确定在下面的图23B中进一步描述。
分析系统确定1040用于预测癌症存在的二进制阈值截止值,该二进制阈值截止值是基于非癌症样品(排除一种或多种鉴定为概率似然性超过至少一个TOO阈值的非癌症样品)的分布所确定。排除至少一个针对TOO标记的概率似然性超过对应于该TOO标记的TOO阈值的非癌症样品。分析系统然后根据每个非癌症样品的癌症评分来计算非癌症样品的分布,并且然后从该分布来确定所需特异性(例如,99.4-99.9%特异性)下的二进制阈值截止值。值的注意的是,可根据测序数据来确定每个癌症评分,例如,可由二进制癌症分类器输出癌症评分以基于甲基化测序数据来预测癌症似然性,如本文所述的。在其他实施方式中,可根据其他方法来计算癌症评分,所述方法至少输入测序数据(例如,甲基化、单核苷酸多态性(SNP)、DNA、RNA等),并基于所输入测序数据输出样品具有癌症的似然性。
图23B显示了根据一个或多个实施方式的描述阈值化TOO标记以确定二进制癌症分类的二进制阈值截止值的过程1005的流程图。该过程1005可以是过程1000的一个实施方式。用于预测癌症和非癌症的二进制分类针对所确定二进制阈值截止值来评价样品癌症评分,其中将癌症评分低于二进制阈值截止值的样品确定为非癌症,并将癌症评分为二进制阈值截止值或更高者确定为癌症。经训练的多类癌症分类器评价样品的甲基化信号(和/或其他测序数据)以确定多个由多类癌症分类器分类的TOO标记的概率。TOO标记可以是癌症组织类型或更特别地是癌症组织亚型(例如,上述血液学亚型)。过程1005可由分析系统进行或实现。
分析系统获得1015包括多个具有癌症或非癌症标记的样品的训练集和包括多个具有癌症或非癌症标记的样品(即,分别是癌症样品或非癌症样品)的保留集。训练集中的每个样品包括甲基化测序数据(例如,根据图3的过程300产生)。在其他实施方式中,每个训练样品具有与甲基化测序数据串联使用或代替其的其他测序数据。此外,来自训练集和保留集的每个样品具有癌症评分。如上所述,癌症评分可由二进制分类器在考虑样品的甲基化测序数据下确定为样品具有癌症的似然性。在其他实施方式中,根据其他方法来计算癌症评分,所述方法至少输入测试数据(例如,甲基化、单核苷酸多态性(SNP)、DNA、RNA等),并根据所输入测试数据输出样品具有癌症的似然性,例如本文所述的混合模型。
针对每个非癌症训练样品,分析系统基于甲基化测序数据来确定1025特征向量。分析系统可以例如通过确定所考量CpG位点集中每个CpG位点的异常评分来确定每个非癌症训练样品的特征向量。在一些实施方式中,分析系统使用二进制评分来定义特征向量的异常评分,所述二进制评分是基于在异常片段集中是否存在涵盖CpG位点的异常片段。一旦确定样品的所有异常评分,分析系统即将特征向量确定为具有与所考量每一个CpG位点有关的异常评分的向量。分析系列可另外基于样品覆盖度来正规化特征向量的异常评分。
分析系统将每个非癌症训练样品的特征向量输入1035至多类癌症分类器中以产生TOO预测。针对多个TOO标记(包括癌症类型、癌症亚型、非癌症或其任一组合)来训练多类癌症分类器。可如本文所述来训练多类癌症分类器。经训练的多类癌症分类器确定TOO标记的多个概率以作为癌症预测,其中TOO标记的概率指示具有对应于TOO标记的癌症的似然性。
在一些实例中,分析系统扫描(sweep)1045或迭代多个作为候选TOO阈值的TOO标记概率,从而计算一定范围的TOO标记概率内的特异性率和灵敏度率。分析系统可以逐步扫描概率范围,例如,0.01、0.02、0.03、0.04、0.05等。因为分析系统扫描一定范围的概率,所以分析系统根据多类癌症分类器的输出来过滤TOO标记概率为候选TOO阈值或更高的非癌症训练样品。作为数值实例,分析系统考虑0.35的候选TOO阈值。从训练集筛选出(filterout)TOO标记概率为0.25或更高的非癌训练样品。分析系统基于所过滤训练集来确定经调整二进制阈值截止值。分析系统使用针对保持集的调整后的二进制阈值截止值来计算预测的特异性率。特异性指将非癌症样品鉴定为非癌症标记的准确度。分析系统还使用针对保持集的经调整二进制阈值截止值来计算预测灵敏度率。灵敏度指将癌症样品鉴定为癌症标记的准确度。在实践中,可根据真阳性率、假阳性率、真阴性率、假阴性率、另一统计学计算等来定义特异性率和/或灵敏度率。
分析系统确定1055TOO标记的TOO阈值。分析系统通过在一定范围的候选TOO阈值内最佳化所计算特异性率和/或灵敏度率从候选TOO阈值选择TOO阈值。在一些实例中,确定TOO阈值或以其他方式应用于某些TOO组织类型种类或亚型种类(例如,血液学种类)。仅举例而言,可使用用于计算和应用TOO特异性概率阈值的算法来去除具有血液病证的超过信号的非癌症样品。该算法可包括针对每个预定TOO标记首先搜索概率值网格,并针对每个值使用二进制检测阈值来评估保持集的临床特异性和临床灵敏度,该二进制检测阈值是在去除具有概率等于或大于指定TOO标记的非癌症样品之后计算的。通过迭代通过概率网格,该算法将鉴定预定TOO标记的TOO阈值的一定组合,该组合可最佳化保持集的临床特异性与临床灵敏度之间的取舍。使用最终最佳化TOO概率阈值来筛选出(filter out)超过赋予TOO标记的任一值的非癌症样品。经清洗的非癌症样品集将用于计算癌症-非癌症检测阈值。另外,在一些实例中,可将TOO特异性阈值手动设置在任何截止点,例如,所需特异性水平(例如,99.4-99.9%的特异性)。
分析系统通过在确定二进制阈值截止值之前修剪超过TOO阈值的非癌症训练样品来调谐1065二进制癌症分类。分析系统根据TOO标记的确定TOO阈值从训练集筛选出非癌症训练样品。分析系统根据经过滤训练集来设定二进制阈值截止值。例如,分析系统基于经过滤评分分布来确定新二进制阈值截止值。在其他实施方式中,分析系统可根据步骤1010、1020、1030和1040来确定任一TOO标记的TOO阈值以调谐二进制癌症分类。
V.B.根据TOO信号对样品分布分层
在一个或多个实施方式中,分析系统通过根据TOO信号对样品分布分层以确定每个层的二进制阈值截止值来调谐癌症分类器。分析系统可根据一种或多种TOO标记的信号对样品分布分层,该信号是根据由多类癌症分类器输出的TOO预测所确定。
如本文所用,“高组织信号”是指组织信号(例如,通常针对任一组织类型或对于特定癌症类型-还称为TOO标记)超过预定阈值的样品。与健康分布相比,可通过多类癌症分类器或其他方式来确定组织信号。具有高组织信号的非癌症样品是非癌症分布中的离群值。这些非癌症样品中的一些可以是前期癌症、早期癌症或未诊断癌症。分析系统可鉴定至少一种TOO标记中具有高组织信号的非癌症样品。在确定高组织信号的一种方式中,将由多类癌症分类器输出的TOO标记的预测值与组织信号阈值进行比较。预测值高于组织信号阈值的样品可视为针对该TOO标记具有高组织信号;而预测值低于组织信号阈值的样品可视为针对该TOO标记不具有高组织信号(或低组织信号)。在另一方式中,考虑TOO预测中的一个或多个排名靠前的预测。例如,样品的TOO预测具有结肠直肠TOO标记的第一预测、乳腺TOO标记的第二预测和头颈TOO标记的第三预测。如果考虑排名靠前的预测,则样品可视为针对第一预测中的TOO标记具有高组织信号,该TOO标记在实例中是结肠直肠TOO标记。如果考虑排名在前两位的预测,则在结肠直肠TOO标记和乳腺TOO标记两者中存在高组织信号。确定组织信号的其他方式可包括经训练以确定一种或多种TOO标记的组织信号的其他模型。此类模型可包括经训练以确定TOO标记子集的组织信号的分类器。例如,可训练血液学特异性分类器,并用于确定一种或多种血液学亚型的组织信号。其他模型包括可解卷积来自甲基化测序数据(和/或其他类型的测序数据)的组织信号的解卷积模型。
现参见图32,图32显示了根据一个或多个实施方式的使血液学信号分层成两层的过程。尽管以下说明书描述了使用血液学信号的分层,但是该原理可易于应用于其他TOO信号。
分析系统根据血液学信号将癌症和非癌症样品的保持集分层1300A成低信号层1310和高信号层1320。保持集的每个样品具有由二进制癌症分类器确定的癌症评分和由多类癌症分类器确定的TOO预测。在一个实施方式中,根据由多类癌症分类器输出的TOO预测来确定样品的血液学信号。在一个实施方式中,在考虑一个或多个排名靠前的预测(例如,第一个、第二个等)时,如果所考虑排名靠前的预测中的至少一个是一种血液学亚型(例如,淋巴样赘生物亚型和髓样赘生物亚型),则可确定高血液学信号。可包括其他血液学亚型。因此,如果样品具有其中排名靠前的预测中的至少一者可视为淋巴样赘生物亚型或髓样赘生物亚型的TOO预测,则可确定样品具有高血液学信号。否则,确定样品不具有高血液学信号。
分析系统确定每一层的二进制阈值截止值以预测癌症在样品中的存在或不存在。分析系统使用低信号层1310中的样品来确定1305用于预测低信号层1310中的样品中癌症的不存在或存在的二进制阈值截止值。根据低信号层1310的假阳性预算集来确定1305二进制阈值截止值。使用低信号层1310中的样品的癌症评分,分析系统扫描一系列候选二进制阈值截止值,评估每个候选二进制阈值截止值处的真阳性率(也称为灵敏度)和假阳性率。将具有假阳性预算内最接近的假阳性的候选二进制阈值截止值确定为候选二进制阈值截止值。分析系统进行类似操作以确定1315高信号层1320的二进制阈值截止值。低信号层1310的假阳性预算和高信号层1320的假阳性预算可根据所述层的统计学真阳性率比率来设定。该比率旨在抑制高信号层1320中的假阳性率。
对于测试样品而言,分析系统根据血液学信号将测试样品置于低信号层1310或高信号层1320中。如果将测试样品置于低信号层1310中,则分析系统将低信号层1310的二进制阈值截止值应用1315于测试样品的癌症评分。如果癌症评分大于或等于低信号层1310的二进制阈值截止值,则分析系统返回存在于测试样品中的癌症的预测,并且另外返回无癌症预测。如果将测试样品置于高信号层1320中,则将高信号层1320的二进制阈值截止值应用1325于测试样品的癌症评分。如果癌症评分大于或等于高信号层1320的二进制阈值截止值,则分析系统返回存在于测试样品中的癌症的预测,并且另外返回无癌症预测。
VI.循环无细胞基因组图谱研究
在各种实施方式中,使用衍生自循环无细胞基因组图谱(CCGA)研究的患者的训练子集的训练数据集训练每个预测性癌症模型(参见Clinical Trial.gov Identifier:NCT02889978(https://www.clinicaltrials.gov/ct2/show/NCT02889978)),并且随后使用衍生自来自CCGA研究的患者的测试或验证子集的测试或验证数据集进行测试。
使用多个来自循环无细胞基因组图谱(CCGA)研究的已知癌症类型来训练本文所述的预测性癌症模型。CCGA样品集包括以下癌症类型:乳腺、肺、前列腺、结肠直肠、肾、子宫、胰腺、食管、淋巴瘤、头颈、卵巢、肝胆管、黑色素瘤、宫颈、多发性骨髓瘤、白血病、甲状腺、膀胱、胃和肛门直肠。因此,模型可以是用于检测一种或多种、两种或更多种、三种或更多种、四种或更多种、五种或更多种、十种或更多种或者20种或更多种不同类型癌症的多癌症模型(或多癌症分类器)。
可使用衍生自CCGA研究的第一患者子集的精修训练数据集来训练预测性癌症模型,并且随后使用衍生自来自CCGA研究的第二患者子集的精修测试数据集进行测试。
VII.癌症测定嵌板
在各种实施方式中,本文所述的预测性癌症模型使用利用包括多个探针或多个探针对的癌症测定嵌板富集的样品。多种靶向癌症测定嵌板是本领域公知的,例如,如在2019年4月2日提交的WO 2019/195268,2019年9月27日提交的PCT/US2019/053509和2020年1月24日提交的PCT/US2020/015082(其通过引用并入本文)中所描述的。例如,在一些实施方式中,癌症测定嵌板可经设计以包括多个可捕获片段的探针(或探针对),所述片段可一起提供与癌症诊断相关的信息。在一些实施方式中,嵌板包含至少50、100、500、1,000、2,000、2,500、5,000、6,000、7,500、10,000、15,000、20,000、25,000或50,000对探针。在其他实施方式中,嵌板包含至少500、1,000、2,000、5,000、10,000、12,000、15,000、20,000、30,000、40,000、50,000或100,000个探针。多个探针一起可以包含至少0.1百万、0.2百万、0.4百万、0.6百万、0.8百万、1百万、2百万、3百万、4百万、5百万、6百万、7百万、8百万、9百万或10百万个核苷酸。探针(或探针对)经特定设计以靶向癌症和非癌症样品中的一个或多个基因组具有不同甲基化的区域。靶基因组区域可经选择以根据大小预算(其由预测预算和所需测序深度决定)最大化分类准确度。
可以对使用癌症测定嵌板富集的样品进行靶向测序。使用癌症测定嵌板富集的样品通常可用于检测癌症的存在或不存在和/或提供癌症分类(例如,癌症类型、癌症阶段,如I、II、III或IV)或提供据信癌症来源的来源组织。根据目前,嵌板可包含的探针(或探针对)靶向一般癌性(泛癌症)样品和非癌性样品中或仅具有特定癌症类型(例如,肺癌特异性靶点)的癌性样品中具有不同甲基化的基因组区域。具体而言,基于从来自癌症和/或非癌症个体的无细胞DNA(cfDNA)或基因组DNA(gDNA)产生的亚硫酸氢盐测序数据来设计癌症测定嵌板。
在一些实施方式中,由本文所提供方法设计的癌症测定嵌板包含至少1,000对探针,每一对包含两个经配置以彼此重叠包含30-核苷酸片段的重叠序列的探针。30-核苷酸片段包含至少5个CpG位点,其中至少5个CpG位点中的至少80%是CpG或UpG。30-核苷酸片段经配置以结合值癌性样品中的一个或多个基因组区域,其中一个或多个基因组区域具有至少5个具有异常甲基化模式的甲基化位点。另一癌症测定嵌板包含至少2,000个探针,每个探针设计为与一个或多个基因组区域互补的杂交探针。每个基因组区域是基于如下标准选择的,其包括:(i)至少30个核苷酸;和(ii)至少5个甲基化位点,其中至少5个甲基化位点具有异常甲基化模式,并且是低甲基化或高甲基化的。
每个探针(或探针对)被设计以靶向一个或多个靶基因组区域。基于若干标准来选择靶基因组区域,所述标准经设计以增加相关cfDNA片段的选择性富集而降低噪音和非特异性结合。例如,嵌板可以包含可选择性结合,并且富集癌性样品中具有不同甲基化的cfDNA的探针。在这种情况下,富集片段的测序可提供与癌症诊断相关的信息。另外,探针可以被设计以靶向确定具有异常甲基化模式和/或高甲基化或低甲基化模式的基因组区域,从而另外提供检测的选择性和特异性。例如,在根据针对非癌性样品集训练的马尔可夫模型基因组区域具有低p值甲基化模式时,可选择另外涵盖至少5个CpG并且其中的90%经甲基化或未甲基化的基因组区域。在其他实施方式中,可利用如本文所述的混合模型来选择基因组区域。
每个探针(或探针对)可靶向包括至少25bp、30bp、35bp、40bp、45bp、50bp、60bp、70bp、80bp或90bp的基因组区域。可选择含有小于20、15、10、8或6个甲基化位点的基因组区域。可选择非癌性或癌性样品中至少5个甲基化(例如,CpG)位点中的至少80%、85%、90%、92%、95%或98%是甲基化或未甲基化的基因组区域。
可进一步过滤基因组区域以仅选择可能基于甲基化模式而具有信息性的,例如,在癌性样品和非癌性样品之间具有不同甲基化(例如,在癌症与非癌症中异常甲基化或未甲基化)的CpG位点。对于该选择而言,可针对每个CpG位点进行计算。在一些实施方式中,确定第一计数,其是包含与该CpG重叠的片段的含癌症样品的数量(癌症计数);并且确定第二计数,其是含有与该CpG重叠的片段的总样品的数量(总数)。可以基于以下标准来选择基因组区域:其与包含与该CpG重叠的片段的含癌症样品的数量(癌症计数)正相关,并且与含有与该CpG重叠的片段的总样品的数量(总数)负相关。
在一个实施方式中,对具有CpG位点重叠片段的非癌性样品数量(n非癌症)和癌性样品数量(n癌症)进行计数。然后,将样品是癌症的概率估计位(例如)(n癌症+1)(n癌症+n非癌症+2)。按照该度量对CpG位点排序,并且贪婪地添加到嵌板中,直至嵌板大小预算耗尽为止。
取决于测定是否旨在是泛癌测定还是单癌测定,或者取决于在挑选对嵌板有贡献的CpG位点时所需的灵活性种类,用于癌症计数的样品可以有所变化。可以使用类似程序来设计用于诊断特定癌症类型(例如,TOO)的嵌板。在该实施方式中,对于每种癌症类型和每个CpG位点而言,计算信息增益以确定是否包括针对CpG位点的探针。计算具有给药癌症类型的样品中与所有其他样品相比的信息增益。例如,两个随机变量“AF”和“CT”。“AF”是指示特定样品中是否存在与特定CpG位点重叠的异常片段的二进制变量(是或否)。“CT”是指示癌症是否是特定类型(例如,肺癌或除肺癌外的癌症)的二进制随机变量。可在给定“AF”下计算关于“CT”的交互信息。即,如果知晓是否存在与特定CpG位点重叠的异常片段,则获得关于癌症类型(在该实例中为肺对比非肺)的信息位数。这可用于基于对特定癌症类型(例如,TOO)的特异性来对CpG排序。针对多个癌症类型重复该过程。例如,如果特定区域通常仅在肺癌中具有不同甲基化(且在其他癌症类型或非癌症中则不),则该区域中的CpG往往具有关于肺癌的高信息增益。对于每种癌症类型而言,根据该信息增益度量对CpG位点排序,并且然后贪婪地添加到嵌板中,直至该癌症类型的大小预算用尽为止。
可进一步过滤以选择脱靶基因组区域小于阈值的靶基因组区域。例如,仅选择存在小于15、10或8个脱靶基因组区域的基因组区域。在其他情况下,进行过滤以去除靶基因组区域的序列在基因组出现大于5、10、15、20、25或30次的基因组区域。可进一步过滤以选择与靶基因组区域90%、95%、98%或99%同源的序列在基因组中出现小于15、10或8次的靶基因组区域,或去除与把基因组区域90%、95%、98%或99%同源的序列在基因组中出现大于5、10、15、20、25或30次的靶基因组区域。这是为了排除可以下拉脱靶片段的重复探针,这是不希望的并且可以影响测定效率。
在一些实施方式中,需要至少45bp的片段-探针重复以实现不可忽略量的下拉(但该数量可能根据测定细节而不同)。另外,已发现,在重叠区域中的探针与片段序列之间具有大于10%的错配率即足以大大破坏结合,并且由此降低效率。因此,可沿至少45bp以至少90%匹配速率与探针对准的序列是脱靶下拉的候选者。因此,在一个实施方式中,对此类区域的数量进行评分。最佳探针具有评分1,这意指其仅在一处匹配(预期靶点区域)。具有低评分(即小于5或10)的探针可以接受,但弃去任何高于该评分的探针。可针对特定样品使用其他截止值。
在各种实施方式中,所选择的靶基因组区域可以位于基因组中的各个位置中,包括但不限于外显子、内含子、基因间区域和其他部分。在一些实施方式中,可添加靶向非人类基因组区域的探针(例如,靶向病毒基因组区域的那些)。
VIII.癌症应用
在一些实施方式中,可使用本发明的方法、分析系统和/或分类器来检测癌症的存在(或不存在),监测癌症进展或复发,监测治疗应答或有效性,确定最小残留疾病(MRD)的存在或监测该疾病,或者其任何组合。在一些实施方式中,可使用分析系统和/或分类器来鉴定癌症的来源组织。例如,可使用所述系统和/或分类器将癌症鉴定为下列癌症类型中的任一者:头颈癌、上消化道癌、胰腺/胆囊癌、结肠直肠癌、卵巢癌、肺癌、多发性骨髓瘤、淋巴样赘生物、黑色素瘤、肉瘤、乳腺癌和子宫癌。例如,如本文所述,可使用分类器来产生样品特征向量来自患有癌症的受试者的似然性或概率评分(例如,0至100)。在一些实施方式中,比较概率评分与阈值概率以确定受试者是否患有癌症。在其他实施方式中,可以在不同时间点(例如,在治疗之前或之后)评价似然性或概率评分以监测疾病进展或监测治疗有效性(例如,治疗有效性)。在另外其他实施方式中,可使用似然性或概率评分来做出或影像临床决定(例如,癌症诊断、治疗选择、治疗有效性评价等)。例如,在一个实施方式中,如果似然性或概率评分超过阈值,则医师可开具适当治疗的处方。在一些实施方式中,可产生测试报告以向患者提供其测试结果,包括例如该患者具有疾病状态(例如,癌症)、疾病类型(例如,癌症类型)和/或疾病来源组织(例如,癌症的来源组织)的概率评分。
IX.A.癌症早期检测
在一些实施方式中,使用本发明的方法和/或分类器来监测疑似患有癌症的受试者中癌症的存在或不存在。例如,可使用分类器(如本文所述)来确定样品特征向量是来自患有癌症的受试者的似然性或概率评分。
在一个实施方式中,大于或等于60的概率评分可指示受试者患有癌症。在另外其他实施方式中,大于或等于65、大于或等于70、大于或等于75、大于或等于80、大于或等于85、大于或等于90或者大于或等于95的概率评分指示受试者患有癌症。在其他实施方式中,概率评分可指示疾病的严重程度。例如,与低于80的评分(例如,评分70)相比,概率评分80可指示癌症的更严重形式或更晚期。类似地,概率评分随时间的增加(例如,在第二、后续时间点)可指示疾病进展或概率评分随时间的降低(例如,在第二、后续odds ratio时间点)可指示成功治疗。
在另一个实施方式中,可通过获得癌性概率相对于非癌性概率(即1减去癌性概率)的比率的对数来计算测试受试者的癌症对数比值比,如本文所述。根据该实施方式,大于1的癌症对数比值比可指示受试者患有癌症。在另外其他实施方式中,大于1.2、大于1.3、大于1.4、大于1.5、大于1.7、大于2、大于2.5、大于3、大于3.5或大于4的癌症对数比值比指示受试者患有癌症。在其他实施方式中,癌症对数比值比可指示疾病严重程度。例如,与低于2的评分(例如,评分1)相比,大于2的癌症对数比值比可指示癌症的更严重形式或更晚期。类似地,癌症对数比值比随时间的增加(例如,在第二、后续时间点)可指示疾病进展或癌症对数比值比随时间的降低(例如,在第二、后续时间点)可指示成功治疗。
根据本公开内容的方面,可训练本发明的方法和系统以监测或分类多种癌症适应症。例如,可使用本发明的方法、系统和分类器来检测一种或多种、两种或更多种、三种或更多种、五种或更多种或者十种或更多种不同类型癌症的存在。
在一些实施方式中,癌症是头颈癌、肝/胆管癌、上消化道癌、胰腺/胆囊癌、结肠直肠癌、卵巢癌、肺癌、多发性骨髓瘤、淋巴样赘生物、黑色素瘤、肉瘤、乳腺癌和子宫癌中的一种或多种。
IX.B.癌症和治疗监测
在某些实施方式中,第一时间点是在癌症治疗之前(例如,在切除手术或治疗干预之前),第二时间点是在癌症治疗之后(例如,在切除手术或治疗干预之后),并且利用该方法来监测治疗有效性。例如,如果第二似然性或概率评分低于第一似然性或概率评分,则治疗可视为已成功。然而,如果第二似然性或概率评分高于第一似然性或概率评分,则治疗可视为尚未成功。在其他实施方式中,第一时间点和第二时间点两者均是在癌症治疗之前(例如,在切除手术或治疗干预之间)。在另外其他实施方式中,第一时间和第二时间点两者均在癌症治疗之后(例如,在切除手术或治疗干预之后),并且使用该方法来监测治疗有效性或治疗有效性损失。在另外其他实施方式中,可在第一时间点和第二时间点从癌症患者获得cfDNA样品,并且分型以例如监测癌症进展、判定癌症是否在缓解中(例如,在治疗之后)、监测或检测残留疾病或疾病复发或监测治疗(例如,治疗性)效能。
本领域技术人员将容易地意识到,可在任何所需时间点集中从癌症患者获得测试样品,并且根据本发明方法进行分析以监测患者中的癌症状态。在一些实施方式中,第一时间点和第二时间点间隔时间量介于约15分钟至约30年之间,例如,约30分钟,例如约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或约24小时,如约1、2、3、4、5、10、15、20、25或约30天,或如约1、2、3、4、5、6、7、8、9、10、11或12个约,或如约1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5或约30年。在其他实施方式中,可至少每3个月一次、至少每6个月一次、至少每年一次、至少每2年一次、至少每3年一次、至少每4年一次或至少每5年一次从患者获得测试样品。
IX.C.治疗
在另外另一个实施方式中,可使用从本文所述的任一方法获得的信息(例如,似然性或概率评分)来做出或影像临床决定(例如,癌症诊断、治疗选择、治疗有效性评价等)。例如,在一个实施方式中,如果似然性或概率评分超过阈值,则医师可开具适当治疗(例如,切除手术、放射疗法、化学疗法和/或免疫疗法)的处方。在一些实施方式中,可将信息(例如,似然性或概率评分)作为读取提供给医师或受试者。
可使用分类器(如本文所述)来确定样品特征向量是来自患有癌症的受试者的似然性或概率评分。在一个实施方式中,在似然性或概率超过阈值时,开具适当治疗(例如,切除手术或治疗措施)的处方。例如,在一个实施方式中,如果似然性或概率评分大于或等于60,则开具一种或多种适当治疗的处方。在另一个实施方式中,如果似然性或概率评分大于或等于65、大于或等于70、大于或等于75、大于或等于80、大于或等于85、大于或等于90或者大于或等于95,则开具一种或多种适当治疗的处方。在其他实施方式中,癌症对数比值比可指示癌症治疗的有效性。例如,癌症对数比值比随时间增加(例如,在第二、后续治疗中)可指示治疗并不有效。类似地,癌症对数比值比随时间降低(例如,在第二、后续治疗中)可指示成功治疗。在另一个实施方式中,如果癌症对数比值比大于1、大于1.5、大于2.5、大于3、大于3.5或大于4,则开具一种或多种适当治疗的处方。
在一些实施方式中,治疗是一种或多种选自以下的癌症治疗剂,包括化学治疗剂、靶向癌症治疗剂、分化治疗剂、激素治疗剂和免疫治疗剂。例如,治疗可以是一种或多种选自以下的化学治疗剂,包括烷化剂、抗代谢剂、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(紫杉烷类)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物、铂类药物及其任何组合。在一些实施方式中,治疗是一种或多种选自以下的靶向癌症治疗剂,包括信号转导抑制剂(例如,酪氨酸激酶和生长因子受体抑制剂)、组蛋白去乙酰化酶(HDAC)抑制剂、视黄酸受体激动剂、蛋白酶体抑制剂、血管生成抑制剂和单克隆抗体缀合物。在一些实施方式中,治疗是一种或多种分化治疗剂,包括类视黄醇,如维甲酸、阿里维A酸和贝沙罗汀。在一些实施方式中,治疗是一种或多种选自以下的激素治疗剂,包括抗雌激素、芳香酶抑制剂、孕激素、雌激素、抗雄激素和GnRH激动剂或类似物。在一个实施方式中,治疗是一种或多种选自以下的免疫治疗剂,包括单克隆抗体疗法,如利妥昔单抗(RITUXAN)和阿伦单抗(CAMPATH),非特异性免疫疗法和佐剂,如BCG、白介素-2(IL-2)和干扰素α,免疫调节药物,例如,沙利度胺和来那度胺(REVLIMID)。基于诸如肿瘤类型、癌症分期、此前暴露于癌症治疗或治疗剂的特征以及癌症的其他特征来选择合适的癌症治疗剂在熟练的医师或肿瘤学家的能力范围内。
X.实施例
X.A.实施例1-全基因组亚硫酸氢盐测序(WBGS)
第一CCGA子研究:从第一CCGA子研究获得图7A-C中所显示的数据,其中从经诊断患有未经治疗癌症(包括20种肿瘤类型和所有癌症阶段)的个体和未诊断有癌症的健康个体(对照)收集训练数据血样(N=1785)以供血浆cfDNA提取。收集另一血液样品集合(N=1,010)以用于验证。除非另有指示,否则对从第一CCGA子研究样品提取的无细胞DNA(cfDNA)和基因组DNA(gDNA)进行全基因组亚硫酸氢盐测序分析。
在分类过程中,处理系统200将片段甲基化状态视为源自潜在甲基化模式的混合物。处理系统200向所观察片段分配源自特定癌症的来源组织的相对概率。
更具体地,如本文所述,将概率模型拟合至衍生自多个来自每个癌症类型(以及针对非癌症或健康样品)的区域(或窗口)的序列读取。在该情况下,使用混合模型,其中每个混合分量是独立位点模型(其中每个CpG处的甲基化独立于其他CpG处的甲基化)。使用最大似然性估计来拟合模型以鉴定最大化所有片段衍生自一种癌症类型(或非癌症)的总对数似然性的参数集。
对于每个区域和每个癌症类型对(包括非癌症作为阴性类型)而言,使用最佳性能层级来训练多项式逻辑回归分类器。对于每个样品(不论标记如何)而言,在每个区域中,对于每个癌症类型和每个片段,如此前所述的来计算对数似然比,并且对于每个“层”值集,量化R癌症类型>层级的片段的数量。将用于每一层级的量化读取二进制化,并用作训练分类器的特征。
最后,在指示的情况下,为产生未知样品的预测,确定特征值(如上文所述),并且使用所产生特征利用经训练多项式逻辑回归分类器来产生癌症和/或来源组织预测。
实例混淆矩阵:图7A、图7B和图7C包含根据各个实施方式的指示分类器准确度的混淆矩阵。在一些实施方式中,处理系统200使用混淆矩阵来确定分类器的准确度。混淆矩阵包括阐述分类器鉴定每种疾病状态的成功率的信息。
如图7A中所示,矩阵710包括分类器基于使用cfDNA样品集(无组织样品)训练的多项式模型的实例性能。矩阵720包括分类器基于通过处理器200使用相同cfDNA样品集训练的混合模型的实例性能。沿矩阵对角线的评分指示正确预测,即其中所预测片段来源组织匹配真实来源组织。与基于多项式模型的分类器(作为基线)相比,基于混合模型的分类器在预测矩阵中所显示癌症类型的存在方面具有更大整体准确度。
可基于一个或多个准则(例如,特定特异性水平)来过滤训练集的样品。例如,训练集包括根据m评分基于98%特异度确定为具有癌症的样品。为清楚起见,排除剩余(例如,2%)的(错误地)鉴定为具有癌症的非癌症样品而不显示在混淆矩阵中。
如图7B中所示,矩阵730包括分类器基于使用cfDNA样品的交叉验证训练集(无组织样品)训练的混合模型的实例性能。矩阵740包括分类器基于使用cfDNA和组织样品的交叉验证训练集训练的混合模型的实例性能。
如图7C中所示,矩阵750包括分类器基于使用来自标题为Circulating Cell-freeGenome Atlas Study(“CCGA”)的临床研究的cfDNA样品集(无组织样品)训练的混合模型的实例性能。矩阵740包括分类器基于使用来自CCGA的cfDNA和组织样品集训练的混合模型的实例姓名。使用Clinical Trial.gov Identifier:NCT02889978(https://www.clinicaltrials.gov/ct2/show/NCT02889978)来描述CCGA研究。
X.B.实施例2-使用来自第二CCGA子研究的早期突破的靶向亚硫酸氢盐测序对癌症分类
第二CCGA子研究:从第二CCGA子研究的早期突破获得图9A-B、图10A-B、图11和图12中所显示的数据,其中从经诊断患有未治疗癌症(包括20种种类类型和所有癌症阶段)的个体和未诊断有癌症的健康个体(对照)收集训练数据血样(N=3,132)以供血浆cfDNA提取。收集另一血样集(N=1,354)以用于验证。在一些实施方式中,在指示的情况下,训练集还包含来自组织样品(即,gDNA)的训练数据。为确定分析群体,基于若干因素来过滤训练数据血样。例如,因临床解锁而排除105个样品;基于合格性标准排除11个样品;因未证实癌症或治疗状态而排除58个样品(不可评估);排除4个未处理样品和72个不可评估分析(不可分析);并且保留581个样品以供将来分析。因此,2,301个样品的分析群包含1,422个癌症样品和879个非癌症样品。
子研究中的个体参与者人口统计学资料如下表1中所示。
Figure BDA0003355021350000741
Figure BDA0003355021350000751
表1:参与者人口统计学和阶段分布。癌症和非癌症组在年龄、人种、性别和体质指数方面相当(未显示)。*包括肛门直肠癌、膀胱癌、脑癌、乳腺癌、宫颈癌、结肠直肠癌、食管癌、胃癌、头颈癌、肝胆管癌、肺癌、淋巴样赘生物(慢性淋巴细胞性白血病、淋巴瘤)、多发性骨髓瘤、髓样赘生物(急性髓样白血病、慢性髓样白血病)、卵巢癌、胰腺癌、前列腺癌、肾癌、肉瘤和子宫癌。
Figure BDA0003355021350000752
排除38名丢失吸烟状态信息的参与者。
Figure BDA0003355021350000753
排除两名丢失BMI值的参与者。§仅侵袭性癌。
Figure BDA0003355021350000754
无可用分阶段信息。
为鉴定癌症定义性和组织定义性甲基化信号,对所提取cfDNA进行亚硫酸氢盐测序分析以靶向甲基化组的最具信息性区域,如从GRAIL的专属全基因组亚硫酸氢盐测序分析和甲基化数据库所鉴定。
使用甲基化数据库来询问代表21个肿瘤类型(97%的SEER癌症发生率)的811个癌细胞甲基化组中的全基因组片段级甲基化模式。为产生癌症定义性甲基化信号的甲基化数据库,对来自福尔马林固定、石蜡包埋(FFPE)肿瘤组织的基因组DNA和来自种类的经分离细胞进行全基因组亚硫酸氢盐测序分析。使用该甲基化数据库进行嵌板设计和训练以最佳化如本文所述分类器的性能。产生癌症和非癌症的较大甲基化序列数据库以使得能够靶向选择能够以高特异性分类多种癌症并鉴定来源组织的单一测试。
靶点选择和嵌板设计:如本文所述,使用来自CCGA研究的甲基化序列数据库来选择靶基因组区域。具体而言,使用非癌症分布基于p值来过滤数据库中的cfDNA序列,并且仅保留p<0.001的片段。进一步过滤所选cfDNA以仅保留至少90%甲基化或90%未甲基化的。接下来,针对所选片段中的每个CpG位点,计数包含与该CpG位点重叠的片段的癌症样品或非癌症样品的数量。具体而言,计算每个CpG的P(癌症|重叠片段),并选择具有高P值的基因组位点作为一般癌症靶点。通过设计,所选片段具有极低噪音(即,较少非癌症片段重叠)。
为寻找癌症类型特异性靶点,进行类似选择过程。基于其信息增益来对CpG位点排序,从而比较一种癌症类型与所有其他样品(即,非癌加其他癌症类型)。产生包括靶向所选基因组区域的探针的癌症测定嵌板,如本文所述的。具体而言,嵌板经设计以通常检测癌症(即对非癌症)或特定癌症类型(例如,TOO)的存在。嵌板包括靶向所选基因组区域中的每一个的探针集。
探针经设计以与包含于任一靶向区域(例如,异常片段)的起始/末端范围内的任一CpG位点重叠。
分类:在分类过程中,处理系统200将片段甲基化状态视为源自潜在甲基化模式的混合物。处理系统200向所观察片段分配源自癌症的相对概率。对于来源组织分类而言,处理系统200向所观察片段分配源自特定组织的相对概率。处理系统200组合靶向区域中的癌症和来源组织的片段特性以针对癌症与非癌症进行分类和/或鉴定来源组织。对于二进制癌症分类而言,处理系统200估计99%特异性下的灵敏度。
更具体地,如实例VI.a中所描述的,将概率模型拟合至衍生自多个来自每种癌症类型(以及对于非癌症或健康样品)、所鉴定特征和经训练多项式逻辑回归分类器的区域(或窗口)的序列读取。为产生位置样品的预测,确定特征值(如上所述),并使用所产生特征利用经训练多项式逻辑回归分类器来产生癌症和/或来源组织预测。
图9A和图9B显示了通过本公开内容中所描述的方法产生的来源组织分类器的灵敏度。在99%特异性下报告灵敏度,并且指示95%置信区间。图9A显示了预定列表的癌症的模型预测。图9B显示了CCGA研究中所包含的其他癌症的模型预测。单独人口统计学信息(基线建模)可正确分类<5%的参与者。预定癌症列表(肛门直肠癌、乳腺癌[HR阴性]、结肠直肠癌、食管癌、胃癌、头颈癌、肝胆管癌、肺癌、淋巴样赘生物[慢性淋巴细胞性白血病、淋巴瘤]、多发性骨髓瘤、卵巢癌、胰腺癌)中的总体灵敏度为76.1%(95%CI:73.1-78.9%)。在该队列中,早期(I-III)癌症中的灵敏度为68.8%(95%CI:64.8-72.6%)。所有癌症类型和阶段中的总体灵敏度为55.1%(95%CI:52.5-57.7%)。在早期(I-III)癌症中,灵敏度为43.8%(95%CI:40.7-46.8%)。
图10A和图10B显示了来源组织分类器在不同癌症阶段的灵敏度。在99%特异性下报告预定所关注癌症基于个别阶段(如图例中所指示的)的总体灵敏度。框内的数字代表每个阶段所包含样品的总数。指示95%置信区间。“淋巴样赘生物”包括淋巴瘤(阶段I-IV)和慢性淋巴细胞性白血病(未分阶段,包括作为“IN”)。
图11显示了代表来源组织定位的准确度的性能网格。使用来源组织分类器利用阶段I-IV样品中的甲基化数据库获知,每个样品的真实(x轴)来源组织与预测(y轴)来源组织一致。梯度图例对应于预测来源组织(y轴)中正确(x轴)的比例。该分析显示,在使用甲基化数据库下,来源组织定位准确度(所有TOO预测的正确分数)较高(p=0.0066)。这与阶段I-III预测:89.9%(384/427)一致,如在表2中进一步所证实的。
Figure BDA0003355021350000771
Figure BDA0003355021350000781
表2:在包含甲基化数据库时,来源组织性能得到改善。*使用Stuart-Maxwell检验计算的P值。
Figure BDA0003355021350000782
不确定调用定义为检测为并无确信来源组织分配的癌症的样品。
Figure BDA0003355021350000783
将未由来源组织分析调用的样品分类为非癌症。
有效多癌症测试理想地应用极高特异性同时检测临床显著的各阶段癌症(并且由此将具有单一固定、低假阳性率),并准确地确定来源组织。为证实该方法的可能性,在图12中显示预定癌症类型列表作为整体在个别阶段的同时检测(在99%特异性下报告的灵敏度)和来源组织确定。因此,图12显示了来源组织分类器在不同癌症阶段的准确度和灵敏度。
图13A和图13B显示了来源组织分类器的接收者操作特性(ROC)曲线。接收者操作特性(ROC)曲线显示99%特异性下的分类器性能,其中对于所有癌症具有55%灵敏度,并且对于多种癌症具有76%灵敏度。
这些数据表明,使用靶向甲基化特征的分类方法在适于群体筛选的特异性(99%)下同时检测多个早期癌症类型。在单一、固定、低假阳性率下实现检测多种癌症。这种方法还准确地定位来源组织,这将简化下游诊断后处理。此外,纳入来自较大甲基化数据库的数据可改良分类器性能。
总而言之,这可以证实,本公开内容中所述的方法在临床上可适用于作为诸多临床显著癌症类型的早期多癌症检测测试。
X.C.实施例3-使用来自完整第二CCGA子研究的靶向亚硫酸氢盐测序对癌症分类
混合模型分类器的产生:为最大化性能,使用从以下样品获得的序列数据训练该实施例中所描述的预测性癌症模型:多个来自两个CCGA子研究(CCGA1和CCGA2)的已知癌症类型和非癌症的样品;多个从CCGA1获得的已知癌症的组织样品;和多个来自STRIVE研究的非癌症样品(参见Clinical Trail.gov Identifier:NCT03085888(//clinicaltrials.gov/ct2/show/NCT03085888))。STRIVE研究是用以验证乳腺癌和其他侵袭性癌症的早期检测分析的前瞻性、多中心、观察性队列研究,从该研究获得其他非癌症训练样品以训练本文所述的分类器。CCGA样品集包括的已知癌症类型包括以下类型:乳腺癌、肺癌、前列腺癌、结肠直肠癌、肾癌、子宫癌、胰腺癌、食管癌、淋巴瘤、头颈癌、卵巢癌、肝胆管癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌和肛门直肠癌。因此,模型可以是用于检测一种或多种、两种或更多种、三种或更多种、四种或更多种、五种或更多种、十种或更多种或者20种或更多种不同类型癌症的多癌症模型(或多癌症分类器)。来自CCGA研究的4,841名参与者(2,836个癌症;2,005个非癌症)和来自STRIVE研究的2,202名非癌症参与者包括在该预定分析中。在这些参与者中,来自CCGA的3,133个样品分配用于训练(1,742个癌症;1,391个非癌症),并且1,354个样品分配用于验证(740个癌症,614个非癌症);来自STRIVE的1,587个样品分配用于训练,并且615个样品分配用于验证。显示了参与者分布。总体而言,在预定主要分析人群中,可分析3,052个训练样品(1,531个癌症;1,521个非癌症)和1,264个验证样品(654个癌症;610个非癌症)。关于CCGA2子研究和在该实施例中所详细分析的其他细节描述在标题为“Sensitive and specific multi-cancerdetection and localization using methylation signatures in cell-free DNA”的Annals of Oncology期刊文章中,该文章在线公开于2020年3月30日(https://www.annalsofoncology.org/article/S0923-7534(20)36058-0/fu lltext)。
下面显示的分类器性能数据是针对从CCGA2(CCGA子研究)获得的癌症和非癌症样本以及来自STRIVE的非癌症样本进行训练的锁定分类器报告的。CCGA2子研究中的个体不同于CCGA1子研究中使用其cfDNA来选择靶基因组的个体(如2019年4月2日提交的WO 2019/195268、2019年9月27日提交的PCT/US2019/053509和2020年1月24日提交的PCT/US2020/015082中所描述的(其通过引用并入本文))。在CCGA2研究中,从经诊断患有未治疗癌症(包括20个肿瘤类型和所有癌症阶段)的个体和未诊断有癌症的健康个体(对照)收集血液。在STRIVE中,从筛选期乳房X光检查后28天内从女性身上采集血液样品。从每个样品提取无细胞DNA(cfDNA)并使用亚硫酸氢盐处理以将未甲基化胞嘧啶转化为尿嘧啶。使用杂交探针富集经亚硫酸氢盐处理的cfDNA中的信息性cfDNA分子,所述杂交探针经设计以富集衍生自如下三个癌症分析嵌板中的多个靶向基因组区域中的每一个的经亚硫酸氢盐转化的核酸:(1)如WO 2019/195268中所描述和公开的4号泛癌症测定嵌板(在本文中标记为本文的测定嵌板A);(2)如WO 2019/195268中所描述和公开的5号泛癌症测定嵌板(在本文中标记为本文的分析嵌板B);和(3)较大专属泛癌症测定嵌板(测定嵌板C,在下文中描述)。使用配对末端测序在Illumina平台(San Diego,CA)上对所富集经亚硫酸氢盐转化的核酸分子测序以获得每个训练样品的序列读取集,并且将所得读取对与参考基因组比对,组装成片段,并且鉴定甲基化和未甲基化CpG位点。
基于混合模型的特征化
对于每种癌症类型(包括非癌症)而言,训练概率混合模型,并用于向来自每个癌症和非癌症样品的每一片段基于在给定样品类型中观察到该片段的可能性来分配概率。
片段水平分析
简言之,对于每个样品类型(癌症和非癌症样品)和每个区域(其中每个区域在小于1kb时按原样使用,或另外再分成1kb长度区域,且相邻区域之间重叠50%(例如,500个碱基对重叠))而言,将概率模型拟合至衍生自每一类癌症和非癌症的训练样品的片段。针对每个样品类型训练的概率模型是混合模型,其中三个混合分量中的每一个是每个CpG处的甲基化假设独立于其他CpG处的甲基化的独立位点模型。从模型排除以下情形的片段:其p值(来自非癌症马尔可夫模型)大于0.01;标记为重复片段;片段的袋尺寸大于1(仅对于靶向甲基化样品而言);其不涵盖至少一个CpG位点;或片段长度大于1000个碱基。如果所保留训练片段与来自某一区域的至少一个CpG重叠,则将其分配至该区域。如果某一片段与多个区域中的CpG重叠,则将其分配至所有区域。
局部来源模型
使用最大似然性估计拟合每个概率模型以根据正则化罚分鉴定最大化衍生自每个样品类型的所有片段的对数似然性的参数集。具体而言,在每个分类区域中,训练概率模型集,每个训练标记使用一个模型(即,每个癌症类型使用一个模型,并且非癌症使用一个模型)。每个模型采用使用三个分量的Bernoulli混合模型形式。在数学上,
Figure BDA0003355021350000811
其中n是混合分量数,并且设定为3;mi∈{0,1}是在位置i处观察的片段甲基化;fk是分量k的分数赋值(其中fk≥0和∑fk=1);且βki是分量k在CpG i处的甲基化分数。关于i的乘积仅包含那些可以从测序中鉴定出甲基化状态的位置。通过使用rprop算法(例如,如Riedmiller M,Braun H.RPROP-A Fast Adaptive Learning Algorithm.Proceedings ofthe International Symposium on Computer and Information Science VII,1992中所述的rprop算法)来估计每个模型的{fk,βki}的最大似然性值参数以最大化一种训练标记的片段的总对数似然性,并对采用β-分布先验形式的βki进行正则化罚分。在数学上,最大化量为
Figure BDA0003355021350000821
其中r是正则化强度,并且设定为1。
特征化
一旦概率模型得以训练,即计算每个样品的数值特征集。具体而言,针对每种癌症类型和非癌症样品,在每个区域中,提取来自每个训练样品的每个片段的特征。所提取特征是离群片段(即异常甲基化片段)的统计值,离群片段定义为第一癌症模型下的对数似然性超过第二癌症模型或非癌症模型下的对数似然性至少阈值层级值者。针对每个基因组区域、样品模型(即癌症类型)和层级(针对层级1、2、3、4、5、6、7、8和9)单独统计离群片段,从而每个样品类型的每个区域产生9个特征。以这种方式,通过三个性质来定义每个特征:基因组区域;“阳性”癌症类型标记(排除非癌症);和层级值,其选自集合{1、2、3、4、5、6、7、8、9}。每个特征的数值定义为该区域中的片段数,从而
Figure BDA0003355021350000822
其中概率是通过方程式(1)使用对应于“阳性”癌症类型(在算法的分子中)或非癌症(在分母中)的最大似然性估计参数值来定义。
特征排序
对于每个配对特征集而言,使用交互信息基于区分第一癌症类型(其定义衍生特征的对数似然性模型)与第二癌症类型或非癌症的能力来对特征排序。具体而言,针对每个独特种类标记对编译两个特征排序列表:一个列表使用分配为“阳性”的第一标记和分配为“阴性”的第二标记,并且另一列表使用交换的阳性/阴性分配(“非癌症”标记除外,其仅允许作为阴性标记)。对于这些排序列表中的每一个而言,仅阳性癌症类型标记(如在方程式(3)中)匹配所考虑阳性标记的特征包括在排序中。对于每个此类特征而言,针对阳性标记和阴性标记单独计算具有非零特征值的训练样品的分数。根据关于该种类标记对的交互信息来对阳性标记中的该分数较大的特征排序。
鉴定来自每个配对比较的256个顶级特征,并且添加至每种癌症类型和非癌症类型的最终特征集合中。为避免冗余,如果从相同阳性型和基因组区域(即针对多个阴性型)选择一个以上特征,则仅保留向癌症类型对分配最低(最具信息性)等级者,从而通过选择较高层级值来中断层级。将每个样品(癌症类型和非癌症类型)的最终特征集合中的特征二进制化(将任何大于0的特征值设定为1,从而所有特征为0或1)。
分类器训练
然后,将训练样品分成不同的5折叠(fold)交叉验证训练集,并且针对每个折叠训练两阶段分类器,在每种情况下使用4/5的训练样品进行训练,并且其余的1/5用于验证。
在第一训练阶段中,训练用于检测癌症存在的二进制(两类)逻辑回归模型以区分癌症样品(不论TOO如何)和非癌症。在训练该二进制分类器时,向男性非癌症样品分配样品重量以抵消训练集中的性别不平衡。对于每个样品,二进制分类器输出指示癌症的存在或不存在的似然性的预测评分。
在第二阶段训练中,使用TOO作为靶标记来训练评分多类逻辑回归模型以确定癌症的来源组织。仅包含评分高于第一阶段分类器中95%的非癌症样品的癌症样品以训练该多类分类器。对于用于训练多类分类器的每个癌症样品而言,多类分类器输出所分类癌症类型的预测值,其中每个预测值是给定样品具有某种癌症类型的似然性。例如,癌症分类器可返回测试样品的癌症预测,该癌症预测包含乳腺癌预测评分、肺癌预测评分和/或无癌症预测评分。
通过随机梯度下降使用小批量来训练二进制分类器和多类分类器两者,并且在每种情况下,在验证折叠上的性能(通过交叉熵损失评价)开始下降时,提前停止训练。为预测训练集外的样品,在每个阶段中,将通过5个经交叉验证的分类器分配的评分平均化。将分配至性别不适当性癌症类型的评分设定为0,而将剩余值再正规化以总和为一。
保留分配至训练集内的验证折叠的评分以用于分配截止值(阈值),从而靶向某些性能度量。特别地,使用分配至训练集非癌症样品的概率评分来定义对应于特定特异性的阈值。例如,对于99.4%的所需靶特异性而言,将阈值设定为99.4%分配值训练集中的非癌症样品的经交叉验证的癌症检测概率评分。将概率评分超过阈值的训练样品称为癌症阳性。
随后,对于确定为癌症阳性的每个训练样品而言,从多类分类器进行TOO或癌症类型评估。首先,多类逻辑回归分类器向每个样品分配概率评分集,每个前瞻性癌症类型一个概率评分。接下来,将这些评分的置信度评价为由多类分类器向每个样品分配的最高评分与第二高评分之间的差。然后,使用经交叉验证的训练集评分来鉴定最低阈值,从而在训练集中前两名评分的差超过阈值的癌症样品中,90%已分配正确TOO标记并且作为其最高评分。以这种方式,进一步使用在训练期间分配至验证折叠的评分来确定区分置信调用与不确定TOO调用的第二阈值。
在预测时间时,向来自二进制(第一阶段)分类器的评分低于预定特异性阈值的样品分配“非癌症”标记。对于剩余样品而言,向来自第二阶段分类器的前两名TOO评分的差低于第二预定阈值者分配“不确定癌症”标记。向剩余样品分配TOO分类器向其分配最高评分的癌症标记。
靶基因组区域嵌板上的分类器性能
通过以下方式来评估测定嵌板A-C的靶基因组区域的差别值:根据这些靶基因组区域的甲基化状态,测试癌症分类器检测癌症和20种不同癌症类型中的任一者的能力。对于测定嵌板A-B而言,在用于训练分类器的1,531个癌症样品和1,521个非癌症样品的训练集中评价性能,如表1中所示。对于测定嵌板C而言,使用1,264个验证样品(654个癌症;610个非癌症)在使用与用于训练测定嵌板A-B相同的3,052个样品(1,531个癌症;1,521个非癌症)的训练集的分类器上来评价性能。对于每个样品,使用诱饵集(包括测定嵌板A-C中所包含的所有靶基因组区域)富集具有不同甲基化的cfDNA。然后约束分类器以仅基于所评价列表的靶基因组区域的甲基化状态来提供癌症确定。两阶段分类器实施方式包括用于检测癌症存在的二进制(二类)逻辑回归分类器模型,其经训练以辨别癌症样品(不论TOO如何)与非癌症;以及用以确定癌症来源组织的第二阶段经训练多类逻辑回归分类器模型,其是使用TOO作为靶标记来训练,如此前在该实施例中所描述的。亦如此前所描述的,使用以模型为基础的特征化来训练两种分类器模型并加以验证。
表1-使用其cfDNA训练分类器的个体的癌症诊断
Figure BDA0003355021350000851
Figure BDA0003355021350000861
测定嵌板A和B:来自测定嵌板A和B的分类器性能分析的结果显示在图26A和图27A中。在每个图中,部分A是接收者操作曲线(ROC),其显示用于确定癌症或非癌症的真阳性结果和假阳性结果。这些ROC曲线的不对称形状显示了分类器经设计以最小化假阳性结果。针对这两个测定嵌板的,测定嵌板A和B的曲线下面积为0.83。
使用分类器确定所有测试为阳性癌症的样品的癌症类型(即,TOO)。图26B和图27B包括分别指示测定嵌板A和B的TOO准确度的混淆矩阵。混淆矩阵包括描述分类器鉴定每种癌症类型和排除不确定癌症调用的成功率的信息。
如图26B和图27B中所示,TOO混淆矩阵显示如上文所描述多类逻辑回归分类器的性能。描述了使用靶向甲基化分类器所获得的每个样品的实际(x轴)和预测(y轴)来源组织之间的一致性。沿矩阵对角线的评分指示正确预测,即,其中所预测片段来源组织与真实组织匹配。如图26B中所示,在排除不确定癌症调用时,癌症测定嵌板A具有大约90.8%(711/783)的TOO准确度。另外,图27B显示,在排除不确定癌症调用时,分析嵌板B具有大约90.3%(705/781)的TOO准确度。
这些分类器结果进一步汇总在表2-3中,其指示使用0.990的特异性进行的癌症检测和癌症类型确定的准确度,从而指示1%的假阳性率。这些结果是根据癌症阶段来描述的。其显示了,与来自患有较早阶段癌症(例如,阶段II)的个体的样品相比,来自患有较晚阶段癌症(例如,阶段III)的个体的样品得到改良的癌症检测和癌症类型确定。对于所有癌症阶段(无阶段区分)而言,两个测定嵌板A和B(包括不确定癌症调用)的癌症类型确定准确率为大约89%。
表2:使用测定嵌板A的基因组区域的分类准确度。在0.990的特异性下癌症存在和癌症类型的数据显示为准确度百分比、95%置信区间(以方括号表示)和总数中正确分配的数量(以圆括号表示)。
分期 癌症存在 癌症类型
I 20.4%[16.6-24.5](86/422) 71.8%[60.5-81.4](56/78)
II 44.6%[39.6-49.7](173/388) 87.2%[81.1-91.9](143/164)
III 81.5%[76.7-85.6](255/313) 90.5%[86.1-93.9](220/243)
IV 90.9%[87.5-93.7](330/363) 93.3%[90-95.8](294/315)
All 56.5%[54-59](866/1532) 89.1%[86.8-91.2](731/820)
表3:使用测定嵌板B的基因组区域的分类准确度。在0.990的特异性下癌症存在和癌症类型的数据显示为准确度百分比、95%置信区间(以方括号表示)和总数中正确分配的数量(以圆括号表示)。
分期 癌症存在 癌症类型
I 19.9%[16.2-24](84/422) 72.7%[60.4-83](48/66)
II 45.1%[40.1-50.2](175/388) 84.8%[78.2-90](134/158)
III 81.2%[76.4-85.3](254/313) 91.3%[86.9-94.6](211/231)
IV 90.9%[87.5-93.7](330/363) 93.2%[89.8-95.7](287/308)
All 56.3%[53.7-58.8](862/1532) 89.2%[86.9-91.3](697/781)
测定嵌板C:如上所述,还测试了第三、较大专属广泛癌症测定嵌板。使用2019年9月27日提交的PCT/US2019/053509和2020年1月24日提交的PCT/US2020/015082(其以引用方式并入本文中)中所公开的特征选择方法从获得自第一CCGA子研究CCGA1的WGBS数据来设计测定嵌板C。较大专属靶向甲基化嵌板涵盖103,456个不同区域(17.2Mb)并且涵盖1,116,720个CpG。测定嵌板C包含由靶向低甲基化片段的探针涵盖的68,059个区域(7.5Mb)中的363,033个CpG;由靶向高甲基化片段的探针涵盖的28,521个区域(7.4Mb)中的585,181个CpG;以及靶向两种类型片段的6,876个区域(2.3Mb)中的218,506个CpG。个别异常靶区域含有1至590个CpG,其中低甲基化靶区域的中位数CpG计数为3,并且高甲基化靶区域的中位数CpG计数为6。CpG存在于以下基因组区域中:193,818个(17%)存在于转录起始位点(TSS)上游1至5kpb区域中;278,872个(24%)存在于启动子中(TSS上游<1kbp);500,996个(43%)存在于内含子中;292,789个(25%)存在于外显子中;247,752(21%)存在于内含子-外显子边界中;134,144个(11%)存在于5’-非翻译区中;182,174个(16%)存在于基因之间;并且剩余1,817个(<1%)未注释。百分比是相对于CpG总数,并且不总计为100%,因为由于重叠的基因和/或转录物每个CpG可能会收到多个注释。
在该评价中,将样品分成训练集(n=4,720)和独立验证集(n=1,969)。总计可分析4,316个参与者(训练:3,052个[1,531个癌症:阶段I:28%;阶段II:25%;阶段III:20%;阶段IV:24%;丢失/非预期:3%;1,521个非癌症];验证:1,264个[654个癌症:阶段I:28%;阶段II:25%;阶段III:21%;阶段IV:23%;丢失/非预期:3%;610个非癌症]),并且包括在主要分析人群中。
来自训练集和验证集的分类器性能分析的结果显示在图28-30中。图28的图A显示了训练集和验证集两者的特异性结果,图B显示了针对预定癌症(基于第一子研究结果和死亡率数据的12种高信号癌症(肛门癌、膀胱癌、结肠/直肠癌、食管癌、头颈癌、肝/胆管癌、肺癌、淋巴瘤、卵巢癌、胰腺癌、浆细胞赘生物、胃癌)的子集)和所有癌症类型(>20)在阶段I至IV的灵敏度。图28的图C显示了训练集和验证集两者的来源组织(TOO)准确度结果,图B显示了针对预定癌症和所有癌症类型在阶段I至IV的灵敏度。图29显示了训练集和验证集两者的TOO混淆矩阵,并且图30显示了针对预定改造类型训练集和验证集两者的灵敏度结果。
在图28中,针对训练(橙色)和验证(蓝绿色)按预定癌症类型(左图)和所有癌症类型(右图)中的临床阶段(x轴)来报告灵敏度(y轴)。针对训练(橙色)和验证(蓝绿色)根据预定癌症类型(左图)和所有癌症类型(右图)中的临床阶段(x轴)来报告来源组织准确度(y轴)。数字指示训练|验证集中样品。
如图28中所示,分类器在交叉验证训练集和独立验证集之间始终达到高特异性(分别为99.8%[95%CI:99.4-99.9%]对比99.3%[98.3-99.8%];P=0.095);这反映了全部20个癌症类型中小于1%的单一、一致假阳性率(FPR)。验证集中针对CCGA和STRIVE非癌症样品的特异性相似(分别为99.3%[97.4-99.9%]对比99.4%[97.9-99.9%]),从而证实性能并不随位点或所选择样品而偏离。训练集和验证集中灵敏度一致。在所有癌症中,阶段I-III灵敏度分别为44.2%(95%CI:41.3-47.2%)对比43.9%(39.4-48.5%)(P=1.000)。对于12个高信号癌症的预定集而言,阶段I-III灵敏度分别为69.8%(65.6-73.7%)对比67.3%(60.7-73.3%)(P=0.988)。类似地,所有癌症类型中的阶段I-IV灵敏度分别为55.2%(52.7-57.7%)对比54.9%(51.0-58.8%)(P=0.897),并且在预定癌症中分别为77.9%(75.0-80.7%)对比76.4%(71.6-80.7%)(P=0.573)。
同样,如图28中所示,灵敏度随疾病阶段的增加而增加。在验证中,预定癌症类型中的灵敏度为在阶段I(n=62)中39%(27–52%)、在阶段II(n=62)中69%(56–80%)、在阶段III(n=102)中83%(75–90%)和在阶段IV(n=130)中92%(86–96%)。在所有癌症类型中,灵敏度为在阶段I(n=185)中18%(13–25%)、在阶段II(n=166)中43%(35–51%)、在阶段III(n=134)中81%(73–87%)和在阶段IV(n=148)中93%(87–96%)。
在图30中描述了个别肿瘤类型中的性能。使用至少50个样品针对个别癌症类型报告在95%置信区间和99.8%特异性(训练,橙色)或99.3%特异性(验证,蓝绿色)下的灵敏度。临床阶段以及训练和验证中的样品数显示在图下方。
如图28中所示,预定TOO准确度分析(所有TOO正确预测的分数)发现,在验证集中96%(344/359)的具有癌症样信号的样品中预测出TOO;在这些样品中,准确度是93%(321/344)。训练集和验证集之间以及各阶段中的准确度一致。分类器可区分研究中所包含的>20个癌症类型,并且个别癌症类型中的性能一致。
图29显示了代表(A)训练集和(B)验证集中的来源组织定位准确度的混淆矩阵。显示了使用靶向甲基化分类器所获得的每个样品的实际(x轴)和预测(y轴)来源组织之间的一致性。颜色对应于预测来源组织调用的比例。所包含参与者(训练:n=844,验证:n=359)是预测为在99.8%特异性(训练)或99.3%特异性(验证)下患有癌症者。在95%(806/844)下训练病例和96%(344/359)的验证病例中分配来源组织调用;92%(744/806)的训练病例和93%(321/344)的验证病例中的调用是正确的。
X.D.实施例4-二进制分类器阈值的调谐
根据二进制癌症分类的一般化实施方式,分析系统基于测试样品的测试数据(例如,甲基化测序数据、SNP测序数据、其他DNA测序数据、RNA测序数据等)来确定测试样品的癌症评分。分析系统比较测试样品的癌症评分与二进制阈值截止值以预测测试样品是否可能患有癌症。可以使用TOO临界值化基于一个或多个TOO亚型种类来调谐二进制阈值截止值。分析系统可进一步产生测试样品的特征向量以用于多种癌症分类器中来确定指示一种或多种可能癌症类型的癌症预测。
图24A显示了根据一个实例实施方式显示经训练癌症分离器的性能的混淆矩阵。根据上述原理来训练癌症分类器。TOO标记包括:淋巴样缀合物、肺癌、肾癌、非癌症、头颈癌、前列腺癌、乳腺癌、上消化道癌、肝和胆管癌、结肠直肠癌、宫颈癌、胰腺和胆囊癌、子宫癌、肉瘤、膀胱和尿路上皮癌、卵巢癌、肛门直肠癌、未知类型、黑色素瘤、多发性骨髓瘤、髓样赘生物和甲状腺癌。应注意的是,在这种维持集中所考量的1,151个样品中的分类精确度为89.1%。
图24B显示了显示使用其他血液学癌症亚型的经训练癌症分类器的性能的混淆矩阵。根据上述原理来训练癌症分类器。与图24A相比,已调整血液学亚型的TOO标记。在图24A中,血液学亚型包括淋巴样赘生物、多发性骨髓瘤和髓样赘生物。在图24B中,血液学亚型包括霍奇金氏淋巴瘤(HL)、NHL侵袭性、NHL惰性、髓样、循环淋巴瘤(或淋巴样)和浆细胞。应注意的是,1,076个样品中的分类精确度为87.5%。
图25A和图25B显示了显示多种癌症类型在不同癌症阶段的癌症预测准确度的图。在该实例中,根据上述过程100在修剪非癌症样品之后训练癌症分类器。分析系统确定血液学亚型的多个TOO阈值。分析系统排除至少一个TOO概率为或更高血液学亚型的相应TOO阈值的非癌症样品。所显示的图显示了如下癌症类型的癌症在不同阶段的分类灵敏度:肛门直肠癌、膀胱和尿路上皮癌、乳腺癌、宫颈癌、结肠直肠癌、头颈癌、肝和胆管癌、肺癌、黑色素瘤、卵巢癌、胰腺和胆囊癌、前列腺癌、肾癌、肉瘤、甲状腺癌、上消化道癌和子宫癌。每种癌症类型的图显示了使用不使用TOO阈值化的第一癌症分类器(标记为“locked_v1_orgi”)和使用TOO阈值化的第二癌症分类器(标记为“v2_custom”)在每种癌症类型阶段的预测灵敏度。值的注意的是,对于很多癌症类型而言,第二癌症分类器具有较高预测准确度,并且同时保持严格的置信区间,这是因为更多样品可用于验证。尤其值得注意的是,很多癌症类型在阶段I和II水平的预测准确度更高,从而指示使用TOO阈值化在早期癌症中的预测可能性有所改善。
XI.其他考虑
以上对本发明实施方式的描述是为了说明的目的;其并不旨在详尽无遗或将本发明限制为所公开的精确形式。相关领域的技术人员可以理解,根据上述公开内容,很多修改和变化是可能的。
本说明书的某些部分根据对信息的操作的算法和符号表示来描述本公开的实施方式。这些算法描述和表示通常被数据处理领域的技术人员用来向本领域的其他技术人员有效地传达其工作的实质。尽管在功能上、计算上或逻辑上描述了这些操作,但应理解为通过计算机程序或等效电路、微代码等来实现。此外,在不失一般性的情况下,有时也证明将这些操作安排称为模块是方便的。所描述的操作及其相关联的模块可以体现在软件、固件、硬件或其任何组合中。
在此描述的任何步骤、操作或过程都可以用一个或多个硬件或软件模块单独或与其他设备组合来执行或实现。在一些实施方式中,软件模块用计算机程序产品实现,该计算机程序产品包括包含计算机程序代码的计算机可读非暂时性介质,该计算机程序代码可由计算机处理器执行以执行所描述的任何或所有步骤、操作或过程。
实施方式还可能涉及通过本文所述的计算过程产生的产品。这样的产品可以包括从计算过程产生的信息,其中信息存储在非暂时性、有形的计算机可读存储介质上并且可以包括计算机程序产品或这里描述的其他数据组合的任何实施方式。
最后,说明书中使用的语言主要是为了可读性和指导性目的而选择的,并且不能被选择来描述或限定本发明的主题。因此,本发明的范围旨在不受该详细描述的限制,而是由基于本文的应用发布的任何权利要求限制。因此,此处公开的实施方式旨在说明而非限制本发明的范围,本发明的范围在以下权利要求中阐述。

Claims (216)

1.一种分析序列读取以产生特征的方法,其包括:
从第一参考样品产生第一多个参考序列读取,所述第一样品来自具有第一疾病状态的受试者;
从第二参考样品产生第二多个参考序列读取,所述第二样品来自具有第二疾病状态的受试者,
使用所述第一多个参考序列读取训练第一概率模型,所述第一概率模型与所述第一疾病状态相关;
使用所述第二多个参考序列读取训练第二概率模型,所述第二概率模型与所述第二疾病状态相关;
从训练样品产生多个训练序列读取,并且针对所述多个训练序列读取的每个序列读取:
将所述序列读取应用于所述第一概率模型以确定第一概率值,所述第一概率值是来源于与所述第一疾病状态相关的样品的所述序列读取的概率,和
将所述序列读取应用于所述第二概率模型以确定第二概率值,所述第二概率值是来源于与所述第二疾病状态相关的样品的所述序列读取的概率;和
通过比较每个序列读取的所述第一概率值和所述第二概率值来鉴定一个或多个特征。
2.权利要求1所述的方法,其中所述第一疾病状态是癌症和所述第二疾病状态是非癌症。
3.权利要求1所述的方法,其中所述第一疾病状态是第一种类型的癌症和所述第二疾病状态是第二种类型的癌症,并且其中所述第一种类型的癌症和所述第二种类型的癌症是不同的。
4.权利要求1所述的方法,其中所述方法还包括:
从第三、第四、第五、第六、第七、第八、第九和/或第十参考样品产生多个参考序列读取,每个所述第三、第四、第五、第六、第七、第八、第九和/或第十参考样品具有不同疾病状态,并且其中每个所述不同疾病状态是不同类型的癌症;和
使用所述第三、第四、第五、第六、第七、第八、第九和/或第十多个参考序列读取训练第三、第四、第五、第六、第七、第八、第九和/或第十概率模型,其中每个所述第三、第四、第五、第六、第七、第八、第九和/或第十概率模型各自与不同类型的癌症相关。
5.权利要求2-4中任一项所述的方法,其中所述癌症或癌症的类型选自以下,包括:乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾盂输尿管尿路上皮癌、尿路上皮癌以外的肾癌、前列腺癌、肛门直肠癌、结直肠癌、食管鳞状细胞癌、鳞状细胞癌以外的食管癌、胃癌、源自肝细胞的肝胆管癌、源自肝细胞以外的细胞的肝胆管癌、胰腺癌、与人乳头瘤病毒相关的头颈癌、与人乳头瘤病毒不相关的头颈癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌和腺癌或小细胞肺癌以外的肺癌、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病。
6.权利要求5所述的方法,其中所述癌症类型另外地选自以下,包括:脑癌、外阴癌、阴道癌、睾丸癌、胸膜间皮瘤、腹膜间皮瘤和胆囊癌。
7.权利要求1所述的方法,其中所述第一疾病状态包括第一来源组织和所述第二疾病状态包括第二来源组织。
8.权利要求7所述的方法,其中所述第一来源组织或所述第二来源组织选自以下,包括:乳腺组织、甲状腺组织、肺组织、膀胱组织、宫颈组织、小肠组织、结直肠组织、食管组织、胃组织、扁桃体组织、肝组织、卵巢组织、输卵管组织、胰腺组织、前列腺组织、肾组织和子宫组织。
9.权利要求8所述的方法,其中所述第一来源组织或所述第二来源组织另外地选自以下,包括:脑组织和细胞、内分泌组织和细胞、血管内皮组织和细胞、头颈部组织和细胞、外分泌胰腺组织和细胞、内分泌胰腺组织和细胞、淋巴样组织和细胞、间充质组织和细胞、髓样组织和细胞、胸膜组织和细胞、肌肉组织和细胞、骨髓组织和细胞、脂肪组织和细胞、胆囊组织和细胞。
10.前述权利要求中任一项所述的方法,其中所述第一概率模型或第二概率模型是常数模型、二项式模型、独立位点模型、神经网络模型或马尔可夫模型。
11.前述权利要求中任一项所述的方法,其还包括:
确定所述第一多个参考序列读取或第二多个参考序列读取中针对多个CpG位点的每一个的甲基化率,其中所述第一概率模型或第二概率模型是通过所述甲基化率的乘积参数化的。
12.前述权利要求中任一项所述的方法,其还包括:
针对所述第一多个参考序列读取、所述第二多个序列读取或所述多个训练序列读取中的每个序列读取,通过确定具有至少一个阈值百分比的所述CpG位点的至少阈值数量的CpG位点是未甲基化还是甲基化来分别确定所述序列读取是低甲基化的还是高甲基化的。
13.前述权利要求中任一项所述的方法,其还包括:
针对所述第一多个参考序列读取、所述第二多个序列读取或所述多个训练序列读取中的每个序列读取,确定所述序列读取是否是异常甲基化的;和
使用p值过滤通过从所述第一多个参考序列读取除去具有低于阈值p值的序列读取来过滤所述第一多个参考序列读取。
14.权利要求10所述的方法,其中所述第一概率模型或所述第二概率模型是通过多个混合分量的总和参数化的,每个分量与所述甲基化率的乘积相关。
15.权利要求14所述的方法,其中所述多个混合分量的每个混合分量与分数赋值相关,并且其中所述分数赋值总和为一。
16.前述权利要求中任一项所述的方法,其中训练所述第一概率模型或第二概率模型包括:
针对所述概率模型确定参数集合,所述参数集合使来源于与所述第一疾病状态或所述第二疾病状态相关的受试者的所述第一多个参考序列读取或第二多个参考序列读取总对数似然性最大化,所述疾病状态与所述概率模型相关。
17.前述权利要求中任一项所述的方法,其中所述方法还包括:
针对多个窗口的每一个:
选择来源于所述窗口的所述第一多个参考序列读取的多个,并且利用来源于所述窗口的所述序列读取来训练用于所述窗口的所述第一概率模型;和
选择来源于所述窗口的所述第二多个参考序列读取的多个,并且利用所述序列读取来训练用于每个窗口的所述概率模型。
18.权利要求17所述的方法,其中所述方法还包括,针对所述多个窗口的每一个:
选择来源于所述窗口的多个所述训练序列读取的子集;和
针对所述子集的每个序列读取比较所述第一概率值和所述第二概率值鉴定所述一个或多个特征。
19.权利要求17所述的方法,其中每个所述窗口在CpG位点之间被至少阈值数量的碱基对分开。
20.权利要求17-19中任一项所述的方法,其中所述多个窗口的每一个包含约200个碱基对(bp)至约10千碱基对(kbp)。
21.前述权利要求中任一项所述的方法,其中所述一个或多个特征包括其中所述第一概率值大于所述第二概率值的所述多个训练序列读取的离群序列读取的计数。
22.权利要求21所述的方法,其中所述一个或多个特征包括二进制计数。
23.前述权利要求中任一项所述的方法,其中所述一个或多个特征包括离群序列读取的总计数。
24.前述权利要求中任一项所述的方法,其中所述一个或多个特征包括匿名(anonymously)甲基化序列读取的总计数。
25.前述权利要求中任一项所述的方法,其中所述一个或多个特征包括包含一种或多种特定甲基化模式的片段的计数。
26.前述权利要求中任一项所述的方法,其中使用在单一基因组区域内训练的鉴别式分类器的输出来鉴定所述一个或多个特征。
27.权利要求26所述的方法,其中所述鉴别式分类器是多层感知器或卷积神经网络模型。
28.前述权利要求中任一项所述的方法,其中比较所述第一概率值和所述第二概率值包括确定所述第一概率值和所述第二概率值的比率,并且其中所述一个或多个特征包括超过比率阈值的序列读取的序列读取计数。
29.前述权利要求中任一项所述的方法,其中所述第一概率值或所述第二概率值是对数似然性值。
30.前述权利要求中任一项所述的方法,其中鉴定所述一个或多个特征包括:
针对所述多个训练序列读取的每个序列读取:
确定所述第一概率值与所述第二概率值的对数似然性比率;和
针对一个或多个阈值,确定具有超过所述阈值的对数似然性比率的所述序列读取的计数。
31.前述权利要求中任一项所述的方法,所述方法还包括:
针对所述一个或多个特征的每一个,确定区分所述第一疾病状态和所述第二疾病状态的所述特征的指标。
32.权利要求31所述的方法,其中确定所述一个或多个特征的每一个的所述指标包括:
确定所述特征与所述第一疾病状态和所述第二疾病状态存在的概率之间的交互(mutual)信息。
33.权利要求32所述的方法,其还包括:
通过基于所述指标对所述特征进行排序来过滤用于训练分类器的所述一个或多个特征。
34.前述权利要求中任一项所述的方法,所述方法还包括从所述一个或多个特征训练分类器,所述分类器经训练以针对来自测试受试者的测试样品的多个序列读取预测一种或多种疾病状态,其中所述一种或多种疾病状态包括疾病的存在或不存在、疾病类型和/或疾病来源组织。
35.权利要求34所述的方法,其中所述分类器是多层感知器模型。
36.权利要求34所述的方法,其中所述分类器是逻辑回归、支持向量机、多项逻辑回归、多层感知器、随机森林或神经网络模型分类器。
37.权利要求34所述的方法,其中所述分类器是使用L1或L2正则化逻辑回归产生的。
38.权利要求34所述的方法,其还包括:
确定针对所述测试样品的概率向量;和
基于所述概率向量确定所述测试样品的标记。
39.权利要求34所述的方法,其还包括:
使用混淆矩阵确定所述分类器的准确度,所述混淆矩阵包括描述所述分类器在鉴定所述多种疾病状态的每一种时的成功率的信息。
40.前述权利要求中任一项所述的方法,其中所述第一参考样品或所述第二参考样品是来自具有已知疾病状态的受试者的无细胞核酸样品或组织核酸样品。
41.权利要求40所述的方法,其中所述已知疾病状态是所述疾病的存在或不存在、疾病类型或疾病来源组织。
42.前述权利要求中任一项所述的方法,其中所述训练样品包括无细胞核酸样品或组织样品。
43.权利要求34所述的方法,其中所述测试样品包括无细胞核酸样品。
44.权利要求34所述的方法,其中所述第一多个参考序列读取、所述第二多个参考序列读取、所述多个训练序列读取或者来自所述测试样品的所述多个序列读取是由甲基化测序产生的。
45.权利要求44所述的方法,其中所述甲基化测序包括全基因组亚硫酸氢盐测序。
46.权利要求44所述的方法,其中所述甲基化测序包括靶向测序。
47.一种系统,其包括计算机处理器和存储器,所述存储器存储计算机程序指令,当由所述计算机处理器执行时,所述指令使所述处理器执行包括以下步骤的步骤:
访问来自第一参考样品的第一多个参考序列读取,所述第一样品来自具有第一疾病状态的受试者;
访问来自第二参考样品的第二多个参考序列读取,所述第二样品来自具有第二疾病状态的受试者,
使用所述第一多个参考序列读取训练第一概率模型,所述第一概率模型与所述第一疾病状态相关;
使用所述第二多个参考序列读取训练第二概率模型,所述第二概率模型与所述第二疾病状态相关;
访问来自训练样品的多个训练序列读取,并且针对所述多个训练序列读取的每个序列读取:
将所述序列读取应用于所述第一概率模型以确定第一概率值,所述第一概率值是来源于与所述第一疾病状态相关的样品的所述序列读取的概率,和
将所述序列读取应用于所述第二概率模型以确定第二概率值,所述第二概率值是来源于与所述第二疾病状态相关的样品的所述序列读取的概率;和
通过比较每个序列读取的所述第一概率值和所述第二概率值来鉴定一个或多个特征。
48.权利要求47所述的系统,其中所述第一疾病状态是癌症和所述第二疾病状态是非癌症。
49.权利要求47所述的系统,其中所述第一疾病状态是第一种类型的癌症和所述第二疾病状态是第二种类型的癌症,并且其中所述第一种类型的癌症和所述第二种类型的癌症是不同的。
50.权利要求47所述的系统,所述存储器存储其他计算机指令,所述其他计算机指令在由所述计算机处理器执行时使得所述处理器实施包括以下的步骤:
访问来自第三、第四、第五、第六、第七、第八、第九和/或第十参考样品的多个参考序列读取,每个所述第三、第四、第五、第六、第七、第八、第九和/或第十参考样品具有不同疾病状态,并且其中每个所述不同疾病状态是不同类型的癌症;和
使用所述第三、第四、第五、第六、第七、第八、第九和/或第十多个参考序列读取训练第三、第四、第五、第六、第七、第八、第九和/或第十概率模型,其中每个所述第三、第四、第五、第六、第七、第八、第九和/或第十概率模型各自与不同类型的癌症相关。
51.权利要求48-50中任一项所述的系统,其中所述癌症或癌症的类型选自以下,包括:乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾盂输尿管尿路上皮癌、尿路上皮癌以外的肾癌、前列腺癌、肛门直肠癌、结直肠癌、食管鳞状细胞癌、鳞状细胞癌以外的食管癌、胃癌、源自肝细胞的肝胆管癌、源自肝细胞以外的细胞的肝胆管癌、胰腺癌、与人乳头瘤病毒相关的头颈癌、与人乳头瘤病毒不相关的头颈癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌和腺癌或小细胞肺癌以外的肺癌、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病。
52.权利要求51所述的系统,其中所述癌症类型另外地选自以下,包括:脑癌、外阴癌、阴道癌、睾丸癌、胸膜间皮瘤、腹膜间皮瘤和胆囊癌。
53.权利要求47所述的系统,其中所述第一疾病状态包括第一来源组织和所述第二疾病状态包括第二来源组织。
54.权利要求53所述的系统,其中所述第一来源组织或所述第二来源组织选自以下,包括:乳腺组织、甲状腺组织、肺组织、膀胱组织、宫颈组织、小肠组织、结直肠组织、食管组织、胃组织、扁桃体组织、肝组织、卵巢组织、输卵管组织、胰腺组织、前列腺组织、肾组织和子宫组织。
55.权利要求54所述的系统,其中所述第一来源组织或所述第二来源组织另外地选自以下,包括:脑组织和细胞、内分泌组织和细胞、血管内皮组织和细胞、头颈部组织和细胞、外分泌胰腺组织和细胞、内分泌胰腺组织和细胞、淋巴样组织和细胞、间充质组织和细胞、髓样组织和细胞、胸膜组织和细胞、肌肉组织和细胞、骨髓组织和细胞、脂肪组织和细胞、胆囊组织和细胞。
56.权利要求47-55中任一项所述的系统,其中所述第一概率模型或第二概率模型是常数模型、二项式模型、独立位点模型、神经网络模型或马尔可夫模型。
57.权利要求47-56中任一项所述的系统,所述存储器存储其他计算机指令,所述其他计算机指令在由所述计算机处理器执行时使得所述处理器实施包括以下的步骤:
确定所述第一多个参考序列读取或第二多个参考序列读取中针对多个CpG位点的每一个的甲基化率,其中所述第一概率模型或第二概率模型是通过所述甲基化率的乘积参数化的。
58.权利要求47-56中任一项所述的系统,所述存储器存储其他计算机指令,所述其他计算机指令在由所述计算机处理器执行时使得所述处理器实施包括以下的步骤:
针对所述第一多个参考序列读取、所述第二多个序列读取或所述多个训练序列读取中的每个序列读取,通过确定具有至少一个阈值百分比的所述CpG位点的至少阈值数量的CpG位点是未甲基化还是甲基化来分别确定所述序列读取是低甲基化的还是高甲基化的。
59.权利要求47-56中任一项所述的系统,所述存储器存储其他计算机指令,所述其他计算机指令在由所述计算机处理器执行时使得所述处理器实施包括以下的步骤:
针对所述第一多个参考序列读取、所述第二多个序列读取或所述多个训练序列读取中的每个序列读取,确定所述序列读取是否是异常甲基化的;和
使用p值过滤通过从所述第一多个参考序列读取除去具有低于阈值p值的序列读取来过滤所述第一多个参考序列读取。
60.权利要求56所述的系统,其中所述第一概率模型或所述第二概率模型是通过多个混合分量的总和参数化的,每个分量与所述甲基化率的乘积相关。
61.权利要求60所述的系统,其中所述多个混合分量的每个混合分量与分数赋值相关,并且其中所述分数赋值总和为一。
62.权利要求47-61中任一项所述的系统,其中训练所述第一概率模型或第二概率模型包括:
针对所述概率模型确定参数集合,所述参数集合使来源于与所述第一疾病状态或所述第二疾病状态相关的受试者的所述第一多个参考序列读取或第二多个参考序列读取总对数似然性最大化,所述疾病状态与所述概率模型相关。
63.权利要求47-62中任一项所述的系统,所述存储器存储其他计算机指令,所述其他计算机指令在由所述计算机处理器执行时使得所述处理器实施包括以下的步骤:
针对多个窗口的每一个:
选择来源于所述窗口的所述第一多个参考序列读取的多个,并且利用来源于所述窗口的所述序列读取来训练用于所述窗口的所述第一概率模型;和
选择来源于所述窗口的所述第二多个参考序列读取的多个,并且利用所述序列读取来训练用于每个窗口的所述概率模型。
64.权利要求63所述的系统,所述存储器存储其他计算机指令,所述其他计算机指令在由所述计算机处理器执行时使得所述处理器实施包括以下的步骤,针对多个窗口的每一个:
选择来源于所述窗口的多个所述训练序列读取的子集;和
针对所述子集的每个序列读取比较所述第一概率值和所述第二概率值鉴定所述一个或多个特征。
65.权利要求63所述的系统,其中每个所述窗口在CpG位点之间被至少阈值数量的碱基对分开。
66.权利要求63-65中任一项所述的系统,其中所述多个窗口的每一个包含约200个碱基对(bp)至约10千碱基对(kbp)。
67.权利要求47-66中任一项所述的系统,其中所述多个训练序列读取的所述一个或多个特征包括其中所述第一概率值大于所述第二概率值的离群序列读取的计数。
68.权利要求67所述的系统,其中所述一个或多个特征包括二进制计数。
69.权利要求47-68中任一项所述的系统,其中所述一个或多个特征包括离群序列读取的总计数。
70.权利要求47-69中任一项所述的系统,其中所述一个或多个特征包括匿名(anonymously)甲基化序列读取的总计数。
71.权利要求47-70中任一项所述的系统,其中所述一个或多个特征包括包含一种或多种特定甲基化模式的片段的计数。
72.权利要求47-71中任一项所述的系统,其中使用在单一基因组区域内训练的鉴别式分类器的输出来鉴定所述一个或多个特征。
73.权利要求72所述的系统,其中所述鉴别式分类器是多层感知器或卷积神经网络模型。
74.权利要求47-73中任一项所述的系统,其中比较所述第一概率值和所述第二概率值包括确定所述第一概率值和所述第二概率值的比率,并且其中所述一个或多个特征包括超过比率阈值的序列读取的序列读取计数。
75.权利要求47-74中任一项所述的系统,其中所述第一概率值或所述第二概率值是对数似然性值。
76.权利要求47-75中任一项所述的系统,其中鉴定所述一个或多个特征包括:
针对所述多个训练序列读取的每个序列读取:
确定所述第一概率值与所述第二概率值的对数似然性比率;和
针对一个或多个阈值,确定具有超过所述阈值的对数似然性比率的所述序列读取的计数。
77.权利要求47-76中任一项所述的系统,所述存储器存储其他计算机指令,所述其他计算机指令在由所述计算机处理器执行时使得所述处理器实施包括以下的步骤:
针对所述一个或多个特征的每一个,确定区分所述第一疾病状态和所述第二疾病状态的所述特征的指标。
78.权利要求77所述的系统,其中确定所述一个或多个特征的每一个的所述指标包括:
确定所述特征与所述第一疾病状态和所述第二疾病状态存在的概率之间的交互(mutual)信息。
79.权利要求78所述的系统,所述存储器存储其他计算机指令,所述其他计算机指令在由所述计算机处理器执行时使得所述处理器实施包括以下的步骤:
通过基于所述指标对所述特征进行排序来过滤用于训练分类器的所述一个或多个特征。
80.权利要求47-79中任一项所述的系统,所述系统还包括从所述一个或多个特征训练分类器,所述分类器经训练以针对来自测试受试者的测试样品的多个序列读取预测一种或多种疾病状态,其中所述一种或多种疾病状态包括疾病的存在或不存在、疾病类型和/或疾病来源组织。
81.权利要求80所述的系统,其中所述分类器是多层感知器模型。
82.权利要求80所述的系统,其中所述分类器是逻辑回归、支持向量机、多项逻辑回归、多层感知器、随机森林或神经网络模型分类器。
83.权利要求80所述的系统,其中所述分类器是使用L1或L2正则化逻辑回归产生的。
84.权利要求80所述的系统,所述存储器存储其他计算机指令,所述其他计算机指令在由所述计算机处理器执行时使得所述处理器实施包括以下的步骤:
确定针对所述测试样品的概率向量;和
基于所述概率向量确定所述测试样品的标记。
85.权利要求80所述的系统,所述存储器存储其他计算机指令,所述其他计算机指令在由所述计算机处理器执行时使得所述处理器实施包括以下的步骤:
使用混淆矩阵确定所述分类器的准确度,所述混淆矩阵包括描述所述分类器在鉴定所述多种疾病状态的每一种时的成功率的信息。
86.权利要求47-85中任一项所述的系统,其中所述第一参考样品或所述第二参考样品是来自具有已知疾病状态的受试者的无细胞核酸样品或组织核酸样品。
87.权利要求86所述的系统,其中所述已知疾病状态是所述疾病的存在或不存在、疾病类型或疾病来源组织。
88.权利要求47-87中任一项所述的系统,其中所述训练样品包括无细胞核酸样品或组织样品。
89.权利要求80所述的系统,其中所述测试样品包括无细胞核酸样品。
90.权利要求80所述的系统,其中所述第一多个参考序列读取、所述第二多个参考序列读取、所述多个训练序列读取或者来自所述测试样品的所述多个序列读取是由甲基化测序产生的。
91.权利要求90所述的系统,其中所述甲基化测序包括全基因组亚硫酸氢盐测序。
92.权利要求91所述的系统,其中所述甲基化测序包括靶向测序。
93.一种非暂时性计算机可读介质,其包括指令,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器实施包括以下的步骤:
访问来自第一参考样品的第一多个参考序列读取,所述第一样品来自具有第一疾病状态的受试者;
访问来自第二参考样品的第二多个参考序列读取,所述第二样品来自具有第二疾病状态的受试者,
使用所述第一多个参考序列读取训练第一概率模型,所述第一概率模型与所述第一疾病状态相关;
使用所述第二多个参考序列读取训练第二概率模型,所述第二概率模型与所述第二疾病状态相关;
访问来自训练样品的多个训练序列读取,并且针对所述多个训练序列读取的每个序列读取:
将所述序列读取应用于所述第一概率模型以确定第一概率值,所述第一概率值是来源于与所述第一疾病状态相关的样品的所述序列读取的概率,和
将所述序列读取应用于所述第二概率模型以确定第二概率值,所述第二概率值是来源于与所述第二疾病状态相关的样品的所述序列读取的概率;和
通过比较每个序列读取的所述第一概率值和所述第二概率值来鉴定一个或多个特征。
94.权利要求93所述的非暂时性计算机可读介质,其中所述第一疾病状态是癌症和所述第二疾病状态是非癌症。
95.权利要求93所述的非暂时性计算机可读介质,其中所述第一疾病状态是第一种类型的癌症和所述第二疾病状态是第二种类型的癌症,并且其中所述第一种类型的癌症和所述第二种类型的癌症是不同的。
96.权利要求93所述的非暂时性计算机可读介质,其包括其他指令,所述其他指令在由一个或多个处理器执行时使得所述一个或多个处理器实施包括以下的步骤:
访问来自第三、第四、第五、第六、第七、第八、第九和/或第十参考样品的多个参考序列读取,每个所述第三、第四、第五、第六、第七、第八、第九和/或第十参考样品具有不同疾病状态,并且其中每个所述不同疾病状态是不同类型的癌症;和
使用所述第三、第四、第五、第六、第七、第八、第九和/或第十多个参考序列读取训练第三、第四、第五、第六、第七、第八、第九和/或第十概率模型,其中每个所述第三、第四、第五、第六、第七、第八、第九和/或第十概率模型各自与不同类型的癌症相关。
97.权利要求94-96中任一项所述的非暂时性计算机可读介质,其中所述癌症或癌症的类型选自以下,包括:乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾盂输尿管尿路上皮癌、尿路上皮癌以外的肾癌、前列腺癌、肛门直肠癌、结直肠癌、食管鳞状细胞癌、鳞状细胞癌以外的食管癌、胃癌、源自肝细胞的肝胆管癌、源自肝细胞以外的细胞的肝胆管癌、胰腺癌、与人乳头瘤病毒相关的头颈癌、与人乳头瘤病毒不相关的头颈癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌和腺癌或小细胞肺癌以外的肺癌、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病。
98.权利要求97所述的非暂时性计算机可读介质,其中所述癌症类型另外地选自以下,包括:脑癌、外阴癌、阴道癌、睾丸癌、胸膜间皮瘤、腹膜间皮瘤和胆囊癌。
99.权利要求93所述的非暂时性计算机可读介质,其中所述第一疾病状态包括第一来源组织和所述第二疾病状态包括第二来源组织。
100.权利要求99所述的非暂时性计算机可读介质,其中所述第一来源组织或所述第二来源组织选自以下,包括:乳腺组织、甲状腺组织、肺组织、膀胱组织、宫颈组织、小肠组织、结直肠组织、食管组织、胃组织、扁桃体组织、肝组织、卵巢组织、输卵管组织、胰腺组织、前列腺组织、肾组织和子宫组织。
101.权利要求100所述的非暂时性计算机可读介质,其中所述第一来源组织或所述第二来源组织另外地选自以下,包括:脑组织和细胞、内分泌组织和细胞、血管内皮组织和细胞、头颈部组织和细胞、外分泌胰腺组织和细胞、内分泌胰腺组织和细胞、淋巴样组织和细胞、间充质组织和细胞、髓样组织和细胞、胸膜组织和细胞、肌肉组织和细胞、骨髓组织和细胞、脂肪组织和细胞、胆囊组织和细胞。
102.权利要求93-101中任一项所述的非暂时性计算机可读介质,其中所述第一概率模型或第二概率模型是常数模型、二项式模型、独立位点模型、神经网络模型或马尔可夫模型。
103.权利要求93-102中任一项所述的非暂时性计算机可读介质,其包括其他指令,所述其他指令在由一个或多个处理器执行时使得所述一个或多个处理器实施包括以下的步骤:
确定所述第一多个参考序列读取或第二多个参考序列读取中针对多个CpG位点的每一个的甲基化率,其中所述第一概率模型或第二概率模型是通过所述甲基化率的乘积参数化的。
104.权利要求93-103中任一项所述的非暂时性计算机可读介质,其包括其他指令,所述其他指令在由一个或多个处理器执行时使得所述一个或多个处理器实施包括以下的步骤:
针对所述第一多个参考序列读取、所述第二多个序列读取或所述多个训练序列读取中的每个序列读取,通过确定具有至少一个阈值百分比的所述CpG位点的至少阈值数量的CpG位点是未甲基化还是甲基化来分别确定所述序列读取是低甲基化的还是高甲基化的。
105.权利要求93-104中任一项所述的非暂时性计算机可读介质,其包括其他指令,所述其他指令在由一个或多个处理器执行时使得所述一个或多个处理器实施包括以下的步骤:
针对所述第一多个参考序列读取、所述第二多个序列读取或所述多个训练序列读取中的每个序列读取,确定所述序列读取是否是异常甲基化的;和
使用p值过滤通过从所述第一多个参考序列读取除去具有低于阈值p值的序列读取来过滤所述第一多个参考序列读取。
106.权利要求102所述的非暂时性计算机可读介质,其中所述第一概率模型或所述第二概率模型是通过多个混合分量的总和参数化的,每个分量与所述甲基化率的乘积相关。
107.权利要求106所述的非暂时性计算机可读介质,其中所述多个混合分量的每个混合分量与分数赋值相关,并且其中所述分数赋值总和为一。
108.权利要求93-107中任一项所述的非暂时性计算机可读介质,其中训练所述第一概率模型或第二概率模型包括:
针对所述概率模型确定参数集合,所述参数集合使来源于与所述第一疾病状态或所述第二疾病状态相关的受试者的所述第一多个参考序列读取或第二多个参考序列读取总对数似然性最大化,所述疾病状态与所述概率模型相关。
109.权利要求93-108中任一项所述的非暂时性计算机可读介质,其包括其他指令,所述其他指令在由一个或多个处理器执行时使得所述一个或多个处理器实施包括以下的步骤:
针对多个窗口的每一个:
选择来源于所述窗口的所述第一多个参考序列读取的多个,并且利用来源于所述窗口的所述序列读取来训练用于所述窗口的所述第一概率模型;和
选择来源于所述窗口的所述第二多个参考序列读取的多个,并且利用所述序列读取来训练用于每个窗口的所述概率模型。
110.权利要求109所述的非暂时性计算机可读介质,其包括其他指令,所述其他指令在由一个或多个处理器执行时使得所述一个或多个处理器实施包括以下的步骤,针对所述多个窗口的每一个:
选择来源于所述窗口的多个所述训练序列读取的子集;和
针对所述子集的每个序列读取比较所述第一概率值和所述第二概率值鉴定所述一个或多个特征。
111.权利要求109所述的非暂时性计算机可读介质,其中每个所述窗口在CpG位点之间被至少阈值数量的碱基对分开。
112.权利要求109-111中任一项所述的非暂时性计算机可读介质,其中所述多个窗口的每一个包含约200个碱基对(bp)至约10千碱基对(kbp)。
113.权利要求93-112中任一项所述的非暂时性计算机可读介质,其中所述一个或多个特征包括其中所述第一概率值大于所述第二概率值的所述多个训练序列读取的离群序列读取的计数。
114.权利要求113所述的非暂时性计算机可读介质,其中所述一个或多个特征包括二进制计数。
115.权利要求93-114中任一项所述的非暂时性计算机可读介质,其中所述一个或多个特征包括离群序列读取的总计数。
116.权利要求93-115中任一项所述的非暂时性计算机可读介质,其中所述一个或多个特征包括匿名(anonymously)甲基化序列读取的总计数。
117.权利要求93-116中任一项所述的非暂时性计算机可读介质,其中所述一个或多个特征包括包含一种或多种特定甲基化模式的片段的计数。
118.权利要求93-117中任一项所述的非暂时性计算机可读介质,其中使用在单一基因组区域内训练的鉴别式分类器的输出来鉴定所述一个或多个特征。
119.权利要求113所述的非暂时性计算机可读介质,其中所述鉴别式分类器是多层感知器或卷积神经网络模型。
120.权利要求93-119中任一项所述的非暂时性计算机可读介质,其中比较所述第一概率值和所述第二概率值包括确定所述第一概率值和所述第二概率值的比率,并且其中所述一个或多个特征包括超过比率阈值的序列读取的序列读取计数。
121.权利要求93-120中任一项所述的非暂时性计算机可读介质,其中所述第一概率值或所述第二概率值是对数似然性值。
122.权利要求93-121中任一项所述的非暂时性计算机可读介质,其中鉴定所述一个或多个特征包括:
针对所述多个训练序列读取的每个序列读取:
确定所述第一概率值与所述第二概率值的对数似然性比率;和
针对一个或多个阈值,确定具有超过所述阈值的对数似然性比率的所述序列读取的计数。
123.权利要求93-122中任一项所述的非暂时性计算机可读介质,其包括其他指令,所述其他指令在由一个或多个处理器执行时使得所述一个或多个处理器实施包括以下的步骤:
针对所述一个或多个特征的每一个,确定区分所述第一疾病状态和所述第二疾病状态的所述特征的指标。
124.权利要求123所述的非暂时性计算机可读介质,其中确定所述一个或多个特征的每一个的所述指标包括:
确定所述特征与所述第一疾病状态和所述第二疾病状态存在的概率之间的交互(mutual)信息。
125.权利要求124所述的非暂时性计算机可读介质,其包括其他指令,所述其他指令在由一个或多个处理器执行时使得所述一个或多个处理器实施包括以下的步骤:
通过基于所述指标对所述特征进行排序来过滤用于训练分类器的所述一个或多个特征。
126.权利要求93-125中任一项所述的非暂时性计算机可读介质,所述指令还包括从所述一个或多个特征训练分类器,所述分类器经训练以针对来自测试受试者的测试样品的多个序列读取预测一种或多种疾病状态,其中所述一种或多种疾病状态包括疾病的存在或不存在、疾病类型和/或疾病来源组织。
127.权利要求126所述的非暂时性计算机可读介质,其中所述分类器是多层感知器模型。
128.权利要求126所述的非暂时性计算机可读介质,,其中所述分类器是逻辑回归、支持向量机、多项逻辑回归、多层感知器、随机森林或神经网络模型分类器。
129.权利要求126所述的非暂时性计算机可读介质,其中所述分类器是使用L1或L2正则化逻辑回归产生的。
130.权利要求126所述的非暂时性计算机可读介质,其包括其他指令,所述其他指令在由一个或多个处理器执行时使得所述一个或多个处理器实施包括以下的步骤:
确定针对所述测试样品的概率向量;和
基于所述概率向量确定所述测试样品的标记。
131.权利要求126所述的非暂时性计算机可读介质,其包括其他指令,所述其他指令在由一个或多个处理器执行时使得所述一个或多个处理器实施包括以下的步骤:
使用混淆矩阵确定所述分类器的准确度,所述混淆矩阵包括描述所述分类器在鉴定所述多种疾病状态的每一种时的成功率的信息。
132.权利要求93-131中任一项所述的非暂时性计算机可读介质,其中所述第一参考样品或所述第二参考样品是来自具有已知疾病状态的受试者的无细胞核酸样品或组织核酸样品。
133.权利要求132所述的非暂时性计算机可读介质,其中所述已知疾病状态是所述疾病的存在或不存在、疾病类型或疾病来源组织。
134.权利要求93-133中任一项所述的非暂时性计算机可读介质,其中所述训练样品包括无细胞核酸样品或组织样品。
135.权利要求126所述的非暂时性计算机可读介质,其中所述测试样品包括无细胞核酸样品。
136.权利要求126所述的非暂时性计算机可读介质,其中所述第一多个参考序列读取、所述第二多个参考序列读取、所述多个训练序列读取或者来自所述测试样品的所述多个序列读取是由甲基化测序产生的。
137.权利要求136所述的非暂时性计算机可读介质,其中所述甲基化测序包括全基因组亚硫酸氢盐测序。
138.权利要求136所述的非暂时性计算机可读介质,其中所述甲基化测序包括靶向测序。
139.一种方法,其包括:
从具有多种疾病状态的一种的参考样品产生第一多个参考序列读取,每种疾病状态与来源组织相关;
使用所述第一多个参考序列读取训练多个概率模型,每个概率模型与所述多种疾病状态的不同疾病状态相关;
针对所述多个概率模型的每个概率模型:
针对第二多个序列读取的每一个,将所述概率模型应用于所述序列读取以确定至少基于源自与所述概率模型相关的所述疾病状态相关的样品的所述序列读取的第一概率的值;和
通过确定具有超过阈值的值的所述第二多个序列读取的计数鉴定特征;和
使用所述特征产生分类器,所述分类器经训练以针对来自测试受试者的测试样品的输入序列读取预测疾病状态或与多种疾病状态的一种疾病状态相关的来源组织。
140.权利要求139所述的方法,其中所述多种疾病状态包括至少两种、至少三种、至少四种、至少五种或至少十种不同疾病状态。
141.权利要求139或权利要求140所述的方法,其还包括:
确定所述第一多个参考序列读取中针对多个CpG位点的每一个的甲基化率,其中多个概率模型的每一个是通过所述甲基化率的乘积参数化的。
142.权利要求139或权利要求140所述的方法,所述方法还包括:
针对所述第一多个参考序列读取或所述第二多个序列读取的每个序列读取,确定所述序列读取是否是异常甲基化的;和
使用p值过滤通过从所述第一多个参考序列读取或所述第二多个序列读取除去具有低于阈值p值的序列读取来过滤所述第一多个参考序列读取或所述第二多个序列读取。
143.权利要求141所述的方法,其中所述多个概率模型的每个概率模型是通过多个混合分量的总和参数化的,每个分量与所述甲基化率的乘积相关。
144.权利要求143所述的方法,其中所述多个混合分量的每个混合分量与分数赋值相关,并且其中所述分数赋值总和为一。
145.权利要求139-144中任一项所述的方法,其中训练所述多个概率模型包括:
针对所述多个概率模型的一个概率模型确定参数集合,所述参数集合使来源于与所述疾病状态相关的受试者的所述第一多个参考序列读取总对数似然性最大化,所述疾病状态与所述概率模型相关。
146.权利要求139-145中任一项所述的方法,其还包括:
确定针对所述测试样品的概率向量;和
基于所述概率向量确定所述测试样品的标记。
147.权利要求139-146中任一项所述的方法,其中确定所述值包括:
确定源自与所述概率模型相关的所述疾病状态相关的样品的所述序列读取的所述第一概率,其中所述疾病状态与癌症存在或癌症类型相关;
确定源自健康样品的所述序列读取的第二概率;和
确定所述第一概率与所述第二概率的对数似然性比率。
148.权利要求147所述的方法,其中鉴定所述特征包括:
针对多个阈值,确定具有超过所述阈值的对数似然性比率的所述第二多个序列读取的计数。
149.权利要求139-148中任一项所述的方法,其还包括:
针对所述特征的每一个,确定区分所述多种疾病状态的第一疾病状态和第二疾病状态之间的所述特征的指标。
150.权利要求149所述的方法,其中确定所述特征的所述指标包括:
确定所述特征与所述第一疾病状态和所述第二疾病状态存在的概率之间的交互(mutual)信息。
151.权利要求149所述的方法,其中所述第一疾病状态的第一概率等于所述第二疾病状态的第二概率。
152.权利要求149所述的方法,其还包括:
通过基于所述特征的所述指标进行排序来过滤用于训练所述分类器的所述特征。
153.权利要求139-152中任一项所述的方法,其还包括:
使用混淆矩阵确定所述分类器的准确度,所述混淆矩阵包括描述所述分类器在鉴定所述多种疾病状态的每一种时的成功率的信息。
154.权利要求139-153中任一项所述的方法,其还包括:
确定参考基因组的多个区块,所述区块的每一个在CpG位点之间被至少阈值数量的碱基对分开,其中使用所述多个区块产生所述第一多个参考序列读取。
155.权利要求139-154中任一项所述的方法,其中针对多个CpG位点确定具有超过所述阈值的所述值的所述第二多个序列读取的所述计数。
156.权利要求139-155中任一项所述的方法,其中所述参考样品包括以下一种或多种:无细胞核酸样品和组织样品。
157.权利要求139-156中任一项所述的方法,其中所述多种疾病状态包括以下一种或多种:癌症类型、疾病类型和健康状态。
158.权利要求139-157中任一项所述的方法,其中所述分类器是逻辑回归、多项逻辑回归、多层感知器、支持向量机、随机森林或神经网络模型分类器。
159.权利要求158所述的方法,其中所述分类器是使用L1或L2正则化逻辑回归产生的。
160.权利要求139-159中任一项所述的方法,其还包括:
二进制化所述特征以指示所述多种疾病状态之一存在或不存在,其中使用所述二进制化特征产生所述分类器。
161.权利要求160所述的方法,其中所述二进制化特征各自具有0或1的值。
162.权利要求139-161中任一项所述的方法,其还包括:
针对所述参考样品,确定定位中不确定的度量;和
根据所述度量,将所述分类器的至少一种预测标记为不确定来源组织。
163.权利要求139-162中任一项所述的方法,其中所述分类器是多层感知器模型。
164.一种系统,其包括计算机处理器和存储器,所述存储器存储计算机程序指令,所述计算机程序指令在由所述计算机处理器执行时使得所述处理器实施权利要求139-163中任一项所述的方法。
165.一种非暂时性计算机可读介质,所述介质存储一个或多个程序,所述一个或多个程序包含指令,所述指令在由包含存储器的电子设备执行时使得所述设备实施权利要求139-163中任一项所述的方法。
166.一种方法,其包括:
从一个或多个生物样品产生多个序列读取;
针对染色体多个位置的每个位置:
使用所述多个序列读取确定在所述位置内并且与同所述疾病状态相关的片段具有至少阈值相似性的所述一个或多个生物样品的核酸片段的计数;
使用所述多个位置的所述计数作为特征训练机器学习模型;和
使用经训练的机器学习模型确定具有疾病状态的测试样品的概率。
167.权利要求166所述的方法,其还包括:
在所述多个位置的每一个中二进制化所述特征以指示所述多种疾病状态之一存在或不存在,其中在一个位置中至少一个核酸片段的计数指示在所述位置中所述疾病状态之一的存在。
168.权利要求166所述的方法,其还包括:
根据所述多个序列读取的p值评分过滤所述多个序列读取,其中一个序列读取的所述p值评分指示在对应于所述序列读取的所述一个或多个生物样品的核酸片段中观察到甲基化的概率。
169.权利要求166所述的方法,其中所述机器学习模型是多层感知器模型。
170.权利要求166所述的方法,其中所述机器学习模型使用逻辑回归。
171.权利要求166所述的方法,其中所述多个位置的每一个代表所述染色体的多个连续碱基对。
172.权利要求166所述的方法,其中针对基因组的多个区域处理所述多个序列读取。
173.权利要求166所述的方法,其中所述多个序列读取代表所述基因组区域靶子集的核酸片段。
174.权利要求166所述的方法,其中所述多个序列读取代表全基因组的核酸片段。
175.权利要求166所述的方法,其中所述疾病状态与至少一种癌症类型相关。
176.权利要求175所述的方法,其中所述疾病状态与至少一种癌症类型的阶段相关。
177.权利要求166所述的方法,其还包括:
使用测试样品具有所述疾病状态的所述概率确定治疗。
178.一种方法,其包括:
从多个生物样品的核酸片段产生多个序列读取;
通过处理所述多个序列读取确定第一训练数据集;
使用所述第一训练数据集训练第一分类器,所述第一分类器经训练以针对来自第一测试生物样品的第一输入序列读取预测在所述第一测试生物样品中至少一种疾病状态的存在或不存在;
使用所述第一分类器的预测确定所述多个生物样品的子集已存在一种或多种疾病状态;
使用对应于所述多个生物样品的所述子集的所述核酸片段的所述多个序列读取的所述子集确定第二训练数据集;和
使用所述第二训练数据集训练第二分类器,所述第二分类器经训练以针对来自第二测试生物样品的第二输入序列读取预测与在所述第二测试生物样品中存在的疾病状态相关的来源组织。
179.权利要求178所述的方法,其中所述第二分类器是包含至少一个隐藏层的多层感知器。
180.权利要求179所述的方法,其中所述第一分类器不包含隐藏层。
181.权利要求179所述的方法,其中所述多层感知器包含100单元隐藏层或200单元隐藏层。
182.权利要求179所述的方法,其中所述多层感知器完全连接并使用修正线性单元激活函数。
183.权利要求178所述的方法,其中所述第二分类器是逻辑回归或多项式逻辑回归模型。
184.权利要求178所述的方法,其中所述第一分类器是包含至少一个隐藏层的多层感知器。
185.权利要求184所述的方法,其中所述多层感知器包含100单元或更多单元的隐藏层,并且其中所述多层感知器完全连接并使用修正线性单元激活函数。
186.权利要求184所述的方法,其中所述第二分类器是包含至少一个隐藏层的第二多层感知器。
187.权利要求178所述的方法,其中所述第一分类器是逻辑回归或多项式逻辑回归模型。
188.权利要求178-187中任一项所述的方法,其还包括:
对所述第一分类器进行第一交叉验证;
使用基于所述第一交叉验证的输出选择的第一超参数再训练所述第一分类器;
对所述第二分类器进行第二交叉验证;和
使用基于所述第二交叉验证的输出选择的第二超参数再训练所述第二分类器。
189.权利要求188所述的方法,其中分别使用来自所述第一交叉验证和所述第二交叉验证的所有折叠的总和结果选择所述第一超参数和第二超参数。
190.权利要求188或权利要求189所述的方法,其中选择所述第二超参数以最佳化所述第二分类器的来源组织的准确度。
191.权利要求178-190中任一项所述的方法,其中在不使用提前停止的情况下训练所述第一分类器和所述第二分类器。
192.权利要求178-191中任一项所述的方法,其中使用一种或多种以下机器学习技术训练所述第二分类器:随机梯度下降、权重衰减、丢弃正则化、亚当最佳化、何氏初始化、学习速率调度、修正线性单元激活函数、泄露修正线性单元激活函数、S形激活函数和提升法。
193.权利要求178-192中任一项所述的方法,其中通过处理所述多个序列读取确定所述第一训练数据集包括:
在所述多个生物样品的所述核酸片段中确定观察到的甲基化的概率。
194.权利要求193所述的方法,其中针对所述多个序列读取中多个CpG位点的每一个确定所述观察到的甲基化的概率。
195.权利要求178-194中任一项所述的方法,其中通过处理所述多个序列读取确定所述第一训练数据集包括:
通过针对所述多个序列读取的每一个确定具有至少阈值百分比的CpG位点的至少阈值数量的CpG位点是未甲基化还是甲基化来分别确定所述多个序列读取是低甲基化的还是高甲基化的。
196.权利要求178-195中任一项所述的方法,其中通过处理所述多个序列读取确定所述第一训练数据集包括:
通过确定对应于所述多个序列读取的所述一个或多个的阈值数量或百分比的CpG位点是未甲基化的来确定所述多个序列读取的一个或多个是低甲基化的。
197.权利要求178-196中任一项所述的方法,其中通过处理所述多个序列读取确定所述第一训练数据集包括:
通过确定对应于所述多个序列读取的所述一个或多个的阈值数量或百分比的CpG位点是未甲基化的来确定所述多个序列读取的一个或多个是低甲基化的。
198.权利要求178-197中任一项所述的方法,其中通过处理所述多个序列读取确定所述第一训练数据集包括:
确定所述多个序列读取的一个或多个是异常甲基化的;和
使用p值过滤来过滤所述多个序列读取以产生所述第一训练数据集,其中所述p值过滤包括去除p值小于阈值p值的序列读取。
199.权利要求178-198中任一项所述的方法,其还包括:
通过所述第二分类器确定指示与所述疾病状态相关的所述来源组织存在于所述第二测试生物试剂中的概率的评分;和
校正所述评分。
200.权利要求199所述的方法,其中校正所述评分包括:
通过所述第二分类器使用特征空间输出来进行与所述评分相关的k最邻近操作。
201.权利要求200所述的方法,其中所述特征空间包含预测标记,所述预测标记指示在所述第二测试生物样品中存在的分别与第一和第二疾病状态相关的至少第一和第二来源组织。
202.权利要求201所述的方法,其中所述特征空间还包含所述第二测试生物样品的正确来源组织预测与所述第一和第二来源组织不同的指示。
203.权利要求199所述的方法,其中校正所述评分包括:
使用在所述第二生物样品中存在的至少一种疾病状态的不同存在概率归一化所述概率,通过所述第一分类器确定所述不同概率。
204.权利要求178-203中任一项所述的方法,其还包括:
通过所述第一分类器确定在所述第一测试生物样品中存在的所述至少一种疾病状态的概率;和
响应于确定所述概率大于二进制阈值预测在所述第一测试生物样品中存在所述至少一种疾病状态。
205.权利要求204所述的方法,其中所述二进制阈值的特异性在90%至99.9%之间。
206.权利要求204所述的方法,其中所述第二测试生物样品具有由所述第一分类器预测的大于所述二进制阈值的概率。
207.权利要求178-206中任一项所述的方法,其中所述第一测试生物样品是所述第二测试生物样品。
208.权利要求178-207中任一项所述的方法,其还包括:
通过所述第二分类器确定在所述第二测试生物样品中存在的与所述疾病状态相关的所述来源组织的概率;和
响应于确定所述概率大于来源组织阈值预测在所述第二测试生物样品中存在与所述疾病状态相关的所述来源组织。
209.权利要求208所述的方法,其还包括:
通过所述第二分类器确定在所述第二测试生物样品中存在的与不同疾病状态相关的不同来源组织的不同概率;和
响应于确定所述不同概率大于第二来源组织阈值预测在所述第二测试生物样品中存在与所述不同疾病状态相关的所述不同来源组织。
210.权利要求178-209中任一项所述的方法,其还包括:
针对所述第二分类器,通过以下确定与给定疾病状态相关的来源组织阈值:
针对候选来源组织阈值的多个不同概率,确定所述第二分类器在给定特异性率下的灵敏度率。
211.权利要求210所述的方法,其中通过所述第一分类器使用评分输出确定所述灵敏度率。
212.权利要求210所述的方法,其中通过所述第二分类器使用评分输出确定所述灵敏度率以对样品分层。
213.权利要求210所述的方法,其还包括:
针对给定疾病状态最佳化所述第二分类器的灵敏度率和特异性率之间的权衡(tradeoff)。
214.权利要求178-213中任一项所述的方法,其中根据来自参考样品的信息将所述多个生物样品的所述子集标记为存在已知来源组织的癌症。
215.一种系统,其包括计算机处理器和存储器,所述存储器存储计算机程序指令,所述计算机程序指令在由所述计算机处理器执行时使得所述处理器实施权利要求166-214中任一项所述的方法。
216.一种非暂时性计算机可读介质,所述介质存储一个或多个程序,所述一个或多个程序包含指令,所述指令在由包含存储器的电子设备执行时使得所述设备实施权利要求166-214中任一项所述的方法。
CN202080036172.8A 2019-05-13 2020-05-13 基于模型的特征化和分类 Pending CN113826167A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201962847223P 2019-05-13 2019-05-13
US62/847,223 2019-05-13
US201962855289P 2019-05-31 2019-05-31
US62/855,289 2019-05-31
US202063002169P 2020-03-30 2020-03-30
US63/002,169 2020-03-30
PCT/US2020/032657 WO2020232109A1 (en) 2019-05-13 2020-05-13 Model-based featurization and classification

Publications (1)

Publication Number Publication Date
CN113826167A true CN113826167A (zh) 2021-12-21

Family

ID=70919219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080036172.8A Pending CN113826167A (zh) 2019-05-13 2020-05-13 基于模型的特征化和分类

Country Status (9)

Country Link
US (1) US20200365229A1 (zh)
EP (1) EP3969622A1 (zh)
JP (1) JP2022532892A (zh)
CN (1) CN113826167A (zh)
AU (1) AU2020274348A1 (zh)
CA (1) CA3136204A1 (zh)
IL (1) IL286874A (zh)
TW (1) TW202108774A (zh)
WO (1) WO2020232109A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114927213A (zh) * 2022-04-15 2022-08-19 南京世和基因生物技术股份有限公司 多癌种早筛模型构建方法以及检测装置
WO2023245827A1 (zh) * 2022-06-22 2023-12-28 中国食品药品检定研究院 一种鉴定样本中间充质干细胞的组织来源的方法及其用途

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2019277698A1 (en) 2018-06-01 2020-11-19 Grail, Llc Convolutional neural network systems and methods for data classification
EP3856903A4 (en) 2018-09-27 2022-07-27 Grail, LLC METHYLATION MARKER AND TARGETED METHYLATION PROBE PANEL
US11581062B2 (en) 2018-12-10 2023-02-14 Grail, Llc Systems and methods for classifying patients with respect to multiple cancer classes
US11396679B2 (en) 2019-05-31 2022-07-26 Universal Diagnostics, S.L. Detection of colorectal cancer
US11640552B2 (en) * 2019-10-01 2023-05-02 International Business Machines Corporation Two stage training to obtain a best deep learning model with efficient use of computing resources
CN111081370B (zh) * 2019-10-25 2023-11-03 中国科学院自动化研究所 一种用户分类方法及装置
WO2021092531A1 (en) * 2019-11-08 2021-05-14 Google Llc Probability estimation for entropy coding
US11898199B2 (en) 2019-11-11 2024-02-13 Universal Diagnostics, S.A. Detection of colorectal cancer and/or advanced adenomas
CN115836349A (zh) 2019-11-27 2023-03-21 格里尔公司 用于评估纵向生物特征数据的系统和方法
CA3159287A1 (en) 2019-12-13 2021-06-17 Virgil NICULA Cancer classification using patch convolutional neural networks
US20210358626A1 (en) 2020-03-04 2021-11-18 Grail, Inc. Systems and methods for cancer condition determination using autoencoders
US20220245916A1 (en) * 2020-05-11 2022-08-04 Nec Corporation Determination device, determination method, and recording medium
US11530453B2 (en) 2020-06-30 2022-12-20 Universal Diagnostics, S.L. Systems and methods for detection of multiple cancer types
JP2024513563A (ja) * 2021-04-06 2024-03-26 グレイル エルエルシー 局在化正確性のための起点組織の条件付き返し
CN113033689A (zh) * 2021-04-07 2021-06-25 新疆爱华盈通信息技术有限公司 图像分类方法、装置、电子设备及存储介质
AU2022339065A1 (en) 2021-09-06 2024-03-14 Christian-Albrechts-Universität Zu Kiel Method for the diagnosis and/or classification of a disease in a subject
AU2022346858A1 (en) * 2021-09-20 2024-02-08 Grail, Llc Methylation fragment probabilistic noise model with noisy region filtration
WO2023097278A1 (en) * 2021-11-23 2023-06-01 Grail, Llc Sample contamination detection of contaminated fragments for cancer classification
WO2023107709A1 (en) * 2021-12-10 2023-06-15 Adela, Inc. Methods and systems for generating sequencing libraries
WO2023158711A1 (en) * 2022-02-17 2023-08-24 Grail, Llc Tumor fraction estimation using methylation variants
WO2024020036A1 (en) * 2022-07-18 2024-01-25 Grail, Llc Dynamically selecting sequencing subregions for cancer classification
WO2024030869A1 (en) 2022-08-01 2024-02-08 Grail, Llc Systems and methods for detecting disease subtypes

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9115386B2 (en) 2008-09-26 2015-08-25 Children's Medical Center Corporation Selective oxidation of 5-methylcytosine by TET-family proteins
WO2011127136A1 (en) 2010-04-06 2011-10-13 University Of Chicago Composition and methods related to modification of 5-hydroxymethylcytosine (5-hmc)
EP2971179B1 (en) * 2013-03-14 2019-01-09 Mayo Foundation for Medical Education and Research Detecting neoplasm
US9984201B2 (en) * 2015-01-18 2018-05-29 Youhealth Biotech, Limited Method and system for determining cancer status
SG11202001010UA (en) * 2017-08-07 2020-03-30 Univ Johns Hopkins Methods and materials for assessing and treating cancer
US20190287652A1 (en) 2018-03-13 2019-09-19 Grail, Inc. Anomalous fragment detection and classification
WO2019195268A2 (en) 2018-04-02 2019-10-10 Grail, Inc. Methylation markers and targeted methylation probe panels

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114927213A (zh) * 2022-04-15 2022-08-19 南京世和基因生物技术股份有限公司 多癌种早筛模型构建方法以及检测装置
WO2023245827A1 (zh) * 2022-06-22 2023-12-28 中国食品药品检定研究院 一种鉴定样本中间充质干细胞的组织来源的方法及其用途

Also Published As

Publication number Publication date
JP2022532892A (ja) 2022-07-20
TW202108774A (zh) 2021-03-01
AU2020274348A1 (en) 2021-12-09
US20200365229A1 (en) 2020-11-19
EP3969622A1 (en) 2022-03-23
CA3136204A1 (en) 2020-11-19
WO2020232109A1 (en) 2020-11-19
IL286874A (en) 2021-10-31

Similar Documents

Publication Publication Date Title
CN113826167A (zh) 基于模型的特征化和分类
EP3914736B1 (en) Detecting cancer, cancer tissue of origin, and/or a cancer cell type
US20220098672A1 (en) Detecting cancer, cancer tissue of origin, and/or a cancer cell type
CN115335533A (zh) 使用基因组区域建模进行癌症分类
CN113424263A (zh) 异常片段检测与分类
CN115461472A (zh) 使用合成添加训练样品进行癌症分类
CN115702457A (zh) 使用自动编码器确定癌症状态的系统和方法
KR20220086603A (ko) 기원 조직 임계화를 이용한 암 분류
WO2020163410A1 (en) Detecting cancer, cancer tissue of origin, and/or a cancer cell type
US20210395841A1 (en) Detection and classification of human papillomavirus associated cancers
US20240060143A1 (en) Methylation-based false positive duplicate marking reduction
WO2014066984A1 (en) Method for identifying a target molecular profile associated with a target cell population
US20230272486A1 (en) Tumor fraction estimation using methylation variants
US20220333209A1 (en) Conditional tissue of origin return for localization accuracy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220919

Address after: California, USA

Applicant after: Greer Co.,Ltd.

Address before: California, USA

Applicant before: Grail, Inc.

TA01 Transfer of patent application right