CN117561572A - 对同源修复缺陷进行分类的系统和方法 - Google Patents

对同源修复缺陷进行分类的系统和方法 Download PDF

Info

Publication number
CN117561572A
CN117561572A CN202280043825.4A CN202280043825A CN117561572A CN 117561572 A CN117561572 A CN 117561572A CN 202280043825 A CN202280043825 A CN 202280043825A CN 117561572 A CN117561572 A CN 117561572A
Authority
CN
China
Prior art keywords
hrd
feature
features
tumor
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280043825.4A
Other languages
English (en)
Inventor
伊桑·索科尔
杰伊·摩尔
贾斯廷·纽伯格
戴斯特·金
陈奎廷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foundation Medical Co
Original Assignee
Foundation Medical Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foundation Medical Co filed Critical Foundation Medical Co
Publication of CN117561572A publication Critical patent/CN117561572A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Wood Science & Technology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Computational Linguistics (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Microbiology (AREA)

Abstract

本文描述了用于使用一种或多种特征重要性度量来识别多个特征的子集以用于训练和使用同源修复缺陷(HRD)分类模型的方法、装置和系统。进一步描述了用于将癌症诸如胰腺癌的肿瘤分类为可能的HRD阳性或可能的HRD阴性,以及用于将肿瘤判定为HRD阳性或HRD阴性的方法、装置和系统。本文还描述了基于分类来治疗癌症诸如胰腺癌的肿瘤的方法。

Description

对同源修复缺陷进行分类的系统和方法
相关专利申请的交叉引用
本申请要求于2021年6月25日提交的标题为“对同源修复缺陷进行分类的系统和方法”的美国临时申请号63/215,281的优先权权益,该美国临时申请的内容出于所有目的通过引用并入本文。
技术领域
本文描述了用于选择同源修复缺陷(HRD)模型的特征、使用该HRD模型来评定肿瘤以及基于该评定来治疗肿瘤的方法、装置和系统。
背景技术
拷贝数畸变涉及基因组大的连续区段的缺失或扩增,并且是癌症中常见的突变。某些拷贝数畸变与无法通过同源重组修复机制修复基因组相关联,称为同源修复缺陷(HRD)。为了识别一些具有HRD的肿瘤,可以对参与同源修复途径的基因中的突变进行测序。可替代地,可以检测基因组疤痕,该基因组疤痕是HRD的物理后果,无论其原因如何。
表现出HRD的肿瘤基因组与对某些药物(诸如铂化疗或聚(ADP)-核糖聚合酶(PARP)抑制剂)的敏感性相关联。然而,某些肿瘤仍然难以分类为HRD阳性。因此,仍然需要将癌症(诸如胰腺癌、乳腺癌或前列腺癌)的肿瘤分类为HRD阳性或HRD阴性,这一点尤其重要,以便可以选择并向受试者施用合适的治疗。过去,用于识别HRD的技术因不准确和低效而无法在实践中使用。这其中的一个原因是特征选择技术目前例如由于过度拟合而不足以能够准确地确定样品的HRD状态,以便有效且准确地将所述肿瘤识别(例如,分类)为HRD阳性或HRD阴性。这其中的另一个原因是确定要识别哪些特征以准确确定HRD状态也可能是挑战。因此,需要从多个特征中准确且有效地选择可以用于训练用于执行所述识别的模型的特征的子集的技术和系统。
发明内容
本文描述了方法,该方法包括:提供从受试者的肿瘤获得的基因组;任选地,将一个或多个衔接子连接到该基因组上;从该基因组扩增核酸分子;从经扩增的基因组捕获核酸分子,其中经捕获的核酸分子是通过与一种或多种诱饵分子杂交而被捕获的;从经捕获的核酸分子得出输入特征的集合;由一个或多个处理器将该输入特征的集合输入到经训练的同源重组缺陷(HRD)模型以使用该经训练的HRD模型将该肿瘤识别为HRD阳性或HRD阴性,其中通过以下来训练该模型:确定与多个特征中的每个特征相关联的一种或多种特征重要性度量,使用该一种或多种特征重要性度量来识别该多个特征中的特征的子集,以及由该一个或多个处理器基于经识别的特征的子集来训练该HRD模型;以及由该一个或多个处理器使用该经训练的HRD模型将该肿瘤分类为HRD阳性或HRD阴性。
本文进一步描述了方法,该方法包括:由一个或多个处理器接收多个特征;由该一个或多个处理器使用一种或多种特征重要性度量来识别该多个特征中的特征的子集;以及由该一个或多个处理器基于经识别的该多个特征的子集来训练同源重组缺陷(HRD)模型,其中该HRD模型被配置为接收与受试者中的肿瘤的基因组相关联的样品数据,并且使用该样品数据将该受试者中的该肿瘤识别为HRD阳性或HRD阴性。
本文进一步描述了方法,该方法包括:由一个或多个处理器接收与受试者中的肿瘤的基因组相关联的样品数据;由该一个或多个处理器将该样品数据输入到经训练的同源重组缺陷(HRD)模型,其中通过以下来训练该HRD模型:确定与多个特征中的每个特征相关联的一种或多种特征重要性度量,使用该一种或多种特征重要量来识别该多个特征中的特征的子集,以及由该一个或多个处理器基于特征的经识别的子集来训练该HRD模型;以及由该一个或多个处理器使用该经训练的HRD模型将该肿瘤分类为HRD阳性或HRD阴性。
在所述方法的一些实施例中,多个特征包括一个或多个拷贝数特征、一个或多个短变体特征或其组合。在所述方法的一些实施例中,一种或多种特征重要性度量包括卡方检验、方差分析(ANOVA)、随机森林或梯度提升中的一者或多者。
在所述方法的一些实施例中,识别多个特征中的特征的子集包括:由一个或多个处理器根据一种或多种特征重要性度量来获得一个或多个特征排位;以及由一个或多个处理器基于一个或多个特征排位来选择多个特征的子集。
在所述方法的一些实施例中,识别多个特征的子集包括:(a)由一个或多个处理器根据特征重要性度量来获得多个特征的特征排位;(b)由一个或多个处理器基于特征排位通过将来自多个特征的一个或多个特征添加到现有特征集合来获得新特征集合;(c)由一个或多个处理器使用新特征集合训练新HRD模型;(d)由一个或多个处理器评估经训练的新HRD模型以获得评估结果;和(e)由一个或多个处理器存储与新HRD模型和新特征集合相关联的评估结果;(f)由一个或多个处理器重复步骤(b)-(e)以获得多个评估结果,直到满足条件为止;以及(g)由一个或多个处理器基于多个评估结果选择多个特征的子集。
在所述方法的一些实施例中,经训练的HRD模型为分类模型,该方法进一步包括:接收与新受试者中的肿瘤的基因组相关联的新样品数据,其中新样品数据与多个特征的子集相关;将新样品数据提供给经训练的HRD分类模型以产生HRD阳性或HRD阴性的分类结果;以及输出分类结果。在一些实施例中,分类结果包括HRD阳性可能性得分和HRD阴性可能性得分中的至少一者。在一些实施例中,该方法包括在与新受试者相关联的数字电子文件中记录HRD阳性可能性得分和HRD阴性可能性得分中的至少一者。在一些实施例中,该方法包括在与新受试者相关联的数字电子文件中记录基于HRD阳性可能性得分肿瘤为HRD阳性或基于HRD阴性可能性得分肿瘤为HRD阴性的指定。
在所述方法的一些实施例中,HRD模型为分类模型、回归模型、神经网络或其任意组合。在一些实施例中,该方法包括在与新受试者相关联的数字电子文件中记录HRD阳性可能性得分和HRD阴性可能性得分中的至少一者。在一些实施例中,该方法包括在与新受试者相关联的数字电子文件中记录基于HRD阳性可能性得分肿瘤为HRD阳性或基于HRD阴性可能性得分肿瘤为HRD阴性的指定。
在所述方法的一些实施例中,多个特征包括区段次等位基因频率(segMAF)特征、测序读段数量特征、区段大小特征、每x兆碱基的断点计数特征、变化点拷贝数特征、区段拷贝数特征、每个染色体臂的断点计数特征或具有振荡拷贝数的区段数量特征中的至少一者。在所述方法的一些实施例中,跨越基因组的着丝粒部分来评定多个特征中的至少一个。在所述方法的一些实施例中,跨越基因组的端粒部分来评定多个特征中的至少一个。
在所述方法的一些实施例中,跨越基因组的着丝粒部分和端粒部分二者来评定多个特征中的至少一个。
在所述方法的一些实施例中,多个特征包括每x兆碱基的断点计数特征,其中每x兆碱基的断点计数特征基于出现在跨越基因组的x兆碱基长度的窗口中的断点的数量。在一些实施例中,跨越以下来评定每x兆碱基的断点计数特征:(i)基因组的端粒部分;(ii)基因组的着丝粒部分;或(iii)基因组的端粒部分和着丝粒部分二者。在一些实施例中,x在约1与约100兆碱基之间。在一些实施例中,x为约10兆碱基、约25兆碱基、约50兆碱基或约100兆碱基。在一些实施例中,每x兆碱基的断点计数特征为分箱特征。
在所述方法的一些实施例中,多个特征包括变化点拷贝数特征,其中变化点拷贝数基于跨越受试者的肿瘤的基因组的相邻基因组区段之间的拷贝数绝对差异。在一些实施例中,变化点拷贝数特征是从倍性归一化拷贝数数据得出的。在一些实施例中,跨越以下来评定变化点拷贝数特征:(i)基因组的端粒部分;(ii)基因组的着丝粒部分;或(iii)基因组的端粒部分和着丝粒部分二者。在一些实施例中,变化点拷贝数特征为分箱特征。
在所述方法的一些实施例中,多个特征包括区段拷贝数特征,其中区段拷贝数基于每个基因组区段的拷贝数。在一些实施例中,跨越以下来评定区段拷贝数特征:(i)基因组的端粒部分;(ii)基因组的着丝粒部分;或(iii)基因组的端粒部分和着丝粒部分二者。在一些实施例中,区段拷贝数特征是从倍性归一化拷贝数数据得出的。在一些实施例中,区段拷贝数特征为分箱特征。
在所述方法的一些实施例中,多个特征包括受试者的肿瘤的基因组中每个染色体臂的断点计数特征。在一些实施例中,跨越以下来评定每个染色体臂的断点计数特征:(i)基因组的端粒部分;(ii)基因组的着丝粒部分;或(iii)基因组的端粒部分和着丝粒部分二者。在一些实施例中,每个染色体臂的断点计数特征为分箱特征。
在所述方法的一些实施例中,多个特征包括具有振荡拷贝数的区段数量特征。在一些实施例中,具有振荡拷贝数的区段数量特征基于跨越受试者的肿瘤的基因组的两个拷贝数之间的重复交替区段的数量。在一些实施例中,跨越以下来评定具有振荡拷贝数的区段数量特征:(i)基因组的端粒部分;(ii)基因组的着丝粒部分;或(iii)基因组的端粒部分和着丝粒部分二者。在一些实施例中,具有振荡拷贝数的区段数量特征为分箱特征。
在所述方法的一些实施例中,一个或多个拷贝数特征包括区段次等位基因频率(segMAF)特征,其中处于segMAF基于杂合单核苷酸多态性的次等位基因频率。在一些实施例中,跨越以下来评定segMAF:(i)基因组的端粒部分;(ii)基因组的着丝粒部分;或(iii)基因组的端粒部分和着丝粒部分二者。在一些实施例中,segMAF特征为分箱特征。
在所述方法的一些实施例中,一个或多个拷贝数特征包括测序读段数量特征。在一些实施例中,测序读段数量特征为分箱特征。
在所述方法的一些实施例中,多个特征进一步包括受试者的肿瘤的基因组杂合性的全基因组丢失的量度。
在所述方法的一些实施例中,多个特征包括一个或多个短变体特征。在一些实施例中,一个或多个短变体特征包括微同源性或重复区特征中的缺失和从两个或更多个短变体特征得出的突变签名中的至少一者。在一些实施例中,微同源性或重复区特征的缺失为至少5个碱基对的缺失。
在所述方法的一些实施例中,训练HRD模型包括:由一个或多个处理器接收HRD阳性训练数据集,其中HRD阳性训练数据集包括与HRD阳性肿瘤相关联的多个特征和HRD阳性标签;由一个或多个处理器接收HRD阴性训练数据集,其中HRD阴性训练数据集包括与HRD阴性肿瘤相关联的多个特征和HRD阴性标签;由一个或多个处理器使用HRD阳性训练数据集和HRD阴性训练数据集训练HRD模型。在一些实施例中,训练包括使用HRD阳性训练数据集和HRD阴性训练数据集。在一些实施例中,该方法包括在训练HRD模型之前由一个或多个处理器平衡HRD阳性训练数据集和HRD阴性训练数据集。
在所述方法的一些实施例中,该方法进一步包括由一个或多个处理器使用包括从基因组序列得出的HRD阳性对照的HRD阳性测试数据集来测试经训练的模型,该基因组序列包含BRCA1、BRCA2、BRCA1和BRCA2二者中的功能丧失突变,或者BRCA1和BRCA2的双等位基因突变。在一些实施例中,训练包括使用HRD阳性训练数据集和HRD阴性训练数据集。在一些实施例中,该方法包括在训练HRD模型之前由一个或多个处理器平衡HRD阳性训练数据集和HRD阴性训练数据集。
在所述方法的一些实施例中,该方法进一步包括由一个或多个处理器使用包括从基因组序列得出的HRD阳性对照的HRD阳性测试数据集来测试经训练的模型,该基因组序列包含ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D或RAD45L中的至少一者中的功能丧失突变。在一些实施例中,训练包括使用HRD阳性训练数据集和HRD阴性训练数据集。在一些实施例中,该方法包括在训练HRD模型之前由一个或多个处理器平衡HRD阳性训练数据集和HRD阴性训练数据集。
在所述方法的一些实施例中,该方法进一步包括由一个或多个处理器使用包括HRD阴性训练数据集的HRD阴性测试数据集来测试经训练的模型,该HRD阴性训练数据集包括从共有人类基因组序列得出的HRD阴性对照。在一些实施例中,训练包括使用HRD阳性训练数据集和HRD阴性训练数据集。在一些实施例中,该方法包括在训练HRD模型之前由一个或多个处理器平衡HRD阳性训练数据集和HRD阴性训练数据集。
在所述方法的一些实施例中,受试者中的肿瘤为前列腺癌、非小细胞肺癌(NSCLC)、结直肠癌(CRC)、卵巢癌、乳腺癌或胰腺癌。
在所述方法的一些实施例中,训练HRD模型包括使HRD模型与样品数据拟合,该样品数据拟合与卵巢癌、非小细胞肺癌(NSCLC)、结直肠癌(CRC)、乳腺癌、胰腺癌或前列腺癌相关联,其中样品数据包括多个特征的子集。
在所述方法的一些实施例中,肿瘤获自为实体组织活检样品的样品。在一些实施例中,实体组织活检样品为福尔马林固定、石蜡包埋(FFPE)的样品。在所述方法的一些实施例中,肿瘤获自为包含循环肿瘤DNA(ctDNA)的液体活检样品的样品。在所述方法的一些实施例中,肿瘤获自为包含无细胞DNA(cfDNA)的液体活检样品的样品。
在所述方法的一些实施例中,该方法进一步包括:将肿瘤为HRD阳性或HRD阴性的输出确定、识别或应用为与患者相关联的诊断值。在所述方法的一些实施例中,该方法进一步包括:基于肿瘤为HRD阳性或HRD阴性的输出生成针对受试者的基因组谱。在一些实施例中,该方法进一步包括:基于所生成的基因组谱向受试者施用抗癌剂或应用抗癌治疗。在所述方法的一些实施例中,肿瘤为HRD阳性或HRD阴性的输出用于生成针对受试者的基因组谱。在所述方法的一些实施例中,肿瘤为HRD阳性或HRD阴性的输出用于做出针对受试者的建议的治疗决策。在所述方法的一些实施例中,肿瘤为HRD阳性或HRD阴性的输出用于向受试者应用或施用治疗。
在所述方法的一些实施例中,HRD模型为机器学习模型。
在所述方法的一些实施例中,受试者患有癌症、处于患有癌症的风险中或怀疑患有癌症。
本文进一步描述了治疗受试者的癌症的方法,该方法包括:(a)根据上述任一方法将肿瘤识别为HRD阳性或HRD阴性;(b)如果该癌症的该肿瘤被评定为HRD阳性,则向该受试者施用治疗有效量的对HRD阳性肿瘤有效的药物。在一些实施例中,对HRD阳性肿瘤有效的药物为铂类药物或PARP抑制剂。在一些实施例中,该方法包括如果肿瘤被评定为HRD阴性,则向受试者施用治疗有效量的不为铂类药物或PARP抑制剂的药物。
本文进一步描述了用于针对受试者的癌症选择疗法的方法,该方法包括:(a)根据上述任一方法将该癌症的肿瘤评定为HRD阳性或HRD阴性;(b)如果该癌症被评定为HRD阳性,则选择对HRD阳性肿瘤有效的疗法。在一些实施例中,该方法包括如果肿瘤被评定为HRD阴性,则选择不为铂类药物或PARP抑制剂的疗法。在一些实施例中,对HRD阳性肿瘤有效的疗法为铂类药物或PARP抑制剂。
本文进一步描述了计算机系统,该计算机系统包括:一个或多个处理器;存储器;和一个或多个程序,其中该一个或多个程序被存储在该存储器中并被配置为由该一个或多个处理器执行,该一个或多个程序包括用于进行本文所述方法中的任一种的指令。
本文进一步描述了非暂时性计算机可读存储介质,其存储一个或多个程序,该一个或多个程序包括指令,该指令当由电子装置的一个或多个处理器执行时,使该电子装置进行本文所述方法中的任一种。
附图说明
图1示出了用于将受试者中的癌症的肿瘤分类为HRD阳性(HRD(+))或HRD阴性(HRD(-))的示例性过程。
图2示出了可以使用不同的特征重要性度量(诸如ANOVA、随机森林、梯度提升(例如,XGB)和卡方)来评估的不同类型的特征。
图3A示出了示例性特征重叠分析。
图3B示出了示例性特征重叠分析。
图4示出了示例性迭代特征选择过程。
图5示出了获自示例性迭代特征选择过程的示例模型性能图。
图6A示出了可以用于评估和调整模型的性能的示例性交叉验证过程。
图6B示出了将多个数据元素划分为相同大小的子集的示例。
图7示出了用于训练和操作HRD分类模型的示例性方法,该HRD分类模型被配置为将受试者中的癌症肿瘤分类为HRD阳性(HRD(+))或HRD阴性(HRD(-))。
图8示出了使用逻辑回归、梯度提升(例如,XGB)和随机森林的不同机器学习模型的HRD得分分布的示例。
图9示出了按HRD和/或BRCA1/2突变状态分层的样品中的示例模型性能。左侧示出了指定为“HRD野生型:真”(N=245,050;图右侧的-1)、“HRD野生型:假”(N=30,799;图右侧的0)和真HRD阳性样品(双等位基因BRCA突变;N=6,851;图右侧的1)的样品肿瘤池。
图10示出了不同肿瘤类型(乳腺癌、卵巢癌、胰腺癌和前列腺癌)中来自图9的子集的示例模型性能。对于每种肿瘤类型,该子集对应于图9的子集-1、0和1(即,分别为针对每种癌症的HRD野生型:真,HRD野生型:假和双等位基因BRCA突变)。
图11示出了根据一个实施例的计算装置的示例,其可以与本文描述的某些方法一起使用。
具体实施方式
本文描述了使用一种或多种特征重要性度量来识别多个特征的子集以训练同源重组缺陷(HRD)模型(例如,分类模型)的计算机实现的方法。该模型被配置为接收与和受试者中的肿瘤的基因组相关联的多个特征的子集有关的测试样品数据,并将肿瘤识别(例如,分类)为可能的HRD阳性或可能的HRD阴性。本文进一步描述了将肿瘤(诸如前列腺癌、卵巢癌、乳腺癌、结直肠癌、NSCLC或胰腺癌肿瘤)识别(例如,分类)为可能的HRD阳性(HRD(+))或可能的HRD阴性(HRD(-))的方法。本文进一步描述了基于将肿瘤识别为HRD阳性(或可能的HRD阳性)或HRD阴性(或可能的HRD阴性)来治疗癌症(诸如但不限于胰腺癌、前列腺癌、卵巢癌、乳腺癌、非小细胞肺癌(NSCLC)或结直肠癌(CRC))的方法。
选择特征的子集可以减少模型的过度拟合。过度拟合是有问题的,因为它会降低模型的可扩展性,并且可能导致分类不准确(例如,HRD状态不准确),因为模型会忽略用于训练模型的数据之外的场景。此外,通过选择具有较高特征重要性的特征的子集,分类模型可以用较少的训练数据来训练并且需要较少的输入数据。这不仅允许更有效的建模过程,还允许由模型从更广泛样品中进行更准确的分类。此外,具有减少的输入特征的集合的模型可能需要更少的用于训练和进行分类任务的处理能力。因此,特征选择过程通过改善处理速度并允许有效使用计算机存储器和处理能力来改善计算机系统的功能。此外,通过从某些得出的拷贝数特征和/或短变体特征中进行选择,经训练的模型在将肿瘤识别为HRD阳性或HRD阴性时提供了比以前的方法更高的效率和准确性(例如,更少的假阳性/假阴性)。与本文所述的得出拷贝数特征和/或短变体特征的评定相比,评定HRD(诸如杂合性丢失、端粒等位基因失衡和大规模转变)的先前方法受到噪声和误差的影响。正确识别肿瘤对于能够为患者(受试者)适当选择治疗至关重要。
肿瘤发生部分是由细胞基因组体细胞改变的积累驱动的。这些改变包括拷贝数改变,这在许多癌症中是常见的。参与同源修复缺陷途径的某些基因的功能丧失、功能获得或基因调控突变可能导致这些拷贝数改变的积累。然而,除了某些关键基因(诸如BRCA1和BRCA2)的突变外,导致HRD阳性状态的突变的精确组合尚不清楚。一些肿瘤通过非基因组手段(例如通过HRD相关基因(诸如BRCA1)的启动子甲基化)呈HRD阳性。可替代的方法不是对HRD相关基因进行测序,而是识别和评定HRD的后果,诸如某些拷贝数特征的变化或杂合性特征的丢失。然而,虽然HRD阳性和HRD阴性基因组都可能表现出拷贝数改变,但表明HRD存在的特征的精确值和组合尚不清楚。
因此,在一方面,本发明的方法涉及(从更多个潜在特征中)选择可以用于训练和操作HRD分类器过程的特征的子集。另一方面,本发明的方法总体上涉及至少部分地基于特征(诸如对应于拷贝数畸变的特征)的评定将肿瘤识别(例如,分类)为可能的HRD阳性(HRD(+))或可能的HRD阴性(HRD(-))的手段。这种分类通常基于肿瘤为HRD阳性或HRD阴性的可能性的评定。基于该评定,HRD分类器过程可以进一步将肿瘤判定为HRD阳性或HRD阴性。这种分类和/或判定可以用作患有肿瘤的患者的诊断值。
将肿瘤分类为可能的HRD阳性或可能的HRD阴性的现有方法通常不可靠或不精确,特别是对于具有野生型BRCA1和BRCA2的HRD阳性肿瘤(有时被描述为具有“BRCAness”概况的肿瘤,即表现出与BRCA1/2突变肿瘤的相似性,但不具有相关联的BRCA1/2突变的那些肿瘤)。可替代地,并非所有突变(甚至诸如BRCA1/2改变的致病性突变)都会导致HRD(例如,某些突变可能是单等位基因乘客)。与癌症相关联的同源修复缺陷会在肿瘤细胞基因组上留下疤痕,从而导致拷贝数(即拷贝数畸变)和/或插入缺失模式的可检测的变化。这些拷贝数畸变和/或插入缺失模式的特定模式、分布和形式可以用于将肿瘤分类为HRD表型类别。在各种实施例中,本申请提供了在其他潜在特征(诸如本文另外描述的基本特征)中选择与这些模式(即,拷贝数特征)和插入缺失模式(即,短变体特征)相关联的可以用于识别HRD阳性肿瘤的特征的手段。
本申请进一步提供了基于与受试者中的癌性肿瘤的基因组相关联的一个或多个数据特征(诸如一个或多个拷贝数特征和/或一个或多个短变体特征)而具体配置的模型,其可以更可靠地将所述肿瘤识别(例如,分类)为可能的HRD阳性或可能的HRD阴性,并且任选地将肿瘤判定为HRD阳性或HRD阴性。受试者中的癌症肿瘤的识别(例如,分类)表明应如何治疗肿瘤。使用包括至少一个或多个拷贝数特征的测试数据的经训练的HRD模型可以用于基于可能性得分将测试肿瘤识别(例如,分类)为可能的HRD阳性或可能的HRD阴性,并且任选地将肿瘤判定为HRD阳性或HRD阴性,该拷贝数特征包括例如区段大小特征、测序读段特征、绝对拷贝数特征、每x兆碱基的断点计数特征、变化点拷贝数特征、区段拷贝数特征、每个染色体臂的断点计数特征、具有振荡拷贝数的区段数量特征以及区段次等位基因频率特征中的一者或多者。这些类别的拷贝数特征已被识别为对于该识别有用。某些类别的短变体特征也已被识别为可用于该识别,包括但不限于例如微同源性或重复区特征中的缺失(例如,至少5个碱基对的缺失)和/或掺入两个或更多个短变体特征的突变签名。
与这些拷贝数特征中的一种或多种和/或这些短变体特征中的一种或多种相组合,其他特征或量度可以在所述方法中有用,包括但不限于某些基本特征,诸如受试者的年龄、癌症类型、癌症阶段、肿瘤纯度、肿瘤基因组倍性和/或肿瘤基因组杂合性丢失。
一旦受试者中的癌症肿瘤被识别(例如,分类)为可能的HRD阳性或可能的HRD阴性,或被判定为HRD阳性或HRD阴性,则可以用适当的疗法对该肿瘤进行治疗。例如,如果肿瘤被识别为可能的HRD阳性,则可以用对HRD阳性癌症有效的药物治疗,诸如铂类药物或PARP抑制剂。
定义
如本文所使用的,除非另有说明,否则单数形式“一个”、“一种”及“该”包括复数个参考物。
在本文中提及“约”值或参数包括(且描述)涉及该值或参数本身的变型。例如,提及“约X”的描述包括“X”的描述。
术语“癌症”和“癌性”是指或描述哺乳动物中通常以不受调节的细胞生长为特征的生理状况。该定义包括良性和恶性癌症。“早期癌症”或“早期肿瘤”是指非侵袭性或转移性的癌症或被分类为0、1或2期癌症的癌症。癌症的示例包括但不限于肺癌(例如,非小细胞肺癌(NSCLC))、肾癌(例如,肾尿路上皮癌)、膀胱癌(例如,膀胱尿路上皮(移行细胞)癌)、乳腺癌、结直肠癌(例如,结肠腺癌)、卵巢癌、胰腺癌、胃癌、食道癌、间皮瘤、黑色素瘤(例如,皮肤黑色素瘤)、头颈癌(例如,头颈鳞状细胞癌(HNSCC))、甲状腺癌、肉瘤(例如,软组织肉瘤、纤维肉瘤、粘液肉瘤、脂肪肉瘤、成骨肉瘤、骨肉瘤、软骨肉瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、平滑肌肉瘤或横纹肌肉瘤)、前列腺癌、胶质母细胞瘤、宫颈癌、胸腺癌、白血病(例如,急性淋巴细胞白血病(ALL)、急性粒细胞白血病(AML)、慢性粒细胞白血病(CML)、慢性嗜酸性粒细胞白血病或慢性淋巴细胞白血病(CLL))、淋巴瘤(例如,霍奇金淋巴瘤或非霍奇金淋巴瘤(NHL))、骨髓瘤(例如,多发性骨髓瘤(MM))、蕈样肉芽肿、默克尔细胞癌、血液恶性肿瘤、血液组织癌、B细胞癌、支气管癌、胃癌、脑或中枢神经系统癌症、周围神经系统癌症、子宫或子宫内膜癌、口腔或咽部癌症、肝癌、睾丸癌、胆道癌、小肠或阑尾癌、唾液腺癌、肾上腺癌、腺癌、炎性肌纤维母细胞瘤、胃肠道间质瘤(GIST)、结肠癌、骨髓增生异常综合征(MDS)、骨髓增生性疾患(MPD)、真性红细胞增多症、脊索瘤、滑膜瘤、尤文氏瘤、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、髓样癌、支气管癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、肾母细胞瘤、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突胶质细胞瘤、脑膜瘤、神经母细胞瘤、视网膜母细胞瘤、滤泡性淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、肝细胞癌、甲状腺癌、小细胞癌、原发性血小板增多症、特发性骨髓外化生、高嗜酸性粒细胞增多综合征、系统性肥大细胞增多症、常见的高嗜酸性粒细胞增多症、神经内分泌癌或类癌瘤。
如本文所用,肿瘤“肿瘤”是指所有赘生性细胞生长和增殖,无论是恶性的还是良性的,以及所有癌前和癌性细胞和组织。如本文所提及的,术语“癌症”、“癌性”和“肿瘤”并不相互排斥。
术语“个体”、“患者”和“受试者”同义使用,并且是指哺乳动物,并且包括但不限于人、牛、马、猫科动物、犬科动物、啮齿动物或灵长类动物。在一个实施例中,受试者是人。
如本文所用,术语“有效量”或“治疗有效量”是指足以治疗特定疾患、病症或疾病(诸如改善、缓和、减轻和/或延迟其一种或多种症状)的化合物、药物或组合物的量。提及癌症时,有效量包括足以使受试者中存在的癌细胞的数量在数量和/或尺寸方面减少和/或减缓癌细胞的生长速率的量。在一些实施例中,有效量是足以预防或延迟疾病复发的量。在癌症的情况下,化合物或组合物的有效量可以:(i)减少癌细胞的数量;(ii)在一定程度上抑制、延缓、减缓并优选停止癌细胞增殖;(iii)阻止或延迟癌症的发生和/或复发;和/或(iv)在一定程度上缓解与癌症相关的一种或多种症状。
如本文所用,“治疗(treatment)”或“治疗(treating)”是用于获得有益的或期望的结果(包括临床结果)的方法。为了本发明的目的,有益的或期望的临床结果包括但不限于以下中的一种或多种:减轻由疾病引起的一种或多种症状、减轻疾病程度、稳定疾病(例如,阻止或延迟疾病的恶化)、阻止或延迟疾病的扩散(例如,转移)、阻止或延迟疾病的复发、延迟或减缓疾病的进展、改善疾病状态、提供疾病的缓解(部分或全部)、降低治疗疾病所需的一种或多种其他药物的剂量、延迟疾病的进展、提高生活质量和/或延长存活。就癌症而言,受试者中存在的癌细胞的数量在数量和/或尺寸方面可减少且/或癌细胞的生长速率可减慢。在一些实施例中,治疗可阻止或延迟疾病的复发。对于癌症,治疗可:(i)减少癌细胞的数量;(ii)在一定程度上抑制、延缓、减缓并优选停止癌细胞增殖;(iii)阻止或延迟癌症的发生和/或复发;和/或(iv)在一定程度上缓解与癌症相关的一种或多种症状。本发明的方法设想了这些治疗方面中的任何一个或多个。
应当理解,本文描述的本发明的方面和变型包括“由方面和变型组成”和/或“基本由方面和变型组成”。
在提供值的范围的情况下,应当理解,在该范围的上限和下限与在该范围中的任何其他该值或中间值之间的每个中间值都涵盖在本公开的范围内。若该范围包括上限或下限,则排除那些所包括限制中的任意一个的范围也包括在本公开中。
本文使用的章节标题仅用于组织目的,并且不应被解释为限制所描述的主题。提供描述是为了使本领域的普通技术人员能够实现和使用本发明,并且将其在专利申请及其要求的上下文中提供。对所描述的实施例的各种修改对于本领域技术人员来说将是显而易见的,并且本文的一般原理可以应用于其他实施例。因此,本发明并不旨在限于所示的实施例,而是要符合与本文描述的原理和特征一致的最宽范围。
附图示出了根据各种实施例的过程。在示例性过程中,任选地组合一些模块,任选地改变一些模块的顺序,以及任选地省略一些模块。在一些示例中,可以与示例性过程组合来执行额外的步骤。因此,所示出(以及下文更详细描述的)的操作本质上是示例性的,并且因此不应被视为限制性的。
本文所引用的所有出版物、专利和专利申请的公开内容均以全文引用的方式并入本文。如果以引用方式并入的任何参考文献与即时公开内容冲突,则以即时公开内容为准。
特征选择
可以从多个特征(包括本文另外描述的那些特征)开始,使用一种或多种特征重要性度量来识别多个特征的子集。一般来说,特征重要性度量允许对各个特征进行评估,以确定哪些特征可能与评定HRD最相关。示例性特征重要性度量包括但不限于梯度提升(诸如XGBoost,也称为XGB)、方差分析(ANOVA)、卡方分析和随机森林。可以基于这些特征重要性度量为各个特征分配值,其中基于越来越大的对HRD模型性能的贡献,为特征分配越来越高的重要性(例如,改善模型在将肿瘤分类为HRD阳性或HRD阴性中的性能)。然后可以选择较高重要性的特征,诸如高于阈值的特征(例如,高于多个特征中的中值的特征)以用于训练或运行HRD模型。一旦识别了特征的子集,就可以使用该特征的子集来训练HRD模型(例如,分类模型)。然后,HRD模型可以用于使用从肿瘤获得并且包括在特征选择期间识别的特征的至少一部分的测试数据来识别(例如,分类)受试者的肿瘤。
通过选择这种具有较高特征重要性的特征的子集,模型可以使用更少的训练数据来训练并且需要更少的输入数据,从而改善存储器使用和管理。此外,具有减少的输入特征的集合的模型需要较少的用于训练和进行识别(例如,分类)任务的处理能力。因此,特征选择过程通过改善处理速度并允许有效使用计算机存储器和处理能力来改善计算机系统的功能。
图1示出了根据一些实施例的用于将受试者中的癌症肿瘤分类为HRD阳性或HRD阴性的示例性过程,包括用于识别多个特征的子集的框。在一些实施例中,过程100例如使用实现软件平台的一个或多个电子装置来进行。在一些示例中,过程100使用客户端-服务器系统来进行,并且过程100的框以任何方式在服务器和客户端装置之间划分。在其他示例中,过程100仅使用一个客户端装置或仅使用多个客户端装置来进行。在过程100中,任选地组合一些框,任选地改变一些框的顺序,以及任选地省略一些框。在一些示例中,额外的步骤可以与过程100组合来进行。因此,所示出(以及下文更详细描述的)的操作本质上是示例性的,并且因此不应被视为限制性的。
在图1的框102处,示例性系统(例如,一个或多个电子装置)接收多个特征。在一些实施例中,系统接收包括多个数据元素的数据集。数据元素可以包括与多个特征和相关联的分类标签(例如,HRD阳性或HRD阴性)相关的数据。例如,数据元素可以包括与来自特定受试者的样品的多个特征以及指示样品是HRD阳性还是HRD阴性的相关联的分类标签相关的数据。特征可以包括分类为基本特征、拷贝数特征和/或短变体特征(例如,对应于碱基取代或插入缺失(插入或缺失)的特征)的特征。基本特征可以包括但不限于与从其获得数据的患者的年龄、癌症类型、癌症阶段、肿瘤纯度、肿瘤基因组倍性和肿瘤基因组杂合性丢失(诸如杂合性丢失下的基因组百分比)相关的特征。拷贝数特征可以包括但不限于区段大小特征、测序读段数量特征、绝对拷贝数特征、每x兆碱基的断点计数特征、变化点拷贝数特征、区段拷贝数特征、每个染色体臂的断点计数特征、具有振荡拷贝数的区段数量特征以及区段次等位基因频率特征。短变体特征可以包括但不限于例如同聚物或重复区特征中的缺失(例如,至少5个碱基对)和/或合并两个或更多个短变体特征的突变签名。在一些实施例中,特征中的一个或多个特征是分箱特征,其中将值分类到箱中,诸如二分位数、三分位数、四分位数、五分位数、六分位数、七分位数或任何其他合适的分箱组织。
在图1的框104处,系统和方法从多个特征(即,基本特征、拷贝数特征和/或短变体特征)中选择特征的子集。所选择的特征的子集对于将受试者中的癌症的肿瘤分类为HRD阳性或HRD阴性可以具有相对高的预测价值。在一些实施例中,可以从框104中的特征的子集中排除具有相对低的预测值和/或冗余的特征。在一些实施例中,可以使用特征重要性度量来量化特征的预测值。在一些实施例中,可以应用特征重要性度量来获得多个特征中的每个特征的特征重要性得分。特征的特征重要性得分是从特征与分类标签(例如,HRD阳性或HRD阴性)之间的统计相关性获得的。特征与分类标签之间的统计相关性可以基于特征针对分类任务具有多少预测值来解释。换句话说,例如,可以通过在特征与分类标签之间具有更高的统计相关性来实现更高的特征重要性得分,这可以表明该特征在预测分类标签中发挥更重要的作用。通过使用具有较高特征重要性的特征,可以用更少的数据来训练分类模型,从而为训练过程提供很大程度的功效,并且对计算机资源(例如,存储器使用、处理速度等)的限制更少。例如,具有减少的输入特征的集合的模型可能需要更少的处理资源来训练和进行分类任务。最后,具有减少的输入特征的集合的模型可以表现出更少的噪声并避免过度训练。因此,特征选择过程通过改善训练过程的整体功效、改善处理速度并允许有效使用计算机存储器和处理资源来改善计算机系统的功能。
在一些实施例中,系统通过进行特征重叠分析从图1的框102处接收的多个特征中选择特征的子集,如框104a所示。在框104a处,使用每种特征重要性度量来计算从框102处接收的多个特征的特征重要性得分。对于每种特征重要性度量,系统可以根据多个特征的特征重要性得分对多个特征进行排位。由此,系统可以获得与多个特征重要性特征相对应的多个特征排位。然后,系统可以基于多个排位来识别特征的子集。下面更详细地描述对特征进行排位和识别特征的子集的过程。
在一些实施例中,可以使用不同的特征重要性度量来评估不同类型的特征。图2示出了根据一些实施例的可以用于在框104a中对多个特征进行排位的多种特征重要性度量。所描绘的示例性特征重要性度量包括ANOVA、随机森林、梯度提升(例如,XGB)和卡方。此外,ANOVA可以用于评估多个特征的数值特征以提供数值特征的排位。卡方可以用于评估多个特征的分类特征以提供分类特征的排位。随机森林可以用于评估多个特征中的所有特征以对所有特征进行排位。类似地,梯度提升(诸如XGB)可以用于评估多个特征中的所有特征以对所有特征进行排位。
在一些实施例中,特征重要性度量包括方差分析(ANOVA)模型。当将数值输入变量与分类目标变量进行比较时,ANOVA评定组(即,HRD阳性或HRD阴性)之间是否存在相等方差。如果组之间存在相等方差,则该特征对响应没有影响,并且可能不会考虑将其用于模型训练。基于方差值(f值),可以对特征进行排位,并且可以选择例如高于中值的那些特征作为用于模型的有用特征。
在一些实施例中,特征重要性度量包括卡方分析。对于特征选择,卡方分析测试预期计数(即,特征是否独立于输出)和观察到的计数彼此之间的偏差。特征的卡方值越高表明它更依赖于响应变量,并且因此更重要。使用卡方分析,可以对特征进行排位,并且可以选择例如高于中值的那些特征作为用于模型的有用特征。
在一些实施例中,特征重要性度量包括随机森林分析。在特征选择期间,对于每棵树,记录数据的袋外部分的预测精度。在排列每个预测变量后重复该过程。然后对所有树求两个精度之间的差异的平均值,并通过标准误差进行归一化。
在一些实施例中,特征重要性度量包括梯度提升分析(例如,极端梯度提升(XGB)分析)。梯度提升,诸如XGB,测试每个特征对模型的增益贡献。对于提升树模型,每棵树的每个特征的每个增益都会被考虑,并且然后评定每个特征贡献的平均值。然后可以选择最高百分比的贡献者特征。
在图1的框104a处,在根据特征重要性度量对多个特征进行排位之后,系统使用多个排位来选择特征的子集。选择特征的子集的示例性过程在下面的图3A和3B中进一步详细描述。
图3A示出了根据一些实施例的示例性特征重叠分析。如上面图2中所述的,多种特征重要性度量可以用于对多个特征进行排位。在图3A的示例中,示例性过程使用ANOVA、随机森林和梯度提升分析来对特征进行排位。然而,本领域技术人员将理解,也可以使用本领域已知的其他学习技术。然而,出于示例性目的,在图3A中,ANOVA特征排位302包括特征1、4、5和8作为最高排位特征;随机森林排位304包括特征8、2、3和1作为最高排位特征;梯度提升排位306包括特征6、1、4和2作为最高排位特征。在一些实施例中,可以使用其他特征重要性度量来评估特征。在一些实施例中,可以使用少于或多于三种的度量来评估特征。在一些实施例中,多于四个的特征可以被认为是高排位特征,诸如多于五个、多于六个、多于七个、多于八个、多于九个、多于十个、多于十一个、多于十二个、多于十三个、多于十四个、多于十五个、多于十六个、多于十七个、多于十八个、多于十九个、多于二十个、多于二十一个、多于二十二个、多于二十三个、多于二十四个或者多于二十五个特征中的任一个可以被认为是高排位特征。
一旦已对特征进行排位,系统就可以进行特征重叠分析以确定一种或多种度量已识别为高排位特征的特征。在图3A的示例中,特征重叠分析308将特征1识别为在ANOVA特征排位302、随机森林排位304和梯度提升排位306中识别的高排位特征。特征重叠分析308还将特征2、4和8识别为由两种度量识别的高排位特征。在一些实施例中,特征重叠分析308可以通过输出已被所有度量识别为高排位的特征来输出特征的子集。在一些实施例中,特征重叠分析308可以通过输出已被一种或多种度量识别为高排位特征来输出特征的子集。在一些实施例中,可以以图形方式表示特征重叠分析308。在一些实施例中,特征重叠分析308可以输出包括特征的子集的列表。
图3B示出了根据一些实施例的针对用于将受试者中的癌症肿瘤分类为HRD阳性或HRD阴性的特征的特征选择过程的示例性输出310。以图形方式示出特征重要性排位312,并且每个图描绘根据特定特征重要性度量的特征排位。在每个图(方差分析、随机森林和梯度提升)中,每个点代表特征,其y轴值对应于其通过特征重要性度量计算的特征重要性。在图3B的示例中,特征重叠分析314可以包括根据每个特征重要性度量的排位靠前的特征。如所示的,特征重叠分析可以识别按所有度量和/或一些度量排位靠前的特征。
回到图1,在一些实施例中,除了过程104a之外或者作为该过程的替代,系统和方法可以使用迭代特征选择过程104b来确定多个特征的子集。在框104b处,系统使用一种或多种特征重要性度量(例如,梯度提升)来评估特征,并且然后进行迭代特征选择过程以逐渐扩展特征集,如图4的方法的任何合适步骤的任何合适的组件、装置或系统的任何合适的组合。
图4示出了根据一些实施例的可以由图1的框104b使用的迭代特征选择。在框402处,系统接收具有多个特征(例如,在图1)。
在图4的框404处,系统使用一种或多种特征重要性度量(例如,梯度提升)来评估在框402处接收的特征。然后系统可以根据其特征重要性度量得分对特征进行排位。
在图4的框408处,系统和方法获得新特征集。在初始迭代中,系统可以通过将由框404确定的最高排位特征包括到特征集合来获得新特征集合。在随后的迭代中,系统可以通过添加由框404确定的下一个最高排位特征来扩展现有的特征集合以获得新特征集合。系统进一步获得基于新特征集的训练数据集。训练数据集合可以包括多个数据元素,并且每个数据元素包括与新特征集合和对应的分类标签(例如,HRD阳性或HRD阴性)相关的数据。例如,数据元素可以包括与来自样品的新特征集合中的特征和样品的对应分类标签(例如,HRD阳性或HRD阴性)相关的数据。
在图4的框410处,系统和方法使用来自框408的训练数据集来训练和评估新分类模型。系统记录与模型训练和评估中使用的特征列表相关联的模型性能。在一些实施例中,分类模型的训练和评估可以使用交叉验证方法来进行,如下面图6A和6B中进一步详细描述。在一些实施例中,分类模型的训练和评估可以使用来自框408的数据集的单独子集。
在一些实施例中,图4的框408和410直到框402中接收的所有特征都包括在数据中才被迭代。在每次迭代中,框408将下一个最高排位的特征添加到数据集。例如,在第一次迭代中,框408输出包括最高排位特征和对应训练集合的特征集合;在第二次迭代中,框408输出包括两个最高排位特征的特征集合和对应的训练集合;在第三次迭代中,框408输出包括三个最高排位特征的特征集合和对应的训练集合,等等。在每次迭代中,框410然后使用来自框406的训练数据集来训练和评估新分类模型。系统迭代框408和410直到满足条件。在一些实施例中,该条件包括框412,其中系统确定没有更多特征要添加(例如,在框402处接收的所有特征都包括在用于在框410处训练和评估分类模型的数据集中)。在一些实施例中,该条件包括确定新分类模型的性能超过阈值。这个迭代过程允许系统在对最高排位特征、前两个最高排位特征、前三个最高排位特征等进行训练和评估时记录分类模型的性能,直到在框402处接收的所有特征都用于训练分类模型并评估性能。经记录的性能数据的示例如下图5的方法的任何合适步骤的任何合适的组件、装置或系统的任何合适的组合。
在图4的框414处,系统和方法利用来自框410的经记录的模型性能来确定优化分类模型的性能的最小特征的子集。在一些实施例中,系统可以确定特征的最小子集,使得添加附加特征不会显著改善模型性能。在一些实施例中,系统可以确定特征的最小子集,使得分类模型性能超过某个预定阈值。在框414处输出特征的子集。
图5示出了在图4的方法的任何合适步骤的任何合适的组件、装置或系统的任何合适的组合。在图5中显示的示例中,横轴表示用于训练和评估分类模型的数据中包括的高排位特征的数量;纵轴表示模型的性能。在一些实施例中,可以使用接受者操作特征(ROC)曲线下面积(AUC)来评估模型的性能。在图5的示例中,可以确定26个最高排位特征被输出为框416中特征的子集,尽管可以基于在每个添加特征下模型性能相对增加的变化来选择较少数量的特征。
图6A示出了根据一些实施例的可以用于评估模型的性能的示例交叉验证过程。在一些实施例中,过程600可以在图4的框410处使用以评估模型的性能。在框602处,系统可以接收多个数据元素。多个数据元素中的每一个可以包括一个或多个特征和已知的分类标签。在框604处,系统将来自框602的多个数据元素分为n个相等大小的子集。在框606处,系统保留来自框604的子集中的一个作为“保留”集。在框608处,系统针对所有未被保留的数据元素(例如,来自不是“保留”集的n-1个子集的数据元素)训练模型。在框610处,系统使用来自“保留”集合的数据元素特征作为来自框608的模型的输入。模型生成对应于数据元素特征的多个预测分类标签。然后将预测的分类标签与“保留”集合的已知分类标签进行比较,以评估模型在“保留”集合上的性能。迭代框606、608和610,直到来自框604的所有n个子集都已被用作“保留”集一次。也就是说,框606、608和610被迭代n次,其中每次迭代使用不同的子集作为“保留”集合。最后,在步骤612,对框610的所有n次迭代的性能进行平均以输出平均性能。
图6B示出了根据一些实施例的将多个数据元素划分为五个相等大小的子集的示例。图6B可以是图6A的示例,其中n=5。多个数据元素622可以是来自图6A的框602的多个数据元素的示例。在图6B的示例中,多个数据元素622被分为集合1、集合2、集合3、集合4和集合5。在迭代一623中,在多个数据元素622处,集合1可以用作“保留”数据集合,如框606所述。可以在集合2、集合3、集合4和集合5上训练模型,如框608所述。然后可以在“保留”数据集合1上评估模型性能。然后重复该过程,再进行四次迭代:在迭代二624中,集合2是“保留”集合,在集合1、集合3、集合4和集合5上训练模型,并且在集合2上评估模型性能;在迭代三626中,集合3是“保留”集合,在集合1、集合2、集合4和集合5上训练模型,并且在集合3上评估模型性能;在迭代四628中,集合4是“保留”集合,在集合1、集合2、集合3和集合5上训练模型,并且在集合4上评估模型性能;在迭代五630中,集合5是“保留”集合,在集合1、集合2、集合3和集合4上训练模型,并且在集合5上评估模型性能。在图6B的示例中,平均性能可以是来自迭代一622、迭代二624、迭代三626、迭代四628和迭代五630的模型性能的平均值。
回到图1,在框106处,系统获得由框104的特征选择确定的经选择的特征子集。使用来自经选择的特征106和经标记的训练数据110的信息来训练分类模型108。在一些实施例中,用于特征选择104的数据集是与经标记的训练数据110相同的数据集。在一些实施例中,用于特征选择104的数据集是与经标记的训练数据110不同的数据集。训练分类模型的过程在以下各节和图7的方法的任何合适步骤的任何合适的组件、装置或系统的任何合适的组合。一旦训练了分类模型108,来自受试者中未见过的癌症肿瘤的特征(例如,未包括在框102中接收的数据中并且不与已知的分类标签相关联的数据元素)可以被输入到模型108中以预测受试者中的癌症肿瘤是否可能是HRD阳性或HRD阴性。
数据特征
可以从受试者获得来自被识别(例如,分类)的肿瘤的测试样品。与测试样品相关联的特征,诸如基本特征、拷贝数特征和/或短变体特征,包括可以用作HRD分类模型的输入的一个或多个特征。HRD分类模型基于来自与HRD阳性样品(诸如肿瘤样品)相关联的HRD阳性数据和与HRD阴性样品(诸如肿瘤样品)相关联的HRD阴性数据的对应特征(诸如基本特征、拷贝数特征和/或短变体特征)训练。该特征可以用作HRD的功能读数,其可以有助于识别具有与HRD相关联的“BRCAness”概况的肿瘤。具有此类HRD阳性表型的肿瘤可能是某些药物疗法的合适候选者,该药物治疗对HRD阴性表型无效(或经常无效)。
拷贝数特征可以包括但不限于区段大小特征、测序读段数量特征、绝对拷贝数特征、每x兆碱基的断点计数特征、变化点拷贝数特征、区段拷贝数特征、每个染色体臂的断点计数特征和具有振荡拷贝数的区段数量特征。参见Macintyre等人,Copy-numbersignatures and mutational processes in ovarian carcinoma,Nat.Genet.2018Sep;50(9):1262-1270。可以应用混合建模将每个特征分布分为高斯分布的混合或泊松分布的混合,以实现浮点或二元分量特征。拷贝数特征还可以包括区段次等位基因频率特征,其基于区段中种系SNP的A和B等位基因频率。
在一些实施例中,可以使用比用作输入的特征更多的特征来训练HRD模型(例如,HRD分类器模型)。例如,HRD分类模型可以基于HRD阳性数据和HRD阴性数据来训练,每个数据包括与HRD阳性肿瘤和/或HRD阴性肿瘤相关联的一定数量的特征。输入到HRD分类模型的数据然后可以包括更少的特征。在一个示例中,HRD分类器模型可以调整从输入到经训练的HRD分类器模型中的样品数据中省略的数据特征的权重。此外,HRD分类器模型可以使用额外的数据特征(诸如各自如本文所述的杂合性的全基因组丢失的量度和/或一个或多个短变体特征)来训练,但是在一些实施例中,数据输入可以仅包括与和受试者中的癌症相关联的肿瘤的基因组相关联的一个或多个拷贝数特征。
为了获得基因组数据特征(包括拷贝数特征、包括gLOH和肿瘤基因组倍性量度的基本特征和/或短变体特征),通过对肿瘤的至少一个基因组的至少一部分进行测序来收集测序数据。然后可以从全基因组测序数据(诸如低深度全基因组测序(sWGS)数据)得出绝对或相对拷贝数和分割。循环二元分割(CBS)也可用于基于DNA微阵列数据将基因组分割成恒定总拷贝数的区段,从中可以得出拷贝数特征。可替代地,绝对拷贝数和分割可以是从本领域已知的任何技术,包括但不限于外显子组测序(ES)或SNP阵列得出的。拷贝数特征的分布可以根据绝对拷贝数数据(诸如WGS数据)来计算。可以应用混合建模将每个特征分布分为高斯分布的混合或泊松分布的混合,以实现浮点或二元分量特征。因此,用于训练HRD分类模型或输入到经训练的HRD分类模型中的特定“拷贝数特征”将被表示为其分量特征。例如,对于区段大小的拷贝数特征,如果分为z个分量数量,则存在z个可以用于训练HRD分类模型或用于运行HRD分类模型的可能特征数量。换句话说,对于特定的测试样品,“区段大小”类别中的“拷贝数特征”(假设区段大小被分为z个分量数量)具有z个可能输入数量,无论是用于训练还是运行HRD分类模型。如果z等于三,则三个区段大小特征中的至少一个可以被输入到HRD分类模型中:即,segsize1、segsize2或segsize3。最佳模型性能可能部分取决于针对每个特定类别的特征选择的分量特征的数量。然而,特定类别的特征可以被分为任何合适数量的分量特征,并且不一定是对应于特定的概率分布的那些。因此,即使性能不是最优的,模型也可以使用更多或更少数量的分量特征良好地表现并有效地验证。
当得出拷贝数特征时,可以首先通过与正常数据集匹配来归一化绝对拷贝数数据以确定判定拷贝数变异事件的基线水平。正常组通常是从健康组织样品(可能来自与得出肿瘤的个体相同的个体)得出的。对健康组织样品的分析允许设定基线拷贝数,从中得出本文所述的拷贝数特征。
所述拷贝数特征中的一些可以跨越基因组的子区域进行评定。例如,可以跨越基因组的着丝粒部分来评定特定拷贝数特征。在另一个示例中,可以跨越基因组的端粒部分来评定拷贝数特征。在又一个示例中,可以跨越基因组的端粒部分和着丝粒部分二者来评定拷贝数特征。在示例性方法中,为了定义基因组的端粒和着丝粒部分,可以使用人类参考序列基因组(诸如hg19)来定义每个染色体臂的起点和终点。然后将特定臂的长度除以二来定义中点。对于分析拷贝数特征的每个区域,落在该中点的着丝粒侧的区段被定义为着丝粒区段。落在该中点的端粒侧的区段被定义为端粒区段。如果区段跨越中点(例如,在中点的着丝粒侧开始并在中点的端粒侧结束的区段),则该区段可被指定为着丝粒和端粒二者,并且可以用于评定端粒和着丝粒二者的拷贝数特征。因此,在适当的情况下,本文所述的数据特征中的任一个可以跨越基因组的端粒区域、基因组的着丝粒区域、或基因组的端粒区域和着丝粒区域二者进行评定。
拷贝数的建模可能会受到所评定的基因组的估计碱基倍性的影响。如果碱基倍性估计得较高,则浮点拷贝数特征可能会右移,从而导致分量得分倾斜并最终导致错误的分类。将拷贝数数据归一化为碱基倍性涉及将拷贝数数据除以所评定的基因组的平均倍性。因此,所述拷贝数特征中的任一个可以是从倍性归一化拷贝数数据得出的,其中绝对拷贝数被归一化为肿瘤基因组的平均倍性。计算平均倍性的示例方法是取样品中所有区段的加权平均拷贝数。对于计算平均倍性的示例性方法,参见Sun等人,Acomputational approachto distinguish somatic vs.germline origin of genomic alterations from deepsequencing of cancer specimens without a matched normal,PLoSComput.Biol.2018Feb 7;14(2):e1005965。
在一些实施例中,本文描述的特征可以是分箱特征。特征分箱涉及将某些值组织到某些分类箱中。例如,对于值范围为0到10的特征,四分位数分箱可以将这些从0到10的值中的每一个组织到四个箱中的一个中,其中较低的值可以组织到较低的箱中,并且较高的值可以组织到较高的箱中。在一些实施例中,分箱为无监督的。在一些实施例中,分箱为有监督的。在一些实施例中,分箱为等宽分箱。在等宽分箱中,箱具有宽度大致相同的范围。例如,对于具有从1到8的值的特征,具有四个箱的等宽分箱会将1和2的值组织到第一个箱,将3和4的值组织到第二个箱,依此类推。在一些实施例中,分箱为等频分箱。在等频分箱中,箱被组织成使得每个箱具有大致相同数量的值,使得值大致均等地分布到箱中。例如,对于具有从1到10的值的特征,其中较低的值是高得多的频率,分箱可以将1组织到第一个箱,将2组织到第二个箱,并且将3到10组织到第三个箱。分箱可以是二分位数、三分位数、四分位数、五分位数、六分位数、七分位数或任何其他合适的分箱组织。
在任何所述方法的一些实施例中,拷贝数特征包括区段大小特征。区段大小是从跨越基因组的每个拷贝数区段的基因组碱基长度得出的。例如,如果区段的拷贝数为x,并且下一个区段的拷贝数为y,则拷贝数为x的区段的长度和拷贝数为y的区段的长度是区段大小拷贝数类别中的因素。在示例性实施例中,区段大小的分布被分为10个分量特征。编号较低的区段大小特征代表较小的区段大小(例如,segsize1),而编号较高的区段大小特征代表较大的区段大小(例如,segsize10)。在一些实施例中,区段尺寸的分布被分为至少5个分量特征,诸如至少6个、至少7个、至少8个、至少9个、至少10个或至少11个分量特征。在一些实施例中,区段大小的分布被分为5、6、7、8、9、10或11个分量特征中的任一个。在一些实施例中,跨越基因组的端粒部分来评定区段大小特征。在一些实施例中,跨越基因组的着丝粒部分来评定区段大小特征。在一些实施例中,跨越基因组的端粒部分和着丝粒部分二者来评定区段大小特征。在一些实施例中,跨越整个基因组评定区段大小特征。在一些实施例中,区段大小特征是从倍性归一化拷贝数数据得出的。在一些实施例中,区段大小特征为分箱特征。
在所述方法中的任一个的一些实施例中,拷贝数特征包括每x兆碱基的断点计数特征。在一些实施例中,x在约1兆碱基(MB)与约150兆碱基之间。在一些实施例中,x为约10MB、约25MB、约50MB、约100MB和约150MB中的任一个。每个部分的断点计数表示跨越基因组或基因组一部分的每个部分的断点数量。例如,对于每10MB的断点计数,分析整个基因组中10MB的处理相邻窗口(或者可替代地为滑动窗口),并且然后可以评定滑动窗口每帧的断点数量。应当注意,尽管在该方法中使用了相邻窗口,但是可以使用滑动窗口或任何其他适合评定断点计数的技术。无论如何,在一些示例性实施例中,每x兆碱基的断点计数被分为3个分量特征。编号较低的断点计数特征代表较少的断点(例如,在每10MB断点计数的情况下:bp10MB1,表示10MB滑动窗口的每帧或10MB处理相邻窗口的每帧的断点较少),而编号较高的特征代表每个部分的断点更多(例如,在每10MB断点计数的情况下:bp10MB3,表示与编号较低的特征(诸如bp10MB1)相比,10MB滑动窗口的每帧的断点更多)。在一些实施例中,断点计数的分布被分为至少2个分量特征,诸如至少3个或至少4个分量特征。在一些实施例中,每个部分的断点计数被分为2、3、4或5个分量特征中的任一个。在一些实施例中,跨越基因组的端粒部分来评定每x兆碱基的断点计数特征。在一些实施例中,跨越基因组的着丝粒部分来评定每x兆碱基的断点计数特征。在一些实施例中,跨越整个基因组评估每x兆碱基的断点计数特征。在一些实施例中,每x兆碱基的断点计数特征是从倍性归一化拷贝数数据得出的。在一些实施例中,每x兆碱基的断点计数特征为分箱特征。
在所述方法中的任一个的一些实施例中,拷贝数特征包括从对基因组区段进行测序获得的测序读段数量特征。对于特定的基因组区段,该值是指与已测序区段对齐(即“覆盖”)的测序读段的平均数量。对于拷贝数异常高的基因组区段,测序读段的数量将会增加。相反,对于已丢失拷贝数(诸如纯合性缺失)的基因组区段,测序读段将会更少。测序读段特征可以表示为读段的实际数量(诸如分析的每个区段的读段的平均值)或测序读段的箱。编号较低的测序读段特征代表较低的绝对测序读段,而编号较高的测序读段特征代表较高的绝对测序读段。在一些实施例中,跨越基因组的端粒部分来评定测序读段特征。在一些实施例中,跨越基因组的着丝粒部分来评定测序读段特征。在一些实施例中,跨越基因组的端粒和着丝粒部分二者来评定测序读段特征。在一些实施例中,测序读段特征是从倍性归一化数据得出的。在一些实施例中,测序读段特征为分箱特征。在一些实施例中,测序读段数量特征是来自下一代测序(NGS)的读段数量的测量。在一些实施例中,测序读段数量特征表示为肿瘤样品中基因组区段的测序读段与对照中该基因组区段的测序读段数量的比率。
在所述方法中任一个的一些实施例中,拷贝数特征包括绝对拷贝数特征。可以针对每个基因组区段计算绝对拷贝数并分配值。例如,分配的值可以包括0(指示纯合性缺失)、1(可以指示杂合性缺失)、2(可以是正常计数)或更多(可以指示拷贝数扩增)。绝对拷贝数特征可以表示实际拷贝数计数(诸如分析的每个区段的拷贝数的平均值)或拷贝数值的箱。例如,至少6的拷贝数可以被分箱为表示区段的高拷贝数。3与5之间的拷贝数可以被分箱为表示适度增加的拷贝数。拷贝数1和2可以是正常的,并且拷贝数0可以被分箱为纯合性缺失。编号较低的绝对拷贝数特征代表较低的绝对拷贝数,而编号较高的绝对拷贝数特征代表较高的绝对拷贝数。在一些实施例中,绝对拷贝数被分为3、4、5、6、7、8或9个分量特征中的任一个。在一些实施例中,跨越基因组的端粒部分来评定绝对拷贝数特征。在一些实施例中,跨越基因组的着丝粒部分来评定绝对拷贝数特征。在一些实施例中,跨越基因组的端粒和着丝粒部分二者来评定绝对拷贝数特征。在一些实施例中,绝对拷贝数特征是从倍性归一化数据得出的。在一些实施例中,绝对拷贝数特征为分箱特征。
在所述方法中的任一个的一些实施例中,拷贝数特征包括变化点拷贝数特征。变化点拷贝数是指跨越基因组的基因组区段之间拷贝数的绝对差异。例如,以拷贝数7和2建模的相邻区段的绝对差异为5。在示例性实施例中,变化点拷贝数的分布被分为7个分量特征。编号较低的变化点拷贝数特征代表拷贝数变化的较小绝对差异(例如,变化点1),而编号较高的特征代表拷贝数变化的较大绝对差异(例如,变化点7)。在一些实施例中,变化点拷贝数的分布被分为至少4个分量特征,诸如至少5个、至少6个、至少7个或至少8个分量特征。在一些实施例中,变化点拷贝数被分为4、5、6、7、8或9个分量特征中的任一个。在一些实施例中,跨越基因组的端粒部分来评定变化点拷贝数特征。在一些实施例中,跨越基因组的着丝粒部分来评定变化点拷贝数特征。在一些实施例中,跨越基因组的端粒部分和着丝粒部分二者来评定变化点拷贝数特征。在一些实施例中,变化点拷贝数特征是从倍性归一化拷贝数数据得出的。在一些实施例中,变化点拷贝数特征为分箱特征。
在所述方法中的任一个的一些实施例中,拷贝数特征包括区段拷贝数特征。区段拷贝数是从跨越基因组或基因组一部分的每个区段的拷贝数得出的。在示例性实施例中,区段拷贝数的分布被分为8个分量特征。编号较低的区段拷贝数特征代表较低的拷贝数(例如,拷贝数1可以代表0或1或者0到1的拷贝数水平),而编号较高的拷贝数特征代表较高的拷贝数(例如,拷贝数8)。在一些实施例中,区段拷贝数的分布被分为至少4个分量特征,诸如至少5个、至少6个、至少7个、至少8个或至少9个分量特征。在一些实施例中,区段拷贝数的分布被分为4、5、6、7、8、9或10个分量特征中的任一个。在一些实施例中,跨越基因组的端粒部分来评定区段拷贝数特征。在一些实施例中,跨越基因组的着丝粒部分来评定区段拷贝数特征。在一些实施例中,跨越整个基因组评定区段拷贝数特征。在一些实施例中,区段拷贝数特征是从倍性归一化拷贝数数据得出的。在一些实施例中,区段拷贝数特征为分箱特征。
在所述方法中任一个的一些实施例中,拷贝数特征包括每个染色体臂的断点计数特征。在示例性实施例中,每个染色体臂的断点计数的分布被分为5个分量特征。编号较低的每个染色体臂的断点计数特征代表每个臂的断点较少(例如,bpchram1),而编号较高的每个染色体臂的断点计数特征代表每个染色体臂的断点较多(例如,bpchram5)。在一些实施例中,每个染色体臂的断点计数的分布被分为至少3个分量特征,诸如至少4个、至少5个、至少6个或至少7个分量特征。在一些实施例中,每个染色体臂的断点计数的分布被分为4、5、6、7或8个分量特征中的任一个。在一些实施例中,每个染色体臂的断点计数是从倍性归一化拷贝数数据得出的。在一些实施例中,每个染色体臂的断点计数特征为分箱特征。
在一些实施例中,拷贝数特征包括具有振荡拷贝数(osCN)的区段数量特征。具有振荡拷贝数的区段数量代表基因组或基因组的一部分的遍历,从而对两个拷贝数之间重复交替区段的数量进行计数。在示例性实施例中,具有振荡拷贝数的区段数量的分布被分为3个分量特征。编号较低的具有振荡拷贝数的区段数量特征代表两个拷贝数之间的重复交替较少(例如,osCN1),而编号较高的具有振荡拷贝数的区段数量特征代表两个拷贝数之间的重复交替较多(例如,osCN3)。在一些实施例中,具有振荡拷贝数的区段数量的分布被分为至少2个、诸如至少3个或至少4个分量特征。在一些实施例中,具有振荡拷贝数的区段数量的分布被分为2、3、4或5个分量特征中的任一个。在一些实施例中,跨越基因组的端粒部分来评定具有振荡拷贝数的区段数量特征。在一些实施例中,跨越基因组的着丝粒部分来评定具有振荡拷贝数的区段数量特征。在一些实施例中,跨越整个基因组评定具有振荡拷贝数的区段数量特征。在一些实施例中,具有振荡拷贝数的区段数量特征是从倍性归一化拷贝数数据得出的。在一些实施例中,具有振荡拷贝数的区段数量特征为分箱特征。
在一些实施例中,拷贝数特征包括区段次等位基因频率(segMAF)特征。segMAF特征可以是从肿瘤基因组的segMAF平均值或segMAF中值得出的。在杂合等位基因位点处的正常基因组中,每个等位基因的预期拷贝数为1.0。HRD与等位基因的完全丢失(杂合性丢失)或一个等位基因相对于另一个等位基因的拷贝数增加相关联。因此,segMAF是基因组的逐段遍历,从而比较次等位基因与主等位基因的比率。具体地,分析每个杂合SNP的A等位基因和B等位基因频率;次等位基因的频率被捕获为次等位基因分数。平衡位点的比例为约0.5:0.5,其中次等位基因频率为0.5。杂合性事件的丢失将导致次等位基因频率的不平衡并偏斜至次等位基因分数小于约0.5。在一些实施例中,跨越基因组的端粒部分来评定segMAF特征。在一些实施例中,跨越基因组的着丝粒部分来评定segMAF特征。在一些实施例中,跨越整个基因组评定segMAF特征。在一些实施例中,区段次等位基因频率特征为分箱特征。
通过HRD阳性数据和HRD阴性数据训练HRD分类模型,对于多个HRD阳性肿瘤中的每个HRD阳性肿瘤,该HRD阳性数据包括与HRD阳性肿瘤相关联的一个或多个特征和HRD阳性标签,并且对于多个HRD阴性训练肿瘤中的每个HRD阴性肿瘤,该HRD阴性数据包括与HRD阴性肿瘤相关联的一个或多个拷贝数特征和HRD阴性标签。HRD分类模型也可以基于其他特征或量度来训练。因此,包括这些其他特征或量度的测试数据可以被输入到HRD分类模型(包括与一个或拷贝数特征组合)。例如,包括例如基因组杂合性丢失的量度和/或一个或多个短变体特征的基本特征可以用于HRD分类模型(无论是训练HRD分类模型还是作为待输入到HRD分类模型的测试数据)。
在一些实施例中,基本特征包括从中获得肿瘤的受试者的年龄。患者可以为任何年龄,包括至少5岁、至少10岁、至少15岁、至少20岁、至少25岁、至少30岁、至少35岁、至少40岁、至少45岁、至少50岁、至少55岁、至少60岁、至少65岁、至少70岁、至少75岁、或至少80岁中的任一个。受试者的年龄特征可以是整数值。可替代地,年龄特征可以是定性特征,诸如婴儿、幼儿、儿童、年轻成人或老年受试者中的任一个。在一些实施例中,年龄特征为分箱特征。
在一些实施例中,基本特征包括癌症类型特征。癌症类型特征是指肿瘤起源。癌症类型可以包括例如肾上腺癌、胆癌、骨/软组织癌、乳腺癌、结肠癌/直肠癌、食道癌、眼癌、头颈癌、肾癌、肝癌、肺癌、淋巴癌、髓母细胞瘤、间皮瘤、骨髓癌、神经系统癌症、神经内分泌癌、卵巢癌、胰腺癌、前列腺癌、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、泌尿道癌、子宫癌或外阴癌中的一种。在一些实施例中,癌症类型特征为分箱特征。
在一些实施例中,基本特征包括癌症阶段特征。癌症的分期通常基于癌症的类型(例如,胰腺癌分期、前列腺癌分期、乳腺癌分期、卵巢癌分期等),尽管通用分期系统也是本领域已知的。可以使用任何合适的癌症分期系统,并且可以取决于例如肿瘤的位置、细胞类型、肿瘤大小、肿瘤的扩散和分布、肿瘤的转移以及肿瘤等级。作为数据特征,癌症阶段通常表示为范围从不太严重阶段到较严重阶段。例如,对于包括4个分量特征的癌症阶段特征,阶段1可以指示早期癌症,而阶段4可以指示晚期癌症。在一些实施例中,癌症阶段特征为分箱特征。
HRD阳性数据和HRD阴性数据通常被分为训练数据集、验证数据集和/或测试数据集。在训练期间,HRD分类模型仅提供有训练集。任选地,训练集合可以是平衡的。一定经过训练,就可以通过验证集合上的性能来验证模型并进行调整。如果模型在验证集上表现出过度拟合,则可以调整并重复训练。一旦经过训练,并且在任选地验证之后,可以使用测试数据集来评估经训练的模型。
基因组杂合性丢失(gLOH)(例如,全基因组杂合性丢失或全外显子组杂合性丢失)的量度可以作为基本特征包括在一些实施例中。不需要分析完整基因组来确定基因组杂合性丢失,因为全外显子组测序或跨越基因组足够大部分的靶向测序可以作为基因组杂合性丢失的代理。在一些实施例中,gLOH被编码为连续数字特征。在一些实施例中,例如,如果gLOH高于或低于预定阈值,则gLOH被编码为分类特征。预定阈值可以被设置为例如约10%或更高、约12%或更高、约14%或更高或者约16%或更高。预定阈值可以被设置为例如在约16%。gLOH可以例如使用Swisher等人,Rucaparib in relapsed,platinum-sensitivehigh-grade ovarian carcinoma(ARIEL2 Part1):an international,multicenter,open-label,phase 2trial,Lancet Oncology,vol.18,no.1,pp.75-87(2017)中描述的方法来确定。
一个或多个短变体特征可以用于HRD分类模型(无论是训练HRD分类模型还是作为待输入到HRD分类模型的测试数据)。这些短变体特征可以包括但不限于例如重复或微同源性区域特征处的一个或多个缺失(诸如至少5个碱基对缺失)和/或掺入两个或更多个短变体特征的突变签名。在示例性方法中,这些短变体特征可以通过将对应于肿瘤样品的测序数据与共有人类基因组序列(诸如hg19)进行比较来识别。在一些实施例中,短变体特征为分箱特征。
多个短变体特征可以组合并表示为突变签名得分。例如,一个或多个短变体特征可以包括突变概况,诸如来自COSMIC癌症数据库的突变概况。在一个实例中,一个或多个短变体特征包括基于插入缺失的特征,诸如COSMIC癌症数据库的COSMIC ID6或COSMIC ID8插入缺失签名。例如,可以使用NNMF方法将样品概况映射到这些COSMIC概况。在另一示例中,一个或多个短变体特征包括COSMIC癌症数据库的COSMIC ID8。在又一示例中,一个或多个短变体特征包括COSMIC癌症数据库的SBS3突变签名。有关示例性COSMIC ID签名的总结参见Alexandrov等人,The repertoire of mutational signatures in human cancer,Nature 2020;578(7793):94-101。还参见Forbes等人,COSMIC:mining complete cancergenomes in the Catalogue of Somatic Mutations in Cancer,Nuc.AcidsRes.2011Jan;39:D945-D950。
在一些实施例中,一个或多个短变体特征包括微同源性或重复区特征的缺失。在一些实施例中,缺失是至少1个碱基对。在一些实施例中,缺失是至少5个碱基对。微同源性区域的缺失是微同源性介导的末端连接(MMEJ)的特征性结果,其在没有同源重组的情况下发生。在此过程中,相似性(微同源性)的短区域用于指导基因组中双链断裂的修复。这些缺失的识别特征是缺失序列的3'端将与缺失的上游背景共享相似性。因此,微同源性区域特征处的缺失是表现出这种行为的缺失数量的量度,并且也可以基于微同源性的长度(即,具有较长长度的大量删除与具有较短长度的较少删除)。
在示例性实施例中,测试数据包括区段次等位基因频率特征和区段大小特征。在一些实施例中,区段次等位基因频率特征为分箱特征。在一些实施例中,区段大小特征为分箱特征。测试数据可以进一步包括每x兆碱基的断点计数特征、变化点拷贝数特征、测序读段数量特征、绝对拷贝数特征、区段拷贝数特征、每个染色体臂的断点计数特征,以及具有振荡拷贝数的区段数量特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括区段次等位基因频率特征和每x兆碱基的断点计数特征。在一些实施例中,区段次等位基因频率特征为分箱特征。在一些实施例中,每x兆碱基的断点计数特征为分箱特征。测试数据可以进一步包括区段大小特征、测序读段数量特征、绝对拷贝数特征、变化点拷贝数特征、区段拷贝数特征、每个染色体臂的断点计数特征和具有振荡拷贝数的区段数量特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括区段次等位基因频率特征和变化点拷贝数特征。在一些实施例中,区段次等位基因频率特征为分箱特征。在一些实施例中,变化点拷贝数特征为分箱特征。测试数据可以进一步包括区段大小特征、测序读段数量特征、绝对拷贝数特征、每x兆碱基的断点计数特征、区段拷贝数特征、每个染色体臂的断点计数特征和具有振荡拷贝数的区段数量特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括区段次等位基因频率特征和区段拷贝数特征。在一些实施例中,区段次等位基因频率特征为分箱特征。在一些实施例中,区段拷贝数特征为分箱特征。测试数据可以进一步包括区段大小特征、测序读段数量特征、绝对拷贝数特征、每x兆碱基的断点计数特征、变化点拷贝数特征、每个染色体臂的断点计数特征和具有振荡拷贝数的区段数量特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括区段次等位基因频率特征和每个染色体臂的断点计数特征。在一些实施例中,区段次等位基因频率特征为分箱特征。在一些实施例中,每个染色体臂的断点计数特征为分箱特征。测试数据可以进一步包括区段大小特征、测序读段数量特征、绝对拷贝数特征、每x兆碱基的断点计数特征、变化点拷贝数特征、区段拷贝数特征和具有振荡拷贝数的区段数量特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括区段次等位基因频率特征和具有振荡拷贝数的区段数量特征。在一些实施例中,区段次等位基因频率特征为分箱特征。在一些实施例中,具有振荡拷贝数的区段数量特征为分箱特征。测试数据可以进一步包括区段大小特征、测序读段数量特征、绝对拷贝数特征、每x兆碱基的断点计数特征、变化点拷贝数特征、区段拷贝数特征和每个染色体臂的断点计数特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一示例性实施例中,测试数据包括区段大小特征和每x兆碱基的断点计数特征。在一些实施例中,区段大小特征为分箱特征。在一些实施例中,每x兆碱基的断点计数特征为分箱特征。测试数据可以进一步包括区段次等位基因频率(segMAF)特征、测序读段数量特征、绝对拷贝数特征、变化点拷贝数特征、区段拷贝数特征、每个染色体臂的断点计数特征和具有振荡拷贝数的区段数量特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括区段大小特征和变化点拷贝数特征。在一些实施例中,区段大小特征为分箱特征。在一些实施例中,变化点拷贝数特征为分箱特征。测试数据可以进一步包括区段次等位基因频率(segMAF)特征、测序读段数量特征、绝对拷贝数特征、每x兆碱基的断点计数特征、区段拷贝数特征、每个染色体臂的断点计数特征和具有振荡拷贝数的区段数量特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括区段大小特征和区段拷贝数特征。在一些实施例中,区段大小特征为分箱特征。在一些实施例中,区段拷贝数为分箱特征。测试数据可以进一步包括区段次等位基因频率(segMAF)特征、测序读段数量特征、绝对拷贝数特征、每x兆碱基的断点计数特征、变化点拷贝数特征、每个染色体臂的断点计数特征和具有振荡拷贝数的区段数量特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括区段大小特征和每个染色体臂的断点计数特征。在一些实施例中,区段大小特征为分箱特征。在一些实施例中,每个染色体臂的断点计数特征为分箱特征。测试数据可以进一步包括区段次等位基因频率(segMAF)特征、测序读段数量特征、绝对拷贝数特征、每x兆碱基的断点计数特征、变化点拷贝数特征、区段拷贝数特征和具有振荡拷贝数的区段数量特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括区段大小特征和具有振荡拷贝数的区段数量特征。在一些实施例中,区段大小特征为分箱特征。在一些实施例中,具有振荡拷贝数的区段数量特征为分箱特征。测试数据可以进一步包括区段次等位基因频率(segMAF)特征、测序读段数量特征、绝对拷贝数特征、每x兆碱基的断点计数特征、变化点拷贝数特征、区段拷贝数特征和每个染色体臂的断点计数特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括每x兆碱基的断点计数特征和变化点拷贝数特征。在一些实施例中,每x兆碱基的断点计数特征为分箱特征。在一些实施例中,变化点拷贝数特征为分箱特征。测试数据可以进一步包括区段次等位基因频率(segMAF)特征、测序读段数量特征、绝对拷贝数特征、区段大小特征、区段拷贝数特征、每个染色体臂的断点计数特征和具有振荡拷贝数的区段数量特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括每x兆碱基的断点计数特征和区段拷贝数特征。在一些实施例中,每x兆碱基的断点计数特征为分箱特征。在一些实施例中,区段拷贝数特征为分箱特征。测试数据可以进一步包括区段次等位基因频率(segMAF)特征、测序读段数量特征、绝对拷贝数特征、区段大小特征、变化点拷贝数特征、每个染色体臂的断点计数特征和具有振荡拷贝数的区段数量特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括每x兆碱基的断点计数特征和每个染色体臂的断点计数特征。在一些实施例中,每x兆碱基的断点计数特征为分箱特征。在一些实施例中,每个染色体臂的断点计数特征为分箱特征。测试数据可以进一步包括区段次等位基因频率(segMAF)特征、测序读段数量特征、绝对拷贝数特征、区段大小特征、变化点拷贝数特征、区段拷贝数特征和具有振荡拷贝数的区段数量特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括每x兆碱基的断点计数特征和具有振荡拷贝数的区段数量特征。在一些实施例中,每x兆碱基的断点计数特征为分箱特征。在一些实施例中,具有振荡拷贝数的区段数量特征为分箱特征。测试数据可以进一步包括区段次等位基因频率(segMAF)特征、测序读段数量特征、绝对拷贝数特征、区段大小特征、变化点拷贝数特征、区段拷贝数特征和每个染色体臂的断点计数特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括变化点拷贝数特征和区段拷贝数特征。在一些实施例中,变化点拷贝数特征为分箱特征。在一些实施例中,区段拷贝数特征为分箱特征。测试数据可以进一步包括区段次等位基因频率(segMAF)特征、测序读段数量特征、绝对拷贝数特征、区段大小特征、每x兆碱基的断点计数特征、每个染色体臂的断点计数特征和具有振荡拷贝数的区段数量特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括变化点拷贝数特征和每个染色体臂的断点计数特征。在一些实施例中,变化点数特征为分箱特征。在一些实施例中,每个染色体臂的断点计数特征为分箱特征。测试数据可以进一步包括区段次等位基因频率(segMAF)特征、测序读段数量特征、绝对拷贝数特征、区段大小特征、每x兆碱基的断点计数特征、区段拷贝数特征和具有振荡拷贝数的区段数量特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括变化点拷贝数特征和具有振荡拷贝数的区段数量特征。在一些实施例中,变化点拷贝数特征为分箱特征。在一些实施例中,具有振荡拷贝数的区段数量特征为分箱特征。测试数据可以进一步包括区段次等位基因频率(segMAF)特征、测序读段数量特征、绝对拷贝数特征、区段大小特征、每x兆碱基的断点计数特征、区段拷贝数特征和每个染色体臂的断点计数特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括区段拷贝数特征和每个染色体臂的断点计数特征。在一些实施例中,区段拷贝数特征为分箱特征。在一些实施例中,每个染色体臂的断点计数特征为分箱特征。测试数据可以进一步包括区段次等位基因频率(segMAF)特征、测序读段数量特征、绝对拷贝数特征、区段大小特征、每x兆碱基的断点计数特征、变化点拷贝数特征和具有振荡拷贝数的区段数量特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括区段拷贝数特征和具有振荡拷贝数的区段数量特征。在一些实施例中,区段拷贝数特征为分箱特征。在一些实施例中,具有振荡拷贝数的区段数量特征为分箱特征。测试数据可以进一步包括区段次等位基因频率(segMAF)特征、测序读段数量特征、绝对拷贝数特征、区段大小特征、每x兆碱基的断点计数特征、变化点拷贝数特征和每个染色体臂的断点计数特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
在另一个示例性实施例中,测试数据包括每个染色体臂的断点计数特征和具有振荡拷贝数的区段数量特征。在一些实施例中,每个染色体臂的断点计数特征为分箱特征。在一些实施例中,具有振荡拷贝数的区段数量特征为分箱特征。测试数据可以进一步包括区段次等位基因频率(segMAF)特征、测序读段数量特征、绝对拷贝数特征、区段大小特征、每x兆碱基的断点计数特征、变化点拷贝数特征和区段拷贝数特征中的至少一者。测试数据可以进一步包括gLOH的量度和/或一个或多个短变体特征。测试数据可以进一步包括获得测试数据的受试者的年龄、癌症类型特征、癌症阶段特征、肿瘤纯度特征和肿瘤基因组倍性特征中的一者或多者。
HRD模型
使用经训练的HRD分类模型对受试者中的癌症肿瘤进行分类,该模型被配置为将肿瘤分类为HRD阳性(或可能的HRD阳性)或HRD阴性(或可能的HRD阴性)。使用HRD阳性数据训练HRD分类模型,对于多个HRD阳性肿瘤中的每个HRD阳性肿瘤,该HRD阳性数据包括与HRD阳性肿瘤相关联的一个或多个数据特征(诸如一个或多个拷贝数特征和/或一个或多个短变体特征,以及其他可能的特征)和HRD阳性标签。使用HRD阴性数据进一步训练HRD分类模型,对于多个HRD阴性肿瘤中的每个HRD阴性肿瘤,该HRD阴性数据包括与HRD阴性肿瘤相关联的一个或多个数据特征(诸如一个或多个拷贝数特征和/或一个或多个短变体特征,以及其他可能的特征)和HRD阴性标签。包含与受试者中的肿瘤的基因组相关联的一个或多个数据特征(诸如一个或多个拷贝数特征和/或一个或多个短变体特征,以及其他可能的特征)的测试数据被输入到经训练的HRD分类模型中,然后基于测试数据将肿瘤分类为HRD阳性(或可能的HRD阳性)或HRD阴性(或可能的HRD阴性)。
本文描述的模型可以包括一个或多个机器学习模型、一个或多个非机器学习模型或其任意组合。本文描述的机器学习模型包括由经验和通过使用数据自动改进的任何计算机算法。机器学习模型可以包括监督模型、无监督模型、半监督模型、自监督模型等。示例性机器学习模型包括但不限于:线性回归、逻辑回归、决策树、SVM、朴素贝叶斯、神经网络、K均值、方差分析(ANOVA)、卡方分析、随机森林、降维算法和梯度提升算法(诸如XGB)。非机器学习模型可以包括不一定需要训练和再训练的任何计算机算法。
HRD分类器可以是概率分类器,诸如梯度提升模型。概率分类器可以被配置为计算肿瘤是HRD阳性或HRD阴性的概率,诸如通过输出HRD阳性可能性得分或HRD阴性可能性得分来计算。基于由HRD分类模型输出的一个或多个概率,可以将肿瘤判定为HRD阳性或HRD阴性。任选地,例如如果肿瘤是HRD阳性的概率和肿瘤是HRD阴性的概率都不高于预定的概率阈值,则该肿瘤可以被判定为不明确的。HRD阳性数据和HRD阴性数据可以包括本文所述的拷贝数特征和/或短变体特征。
HRD阴性数据可以包括在某些HRD相关基因处具有野生型等位基因(即,与HRD不相关联的等位基因)的基因组。例如,在一些实施例中,HRD阴性数据包括与在与HRD相关联的基因中的一个或多个基因处具有野生型等位基因的基因组相关联的数据,该基因包括但不限于BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D和/或RAD45L。在一些实施例中,HRD阴性数据包括与HRD相关联的基因中的一个或多个基因的启动子甲基化数据,该基因包括但不限于BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D和/或RAD45L。在一些实施例中,HRD阴性数据包括与HRD相关联的基因中的一个或多个基因的RNA表达数据,该基因包括但不限于BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D和/或RAD45L。在一些实施例中,HRD阴性数据包括与基因组相关联的数据,该基因组与被发现对铂类药物(例如,化疗)和/或PARP抑制剂具有抗性的肿瘤相关联。在一些实施例中,HRD阴性数据包括与基因组相关联的数据,该基因组与先前分类为HRD阴性的肿瘤相关联。在一些实施例中,HRD阴性数据至少部分是从共有人类基因组序列或其一部分得出的。
HRD阳性数据可以包括与基因组相关联的数据,该基因组在某些HRD相关基因处具有HRD相关等位基因。例如,在一些实施例中,HRD阳性数据包括与基因组相关联的数据,该基因组在与HRD相关联的基因中的一个或多个基因处具有突变的,该基因包括但不限于BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D和/或RAD45L,特别是其双等位基因突变。在一些实施例中,HRD阳性数据包括与HRD相关联的基因中的一个或多个基因的启动子甲基化数据,该基因包括但不限于BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D和/或RAD45L。在一些实施例中,HRD阳性数据包括与HRD相关联的基因中的一个或多个基因的RNA表达数据,该基因包括但不限于BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D和/或RAD45L。在一些实施例中,HRD阳性数据包括与基因组相关联的数据,该基因组与被发现对铂类药物和/或PARP抑制剂敏感的肿瘤相关联。在一些实施例中,HRD阴性数据包括与基因组相关联的数据,该基因组与先前分类为HRD阳性的肿瘤相关联。在一些实施例中,HRD阳性数据包括与肿瘤相关联的数据,该肿瘤具有与HRD相关联的双等位基因BRCA1和BRCA2突变。
HRD阳性数据可以与HRD阴性数据平衡。例如,在不平衡的训练数据集中,HRD阳性训练肿瘤的数量可能超过HRD阴性肿瘤的数量(反之亦然)。平衡数据确保模型具有足够数量的每个标签,以避免偏向于一个标签。当平衡时,调整HRD阳性肿瘤的数量或HRD阴性肿瘤的数量,使得它们之间的比率处于期望的水平(诸如大约1:1或任何其他期望的比率)。使用平衡数据集,可以训练HRD分类器,并且然后针对包括HRD阳性肿瘤和HRD阴性肿瘤的测试数据集进行测试。
用于训练HRD分类器的肿瘤各自包括HRD阳性标签或HRD阴性标签。可以使用任何合适的方法来通过计算将肿瘤标记(例如,应用元数据标签)为HRD阳性或HRD阴性。HRD阳性标记可以通过HRD相关基因中的一个基因(诸如与HRD相关联的基因中的一个基因)中改变的存在来分配,该基因包括但不限于BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D和/或RAD45L,特别是其双等位基因改变。BRCA1和BRCA2中的一个或两个的突变尤其指示HRD阳性,尤其是双等位基因BRCA1/BRCA2突变。根据临床病史,肿瘤也可能被标记为HRD阳性。例如,如果肿瘤对PARP抑制剂或铂类药物方案敏感,则肿瘤更有可能为HRD阳性。HRD阴性标签可以基于HRD相关基因中的一个基因(诸如与HRD相关联的基因中的一个基因)中改变的不存在来分配,该基因包括但不限于BRCA1、BRCA2、ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D和/或RAD45L。HRD相关基因中的突变可以通过将基因序列与参考基因组(诸如共有人类基因组序列,诸如hg19)进行比较来检测。同样,根据临床病史,肿瘤也可能被标记为HRD阴性。例如,如果肿瘤对PARP抑制剂或铂类药物方案具有抗性,则该肿瘤更有可能为HRD阴性。如果肿瘤在使用PARP抑制剂或铂类药物方案之前未接受过治疗,则尤其如此,因为HRD阳性肿瘤在几轮治疗后可能会对这些药物产生抗性。尽管每个肿瘤可以包括HRD阳性或HRD阴性标记,但该标记不需要绝对确定肿瘤是HRD阳性或HRD阴性。相反,鉴于包括大量HRD阳性肿瘤和大量HRD阴性肿瘤的稳健训练数据集,并且通过避免如本领域已知的这些数据的过度拟合,假阳性和假阴性的贡献在模型中被平均。此外,使用更大的训练数据集,特别是平衡的训练数据集和具有明确定义的阳性和阴性标签的数据集(诸如通过使用经验证的HRD阴性标签的共有基因组;以及通过使用经验证的双等位基因BRCA1/2突变体或经验证的充分表征的HRD阳性标签的BRCAness样品),允许模型正确评定HRD阴性表型与表现出HRD疤痕的表型(即,HRD阳性表型)之间的细微差别。
分类方法是计算机实现的方法。该分类可以在专门配置的机器或系统上执行,该机器或系统包括用于执行经训练的HRD分类器模型的程序指令,该程序指令可以存储在计算机或系统的非暂时性计算机可读存储器上。计算机通常包括可以访问存储器的一个或多个处理器。一个或多个处理器可以接收数据(例如,测试数据,诸如与受试者中的肿瘤的基因组相关联的一个或多个拷贝数特征和/或一个或多个短变体特征,以及在一些实施例中的其他特征和量度),该数据也可以存储在存储器中。一个或多个处理器可以访问经训练的HRD分类器模型,并且可以将测试数据输入到模型。然后,一个或多个处理器和经训练的HRD分类器模型可以将癌症分类为可能的HRD阳性或可能的HRD阴性。
HRD分类器模型可以将癌症的肿瘤分类为HRD阳性或HRD阴性。在一些实施例中,HRD分类器模型可以将肿瘤分类为可能的HRD阳性、可能的HRD阴性或不明确。例如,如果HRD分类器模型不能以足够高的置信度或概率将肿瘤分类为可能的HRD阳性或可能的HRD阴性,则它可以将肿瘤分类为不明确的。考虑到对不准确分类的容忍度,置信度或概率阈值可以由用户根据需要设置。在一个示例中,用户可以将HRD阳性可能性得分阈值设置在0.8,并将HRD阴性可能性得分阈值设置在0.2。如果HRD阳性可能性得分低于0.8和/或HRD阴性可能性得分高于0.2,则HRD模型可能不会将肿瘤分类为HRD阳性,并且会将肿瘤分类为HRD阴性(取决于HRD阳性可能性得分有多低以及HRD阴性可能性得分有多高)或不明确。
在一些实施例中,HRD分类器输出肿瘤为HRD阳性的可能性得分。在一些实施例中,HRD分类器输出肿瘤为HRD阴性的可能性得分。HRD分类器可以被配置为输出HRD阳性可能性得分和HRD阴性可能性得分中的任一者或两者。HRD分类器还可以被配置为输出HRD阳性可能性得分与HRD阴性可能性得分的比率和/或HRD阴性可能性得分与HRD阳性可能性得分的比率。可能性得分可以表示为从0.0(指示肿瘤不是HRD阳性或HRD阴性的确定性)到1.0(指示肿瘤是HRD阳性或HRD阴性的确定性)的值。例如,经训练的HRD分类器可以接收包括与受试者中的癌症的肿瘤相关联的多个数据特征的测试样品数据,并且输出0.8的HRD阳性可能性得分和0.15的HRD阴性可能性得分。HRD分类器可以被配置为基于一个或多个可能性得分将肿瘤判定为HRD阳性或HRD阴性。在前面的示例中,基于HRD阳性可能性得分0.8和HRD阴性可能性得分0.15,HRD分类器可以将肿瘤判定为HRD阳性。在一些实施例中,如果HRD阳性可能性得分为至少0.4,诸如至少0.45、至少0.5、至少0.55、至少0.6、至少0.65、至少0.70、至少0.75、至少0.80、至少0.85、至少0.90、至少0.95或至少0.99,则HRD分类器将肿瘤判定为HRD阳性。在一些实施例中,如果HRD阳性可能性得分为至少0.7,则HRD分类器将肿瘤判定为HRD阳性。在一些实施例中,如果HRD阳性可能性得分为至少0.8,则HRD分类器将肿瘤判定为HRD阳性。在一些实施例中,如果HRD阳性可能性得分为至少0.9,则HRD分类器将肿瘤判定为HRD阳性。在一些实施例中,如果HRD阴性可能性得分为至少0.4,诸如至少0.5、至少0.6、至少0.65、至少0.70、至少0.75、至少0.80、至少0.85,至少0.90,至少0.95或至少0.99,则HRD分类器将肿瘤判定为HRD阴性。在一些实施例中,如果HRD阴性可能性得分为至少0.7,则HRD分类器将肿瘤判定为HRD阴性。在一些实施例中,如果HRD阴性可能性得分为至少0.8,则HRD分类器将肿瘤判定为HRD阴性。在一些实施例中,如果HRD阴性可能性得分为至少0.9,则HRD分类器将肿瘤判定为HRD阴性。在一些实施例中,如果HRD阴性可能性得分小于0.5,诸如小于0.45、小于0.40、小于0.35、小于0.30、小于0.30、小于0.25、小于0.20、小于0.15、小于0.10或小于0.05,则HRD分类器将肿瘤判定为HRD阳性。在一些实施例中,如果HRD阳性可能性得分小于0.5,诸如小于0.45、小于0.40、小于0.35、小于0.30、小于0.30、小于0.25、小于0.20、小于0.15、小于0.10或小于0.05,则HRD分类器将肿瘤判定为HRD阴性。在一些实施例中,如果HRD阳性可能性得分高于某个阈值(诸如至少0.80)且HRD阴性可能性得分低于某个阈值(诸如小于0.25),则HRD分类器将肿瘤判定为HRD阳性。在一些实施例中,如果HRD阴性可能性得分高于某个阈值(诸如至少0.80)且HRD阳性可能性得分低于某个阈值(诸如小于0.25),则HRD分类器将肿瘤判定为HRD阴性。在一些实施例中,如果HRD阳性可能性得分低于某个阈值并且HRD阴性可能性得分低于阈值,或者如果可能性得分的绝对值在阈值相似性百分比内,则HRD分类器将肿瘤判定为不明确。
可以生成将癌症识别为可能的HRD阳性或可能的HRD阴性(或不明确)的报告。该报告可以是例如电子医疗记录或打印的报告,其可以被传输至受试者或与受试者相关联的医疗保健提供者(诸如医生、护士、诊所等)。该报告可以用于做出医疗保健决策,诸如治疗癌症肿瘤的方法或药物。
该报告可以显示在电子显示器或定制界面上。例如,在一些实施例中,计算机实现的方法可以自动生成报告,并且可以在电子显示器或定制界面上自动显示生成的报告。
图7示出了用于训练和操作被配置为将受试者中的癌症肿瘤分类为HRD阳性或HRD阴性的HRD分类模型702的示例性方法。使用包括HRD阳性训练数据集704和HRD阴性训练数据集706的数据集来训练HRD分类模型702。HRD阳性训练数据集704包括一个或多个HRD阳性样品数据元素(即,HRD阳性样品1数据至HRD阳性样品i)。每个HRD阳性样品数据元素与HRD阳性肿瘤的特征(例如,拷贝数特征、基本特征、短变体特征等)相关联。HRD阳性样品数据元素还可以包括其他数据特征,诸如gLOH的量度和/或短变体特征(未示出)。这些特征被标记为与HRD阳性标签相关联。类似地,HRD阴性训练数据集706包括一个或多个HRD阴性训练样品数据元素(即,HRD(-)样品1至HRD(-)样品j)。每个HRD阴性样品数据元素与HRD阴性肿瘤的特征(例如,拷贝数特征、基本特征、短变体特征等)相关联。HRD阴性样品数据元素还可以包括其他数据特征,诸如gLOH的量度和/或短变体特征(未示出)。HRD阴性样品被标记为与HRD阴性标签相关联。
在一些实施例中,HRD分类模型702是基于树的梯度提升模型(诸如XGBoost)。在此模型中,不是彼此独立地训练所有模型(例如,通过随机森林),而是连续训练模型,以便每个新模型都拟合先前模型的残差。因此,该模型由许多顺序连接的弱分类器实现了强分类器。可以在训练数据中使用重复交叉验证来估计HRD分类模型的性能。
在已经在训练数据集上训练分类模型702之后,分类模型702可以用于将受试者中的癌症肿瘤分类为HRD阳性或HRD阴性。为了将受试者中的癌症肿瘤分类为HRD阳性或HRD阴性,分类模型702接收包括与待分类的肿瘤相关联的测试特征数据的测试数据708。测试数据708包括一个或多个拷贝数特征并且可以包括一个或多个基本特征、一个或多个短变体特征等。分类模型702可以确定肿瘤是HRD阳性710的概率和/或肿瘤是HRD阴性712的概率。概率710和712任选地输入到HRD判定模块714中。HRD判定模块714可以将癌症判定为HRD阳性或HRD阴性。例如,如果肿瘤测试样品是HRD阳性的概率710大于肿瘤测试样品是HRD阴性的概率712,则肿瘤测试样品可以被判定为HRD阳性。如果肿瘤测试样品是HRD阴性的概率712大于肿瘤测试样品是HRD阳性的概率710,则肿瘤测试样品可以被判定为HRD阴性。任选地,如果概率710和712都不高于预定阈值,则肿瘤测试样品可以被判定为不明确。
本文所述的方法可以使用一个或多个计算机系统实现。此类计算机系统可以包括一个或多个程序,该程序被配置为执行一个或多个处理器以供计算机系统执行此类方法。可以自动执行计算机实现的方法的一个或多个步骤。计算机系统可以包括一个或多个计算节点。例如,系统可以包括两个或更多个计算节点(例如,服务器、计算机、路由器或包括网络接口的其他类型的电子装置),该计算节点可以被连接并被配置为通过所述网络在网络的一个或多个计算节点上通讯和执行方法。
图8示出了根据一个实施例的计算装置的示例。设备1100可以是连接到网络的主机计算机。设备1100可以是客户端计算机或服务器。如图8所示,设备1100可以是任何合适类型的基于微处理器的设备,诸如个人计算机、工作站、服务器或手持计算设备(便携式电子设备),诸如电话或平板电脑。设备可以包括例如一个或多个处理器1110、输入设备1120、输出设备1130、存储器1140和通信设备1160。输入设备1120和输出设备1130可通常对应于上述那些设备,并且可以与计算机连接或集成。
输入设备1120可以是提供输入的任何合适的设备,诸如触摸屏、键盘或小键盘、鼠标或语音识别设备。输出设备1130可以是提供输出的任何合适的设备,诸如显示器、触摸屏、触觉设备或扬声器。
存储器1140可为提供存储的任何合适的装置,诸如电存储器、磁存储器或光学存储器,包括RAM、高速缓存、硬盘驱动器或可移动存储盘。通信设备1160可以包括能够通过网络发送和接收信号的任何合适的设备,诸如网络接口芯片或设备。计算机的组件可以以任何合适的方式连接,诸如经由物理总线或无线方式。
可以存储在存储器1140中并由处理器1110执行的HRD分类模块1150可以包括例如一个或多个程序指令,用于执行和实现与HRD模型相关联的方法和过程(例如,如在如上所述的装置中体现的)。
HRD分类模块1150也可以在任何非暂时性计算机可读存储介质中存储和/或传输,以供指令执行系统、设备或装置(诸如上述那些)使用或与其结合使用,该模块可以从指令执行系统、设备或装置获取与软件相关联的指令并执行该指令。在本公开的上下文中,计算机可读存储介质可以是任何介质,诸如存储器1140,其可以包括或存储供指令执行系统、设备或装置使用或与其结合使用的程序。
HRD分类模块1150也可以在任何传输介质中传播,以供指令执行系统、设备或装置(诸如上述那些)使用或与其结合使用,该模块可以从指令执行系统、设备或装置获取与软件相关联的指令并执行该指令。在本公开的上下文中,传输介质可以是可以传送、传播或传输程序以供指令执行系统、设备或装置使用或与其结合使用的任何介质。传输可读介质可以包括但不限于电子、磁、光学、电磁或红外有线或无线传播介质。
设备1100可以连接到网络,该网络可以是任何合适类型的互连通信系统。网络可以实现任何合适的通信协议并且可以由任何合适的安全协议保护。网络可以包括可以实现网络信号的传输和接收的任何合适布置的网络链路,诸如无线网络连接、T1或T3线路、有线网络、DSL或电话线。
设备1100可以实现适合在网络上运行的任何操作系统。软件350可以用任何合适的编程语言编写,诸如C、C++、Java或Python。例如,在各种实施例中,体现本公开的功能的应用软件可以以不同的配置(诸如以客户端/服务器布置或通过网络浏览器)来部署作为基于网络的应用或网络服务。
治疗方法
将肿瘤表征为HRD阳性或HRD阴性(或可能的HRD阳性或可能的HRD阴性)对于为患有肿瘤的受试者选择有效治疗特别有用。分类为HRD阳性的肿瘤通常对HRD阴性肿瘤可能具有抗性的某些药物和疗法更敏感。基于肿瘤为HRD阳性、可能的HRD阳性、HRD阴性或可能的HRD阴性的分类,可以选择不同的药物或疗法。因此,治疗受试者的癌症的方法可以包括根据本文描述的方法将癌症肿瘤评定为可能的HRD阳性或可能的HRD阴性(或将癌症肿瘤判定为HRD阳性或HRD阴性),并且然后基于肿瘤为可能的HRD阳性或可能的HRD阴性的分类(或基于肿瘤为HRD阳性或HRD阴性的判定),向受试者施用治疗有效量的药物。
治疗受试者的癌症的方法可以包括获得受试者中的癌症的肿瘤为可能的HRD阳性或可能的HRD阴性的分类。为了获得该分类,可以使用本文描述的HRD分类模型。可以将与癌症的肿瘤的基因组相关联的一个或多个拷贝数特征输入到HRD分类模型中,该HRD分类模型被配置为基于与受试者中肿瘤的基因组相关联的一个或多个拷贝数特征将肿瘤分类为可能的HRD阳性或可能的HRD阴性。使用来自多个HRD阳性肿瘤的HRD阳性数据和来自多个HRD阴性肿瘤的HRD阴性数据来训练HRD分类模型。例如,可以通过操作HRD分类模型或者通过接收来自操作HRD分类模型的另一个模型的结果来获得分类。
一个或多个基本特征和/或一个或多个短变体特征可以被输入到HRD分类模型,该HRD分类模型被配置为根据一个或多个基本特征和/或一个或多个短变体特征将肿瘤分类为可能的HRD阳性或可能的HRD阴性。一个或多个短变体特征和一个或多个基本特征可以是对一个或多个拷贝数特征的补充,或者作为一个或多个拷贝数特征的替代。
在一些实施例中,治疗方法可以包括获得测试样品数据,包括一个或多个拷贝数特征。在一些实施例中,治疗方法可以包括获得一个或多个基本特征。在一些实施例中,治疗方法可以包括获得杂合性全基因组丢失的量度。在一些实施例中,治疗方法可以包括获得一个或多个短变体特征。测试样品可以从受试者获得,并且核酸分子可以是从测试样品得出的。测试样品可以是例如癌症的实体组织活检,并且核酸可以从实体组织样品中分离。任选地,可以在分离核酸分子之前通过例如冷冻测试样品或固定样品(例如,通过形成福尔马林固定、石蜡包埋(FFPE)的样品)来保存测试样品。可替代地,测试样品是液体活检样品(例如,来自受试者的血液、血浆或其他液体样品),并且可以从液体样品获得核酸,包括循环肿瘤DNA(ctDNA)。可以测定并且然后分析来自样品的核酸以生成一个或多个拷贝数特征、一个或多个基本特征或一个或多个短变体特征中的任一个。
获得肿瘤为可能的HRD阳性或可能的HRD阴性的分类可以包括将所描述的特征和/或量度输入到HRD分类模型并使用该特征和/或量度基于进入HRD分类模型的数据输入将癌症分类为可能的HRD阳性或可能的HRD阴性。可替代地,获得肿瘤为可能的HRD阳性或可能的HRD阴性的分类可以包括接收来自另一实体的报告。该报告可以由其他实体生成,并且该报告可以包括肿瘤为可能的HRD阳性或可能的HRD阴性的分类,其中该分类是使用本文描述的HRD分类模型生成的。在一些实施例中,该报告包括肿瘤为HRD阳性的可能性得分和/或肿瘤为HRD阴性的可能性得分,并且可以基于可能性得分进行最终分类。
一旦做出肿瘤为可能的HRD阳性或可能的HRD阴性的分类,就可以基于该分类选择治疗。如果肿瘤被分类为可能的HRD阳性,则选择对HRD阳性肿瘤有效的治疗。然后可以向受试者施用所选择的治疗以治疗被分类为可能的HRD阳性的肿瘤。如果肿瘤被分类为可能的HRD阴性,则可以选择不是铂类药物或PARP抑制剂的治疗。然后可以向受试者施用所选择的治疗以治疗被分类为可能的HRD阴性的肿瘤。
对HRD阳性肿瘤有效的治疗可以包括一种或多种PARP抑制剂和/或一种或多种铂类药剂。PARP抑制剂可以包括但不限于维利帕尼、奥拉帕尼、他拉唑帕尼、依尼帕利布、卢卡帕利和尼拉帕尼。PARP抑制剂描述于Murphy和Muggia,PARP inhibitors:clinicaldevelopment,emerging differences,and the current therapeutic issues,CancerDrug Resist 2019;2:665-79。铂类药剂可以包括但不限于顺铂、奥沙利铂和卡铂。铂类药物描述于Rottenberg等人,The rediscovery of platinum-based cancer therapy,Nat.Rev.Cancer 2021Jan;21(1):37-50。
待治疗的肿瘤是受试者中的肿瘤。在一个实施例中,肿瘤是胰腺癌。在另一个实施例中,肿瘤是前列腺癌。在一些实施例中,肿瘤是卵巢癌、乳腺癌或前列腺癌。在一些实施例中,肿瘤是与HRD相关联的肿瘤,其可以包括但不限于肾上腺癌、胆癌、骨/软组织癌、乳腺癌、结肠癌/直肠癌、食道癌、眼癌、头颈癌、肾癌、肝癌、肺癌、淋巴癌、髓母细胞瘤、间皮瘤、骨髓癌、神经系统癌症、神经内分泌癌、卵巢癌、胰腺癌、前列腺癌、皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、泌尿道癌、子宫癌或外阴癌中的一种。参见Nguyen等人,Pan-cancerlandscape of homologous recombination deficiency,Nat.Commun.2020Nov 4;11(1):5584。
尽管已经参考附图充分描述了本公开,但是值得注意的是,各种变化和修改对于本领域技术人员来说将是显而易见的。此类变化和修改应被理解为包括在由权利要求定义的公开的范围内。
为了便于解释,前述描述参考具体实施例进行了描述。然而,上文的说明性讨论并不旨在穷举或将本发明限制为所公开的精确形式。鉴于上述教导,许多修改和变化是可能的。选择和描述实施例是为了最好地解释技术的原理及其实际应用。从而使本领域的其他技术人员能够最好地利用这些技术和具有适合于预期的特定用途的各种修改的各种实施例。

Claims (73)

1.一种方法,其包括:
提供从受试者的肿瘤获得的基因组;
任选地,将一个或多个衔接子连接到所述基因组上;
从所述基因组扩增核酸分子;
从经扩增的基因组捕获核酸分子,其中经捕获的核酸分子是通过与一种或多种诱饵分子杂交而被捕获的;
从经捕获的核酸分子得出输入特征的集合;
由一个或多个处理器将所述输入特征的集合输入到经训练的同源重组缺陷(HRD)模型以使用所述经训练的HRD模型将所述肿瘤识别为HRD阳性或HRD阴性,其中通过以下来训练所述模型:
确定与多个特征中的每个特征相关联的一种或多种特征重要性度量,
使用所述一种或多种特征重要性度量来识别所述多个特征中的特征的子集,以及
由所述一个或多个处理器基于经识别的特征的子集来训练所述HRD模型;以及
由所述一个或多个处理器使用所述经训练的HRD模型将所述肿瘤分类为HRD阳性或HRD阴性。
2.一种方法,其包括:
由一个或多个处理器接收多个特征;
由所述一个或多个处理器使用一种或多种特征重要性度量来识别所述多个特征中的特征的子集;以及
由所述一个或多个处理器基于所述多个特征的经识别的子集来训练同源重组缺陷(HRD)模型,
其中所述HRD模型被配置为接收与受试者中的肿瘤的基因组相关联的样品数据,并且使用所述样品数据将所述受试者中的所述肿瘤识别为HRD阳性或HRD阴性。
3.一种方法,其包括:
由一个或多个处理器接收与受试者中的肿瘤的基因组相关联的样品数据;
由所述一个或多个处理器将所述样品数据输入到经训练的同源重组缺陷(HRD)模型,其中通过以下来训练所述HRD模型:
确定与多个特征中的每个特征相关联的一种或多种特征重要性度量,
使用所述一种或多种特征重要性度量来识别所述多个特征中的特征的子集,以及
由所述一个或多个处理器基于经识别的特征的子集来训练所述HRD模型;以及
由所述一个或多个处理器使用所述经训练的HRD模型将所述肿瘤分类为HRD阳性或HRD阴性。
4.根据权利要求1至3中任一项所述的方法,其中所述多个特征包括一个或多个拷贝数特征、一个或多个短变体特征或其组合。
5.根据权利要求1至4中任一项所述的方法,其中所述一种或多种特征重要性度量包括卡方检验、方差分析(ANOVA)、随机森林或梯度提升中的一者或多者。
6.根据权利要求1至5中任一项所述的方法,其中识别所述多个特征中的所述特征的子集包括:
由所述一个或多个处理器根据所述一种或多种特征重要性度量来获得一个或多个特征排位;以及
由所述一个或多个处理器基于一个或多个特征排位来选择所述多个特征的所述子集。
7.根据权利要求1至5中任一项所述的方法,其中识别所述多个特征的所述子集包括:
(a)由一个或多个处理器根据特征重要性度量来获得所述多个特征的特征排位;
(b)由所述一个或多个处理器基于所述特征排位通过将来自所述多个特征的一个或多个特征添加到现有特征集来获得新特征集;
(c)由所述一个或多个处理器使用所述新特征集来训练新HRD模型;
(d)由所述一个或多个处理器评估经训练的新HRD模型以获得评估结果;以及
(e)由所述一个或多个处理器存储与所述新HRD模型和所述新特征集相关联的所述评估结果;
(f)由所述一个或多个处理器重复步骤(b)-(e)以获得多个评估结果,直到满足条件为止;以及
(g)由所述一个或多个处理器基于所述多个评估结果来选择所述多个特征的所述子集。
8.根据权利要求1至7中任一项所述的方法,其中所述经训练的HRD模型为分类模型,所述方法进一步包括:
接收与新受试者中的肿瘤的基因组相关联的新样品数据,其中所述新样品数据与所述多个特征的所述子集相关;
将所述新样品数据提供给经训练的HRD分类模型以产生HRD阳性或HRD阴性的分类结果;以及
输出所述分类结果。
9.根据权利要求8所述的方法,其中所述分类结果包括HRD阳性可能性得分和HRD阴性可能性得分中的至少一者。
10.根据权利要求1至9中任一项所述的方法,其中所述HRD模型为分类模型、回归模型、神经网络或其任意组合。
11.根据权利要求9或权利要求10所述的方法,其包括在与所述新受试者相关联的数字电子文件中记录所述HRD阳性可能性得分和所述HRD阴性可能性得分中的至少一者。
12.根据权利要求9至11中任一项所述的方法,其包括在与所述新受试者相关联的数字电子文件中记录基于所述HRD阳性可能性得分所述肿瘤为HRD阳性或基于所述HRD阴性可能性得分所述肿瘤为HRD阴性的指定。
13.根据权利要求1至12中任一项所述的方法,其中所述多个特征包括区段次等位基因频率(segMAF)特征、测序读段数量特征、区段大小特征、每x兆碱基的断点计数特征、变化点拷贝数特征、区段拷贝数特征、每个染色体臂的断点计数特征或具有振荡拷贝数的区段数量特征中的至少一者。
14.根据权利要求1至13中任一项所述的方法,其中跨越所述基因组的着丝粒部分来评定所述多个特征中的至少一者。
15.根据权利要求1至14中任一项所述的方法,其中跨越所述基因组的端粒部分来评定所述多个特征中的至少一者。
16.根据权利要求1至15中任一项所述的方法,其中跨越所述基因组的着丝粒部分和端粒部分二者来评定所述多个特征中的至少一者。
17.根据权利要求1至16中任一项所述的方法,其中所述多个特征包括每x兆碱基的断点计数特征,其中所述每x兆碱基的断点计数特征基于出现在跨越所述基因组的x兆碱基长度的窗口中的断点的数量。
18.根据权利要求17所述的方法,其中跨越以下来评定每x兆碱基的断点计数特征:(i)所述基因组的端粒部分;(ii)所述基因组的着丝粒部分;或(iii)所述基因组的端粒部分和着丝粒部分二者。
19.根据权利要求17或权利要求18所述的方法,其中x在约1与约100兆碱基之间。
20.根据权利要求17至19中任一项所述的方法,其中x为约10兆碱基、约25兆碱基、约50兆碱基或约100兆碱基。
21.根据权利要求17至20中任一项所述的方法,其中所述每x兆碱基的断点计数特征为分箱特征。
22.根据权利要求1至21中任一项所述的方法,其中所述多个特征包括变化点拷贝数特征,其中变化点拷贝数基于跨越所述受试者的所述肿瘤的所述基因组的相邻基因组区段之间的拷贝数绝对差异。
23.根据权利要求22所述的方法,其中所述变化点拷贝数特征是从倍性归一化拷贝数数据得出的。
24.根据权利要求22或权利要求23所述的方法,其中跨越以下来评定变化点拷贝数特征:(i)所述基因组的端粒部分;(ii)所述基因组的着丝粒部分;或(iii)所述基因组的端粒部分和着丝粒部分二者。
25.根据权利要求22至24中任一项所述的方法,其中所述变化点拷贝数特征为分箱特征。
26.根据权利要求1至25中任一项所述的方法,其中所述多个特征包括区段拷贝数特征,其中区段拷贝数基于每个基因组区段的拷贝数。
27.根据权利要求26所述的方法,其中跨越以下来评定所述区段拷贝数特征:(i)所述基因组的端粒部分;(ii)所述基因组的着丝粒部分;或(iii)所述基因组的端粒部分和着丝粒部分二者。
28.根据权利要求26或权利要求27所述的方法,其中所述区段拷贝数特征是从倍性归一化拷贝数数据得出的。
29.根据权利要求26至28中任一项所述的方法,其中所述区段拷贝数特征为分箱特征。
30.根据权利要求1至29中任一项所述的方法,其中所述多个特征包括所述受试者的所述肿瘤的所述基因组中的每个染色体臂的断点计数特征。
31.根据权利要求30所述的方法,其中跨越以下来评定所述每个染色体臂的断点计数特征:(i)所述基因组的端粒部分;(ii)所述基因组的着丝粒部分;或(iii)所述基因组的端粒部分和着丝粒部分二者。
32.根据权利要求30或权利要求31所述的方法,其中所述每个染色体臂的断点计数特征为分箱特征。
33.根据权利要求1至32中任一项所述的方法,其中所述多个特征包括具有振荡拷贝数的区段数量特征。
34.根据权利要求33所述的方法,其中所述具有振荡拷贝数的区段数量特征基于跨越所述受试者的所述肿瘤的所述基因组的两个拷贝数之间的重复交替区段的数量。
35.根据权利要求33或权利要求34所述的方法,其中跨越以下来评定具有振荡拷贝数的区段数量特征:(i)所述基因组的端粒部分;(ii)所述基因组的着丝粒部分;或(iii)所述基因组的端粒部分和着丝粒部分二者。
36.根据权利要求33至35中任一项所述的方法,其中所述具有振荡拷贝数的区段数量特征为分箱特征。
37.根据权利要求1至36中任一项所述的方法,其中所述一个或多个拷贝数特征包括区段次等位基因频率(segMAF)特征,其中处于segMAF基于杂合单核苷酸多态性的次等位基因频率。
38.根据权利要求37所述的方法,其中跨越以下来评定segMAF:(i)所述基因组的端粒部分;(ii)所述基因组的着丝粒部分;或(iii)所述基因组的端粒部分和着丝粒部分二者。
39.根据权利要求37或权利要求38所述的方法,其中区段次等位基因频率特征为分箱特征。
40.根据权利要求1至39中任一项所述的方法,其中所述一个或多个拷贝数特征包括测序读段数量特征。
41.根据权利要求40所述的方法,其中所述测序读段数量特征为分箱特征。
42.根据权利要求1至41中任一项所述的方法,其中所述多个特征进一步包括所述受试者的所述肿瘤的所述基因组的杂合性的全基因组丢失的量度。
43.根据权利要求1至42中任一项所述的方法,其中所述多个特征包括一个或多个短变体特征。
44.根据权利要求43所述的方法,其中所述一个或多个短变体特征包括微同源性或重复区特征中的缺失和源自两个或更多个短变体特征的突变签名中的至少一者。
45.根据权利要求44所述的方法,其中所述微同源性或重复区特征的缺失为至少5个碱基对的缺失。
46.根据权利要求1至45中任一项所述的方法,其中训练所述HRD模型包括:
由所述一个或多个处理器接收HRD阳性训练数据集,其中所述HRD阳性训练数据集包括与HRD阳性肿瘤相关联的多个特征和HRD阳性标签;
由所述一个或多个处理器接收HRD阴性训练数据集,其中所述HRD阴性训练数据集包括与HRD阴性肿瘤相关联的多个特征和HRD阴性标签;
由所述一个或多个处理器使用所述HRD阳性训练数据集和所述HRD阴性训练数据集来训练所述HRD模型。
47.根据权利要求1至46中任一项所述的方法,其进一步包括由所述一个或多个处理器使用包括源自基因组序列的HRD阳性对照的HRD阳性测试数据集来测试经训练的模型,所述基因组序列包含BRCA1、BRCA2、BRCA1和BRCA2二者中的功能丧失突变,或者BRCA1和BRCA2的双等位基因突变。
48.根据权利要求1至47中任一项所述的方法,其进一步包括由所述一个或多个处理器使用包括源自基因组序列的HRD阳性对照的HRD阳性测试数据集来测试所述经训练的模型,所述基因组序列包含ATM、BARD1、BRIP1、CDK12、CHEK1、CHEK2、FANCL、PALB2、RAD51B、RAD51C、RAD51D或RAD45L中的至少一者中的功能丧失突变。
49.根据权利要求1至48中任一项所述的方法,其进一步包括由所述一个或多个处理器使用包括HRD阴性训练数据集的HRD阴性测试数据集来测试所述经训练的模型,所述HRD阴性训练数据集包括来源于共有人类基因组序列的HRD阴性对照。
50.根据权利要求46至49中任一项所述的方法,其中训练包括使用HRD阳性训练数据集和HRD阴性训练数据集。
51.根据权利要求50所述的方法,其包括在训练所述HRD模型之前由所述一个或多个处理器平衡所述HRD阳性训练数据集和所述HRD阴性训练数据集。
52.根据权利要求1至51中任一项所述的方法,其中所述受试者中的所述肿瘤为前列腺癌、卵巢癌、乳腺癌、非小细胞肺癌(NSCLC)、结直肠癌(CRC)或胰腺癌。
53.根据权利要求1至52中任一项所述的方法,其中训练所述HRD模型包括使所述HRD模型与样品数据拟合,所述样品数据与卵巢癌、非小细胞肺癌(NSCLC)、结直肠癌(CRC)、乳腺癌、胰腺癌或前列腺癌相关联,其中所述样品数据包括所述多个特征的所述子集。
54.根据权利要求1至53中任一项所述的方法,其中所述肿瘤获自为实体组织活检样品的样品。
55.根据权利要求54所述的方法,其中所述实体组织活检样品为福尔马林固定石蜡包埋(FFPE)样品。
56.根据权利要求1至53中任一项所述的方法,其中所述肿瘤获自为包含循环肿瘤DNA(ctDNA)的液体活检样品的样品。
57.根据权利要求1至53中任一项所述的方法,其中所述肿瘤获自为包含无细胞DNA(cfDNA)的液体活检样品的样品。
58.根据权利要求1至57中任一项所述的方法,其进一步包括:将所述肿瘤为HRD阳性或HRD阴性的所述输出确定、识别或应用为与患者相关联的诊断值。
59.根据权利要求1至58中任一项所述的方法,其进一步包括基于所述肿瘤为HRD阳性或HRD阴性的所述输出生成针对所述受试者的基因组谱。
60.根据权利要求59所述的方法,其进一步包括基于经生成的基因组谱向所述受试者施用抗癌剂或应用抗癌治疗。
61.根据权利要求1至60中任一项所述的方法,其中所述肿瘤为HRD阳性或HRD阴性的所述输出用于生成针对所述受试者的基因组谱。
62.根据权利要求1至61中任一项所述的方法,其中所述肿瘤为HRD阳性或HRD阴性的所述输出用于做出针对所述受试者的建议的治疗决策。
63.根据权利要求1至62中任一项所述的方法,其中所述肿瘤为HRD阳性或HRD阴性的所述输出用于向所述受试者应用或施用治疗。
64.根据权利要求1至63中任一项所述的方法,其中所述HRD模型为机器学习模型。
65.根据权利要求1至64中任一项所述的方法,其中所述受试者患有癌症、处于患有癌症的风险中或怀疑患有癌症。
66.一种治疗受试者的癌症的方法,其包括:
(a)根据权利要求1至65中任一项所述的方法将所述肿瘤识别为HRD阳性或HRD阴性;
(b)如果所述癌症的所述肿瘤被评定为HRD阳性,则向所述受试者施用治疗有效量的对HRD阳性肿瘤有效的药物。
67.根据权利要求66所述的方法,其中所述对HRD阳性肿瘤有效的药物为铂类药物或PARP抑制剂。
68.根据权利要求66所述的方法,其包括如果所述肿瘤被评定为HRD阴性,则向所述受试者施用治疗有效量的不为铂类药物或PARP抑制剂的药物。
69.一种用于针对受试者的癌症选择疗法的方法,所述方法包括:
(a)根据权利要求1至65中任一项所述的方法将所述癌症的肿瘤评定为HRD阳性或HRD阴性;
(b)如果所述癌症被评定为HRD阳性,则选择对HRD阳性肿瘤有效的疗法。
70.根据权利要求69所述的方法,其包括如果所述肿瘤被评定为HRD阴性,则选择不为铂类药物或PARP抑制剂的疗法。
71.根据权利要求70所述的方法,其中所述对HRD阳性肿瘤有效的药物为铂类药物或PARP抑制剂。
72.一种计算机系统,其包括:
一个或多个处理器;
存储器;和
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于进行根据权利要求1至65中任一项所述的方法的指令。
73.一种非暂时性计算机可读存储介质,其存储一个或多个程序,所述一个或多个程序包括指令,所述指令当由电子装置的一个或多个处理器执行时,使所述电子装置进行根据权利要求1至65中任一项所述的方法。
CN202280043825.4A 2021-06-25 2022-06-24 对同源修复缺陷进行分类的系统和方法 Pending CN117561572A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163215281P 2021-06-25 2021-06-25
US63/215,281 2021-06-25
PCT/US2022/073167 WO2022272310A1 (en) 2021-06-25 2022-06-24 System and method of classifying homologous repair deficiency

Publications (1)

Publication Number Publication Date
CN117561572A true CN117561572A (zh) 2024-02-13

Family

ID=84545873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280043825.4A Pending CN117561572A (zh) 2021-06-25 2022-06-24 对同源修复缺陷进行分类的系统和方法

Country Status (6)

Country Link
US (1) US20230140123A1 (zh)
EP (1) EP4360094A1 (zh)
CN (1) CN117561572A (zh)
AU (1) AU2022299105A1 (zh)
TW (1) TW202317774A (zh)
WO (1) WO2022272310A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024050366A1 (en) * 2022-08-30 2024-03-07 Foundation Medicine, Inc. Systems and methods for classifying and treating homologous repair deficiency cancers
WO2024077041A2 (en) * 2022-10-05 2024-04-11 Foundation Medicine, Inc. Methods and systems for identifying copy number signatures
CN116312781B (zh) * 2023-05-17 2023-08-18 普瑞基准科技(北京)有限公司 一种基于机器学习的基因组不稳定性评估方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2908745C (en) * 2013-04-05 2023-03-14 Myriad Genetics, Inc. Methods and materials for assessing homologous recombination deficiency
US11348661B2 (en) * 2018-05-14 2022-05-31 Tempus Labs, Inc. Predicting total nucleic acid yield and dissection boundaries for histology slides
JP7368483B2 (ja) * 2019-02-12 2023-10-24 テンパス ラブズ,インコーポレイテッド 相同組換え欠損を推定するための統合された機械学習フレームワーク
EP4073805B1 (en) * 2019-12-10 2024-07-17 Tempus AI, Inc. Systems and methods for predicting homologous recombination deficiency status of a specimen

Also Published As

Publication number Publication date
WO2022272310A1 (en) 2022-12-29
EP4360094A1 (en) 2024-05-01
TW202317774A (zh) 2023-05-01
US20230140123A1 (en) 2023-05-04
AU2022299105A1 (en) 2024-01-04

Similar Documents

Publication Publication Date Title
EP3481966B1 (en) Methods for fragmentome profiling of cell-free nucleic acids
US20210017609A1 (en) Methylation markers and targeted methylation probe panel
JP2024019413A (ja) ゲノムワイド統合による循環腫瘍dnaの超音波感受性検出
CN117561572A (zh) 对同源修复缺陷进行分类的系统和方法
Garman et al. A genomic approach to colon cancer risk stratification yields biologic insights into therapeutic opportunities
Juul et al. Non-coding cancer driver candidates identified with a sample-and position-specific model of the somatic mutation rate
Siah et al. Machine-learning and stochastic tumor growth models for predicting outcomes in patients with advanced non–Small-Cell lung cancer
US20190287645A1 (en) Methods for fragmentome profiling of cell-free nucleic acids
US20190352695A1 (en) Methods for fragmentome profiling of cell-free nucleic acids
Yang et al. Prognostic value of the combination of microsatellite instability and BRAF mutation in colorectal cancer
US20230162004A1 (en) Deep neural networks for estimating polygenic risk scores
US20160203287A1 (en) Methods for predicting prognosis
Dinalankara et al. Gene expression signatures based on variability can robustly predict tumor progression and prognosis
Gu et al. FI-net: identification of cancer driver genes by using functional impact prediction neural network
Peng et al. Deep learning to estimate durable clinical benefit and prognosis from patients with non-small cell lung cancer treated with PD-1/PD-L1 blockade
Dawany et al. Asymmetric microarray data produces gene lists highly predictive of research literature on multiple cancer types
Owens et al. Differentiated thyroid cancer: how do current practice guidelines affect management?
US20230242992A1 (en) Methods of predicting cancer progression
US20220301654A1 (en) Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
Zhang et al. Advancing cancer drug development through precision medicine and innovative designs
Liu et al. Predicting chemo-radiotherapy sensitivity with concordant survival benefit in non-small cell lung cancer via computed tomography derived radiomic features
Berlow Probabilistic Boolean modeling of pre‐clinical tumor models for biomarker identification in cancer drug development
Cassese et al. A Bayesian integrative model for genetical genomics with spatially informed variable selection
Tang et al. DNA methylation data-based classification and identification of prognostic signature of children with Wilms tumor
Ren et al. Clonal architectures predict clinical outcome in gastric adenocarcinoma based on genomic variation, tumor evolution, and heterogeneity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination