CN115667554A - 通过核酸甲基化分析检测结直肠癌的方法和系统 - Google Patents

通过核酸甲基化分析检测结直肠癌的方法和系统 Download PDF

Info

Publication number
CN115667554A
CN115667554A CN202180039398.8A CN202180039398A CN115667554A CN 115667554 A CN115667554 A CN 115667554A CN 202180039398 A CN202180039398 A CN 202180039398A CN 115667554 A CN115667554 A CN 115667554A
Authority
CN
China
Prior art keywords
methylation
methylated
genomic regions
tables
colorectal cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180039398.8A
Other languages
English (en)
Inventor
约翰·圣约翰
史蒂文·科腾-希尔
杨睿
A·德拉克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Frinum Holdings
Original Assignee
Frinum Holdings
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Frinum Holdings filed Critical Frinum Holdings
Publication of CN115667554A publication Critical patent/CN115667554A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Abstract

本公开提供了用于筛查或检测结直肠癌或后续结直肠疾病进展的方法和系统,其可应用于无细胞核酸,诸如无细胞DNA。所述方法可以使用对在已鉴定的基因组区域中的单次测序读取内的甲基化信号的检测作为输入特征来训练机器学习模型,并生成适用于对个体群体进行分层的分类器。所述方法可以包括从对象获得的无细胞样品提取DNA,转化所述DNA以供甲基化测序,生成测序读取,以及在测序信息中检测结肠增殖性细胞病症相关信号,以及训练机器学习模型以提供鉴别器,所述鉴别器能够区分对象群体中诸如健康、癌症等分组,或区分疾病亚型或阶段。所述方法可用于例如预测、预后和/或监测对治疗的应答、肿瘤负荷、复发或结直肠癌的进展。

Description

通过核酸甲基化分析检测结直肠癌的方法和系统
相关申请的交叉引用
本申请要求2020年3月31日提交的美国临时专利申请号63/002,878的权益,其内容特此通过引用以其整体并入。
背景技术
本公开总体上涉及癌症检测和疾病监测。更具体地说,该领域涉及癌症相关的DNA甲基化检测和早期结直肠癌(CRC)的疾病监测。在过去几十年里,癌症筛查和监测可有助于改善结果,因为早期检测导向更好的结果,故癌症可在扩散之前就被消除。例如,在CRC的情况下,使用结肠镜检查可在改善早期诊断方面发挥作用。不幸的是,由于患者对筛查的依从性没有达到推荐的规律,可能会出现一些挑战。
任何筛查工具的主要问题可为假阳性与假阴性结果(或特异性和敏感性)之间的折中,在前一种情况下导致了不必要的调查,而在后一种情况下导致无效。理想的测试可以是具有高阳性预测值(PPV)的,最大限度地减少不必要的调查,但能检测到绝大多数癌症。另一个关键因素可以是所谓的“检测敏感性”并且也是肿瘤大小的检测下限,将其与测试灵敏度区分开。遗憾的是,等待肿瘤生长到足够大以释放出检测所必需水平的循环肿瘤标志物时,可能已与早期检测的要求相矛盾,早期检测是为了在治疗最有效的阶段对肿瘤进行治疗。因此,需要基于循环分析物对早期CRC进行有效的基于血液的筛查。
循环肿瘤DNA的检测越来越被认为是一种可行的“液体活检”,允许以非侵入性的方式对肿瘤进行检测和信息调查。在一些情况下,通过对肿瘤特异性突变的鉴定,这些技术已经应用于结肠癌、乳腺癌和前列腺癌。由于循环中存在高背景的正常(例如非肿瘤来源的)DNA,所以这些技术的敏感性可能受到限制。
对血液中肿瘤特异性甲基化的检测可提供比突变检测明显的优势。在包括肺癌、结肠癌和乳腺癌的癌症中,可以评估许多单一或多甲基化生物标志物。这些可能会有低敏感性,因为它们在肿瘤中可能不够普遍。
仍需要更敏感且更具特异性的筛查工具来检测复发中的早期或低肿瘤负荷的结直肠癌肿瘤信号,并在高危群体中进行初步筛查。
发明内容
本公开提供了涉及与结直肠癌检测和疾病进展相关的基因甲基化谱分析的方法和系统。
一方面,本公开提供了一种为结肠细胞增殖性病症所特有的甲基化签名面板(methylation signature panel),其包含:选自表11的一个或多个甲基化基因组区域,其中所述一个或多个区域在来自患有结肠细胞增殖性病症或结肠细胞增殖性病症亚型的个体的生物样品中的甲基化程度更高,而在未患结肠细胞增殖性病症的个体的正常组织和正常血细胞中的甲基化程度则较低。
在一些实施方案中,生物样品是核酸、DNA、核糖核酸(RNA)或无细胞核酸(例如cfDNA或cfRNA)。
在一些实施方案中,基因组区域分为非编码区、编码区或非转录区或调控区。
在一些实施方案中,签名面板在选自表11的两个或更多个基因组区域中包含增加的甲基化。
在一些实施方案中,获自对象的生物样品选自:无细胞DNA、无细胞RNA、体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞及其组合。
在一些实施方案中,结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌(colorectal cancer)、结肠癌、直肠癌、结直肠上皮癌(colorectal carcinoma)、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。在一些实施方案中,结肠细胞增殖性病症包括结直肠癌。
在一些实施方案中,结肠细胞增殖性病症选自1期结直肠癌、2期结直肠癌、3期结直肠癌或4期结直肠癌。
在一些实施方案中,签名面板包含表1-11中的两个或更多个甲基化基因组区域、表1-11中的三个或更多个甲基化基因组区域、表1-11中的四个或更多个甲基化基因组区域、表1-11中的五个或更多个甲基化基因组区域、表1-11中的六个或更多个甲基化基因组区域、表1-11中的七个或更多个甲基化基因组区域、表1-11中的八个或更多个甲基化基因组区域、表1-11中的九个或更多个甲基化基因组区域、表1-11中的十个或更多个甲基化基因组区域、表1-11中的十一个或更多个甲基化基因组区域、表1-11中的十二个或更多个甲基化基因组区域、或表1-11中的十三个或更多个甲基化基因组区域。
在一些实施方案中,签名面板包含在结直肠癌中被甲基化的基因组区域,包括在选自以下的一个或多个基因组区域中的甲基化区域:ITGA4、EMBP1、TMEM163、SFMBT2、ELMO和ZNF543。
在一些实施方案中,结直肠癌中被甲基化的区域包括ITGA4和EMBP1基因组区域中的甲基化区域。
在一些实施方案中,结直肠癌中被甲基化的区域包括在选自以下的一个或多个基因组区域中的甲基化区域:ITGA4、EMBP1、TMEM163、SFMBT2、ELMO、ZNF543、CHST10、CCNA1、BEND4、KRBA1、S1PR1和PPP1R16B。
在一些实施方案中,签名面板包含选自表1、表2、表3、表4、表5、表6、表7、表8、表9、表10和表11的甲基化基因组区域。
在另一方面,本公开提供了一种为结肠细胞增殖性病症所特有的甲基化签名面板,其包含:表1-11中的两个或更多个甲基化基因组区域,其中所述两个或更多个区域在来自患有结肠细胞增殖性病症或结肠细胞增殖性病症亚型的个体的生物样品中的甲基化程度更高,而在未患结肠细胞增殖性病症的个体的正常组织和正常血细胞中的甲基化程度则较低。
在一些实施方案中,生物样品是核酸、DNA、核糖核酸(RNA)或无细胞核酸(cfDNA或cfRNA)。
在一些实施方案中,基因组区域分为非编码区、编码区或非转录区或调控区。
在一些实施方案中,签名面板包含表1-11中6个或更多个或12个或更多个基因组区域中的甲基化增加。
在一些实施方案中,获自对象的生物样品选自:无细胞DNA、无细胞RNA、体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞及其组合。
在一些实施方案中,结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。在一些实施方案中,结肠细胞增殖性病症包括结直肠癌。
在一些实施方案中,结肠细胞增殖性病症选自1期结直肠癌、2期结直肠癌、3期结直肠癌或4期结直肠癌。
在一些实施方案中,签名面板包含表1-11中的三个或更多个甲基化基因组区域、表1-11中的四个或更多个甲基化基因组区域、表1-11中的五个或更多个甲基化基因组区域、表1-11中的六个或更多个甲基化基因组区域、表1-11中的七个或更多个甲基化基因组区域、表1-11中的八个或更多个甲基化基因组区域、表1-11中的九个或更多个甲基化基因组区域、表1-11中的十个或更多个甲基化基因组区域、表1-11中的十一个或更多个甲基化基因组区域、表1-11中的十二个或更多个甲基化基因组区域、或表1-11中的十三个或更多个甲基化基因组区域。
在一些实施方案中,签名面板包含在结直肠癌中被甲基化的基因组区域,包括在选自以下的一个或多个基因组区域中的甲基化区域:ITGA4、EMBP1、TMEM163、SFMBT2、ELMO和ZNF543。
在一些实施方案中,结直肠癌中被甲基化的区域包括ITGA4和EMBP1基因组区域中的甲基化区域。
在一些实施方案中,结直肠癌中被甲基化的区域包括在选自以下的一个或多个基因组区域中的甲基化区域:ITGA4、EMBP1、TMEM163、SFMBT2、ELMO、ZNF543、CHST10、CCNA1、BEND4、KRBA1、S1PR1和PPP1R16B。
在一些实施方案中,签名面板包含选自表1、表2、表3、表4、表5、表6、表7、表8、表9、表10和表11的甲基化区域。
在另一方面,本公开提供了一种能够区分健康个体群体与患有结肠细胞增殖性病症的个体群体的分类器(例如,机器学习分类器),其包括:a)代表差异甲基化基因组区域的测量值集,其中所述测量值获自来自健康对象和患有结肠细胞增殖性病症的对象的甲基化测序数据;b)其中所述测量值用于生成与所述差异甲基化基因组区域的特性相对应的特征集,并将所述特征输入到机器学习或统计模型;以及c)其中所述模型提供用作分类器的特征向量,所述分类器能够区分健康个体群体与患有结肠细胞增殖性病症的个体。
在一些实施方案中,所述测量值集描述了选自以下的甲基化区域的特点:CpG、CHG、CHH的逐个碱基甲基化百分比,在区域中观察到的具有不同计数或比率的甲基化CpG的片段的计数或比率,转化效率(CHH的100-平均甲基化百分比),低甲基化段,甲基化水平(CPG、CHH、CHG的整体平均甲基化,片段长度,片段中点,和在诸如chrM、LINE1或ALU的一个或多个基因组区域中的甲基化水平),每个片段的甲基化CpG的数量,每个片段的CpG甲基化占总CpG的分率,每个区域的CpG甲基化占总CpG的分率,面板中CpG甲基化占总CpG的分率,二核苷酸覆盖率(归一化的二核苷酸覆盖率),覆盖均匀度(在1x和10x平均基因组覆盖下的独特CpG位点(对于S4运行)),整体平均CpG覆盖率(深度),以及在CpG岛、CGI架和CGI岸处的平均覆盖率。
在一些实施方案中,机器学习模型包括被加载到计算机系统的存储器中的分类器、使用从训练生物样品获得的训练向量训练的机器学习模型、被鉴定为患有结肠细胞增殖性病症的所述训练生物样品的第一子集和被鉴定为未患有结肠细胞增殖性病症的所述训练生物样品的第二子集。
在一些实施方案中,所述分类器提供在用于检测结肠细胞增殖性病症的系统中,所述系统包括:a)包括分类器的计算机可读介质,所述分类器可操作以将对象根据甲基化签名面板划分为患有结肠细胞增殖性病症或未患有结肠细胞增殖性病症;和b)一个或多个处理器,用于执行存储在计算机可读介质上的指令。
在一些实施方案中,所述系统包括分类回路,其被配置为选自以下的机器学习分类器:深度学习分类器、神经网络分类器、线性判别分析(LDA)分类器、二次判别分析(QDA)分类器、支持向量机(SVM)分类器、随机森林(RF)分类器、线性核支持向量机分类器、一阶或二阶多项式核支持向量机分类器、岭回归分类器、弹性网算法分类器、序列最小优化算法分类器、朴素贝叶斯算法分类器和主成分分析分类器。
在一些实施方案中,计算机可读介质是包括机器可执行代码的非临时计算机可读介质,所述机器可执行代码在由一个或多个计算机处理器执行时,实现上述或本文其他地方的任何方法。
在一些实施方案中,所述系统包括一个或多个计算机处理器和与之耦合的计算机存储器。计算机存储器包括机器可执行代码,所述机器可执行代码在由一个或多个计算机处理器执行时,实现本文所述的任何方法。
在另一方面,本公开提供了一种用于确定来自个体的无细胞脱氧核糖核酸(cfDNA)样品的甲基化谱的方法,其包括:a)提供能够在cfDNA样品的核酸分子中将未甲基化的胞嘧啶转化为尿嘧啶以产生多个转化核酸的条件;b)使所述多个转化核酸与核酸探针接触,所述核酸探针与选自表1-11的至少两个差异甲基化区域的预鉴定甲基化签名面板互补,以富集与所述签名面板相对应的序列;c)测定所述多个转化核酸分子的核酸序列;以及d)将所述多个转化核酸分子的核酸序列与参考核酸序列比对,由此确定个体的甲基化谱。
在一些实施方案中,核酸测序文库在扩增之前制备。在一些实施方案中,所述方法还包括扩增多个转化核酸。在一些实施方案中,所述扩增包括聚合酶链式反应(PCR)。在一些实施方案中,所述方法还包括在大于1000x、大于2000x、大于3000x、大于4000x或大于5000x的深度下对转化的核酸分子的核酸序列进行测定。在一些实施方案中,参考核酸序列是人类参考基因组的至少一部分。在一些实施方案中,人类参考基因组是hg18。
在一些实施方案中,甲基化谱与结肠细胞增殖性病症相关,并提供对象关于患有结肠细胞增殖性病症的分类。
在一些实施方案中,包含独特分子标识符的核酸适配体在a)之前被连接到cfDNA样品中未转化的核酸上。
在一些实施方案中,利用化学方法、酶促方法或其组合使核酸分子处于胞嘧啶向尿嘧啶的转化条件下。
在一些实施方案中,将生物样品中的cfDNA用选自以下的试剂处理:亚硫酸氢盐(bisulfite)、亚硫酸氢盐(hydrogen sulfite)、二硫化物及其组合。
在一些实施方案中,获自对象的生物样品选自:无细胞DNA、无细胞RNA、体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞及其组合。
在一些实施方案中,所述方法包括将从对象测量到的甲基化签名面板与从正常对象测量到的甲基化签名面板的数据库进行对比,其中所述数据库存储在计算机系统中;通过测量出与来自正常对象的甲基化状态相比在甲基签名面板的甲基化状态中有至少1%、至少2%、至少3%、至少4%、至少5%、至少6%、至少7%、至少8%、至少9%、至少10%、至少11%、至少12%、至少13%、至少14%、至少15%、至少16%、至少17%、至少18%、至少19%或至少20%的变化,来确定所述对象患结肠细胞增殖性病症的风险增加。
在一些实施方案中,预鉴定甲基化签名面板包含表1-11中的三个或更多个甲基化基因组区域、表1-11中的四个或更多个甲基化基因组区域、表1-11中的五个或更多个甲基化基因组区域、表1-11中的六个或更多个甲基化基因组区域、表1-11中的七个或更多个甲基化基因组区域、表1-11中的八个或更多个甲基化基因组区域、表1-11中的九个或更多个甲基化基因组区域、表1-11中的十个或更多个甲基化基因组区域、表1-11中的十一个或更多个甲基化基因组区域、表1-11中的十二个或更多个甲基化基因组区域、或表1-11中的十三个或更多个甲基化基因组区域。在一些实施方案中,预鉴定甲基化签名面板包含表11中的一个或多个甲基化基因组区域、表11中的两个或更多个甲基化基因组区域、或表11中的三个甲基化基因组区域。在一些实施方案中,甲基化谱指示个体中存在或不存在结肠细胞增殖性病症。
在一些实施方案中,结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。在一些实施方案中,结肠细胞增殖性病症包括结直肠癌。
在一些实施方案中,结肠细胞增殖性病症选自1期结直肠癌、2期结直肠癌、3期结直肠癌和4期结直肠癌。
在另一方面,本公开提供了一种用于检测对象中结肠细胞增殖性病症的存在或不存在的方法,包括:a)提供能够在获自或衍生自对象的生物样品的核酸分子中将未甲基化的胞嘧啶转化为尿嘧啶以产生多个转化核酸的条件;b)使所述多个转化核酸与核酸探针接触,所述核酸探针与选自表1-11的至少两个差异甲基化区域的预鉴定甲基化签名面板互补,以富集与所述签名面板相对应的序列;c)测定所述多个转化核酸分子的核酸序列;d)将所述多个转化核酸分子的核酸序列与参考核酸序列比对,由此确定个体的甲基化谱;以及e)将经训练的机器学习模型应用于所述甲基化谱,其中经训练的机器学习模型被训练为能够区分健康个体和患有结肠细胞增殖性病症的个体,以提供与存在结肠细胞增殖性病症相关的输出值,由此检测所述对象中结肠细胞增殖性病症的存在或不存在。
在一些实施方案中,核酸测序文库在扩增之前制备。在一些实施方案中,所述方法还包括扩增多个转化核酸。在一些实施方案中,所述扩增包括聚合酶链式反应(PCR)。在一些实施方案中,所述方法还包括在大于1000x、大于2000x、大于3000x、大于4000x或大于5000x的深度下对转化的核酸分子的核酸序列进行测定。在一些实施方案中,参考核酸序列是人类参考基因组的至少一部分。在一些实施方案中,人类参考基因组是hg18。
在一些实施方案中,获自对象的生物样品选自:无细胞DNA、无细胞RNA、体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞及其组合。
在一些实施方案中,所述方法包括将从对象测量到的甲基化签名面板与从正常对象测量到的甲基化签名面板的数据库进行对比,其中所述数据库存储在计算机系统中;通过测量出与来自正常对象的甲基化状态相比在甲基签名面板的甲基化状态中有至少1%、至少2%、至少3%、至少4%、至少5%、至少6%、至少7%、至少8%、至少9%、至少10%、至少11%、至少12%、至少13%、至少14%、至少15%、至少16%、至少17%、至少18%、至少19%或至少20%的变化来确定所述对象患结肠细胞增殖性病症的风险增加。
在一些实施方案中,预鉴定甲基化签名面板包含表1-11中的三个或更多个甲基化基因组区域、表1-11中的四个或更多个甲基化基因组区域、表1-11中的五个或更多个甲基化基因组区域、表1-11中的六个或更多个甲基化基因组区域、表1-11中的七个或更多个甲基化基因组区域、表1-11中的八个或更多个甲基化基因组区域、表1-11中的九个或更多个甲基化基因组区域、表1-11中的十个或更多个甲基化基因组区域、表1-11中的十一个或更多个甲基化基因组区域、表1-11中的十二个或更多个甲基化基因组区域、或表1-11中的十三个或更多个甲基化基因组区域。在一些实施方案中,预鉴定甲基化签名面板包含表11中的一个或多个甲基化基因组区域、表11中的两个或更多个甲基化基因组区域、或表11中的三个甲基化基因组区域。在一些实施方案中,甲基化谱指示个体中结肠细胞增殖性病症的存在或不存在。在一些实施方案中,所述方法还包括基于检测个体中结肠细胞增殖性病症的存在而向所述个体施用针对结肠细胞增殖性病症的治疗。
在一些实施方案中,结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。在一些实施方案中,结肠细胞增殖性病症包括结直肠癌。
在一些实施方案中,经训练的机器学习分类器选自:深度学习分类器、神经网络分类器、线性判别分析(LDA)分类器、二次判别分析(QDA)分类器、支持向量机(SVM)分类器、随机森林(RF)分类器、线性核支持向量机分类器、一阶或二阶多项式核支持向量机分类器、岭回归分类器、弹性网算法分类器、序列最小优化算法分类器、朴素贝叶斯算法分类器和主成分分析分类器。
在一些实施方案中,结肠细胞增殖性病症选自1期结直肠癌、2期结直肠癌、3期结直肠癌和4期结直肠癌。
在另一方面,本公开提供了一种用于监测先前因疾病而接受治疗的对象中的微小残留疾病的方法,包括:确定本文所述的甲基化谱作为基线甲基化状态,并重复分析以确定在一个或多个预定时间点的甲基化谱,其中与基线相比的变化指示对象基线时微小残留疾病状况的变化。
在一些实施方案中,微小残留疾病选自对治疗的应答、肿瘤负荷、术后残留肿瘤、复发、二次筛查、一次筛查和癌症进展。
在另一方面,提供了一种用于确定对治疗的应答的方法。
在另一方面,提供了一种用于监测肿瘤负荷的方法。
在另一方面,提供了一种用于检测术后残留肿瘤的方法。
在另一方面,提供了一种用于检测复发的方法。
在另一方面,提供了一种用作二次筛查的方法。
在另一方面,提供了一种用作一次筛查的方法。
在另一方面,提供了一种用于监测癌症进展的方法。
在一些实施方案中,数据集指示在至少约80%的敏感性下结直肠癌的存在或易感性。在一些实施方案中,数据集指示在至少约90%的敏感性下结直肠癌的存在或易感性。在一些实施方案中,数据集指示在至少约95%的敏感性下结直肠癌的存在或易感性。在一些实施方案中,数据集指示在至少约70%的阳性预测值(PPV)下结直肠癌的存在或易感性。在一些实施方案中,数据集指示在至少约80%的阳性预测值(PPV)下结直肠癌的存在或易感性。在一些实施方案中,数据集指示在至少约90%的阳性预测值(PPV)下结直肠癌的存在或易感性。在一些实施方案中,数据集指示在至少约95%的阳性预测值(PPV)下结直肠癌的存在或易感性。在一些实施方案中,数据集指示在至少约99%的阳性预测值(PPV)下结直肠癌的存在或易感性。在一些实施方案中,数据集指示在至少约80%的阴性预测值(NPV)下结直肠癌的存在或易感性。在一些实施方案中,数据集指示在至少约90%的阴性预测值(NPV)下结直肠癌的存在或易感性。在一些实施方案中,数据集指示在至少约95%的阴性预测值(NPV)下结直肠癌的存在或易感性。在一些实施方案中,数据集指示在至少约99%的阴性预测值(NPV)下结直肠癌的存在或易感性。在一些实施方案中,经训练的算法以至少约0.90的曲线下面积(AUC)确定对象中结直肠癌的存在或易感性。在一些实施方案中,经训练的算法以至少约0.95的曲线下面积(AUC)确定对象中结直肠癌的存在或易感性。在一些实施方案中,经训练的算法以至少约0.99的曲线下面积(AUC)确定对象中结直肠癌的存在或易感性。
在一些实施方案中,所述方法还包括在用户的电子装置的图形用户界面上显示报告。在一些实施方案中,用户是对象、个体或患者。
在一些实施方案中,所述方法还包括确定对象、个体或患者中结直肠癌的存在或易感性的可能性。例如,可能性可以是介于0%与100%之间的概率值。
在一些实施方案中,经训练的算法(例如机器学习模型或分类器)包括有监督的机器学习算法。在一些实施方案中,有监督的机器学习算法包括深度学习算法、支持向量机(SVM)、神经网络或随机森林(Random Forest)。
在一些实施方案中,所述方法还包括为所述对象提供至少部分基于甲基化谱或分析的治疗干预,诸如治疗结直肠癌患者的治疗干预(例如,化疗、放疗、免疫疗法或手术)。
在一些实施方案中,所述方法还包括监测结直肠癌的存在或易感性,其中所述监测包括在多个时间点评估所述对象中结直肠癌的存在或易感性,其中所述评估至少是基于在多个时间点的每一个下所确定的结直肠癌的存在或易感性。
在一些实施方案中,在多个时间点下对象中结直肠癌的存在或易感性的评估的差异指示选自以下的一个或多个临床适应症:(i)对象中结直肠癌的存在或易感性的诊断,(ii)对象中结直肠癌的存在或易感性的预后,以及(iii)疗程对治疗对象中结直肠癌的存在或易感性的疗效或无效。
在一些实施方案中,所述方法还包括通过使用经训练的算法对对象的结直肠癌进行分层,以从多个不同的结直肠癌亚型或阶段中确定对象的结直肠癌亚型。
本公开的另一方面提供了一种包括机器可执行代码的非临时计算机可读介质,所述机器可执行代码在由一个或多个计算机处理器执行时,实现上述或本文其他地方的任何方法。
本公开的另一方面提供了一种系统,其包括一个或多个计算机处理器和与之耦合的计算机存储器。计算机存储器包括机器可执行代码,所述机器可执行代码在由一个或多个计算机处理器执行时,实现上述或本文其他地方的任何方法。
根据以下具体实施方式,本公开的另外的方面和优点对于本领域技术人员将容易地变得清楚,在以下具体实施方式中仅示出和描述了本公开的说明性实施方案。如将会理解的,本公开能够具有其他的和不同的实施方案,并且其若干细节能够在各个明显的方面进行修改,所有这些都不背离本公开。因此,附图和说明书将在本质上被视为是说明性的而非限制性的。
援引并入
本说明书中所提到的所有出版物、专利和专利申请都通过引用并入本文,并入程度如同指示每个单独出版物、专利或专利申请明确且单独地通过引用并入一般。就通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容相矛盾而言,本说明书旨在取代和/或优先于任何这种矛盾的材料。
附图说明
现将参考附图仅以举例的方式来描述本公开的实施例。本发明的新颖特征在随附权利要求中具体阐述。将通过参考阐述了利用本发明原理的说明性实施方案的以下具体实施方式和附图(在本文中也称为“图”)获得对本发明的特征和优点的更好的理解,在所述附图中:
图1提供了为实现本文所提供的方法而对计算机系统编程或以其他方式配置机器学习模型和分类器的示意图。
图2提供了在表1中的区域上训练的模型的4倍交叉验证的曲线下面积(AUC)曲线。
图3A-图3F为在分类模型上训练的CRC的不同阶段的样品提供了一系列曲线下面积(AUC)曲线。图3A-图3F示出了ROC结果,显示了这些差异甲基化区域(DMR)检测CRC和区分早期癌症的能力,包括具有1期(图3A)、2期(图3B)、3期(图3C)、4期(图3D)、缺失阶段(图3E)和所有样品(图3F)的患者。
具体实施方式
尽管本文已经示出和描述了本发明的各个实施方案,但对于本领域技术人员显而易见的是,这样的实施方案只是以举例的方式提供。在不偏离本发明的情况下,本领域技术人员可以想到多种变型、改变和替代。应当理解,可以采用针对本文所描述的本发明实施方案的各种可替选方案。
本公开总体上涉及癌症检测和疾病监测。更具体地说,该领域涉及癌症相关的DNA甲基化检测和早期结直肠癌的疾病监测。在过去几十年里,癌症筛查和监测可有助于改善结果,因为早期检测导向更好的结果,故癌症可在扩散之前就被消除。在结直肠癌的情况下,举例来说,使用结肠镜检查可以在提高早期诊断方面发挥作用。不幸的是,由于患者对筛查的依从性没有达到推荐的规律,可能会出现一些挑战。
任何筛查工具的主要问题可为假阳性与假阴性结果(或特异性和敏感性)之间的折中,在前一种情况下导致了不必要的调查,而在后一种情况下导致无效。理想的测试可以是具有高阳性预测值(PPV)的,最大限度地减少不必要的调查,但能检测到绝大多数癌症。另一个关键因素可以是所谓的“检测敏感性”并且也是肿瘤大小的检测下限,将其与测试灵敏度区分开。遗憾的是,等待肿瘤生长到足够大以释放出检测所必需水平的循环肿瘤标志物时,可能已与早期检测的要求相矛盾,早期检测是为了在治疗最有效的阶段对肿瘤进行治疗。因此,需要基于循环分析物对早期结直肠癌进行有效的基于血液的筛查。
循环肿瘤DNA的检测越来越被认为是一种可行的“液体活检”,允许以非侵入性的方式对肿瘤进行检测和信息调查。在一些情况下,通过对肿瘤特异性突变的鉴定,这些技术已经应用于结肠癌、乳腺癌和前列腺癌。由于循环中存在高背景的正常(例如非肿瘤来源的)DNA,所以这些技术的敏感性可能受到限制。
对血液中肿瘤特异性甲基化的检测可提供比突变检测明显的优势。在包括肺癌、结肠癌和乳腺癌的癌症中,可以评估许多单一或多甲基化生物标志物。这些可能会有低敏感性,因为它们在肿瘤中可能不够普遍。
仍需要更敏感且更具特异性的筛查工具来检测复发中的早期或低肿瘤负荷的结直肠癌肿瘤信号,并在高危群体中进行初步筛查。
本公开提供了涉及与结直肠癌检测和疾病进展相关的基因甲基化谱分析的方法和系统。
一方面,本公开提供了使用适用于分析区域或基因内的甲基化的甲基化区域面板的方法,其他方面提供了所述区域、基因和基因产物的新用途,以及涉及检测、区别和区分结肠细胞增殖性病症的方法、测定和试剂盒。本文提供的方法和核酸可用于分析选取自腺癌、腺瘤、息肉、鳞状细胞癌、类癌瘤、肉瘤和淋巴瘤组成的结肠细胞增殖性病症。
在一些实施方案中,所述方法包括使用选自甲基化区域的一个或多个基因作为用于结肠细胞增殖性病症的区别、检测和区分的标志物。通过分析选自本文所述的甲基化区域的一个或多个基因及其启动子或调控元件的甲基化状态,可以启用所述基因的使用。
本公开的方法和系统可以包括根据本文所述的甲基化区域和与之互补的序列,对一个或多个基因组序列中的CpG二核苷酸的甲基化状态进行分析。
I.定义
除非上下文另有明确指示,否则如说明书和权利要求中所用,单数形式“一个/种(a/an)”以及“所述(the)”包括复数个指示物。例如,术语“核酸”包括多个核酸,包括其混合物。
如本文所用,术语“对象”一般是指具有可测试或可检测的遗传信息的实体或媒介。对象可以是个人、个体或患者。对象可以是脊椎动物,例如像哺乳动物。哺乳动物的非限制性实例包括人类、猿猴、农场动物、运动动物、啮齿动物和宠物。对象可以是患有癌症或疑似患有癌症的人。对象可以表现出指示对象健康或生理状态或状况的症状,诸如对象的癌症或其他疾病、病症或病状。作为替代,对象可以在这种健康或生理状态或状况方面无症状。
如本文所用,术语“样品”一般是指获自或衍生自一个或多个对象的生物样品。生物样品可以是无细胞的生物样品或大体上无细胞的生物样品,或者可以被加工或分级分离以产生无细胞的生物样品。例如,无细胞的生物样品可包括无细胞的核糖核酸(cfRNA)、无细胞的脱氧核糖核酸(cfDNA)、无细胞的胎儿DNA(cffDNA)、血浆、血清、尿液、唾液、羊水及其衍生物。可使用乙二胺四乙酸(EDTA)收集管、无细胞的RNA收集管(例如,
Figure BDA0003971977860000161
)或无细胞的DNA收集管(例如
Figure BDA0003971977860000162
)从对象中获得或衍生无细胞的生物样品。无细胞的生物样品可通过分级分离(例如,离心成细胞组分和无细胞组分)从全血样品中衍生。生物样品或其衍生物可含有细胞。例如,生物样品可以是血液样品或其衍生物(例如,通过收集管或血滴收集的血液)。
如本文所用,术语“核酸”一般是指任意长度的核苷酸的聚合形式,无论是脱氧核糖核苷酸(dNTP)或核糖核苷酸(rNTP),或其类似物。核酸可以具有任何三维结构,并且可以执行任何已知或未知的功能。核酸的非限制性实例包括脱氧核糖核酸(DNA)、核糖核酸(RNA)、基因或基因片段的编码或非编码区、从连锁分析中定义的基因座(locus)、外显子、内含子、信使RNA(mRNA)、转移RNA、核糖体RNA、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微RNA(miRNA)、核酶、cDNA、重组核酸、支链核酸、质粒、载体、任意序列的分离DNA、任意序列的分离RNA、核酸探针和引物。核酸可以包含一个或多个修饰的核苷酸,诸如甲基化的核苷酸和核苷酸类似物。如果存在,则可以在核酸组装之前或之后赋予对核苷酸结构的修饰。核酸的核苷酸序列可以被非核苷酸组分中断。核酸可以在聚合后进一步被修饰,诸如通过缀合或与报告因子结合。
如本文所用,术语“靶核酸”一般是指核酸分子起始群体中的核酸分子,所述核酸分子的核苷酸序列的存在、数量和/或序列或其中一个或多个的变化都需要被确定。靶核酸可以是任何类型的核酸,包括DNA、RNA及其类似物。如本文所用,“靶核糖核酸(RNA)”一般是指作为RNA的靶核酸。如本文所用,“靶脱氧核糖核酸(DNA)”一般是指作为DNA的靶核酸。
如本文所用,术语“扩增(amplifying)”和“扩增(amplification)”一般是指增加核酸分子的大小或数量。核酸分子可以是单链的或双链的。扩增可以包括生成核酸分子的一个或多个拷贝或“扩增产物”。扩增可以例如通过延伸(例如引物延伸)或连接进行。扩增可包括进行引物延伸反应以生成与单链核酸分子互补的链,并在一些情况下生成该链和/或单链核酸分子的一个或多个拷贝。术语“DNA扩增”一般是指生成DNA分子或“扩增的DNA产物”的一个或多个拷贝。术语“逆转录扩增”一般是指通过逆转录酶的作用,从核糖核酸(RNA)模板生成脱氧核糖核酸(DNA)
如本文所用,术语“无细胞的核酸(cfNA)”一般是指生物样品中不包含在细胞中的核酸(诸如无细胞的RNA(“cfRNA”)或无细胞的DNA(“cfDNA”))。cfDNA可在体液中诸如在血流中自由循环。
如本文所用,术语“无细胞样品”一般是指大体上缺乏完整细胞的生物样品。这可衍生自本身大体上缺乏细胞的生物样品,或可衍生自细胞已被去除的样品。无细胞样品的实例包括衍生自血液的那些,诸如血清或血浆;尿;或衍生自其他来源的样品,诸如精液、痰、粪便、导管渗出液、淋巴或回收的灌洗液。
如本文所用,术语“循环肿瘤DNA”一般是指源自肿瘤的cfDNA。
如本文所用,术语“基因组区域”一般是指核酸的鉴定区域,这些区域是根据它们在染色体中的位置来鉴定的。在一些实例中,基因组区域由一个基因名称来指代,并且涵盖与核酸物理区域相关的编码区和非编码区。如本文所用,基因包含编码区(外显子)、非编码区(内含子)、转录控制区或其他调控区以及启动子。在另一个实例中,基因组区域可以掺入命名基因内的内含子或外显子或内含子/外显子边界。
如本文所用,术语“CpG岛”一般是指基因组DNA满足以下标准的连续区域:(1)与“观测/预期比”相对应的CpG二核苷酸的频率大于约0.6;和(2)“GC含量”大于约0.5。CpG岛通常(但不总是)长度介于0.2到3千碱基(kb)之间,有高频率的CpG位点。CpG岛见于约40%哺乳动物基因的启动子处或附近。CpG岛也见于哺乳动物基因之外。在一些实例中,CpG岛见于外显子、内含子、启动子、增强子、抑制子和转录调控元件中。CpG岛可倾向于出现在所谓的“管家基因”的上游。据说CpG岛的CpG二核苷酸含量是统计预期的至少约60%。CpG岛在基因5’端处或上游的出现可反映了在转录调控中的作用,并且基因启动子内CpG位点的甲基化可导致沉默。反之,甲基化所造成的肿瘤抑制子的沉默是许多人类癌症的标志。
如本文所用,术语“CpG岸”一般是指从CpG岛向外延伸的短距离区域,其中也可能发生甲基化。CpG岸可见于CpG岛的上游和下游约0至2kb的区域内。
如本文所用,术语“CpG架”一般是指从CpG岸延伸的短距离区域,其中也可能发生甲基化。CpG架一般可见于CpG岛的上游和下游约2kb与4kb之间的区域(例如,从CpG岸向外再延伸2kb)。
如本文所用,术语“结肠细胞增殖性病症”一般是指包括结肠或直肠细胞的紊乱或异常增殖的病症或疾病。在一些实例中,所述病症选自:腺瘤(腺瘤性息肉)、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。在一些实施方案中,结肠细胞增殖性病症包括结直肠癌。
如本文所用,术语“表观遗传参数”一般是指胞嘧啶甲基化。进一步的表观遗传参数包括,例如,组蛋白的乙酰化,虽然它们可能不能使用所描述的方法直接分析,但反之,这与DNA甲基化相关。
如本文所用,术语“遗传参数”一般是指基因的突变和多态性及其调控进一步所需的序列。突变的实例包括插入、缺失、点突变、倒位和多态性,诸如SNP(单核苷酸多态性)。
如本文所用,术语“半-甲基化”或“半甲基化”一般是指回文CpG甲基化位点的甲基化状态,其中回文CpG甲基化位点的两个CpG二核苷酸序列之一者中只有一个胞嘧啶被甲基化(例如5’-CCMGG-3’(上链):3’-GGCC-5’(下链))。
如本文所用,术语“高甲基化”一般是指相对于正常对照DNA样品中相应的CpG二核苷酸处所见的5-mC的数量,与测试DNA样品的DNA序列中一个或多个CpG二核苷酸处5-mC存在的增加相对应的平均甲基化状态。在一些实施方案中,测试DNA样品来自患有结肠细胞增殖性病症的个体。
如本文所用,术语“低甲基化”一般是指相对于正常对照DNA样品中相应的CpG二核苷酸处所见的5-mC的数量,与测试DNA样品的DNA序列中一个或多个CpG二核苷酸处5-mC存在的减少相对应的平均甲基化状态。在一些实施方案中,测试DNA样品来自患有结肠细胞增殖性病症的个体。
如本文所用,术语“甲基化状态”或“甲基化状况”一般是指DNA序列中一个或多个CpG二核苷酸处5-甲基胞嘧啶(“5-mC”)的存在或不存在。DNA序列中一个或多个特定的CpG回文甲基化位点(每个位点有两个CpG二核苷酸序列)的甲基化状态包括“未甲基化”、“完全甲基化”和“半甲基化”。
如本文所用,术语“甲基化胞嘧啶”一般是指核酸碱基胞嘧啶的任何甲基化形式,其中在5’位上含有甲基或羟甲基官能团。已知甲基化胞嘧啶是基因组DNA中基因转录的调控因子。此术语可以包括5-甲基胞嘧啶和5-羟甲基胞嘧啶。
如本文所用,术语“甲基化测定”一般是指用于确定DNA序列内的一个或多个CpG二核苷酸序列的甲基化状态的任何测定。
如本文所用,术语“微小残留疾病”或“MRD”一般是指癌症治疗后体内的少量癌细胞。可以进行MRD检测,以确定癌症治疗是否有效,并指导进一步的治疗计划。
如本文所用,术语“MSP”(甲基化特异性聚合酶链反应(PCR))一般是指甲基化测定,诸如由HermanHerman等人Proc.Natl.Acad.Sci.USA 93:9821-9826,1996和美国专利号5,786,146(其各自的内容通过引用并入本文)所描述的。
如本文所用,术语“甲基化转化的”或“转化的”核酸一般是指核酸,例如像DNA,其已经历了用于甲基化测序的DNA转化过程。转化过程的实例包括基于试剂(诸如亚硫酸氢盐)的转化、酶促转化或组合转化(诸如TET辅助的吡啶硼烷测序(TAPS)转化),其中未甲基化的胞嘧啶在PCR扩增或测序之前转化为尿嘧啶。转化过程可用于甲基测序方法,以区分甲基化与未甲基化胞嘧啶碱基。
如本文所用,术语“癌症中甲基化的区域”一般是指基因组中含有甲基化位点(CpG二核苷酸)的区段,其甲基化与恶性细胞状态相关。区域的甲基化可以与多于一种不同类型的癌症相关,或者与一种类型癌症特异性相关。此外,区域的甲基化可以与多于一种癌症亚型相关,或者与一种癌症亚型特异性相关。
术语癌症“类型”和“亚型”在本文中一般是相对使用的,由此一种“类型”的癌症,诸如乳腺癌,可以是基于例如阶段、形态学、组织学、基因表达、受体谱、突变谱、侵袭性、预后、恶性特点等的“亚型”。同样,“类型”和“亚型”可以应用在更细的层次上,例如,将一个组织学“类型”区分为“亚型”,例如,根据突变谱或基因表达来定义。癌症“阶段”也用来指代基于与疾病进展相关的组织学和病理学特点的癌症类型分类。
II.分析样品
无细胞生物样品可以从人类对象中获得或衍生。无细胞生物样品在加工前可以储存在不同的储存条件下,诸如不同的温度(例如室温、冷藏或冷冻条件、25℃、4℃、-18℃、-20℃或-80℃)或不同的悬液(例如,EDTA收集管、无细胞RNA收集管或无细胞DNA收集管)。
无细胞生物样品可以从患有癌症的对象、疑似患有癌症的对象、或未患或未疑似患有癌症的对象中获得。
无细胞生物样品可以在癌症对象的治疗前和/或后采集。在治疗或治疗方案期间,可以从对象中获得无细胞生物样品。可以从对象中获得多个无细胞生物样品,以监测随时间推移的治疗效果。无细胞生物样品可取自已知或疑似患有癌症的对象,而该对象无法通过临床试验得到明确的阳性或阴性诊断。样品可取自疑似患有癌症的对象。无细胞生物样品可取自出现以下无法解释的症状的对象,诸如疲劳、恶心、体重减轻、疼痛、虚弱或出血。无细胞生物样品可取自有解释的症状的对象。无细胞生物样品可取自因诸如家族史、年龄、高血压或高血压前期、糖尿病或糖尿病前期、超重或肥胖、环境暴露、生活方式风险因素(例如吸烟、饮酒或吸毒)或存在其他风险因素的因素而有发生癌症的风险的对象。
无细胞生物样品可以包含一种或多种可被分析的分析物,诸如适用于分析以生成转录组数据的无细胞核糖核酸(cfRNA)分子,适用于分析以生成基因组数据的无细胞脱氧核糖核酸(cfDNA)分子,或其混合物或组合。一种或多种这样的分析物(例如,cfRNA分子和/或cfDNA分子)可以从对象的一个或多个无细胞生物样品中分离或提取,以便使用一种或多种合适的测定进行下游分析。
从对象获得无细胞生物样品后,可对该无细胞生物样品进行加工,以生成指示对象癌症的数据集。例如,在癌症相关基因组的基因座面板上对无细胞生物样品的核酸分子进行存在、不存在或定量评估(例如,在癌症相关基因组基因座上对RNA转录物或DNA的定量量度)。在一些实施方案中,对从对象获得的无细胞生物样品的加工可以包括:(i)将无细胞生物样品置于足以分离、富集或提取多个核酸分子的条件下;及(ii)分析多个核酸分子以生成数据集。
在一些实施方案中,从无细胞生物样品中提取多个核酸分子,并对其进行测序以生成多个测序读取。核酸分子可包括核糖核酸(RNA)或脱氧核糖核酸(DNA)。核酸分子(例如RNA或DNA)可以通过以下多种方法从无细胞生物样品中提取,诸如来自MP
Figure BDA0003971977860000211
Figure BDA0003971977860000212
试剂盒方案、来自
Figure BDA0003971977860000213
Figure BDA0003971977860000214
DNA无细胞生物迷你试剂盒、或来自Norgen
Figure BDA0003971977860000215
的无细胞生物DNA分离试剂盒方案。提取方法可以从样品中提取所有的RNA或DNA分子。或者,提取方法可以选择性地从样品中提取一部分RNA或DNA分子。从样品中提取的RNA分子可以通过逆转录(RT)转化为DNA分子。
测序可以通过任何合适的测序方法进行,诸如大规模并行测序(MPS)、配对末端测序、高通量测序、下一代测序(NGS)、鸟枪法测序、单分子测序、纳米孔测序、半导体测序、焦磷酸测序、合成测序(SBS)、连接法测序、杂交测序和
Figure BDA0003971977860000221
测序可以包括核酸扩增(例如RNA或DNA分子)。在一些实施方案中,核酸扩增是聚合酶链式反应(PCR)。可以进行适当轮数的PCR(例如PCR、qPCR、逆转录酶PCR、数字PCR等),以将初始量的核酸(例如RNA或DNA)充分扩增到所需的输入量,以便后续测序。在一些情况下,PCR可用于靶核酸的整体扩增。这可包括使用适配体序列,该适配体序列可首先连接到不同的分子,然后使用通用引物进行PCR扩增。PCR可以使用许多商用试剂盒中的任一种来进行,例如由Life
Figure BDA0003971977860000222
等提供的试剂盒。在其他情况下,核酸群内仅有某些靶核酸可被扩增。特异性引物(可能与适配体连接相结合)可用于选择性扩增某些靶标以用于下游测序。PCR可包括一个或多个基因组基因座的靶向扩增,诸如与癌症相关的基因组基因座。测序可包括使用同步逆转录(RT)和聚合酶链式反应(PCR),诸如由
Figure BDA0003971977860000223
Thermo Fisher
Figure BDA0003971977860000225
Figure BDA0003971977860000224
提供的OneStep RT-PCR试剂盒方案。
从无细胞生物样品中分离或提取的RNA或DNA分子可例如使用可鉴定的标签来标记,以允许多个样品的多路复用。任何数量的RNA或DNA样品都可以进行多路复用。例如,多路复用的反应可包含来自至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100或多于100个初始无细胞生物样品的RNA或DNA。例如,可以用样品条形码标记多个无细胞生物样品,这样每个DNA分子都可以追溯到DNA分子起源的样品(和对象)。这种标签可以通过连接或引物PCR扩增连接到RNA或DNA分子上。
对核酸分子进行测序后,可对序列读取进行适当的生物信息学处理,以生成指示癌症存在、不存在或相对评估的数据。例如,序列读取可与一个或多个参考基因组(例如,一个或多个物种的基因组,诸如人类基因组,例如hg19)比对。比对的序列读取可以在一个或多个基因组基因座上量化,以生成指示癌症的数据集。例如,对与癌症相关的多个基因组基因座相对应的序列进行量化,可以生成指示癌症的数据集。
无细胞生物样品不需要任何核酸提取即可加工。例如,可以通过使用配置为选择性富集与多个癌症相关基因组基因座相对应的核酸(例如RNA或DNA)分子的探针来鉴定或监测对象中的癌症。探针可以是核酸引物。探针可与来自多个癌症相关基因组基因座或基因组区域中的一个或多个的核酸序列具有序列互补性。多个癌症相关基因组基因座或基因组区域可以包含至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约55、至少约60、至少约65、至少约70、至少约75、至少约80、至少约85、至少约90、至少约95、至少约100个或更多个不同的癌症相关基因组基因座或基因组区域。多个癌症相关基因组基因座或基因组区域可以包含一个或多个选自表1-11中列出的组的成员(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、约25、约30、约35、约40、约45、约50、约55、约60、约65、约70、约75、约80或更多)。癌症相关基因组基因座或基因组区域可与不同的癌症(例如,结直肠癌)阶段或亚型相关。
探针可以是与一个或多个基因组基因座(例如癌症相关基因组基因座)的核酸序列(例如RNA或DNA)具有序列互补的核酸分子(例如RNA或DNA)。这些核酸分子可以是引物或富集序列。使用对一个或多个基因组基因座(例如癌症相关基因组基因座)有选择性的探针对无细胞生物样品进行的分析可以包括使用阵列杂交(例如基于微阵列的)、聚合酶链式反应(PCR)或核酸测序(例如RNA测序或DNA测序)。在一些实施方案中,DNA或RNA可以通过以下中的一种或多种来分析:DNA/RNA等温扩增方法(例如环介导的等温扩增(LAMP)、解旋酶依赖性扩增(HDA)、滚圈扩增(RCA)、重组酶聚合酶扩增(RPA))、免疫测定、电化学测定、表面增强拉曼光谱(SERS)、基于量子点(QD)的测定、分子反转探针、液滴数字PCR(ddPCR)、基于CRISPR/Cas的检测(例如CRISPR分型PCR(ctPCR)、特异性高灵敏度酶报告解锁(SHERLOCK)、DNA核酸内切酶靶向的CRISPR反式报告基因(DETECTR)、和CRISPR介导的模拟多事件记录装置(CAMERA))和激光透射光谱(LTS)。
测定读出可以在一个或多个基因组基因座(例如,癌症相关基因组基因座)上量化,以生成指示癌症的数据。例如,与多个基因组基因座(例如,癌症相关基因组基因座)相对应的阵列杂交或聚合酶链式反应(PCR)的量化可生成指示癌症的数据。测定读出可包括定量PCR(qPCR)值、数字PCR(dPCR)值、数字液滴PCR(ddPCR)值、荧光值等,或其归一化值。测定可以是配置为在家庭环境中进行的家庭用户检测。
在一些实施方案中,多重测定可用于同时处理对象的无细胞生物样品。例如,第一测定可用于处理从对象处获得或衍生的第一无细胞生物样品,以生成指示癌症的第一数据集;并且与第一测定不同的第二测定可用于处理从对象处获得或衍生的第二无细胞生物样品,以生成指示癌症的第二数据集。然后可以分析第一数据集和第二数据集的任一或所有数据集,以评估对象的癌症。例如,可以基于第一数据集与第二数据集的组合生成单个诊断指标或诊断评分。另一个实例是,可以根据第一数据集和第二数据集生成单独的诊断指标或诊断评分。
无细胞生物样品可以使用甲基化特异性测定来处理。例如,甲基化特异性测定可用于鉴定对象的无细胞生物样品中多个癌症相关基因组基因座中每个的甲基化定量量度(例如,指示存在、不存在或相对数量)。甲基化特异性测定可被配置来处理无细胞生物样品,诸如对象的血液样品或尿液样品(或其衍生物)。无细胞生物样品中癌症相关基因组基因座甲基化的定量量度(例如,指示存在、不存在或相对数量)可以指示一种或多种癌症。甲基化特异性测定可用于生成数据集,以指示对象的无细胞生物样品中多个癌症相关基因组基因座中每个的甲基化的定量量度(例如,指示存在、不存在或相对数量)。
例如,甲基化特异性测定可以包括以下一种或多种:甲基化感知测序(例如使用亚硫酸氢盐处理)、焦磷酸测序、甲基化敏感性单链构象分析(MS-SSCA)、高分辨率熔融分析(HRM)、甲基化敏感性单核苷酸引物延伸(MS-SnuPE)、碱基特异性裂解/MALDI-TOF、基于微阵列的甲基化测定、甲基化特异性PCR、靶向亚硫酸氢盐测序、氧化亚硫酸氢盐测序、基于质谱的亚硫酸氢盐测序或简并代表性亚硫酸氢盐测序(RRBS)。
III.签名面板
本公开提供了分析生物样品的方法和系统,以从样品中与结肠细胞增殖性病症发展相关的DNA中高甲基化区域的组合中获得可测量的特征,从而鉴定区域的签名面板。来自签名面板的特征可以使用经训练的算法(例如,机器学习模型)来处理,以创建分类器,所述分类器被配置用于对结肠细胞增殖性病症的个体群体进行分层。所述方法的特征是使用一个或多个具有在签名面板中描述的甲基化区域的核酸,这些核酸在测序之前与一种或一系列能够区分已鉴定的区域内的甲基化与非甲基化CpG二核苷酸的试剂接触。
本文所述的签名面板一般是指在无细胞核酸样品中鉴定的并在与结肠细胞增殖性病症相关的样品中呈现出胞嘧啶碱基甲基化增加的基因组DNA靶向区域的集合。签名面板的形成允许对与结肠细胞增殖性病症相关的特定甲基化区域进行快速和特异性分析。本文方法中描述和使用的签名面板可用于改善结肠细胞增殖性病症的诊断、预后、治疗选择和监测(例如治疗监测)。
本公开的签名面板和方法可在解决从诸如全血、血浆或血清的体液样品中检测早期结肠细胞增殖性病症使用的标志物或签名面板的需求方面,对目前的方法提供重大改进。目前用于检测和诊断结肠细胞增殖性病症的方法包括结肠镜、乙状结肠镜和粪便潜血结肠癌。与这些方法相比,本文提供的方法可比结肠镜的侵入性小得多,并且至少与乙状结肠镜、粪便免疫化学试验(FIT)和粪便潜血试验(FOBT)同样或更敏感。与目前使用的这些标志物相比,本文提供的方法可在敏感性和特异性方面具有显著优势,这是由于使用基因面板与高敏感性测定技术的有利组合。
在一些实施方案中,癌症中甲基化的区域包括CpG岛。在一些实施方案中,癌症中甲基化的区域包括CpG岸。在一些实施方案中,癌症中甲基化的区域包括CpG架。在一些实施方案中,癌症中甲基化的区域包括CpG岛和CpG岸。在一些实施方案中,癌症中甲基化的区域包括CpG岛、CpG岸和CpG架。
在一些实施方案中,癌症中甲基化的区域包括CpG岛以及上游和下游约0至4千碱基(kb)的序列。癌症中甲基化的区域还可包括CpG岛以及以下序列:上游和下游约0至3kb、上游和下游约0至2kb、上游和下游约0至1kb、上游和下游约0至500个碱基对(bp)、上游和下游约0至400bp、上游和下游约0至300bp、上游和下游约0至200bp、或上游和下游约0至100bp。
根据一些实例,在选择癌症中的高甲基化区域时可以考虑许多设计参数。在某些实例中,甲基化区域的长度为约200bp、约300bp、约400bp或约500bp。这个选择过程的数据可以获自多种来源,例如像The Cancer Genome Atlas(TCGA)(cancergenome.nih.gov),通过使用例如用于广泛多种癌症的
Figure BDA0003971977860000261
Infinium HumanMethylation450 BeadChip衍生而来,或获自基于亚硫酸氢盐全基因组测序或其他方法的其他来源。在一些实施方案中,可以使用“甲基化值”(可以从TCGA 3级甲基化数据衍生而来,而TCGA 3级甲基化数据又从约-0.5至0.5的β值衍生而来)来选择区域。在一些实施方案中,用引物集进行扩增,所述引物集被设计来扩增至少一个甲基化位点,该位点的甲基化值在正常情况下低于约-0.3。这可以在多个正常组织样品中建立,诸如约4。甲基化值可以等于或低于约-0.1、约-0.2、约-0.3、约-0.4、约-0.5、约-0.6、约-0.7、约-0.8、约-0.9或约-1.0。
在一些实施方案中,引物集被设计来扩增至少一个甲基化位点,该位点在癌症组织与正常组织中的平均甲基化值之间的差异大于预定义的阈值,诸如约0.3。在一些实施方案中,该差异可大于约0.1、约0.2、约0.3、约0.4、约0.5、约0.6、约0.7、约0.8、约0.9、或约1.0。在一些实例中,满足此要求的其他甲基化位点的邻近性也可在选择区域中发挥作用。在一些实施方案中,引物集包括扩增至少一个甲基化位点的引物对,该引物对在约200bp内有至少一个甲基化位点,在正常情况下甲基化值也低于约-0.3,并且在癌症组织与正常组织中的平均甲基化值之间的差异大于约0.3。
在一些实例中,如果一个区域的甲基化大于从一个或多个健康个体(例如,没有癌症的个体)获得或衍生的样品中同一区域的甲基化,则选择靶区域。这种选择可以手动或以计算方式执行。在某些实例中,如果一个区域与来自健康个体的样品相比有多出至少约5%、约10%、约15%、约20%、约30%、约40%、约50%、约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%、约95%、约100%或多于约100%的甲基化,则选择该区域。在另一个实例中,如果疾病样品中以预定义阈值甲基化CpG计数映射到一个区域的读取数超过健康个体样品中同一区域的相同预定义阈值甲基化CpG计数,则可以选择该区域。对于给定区域,在健康样品中用作基线阈值的甲基化CpG计数可以发生变化,但映射到该区域的读取数超过健康样品中该区域的甲基化CpG计数的基线阈值则可指示一个重要区域,而不管阈值CpG计数如何波动。
在一些实例中,可以根据验证集中在该位点处有甲基化的样品的数量来选择靶区域进行扩增。例如,如果与来自健康个体的样品相比,从疾病个体中测试的样品的至少约5%、约10%、约15%、约20%、约25%、约30%、约35%、约40%、约45%、约50%、约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%、约95%、约96%、约97%、约98%或约99%的甲基化程度更高,则可以选择该区域。例如,如果区域在至少约75%的测试肿瘤(包括在特定亚型内)中甲基化,则可以选择这些区域。对于一些验证,肿瘤来源的细胞系可用于测试。
本公开还提供了一种用于进行测定的方法,以确定一个或多个选自本文所述的签名面板的基因及其启动子和调控元件的遗传和/或表观遗传参数。在一些实施方案中,根据下列方法进行的测定是为了检测一个或多个选自本文所述的签名面板的基因内的甲基化,其中所述甲基化核酸存在于还包含过量的背景DNA的溶液中,其中背景DNA以有待检测的DNA浓度约100至1000倍、约100至10000倍、约100至100000倍、约1000至10000倍、约1000至100000倍、或约10000至100000倍存在。在一些实施方案中,待检测的DNA浓度大于背景DNA浓度的约100000倍。在一些实施方案中,所述方法包括使由对象获得的核酸样品与至少一种试剂或一系列试剂(例如,区分靶核酸内甲基化与非甲基化CpG二核苷酸的试剂)接触。
如本文所述的肿瘤或结肠细胞增殖性病症可选自:腺瘤(腺瘤性息肉)、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。在一些实施方案中,结肠细胞增殖性病症包括结直肠癌。
可以根据预期测定的目的选择包含信息甲基化区域的签名面板。对于靶向方法,引物对可以基于预期的靶区域集来设计。在一些实施方案中,区域集包含表1中列出的至少一个、至少两个、至少三个或多于三个的区域。在一些实施方案中,区域集包含表1中列出的所有区域。
在一些实施方案中,与结直肠癌相关的甲基区域集选自表1。
在一些实施方案中,癌症面板包含选自以下中的至少一个、至少两个、至少三个或多于三个的区域:ITGA4、EMBP1、TMEM163、SFMBT2、ELMO1、ZNF543、SFMBT2、CHST10、CCNA1、BEND4、KRBA1、S1PR1、PPP1R16B、IKZF1、LONRF2、ZFP82和FLT3(例如,其中肿瘤是结直肠癌)。在一些实施方案中,癌症面板包含表1中列出的所有区域。在一些实施方案中,探针指向选自以下中的至少一个、至少两个、至少三个或多于三个的序列:ITGA4、EMBP1、TMEM163、SFMBT2、ELMO1、ZNF543、SFMBT2、CHST10、CCNA1、BEND4、KRBA1、S1PR1、PPP1R16B、IKZF1、LONRF2、ZFP82和FLT3。
表1
Figure BDA0003971977860000291
Figure BDA0003971977860000301
在一些实施方案中,所述方法还包括量化甲基化信号,其中超过预先确定的阈值的数值指示结肠细胞增殖性病症。在一些实施方案中,对结肠细胞增殖性病症中每个甲基化位点的量化和比较是独立进行的。因此,可以为每个位点建立肿瘤阳性信号的计数。在一些实施方案中,所述方法还包括确定包含肿瘤信号的测序读取的比例,其中超过阈值的比例指示结肠细胞增殖性病症。在一些实施方案中,对结肠细胞增殖性病症中的每个甲基化位点的确定是独立进行的。
如本文所用,术语“阈值”一般是指选出以辨别、分离或区分两个对象群体的值。在一些实施方案中,阈值将甲基化状态区分为疾病(例如恶性)状态与非疾病(例如健康)状态。在一些实施方案中,阈值可区分疾病的不同阶段(例如1期、2期、3期或4期)。阈值可根据有关疾病设定,并可根据早期的分析,例如对训练集的分析,或根据一组具有已知特点的输入(例如健康、疾病或疾病阶段)计算确定。根据特定位点的甲基化预测值,也可以为基因区域设置阈值。每个甲基化位点的阈值可不同,并且在最终分析中可以组合多个位点的数据。
在上述方法的一些实施方案中,癌症面板包含选自以下中的至少一个、至少两个、至少三个或多于三个的区域:ITGA4、TMEM163、SFMBT2、ELMO1、ZNF543、CHST10、CCNA1、BEND4、KRBA1、S1PR1和PPP1R16B(例如,其中肿瘤是结直肠癌)。在一些实施方案中,癌症面板包含表2中列出的一个或多个区域。在一些实施方案中,探针指向选自以下中的至少一个、至少两个、至少三个或多于三个的序列:ITGA4、TMEM163、SFMBT2、ELMO1、ZNF543、CHST10、CCNA1、BEND4、KRBA1、S1PR1和PPP1R16B。
表2
甲基区域(基因ID;染色体:位置开始-位置结束)
ITGA4;chr2:181457004-181457950
TMEM163;chr2:134718243-134719428
SFMBT2;chr10:7408046-7408953
ELMO1;chr7:37448612-37449471
ZNF543;chr19:57320164-57320845
SFMBT2;chr10:7410025-7411008
CHST10;chr2:100417269-100417795
ELMO1;chr7:37447852-37448217
CCNA1;chr13:36431498-36432414
BEND4;chr4:42150707-42153216
KRBA1;chr7:149714695-149715338
S1PR1;chr1:101236505-101237190
PPP1R16B;chr20:38805341-38807221
在一些实施方案中,癌症面板包含选自以下中的至少一个、至少两个、至少三个或多于三个的区域:EMBP1、TMEM163、SFMBT2、ELMO1、ZNF543、CHST10、CCNA1、BEND4、KRBA1、S1PR1和PPP1R16B(例如,其中肿瘤是结直肠癌)。在一些实施方案中,癌症面板包含表3中列出的一个或多个区域。在一些实施方案中,探针指向选自以下中的至少一个、至少两个、至少三个或多于三个的序列:EMBP1、TMEM163、SFMBT2、ELMO1、ZNF543、CHST10、CCNA1、BEND4、KRBA1、S1PR1和PPP1R16B。
表3
甲基区域(基因ID;染色体:位置开始-位置结束)
EMBP1;chr1:121519076-121519744
TMEM163;chr2:134718243-134719428
SFMBT2;chr10:7408046-7408953
ELMO1;chr7:37448612-37449471
ZNF543;chr19:57320164-57320845
SFMBT2;chr10:7410025-7411008
CHST10;chr2:100417269-100417795
ELMO1;chr7:37447852-37448217
CCNA1;chr13:36431498-36432414
BEND4;chr4:42150707-42153216
KRBA1;chr7:149714695-149715338
S1PR1;chr1:101236505-101237190
PPP1R16B;chr20:38805341-38807221
在一些实施方案中,癌症面板包含选自以下中的至少一个、至少两个、至少三个或多于三个的区域:ITGA4、EMBP1、TMEM163、SFMBT2、ELMO1、ZNF543、CHST10、CCNA1、BEND4、KRBA1和S1PR1,并且肿瘤是结直肠癌。在一些实施方案中,癌症面板包含表4中列出的一个或多个区域。在一些实施方案中,探针指向选自以下中的至少一个、至少两个、至少三个或多于三个的序列:ITGA4、EMBP1、TMEM163、SFMBT2、ELMO1、ZNF543、CHST10、CCNA1、BEND4、KRBA1和S1PR1。
表4
甲基区域(基因ID;染色体:位置开始-位置结束)
ITGA4;chr2:181457004-181457950
EMBP1;chr1:121519076-121519744
TMEM163;chr2:134718243-134719428
SFMBT2;chr10:7408046-7408953
ELMO1;chr7:37448612-37449471
ZNF543;chr19:57320164-57320845
SFMBT2;chr10:7410025-7411008
CHST10;chr2:100417269-100417795
ELMO1;chr7:37447852-37448217
CCNA1;chr13:36431498-36432414
BEND4;chr4:42150707-42153216
KRBA1;chr7:149714695-149715338
S1PR1;chr1:101236505-101237190
在一些实施方案中,癌症面板包含选自以下中的至少一个、至少两个、至少三个或多于三个的区域:ITGA4、EMBP1、TMEM163、SFMBT2、ELMO1和ZNF543,并且肿瘤是结直肠癌。在一些实施方案中,癌症面板包含表5中列出的区域。在一些实施方案中,探针指向选自以下中的至少一个、至少两个、至少三个或多于三个的序列:ITGA4、EMBP1、TMEM163、SFMBT2、ELMO1和ZNF5431。
表5
甲基区域(基因ID;染色体:位置开始-位置结束)
ITGA4;chr2:181457004-181457950
EMBP1;chr1:121519076-121519744
TMEM163;chr2:134718243-134719428
SFMBT2;chr10:7408046-7408953
ELMO1;chr7:37448612-37449471
ZNF543;chr19:57320164-57320845
在一些实施方案中,癌症面板包含区域ITGA4和EMBP1中的一个或多个(例如,其中肿瘤是结直肠癌)。在一些实施方案中,癌症面板包含表6中列出的一个或多个区域。在一些实施方案中,探针指向包括ITGA4和EMBP1的序列。
表6
甲基区域(基因ID;染色体:位置开始-位置结束)
ITGA4;chr2:181457004-181457950
EMBP1;chr1:121519076-121519744
在上述方法的一些实施方案中,癌症面板包含选自以下中的至少一个、至少两个、至少三个或多于三个的区域:KZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72B、ST3GAL1、ZEB2 NR3C1、ITGA4、GALNT14、CHST11、PPP1R16B、MGAT3、ZNF264、BEND4、IRF4、LOC100130992、CHST11、CHST15、RASSF2、EMILIN2、TMEM163、CHST10和HCK(例如,其中肿瘤是结直肠癌)。在一些实施方案中,癌症面板包含表7中列出的一个或多个区域。在一些实施方案中,探针指向选自以下中的至少一个、至少两个、至少三个或多于三个的序列:IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72B、ST3GAL1、ZEB2 NR3C1、ITGA4、GALNT14、CHST11、PPP1R16B、MGAT3、ZNF264、BEND4、IRF4、LOC100130992、CHST11、CHST15、RASSF2、EMILIN2、TMEM163、CHST10和HCK。
表7
Figure BDA0003971977860000351
Figure BDA0003971977860000361
在上述方法的一些实施方案中,癌症面板包含选自以下中的至少一个、至少两个、至少三个或多于三个的区域:IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72B、ST3GAL1、ZEB2 NR3C1、ITGA4、GALNT14、CHST11、PPP1R16B、MGAT3、ZNF264、BEND4和IRF4(例如,其中肿瘤是结直肠癌)。在一些实施方案中,癌症面板包含表8中列出的一个或多个区域。在一些实施方案中,探针指向选自以下中的至少一个、至少两个、至少三个或多于三个的序列:IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72B、ST3GAL1、ZEB2 NR3C1、ITGA4、GALNT14、CHST11、PPP1R16B、MGAT3、ZNF264、BEND4和IRF4。
表8
Figure BDA0003971977860000371
Figure BDA0003971977860000381
在上述方法的一些实施方案中,癌症面板包含选自以下中的至少一个、至少两个、至少三个或多于三个的区域:IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72B和ST3GAL1(例如,其中肿瘤是结直肠癌)。在一些实施方案中,癌症面板包含表9中列出的一个或多个区域。在一些实施方案中,探针指向选自以下中的至少一个、至少两个、至少三个或多于三个的序列:IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72B和ST3GAL1。
表9
Figure BDA0003971977860000382
Figure BDA0003971977860000391
在上述方法的一些实施方案中,癌症面板包含选自以下中的至少一个、至少两个、至少三个或多于三个的区域:IKZF1、KCNQ5、ELMO1、CHST2、PRKCB和FLI1(例如,其中肿瘤是结直肠癌)。在一些实施方案中,癌症面板包含表10中列出的一个或多个区域。在一些实施方案中,探针指向选自以下中的至少一个、至少两个、至少三个或多于三个的序列:IKZF1、KCNQ5、ELMO1、CHST2、PRKCB和FLI1。
表10
甲基区域(基因ID;染色体:位置开始-位置结束)
IKZF1;chr7:50303445-50305526
KCNQ5;chr6:72620772-72623556
ELMO1;chr7:37447220-37450201
CHST2;chr3:143118680-143121423
PRKCB;chr16:23835445-23837405
FLI1;chr11:128691887-128696541
在上述方法的一些实施方案中,癌症面板包含选自以下中的至少一个、至少两个或至少三个的区域:IKZF1、KCNQ5和ELMO1(例如,其中肿瘤是结直肠癌)。在一些实施方案中,癌症面板包含表11中列出的一个或多个区域。在一些实施方案中,探针指向选自以下中的至少一个、至少两个或至少三个的序列:IKZF1、KCNQ5和ELMO1。
表11
甲基区域(基因ID;染色体:位置开始-位置结束)
IKZF1;chr7:50303445-50305526
KCNQ5;chr6:72620772-72623556
ELMO1;chr7:37447220-37450201
一方面,本公开提供了一种用于鉴定指示生物学特点的甲基化签名的方法,所述方法包括:为群体获取包含多个与结肠细胞增殖性病症状态相关的基因组甲基化数据集的数据,所述基因组甲基化数据集中的每个都与对应样品的生物信息相关;将甲基化数据集分离为与具有所述生物学特点的一种组织或细胞类型相对应的第一分组和与不具有所述生物学特点的多种组织或细胞类型相对应的第二分组;将第一分组的甲基化数据与第二分组的甲基化数据在基因组中逐个位点进行匹配;在基因组中逐个位点鉴定CpG位点集,这些位点满足用于在第一分组与第二分组之间建立差异甲基化的预先确定的阈值;使用CpG位点集鉴定靶基因组区域,所述区域在约30至300bp内包含至少一个、至少两个、至少三个或多于三个满足所述预先确定的标准的差异甲基化CpG,以鉴定差异甲基化基因组区域,从而提供指示与结肠细胞增殖性病症存在相关的生物学特点的甲基化签名。
在一些实例中,靶基因组区域在具有以下长度的区域内包含至少一个、至少两个、至少三个或多于三个差异甲基化CpG位点:约30至150bp、约40至150bp、约50至150bp、约75至150bp、约100至150bp、约150至300bp、约150至250bp、约150至200bp、约200至300bp、或约250至300bp。
在一些实例中,靶基因组区域包含至少四个差异甲基化CpG位点、至少四个差异甲基化CpG位点、至少五个差异甲基化CpG位点、至少六个差异甲基化CpG位点、至少七个差异甲基化CpG位点、至少八个差异甲基化CpG位点、至少九个差异甲基化CpG位点、至少十个差异甲基化CpG位点、至少12个差异甲基化CpG位点、或至少15个差异甲基化CpG位点。
在一些实施方案中,所述方法还包括通过使用来自至少一个拥有所述生物学性状的独立样品的DNA和来自至少一个不拥有所述生物样品的独立样品的DNA在延伸的靶基因组区域内检测差异甲基化来验证延伸的靶基因组区域。
在一些实施方案中,所述鉴定还包括将CpG位点集限制为与来自参考或对照样品的外周血单个核细胞相比进一步表现出差异甲基化的CpG位点。
在一些实施方案中,预先确定的阈值在第一分组中为至少约50%的甲基化。
在一些实施方案中,预先确定的阈值是至少约0.3的第一分组与第二分组之间的平均甲基化差异。
在一些实施方案中,生物学性状包括恶性度。
在一些实施方案中,生物学性状包括癌症类型。
在一些实施方案中,生物学性状包括癌症阶段。
在一些实施方案中,生物学性状包括癌症分类。
在一些实施方案中,癌症分类包括癌症分级。
在一些实施方案中,癌症分类包括组织学分类。
在一些实施方案中,生物学性状包括代谢谱。
在一些实施方案中,生物学性状包括突变。
在一些实施方案中,突变是疾病相关的突变。
在一些实施方案中,生物学性状包括临床结果。
在一些实施方案中,生物学性状包括药物应答。
在一些实施方案中,所述方法还包括设计多个PCR引物对,以扩增延伸的靶基因组区域的部分,每个部分包含至少一个差异甲基化CpG位点。
在一些实施方案中,多个引物对的设计包括将非甲基化胞嘧啶转化为尿嘧啶以模拟胞嘧啶向尿嘧啶的转化,以及使用转化的序列设计引物对。
在一些实施方案中,引物对被设计成具有甲基化倾向。
在一些实施方案中,引物对是甲基化特异性的。
在一些实施方案中,引物对内无CpG残基,对甲基化状态无偏好。
一方面,本公开提供了一种用于合成对甲基化签名有特异性的引物对的方法,所述方法包括:执行本公开的方法及合成所设计的引物对。
IV.核酸转化和甲基化测序
A.核酸处理
甲基化测序可以利用多种方法,包括核酸碱基的化学基和酶基转化,以区分核酸序列中的甲基化胞嘧啶与未甲基化的胞嘧啶。这些测定允许确定DNA序列内一个或多个CpG二核苷酸(例如,CpG岛)的甲基化状态。这种测定尤其可包括亚硫酸氢盐处理DNA的DNA测序或酶处理DNA的DNA测序、聚合酶链式反应(PCR)(用于序列特异性扩增)、定量PCR(qPCR)、或数字液滴PCR(ddPCR)、DNA印迹分析。在各个实例中,以这样的方式处理生物样品中的DNA,使得在5’-位置处未甲基化的胞嘧啶碱基转化为尿嘧啶、胸腺嘧啶或在杂交行为方面与胞嘧啶不同的另一种碱基。这可以称为“转化”。
在一些实施方案中,试剂将在5’-位置处未甲基化的胞嘧啶碱基转化为尿嘧啶、胸腺嘧啶或在杂交行为方面与胞嘧啶不同的另一种碱基。
DNA的亚硫酸氢盐修饰一般是指用于评估CpG甲基化状态的工具。分析DNA中5-甲基胞嘧啶(5-mC)存在的常用方法是基于亚硫酸氢盐与胞嘧啶的反应,在随后的碱性脱硫作用下,胞嘧啶转化为尿嘧啶,其与胸腺嘧啶的碱基配对行为相对应。例如,通过使用亚硫酸氢盐处理,基因组测序已适于DNA甲基化模式和5-甲基胞嘧啶分布的分析(例如,如由Frommer等人,Proc.Natl.Acad.Sci.USA 89:1827-1831,1992所述,其内容通过引用并入本文)。然而,值得注意地,5-甲基胞嘧啶在这些条件下仍然未被修饰。因此,原始DNA以这样一种方式转化,即最初无法通过杂交行为与胞嘧啶区分的甲基胞嘧啶(甲基-C)现在可以通过各种分子生物学技术,例如通过扩增和杂交或通过测序,作为唯一剩下的胞嘧啶被检测出来。在各个实例中,其他试剂可实现与适用于甲基化测序的亚硫酸氢盐修饰相同的结果。
一种常用的直接测序方法采用经PCR扩增的亚硫酸氢盐处理的DNA,其适用于全基因组亚硫酸氢盐测序(WGBS)或靶向亚硫酸氢盐测序。
靶向亚硫酸氢盐测序可指的是商购获得的NGS方法,用于评估位点特异性DNA甲基化变化。探针被设计成链特异性和亚硫酸氢盐特异性的。甲基化和非甲基化序列都被扩增。该过程类似于焦磷酸测序,但总体上提供了更高的通量。在一些实施方案中,下一代测序平台用于递送大量有用的DNA甲基化信息(例如EPIGENTEK,Farmingdale,NY and ZYMORESEARCH,Irvine,CA)。通过对DNA进行亚硫酸氢盐处理,然后对靶区域进行PCR扩增,构建文库,并对扩增子区域进行测序,可以促进DNA中单个胞嘧啶的单碱基分辨率的甲基化分析。可以为目标区域设计特定引物,并评估该区域内胞嘧啶甲基化的变化。每个目标DNA甲基化位点可以在高测序覆盖深度下评估,以获得准确、定量和单碱基分辨率的数据输出。
酶促甲基测序(EM-seq)可依赖于核酸的酶促转化来进行甲基组分析。数据可提示,生成EM-seq文库的过程不会像亚硫酸氢盐测序那样破坏DNA。EM-seq文库虽然对所有DNA输入量使用更少的PCR循环,但可获得更高的PCR产率,这表明与全基因组亚硫酸氢盐测序(WGBS)相比,在酶促处理和文库制备过程中丢失的DNA更少。反之,减少的PCR周期可在测序过程中转化为更复杂的文库和更少的PCR复制品。EM-seq文库的平均插入尺寸也可比WGBS更大,这进一步支持了DNA保持完整的事实。在EM-seq流程中,TET2氧化5-mC和5-hmC,在下一个操作中防止APOBEC脱氨基。相反,未修饰的胞嘧啶被脱氨基为尿嘧啶。在一些实施方案中,靶向方法包括核酸的酶促转化(TEM-seq)。在一些实施方案中,甲基化测序方法是用
Figure BDA0003971977860000441
Enzymatic Methyl-seq(New England Biolabs,Ipswich,MA)完成的,这对5mC和5hmC的鉴定有用。
在另一个实例中,5hmC也可以使用TET辅助的亚硫酸氢盐测序(TAB-seq)(例如,如由Yu,M.等人(2012).Nat.Protoc.7,2159-2170所述,其内容通过引用并入本文)(WiseGene;
Figure BDA0003971977860000442
)来检测。片段DNA可以使用连续T4噬菌体β-葡糖基转移酶(T4-BGT)进行酶促修饰,然后在添加亚硫酸氢钠之前,使用10-11易位(TET)双加氧酶处理。T4-BGT糖基化5hmC以形成β-葡糖基-5-羟甲基胞嘧啶(5ghmC),然后用TET氧化5mC为5caC。只有5ghmC不受亚硫酸氢钠的后续脱氨基作用,这使得5hmC能够通过测序与5mC区分开。
氧化亚硫酸氢盐测序(oxBS)提供了另一种区分5mC与5hmC的方法(例如,如由byBooth,M.J.,等人,2012 Science 336:934-937所述,其内容通过引用并入本文)。氧化试剂过钌酸钾将5hmC转化为5-甲酰胞嘧啶(5fC),后续的亚硫酸氢钠处理使5fC脱氨基以生成尿嘧啶。5mC保持不变,因此可以使用这种方法鉴定。
APOBEC-偶联表观遗传测序(ACE-seq)完全排除亚硫酸氢盐转化,并依靠酶促转化以检测5hmC(例如,如由Schutsky,E.K.等人,Nat.Biotechnol.,2018 Oct 8所述,其内容通过引用并入本文)。通过这种方法,T4-BGT糖基化5hmC为5ghmC,并保护其免受载脂蛋白BmRNA编辑酶亚基3A(APOBEC3A)的脱氨基作用。胞嘧啶和5mC通过APOBEC3A被脱氨基并测序为胸腺嘧啶。
在另一个实例中,无亚硫酸氢盐的和碱基层面分辨率的测序方法,即TET辅助吡啶硼烷测序(TAPS),可用于5mC和5hmC的检测。TAPS将5mC和5hmC向5-羧基胞嘧啶(5caC)的10-11易位(TET)氧化与5caC向二氢尿嘧啶(DHU)的吡啶硼烷还原结合在一起。后续的PCR将DHU转化为胸腺嘧啶,实现了5mC和5hmC的C向T的转换。TAPS以高敏感性和特异性直接检测修饰,而不会影响未修饰的胞嘧啶。(例如,如由Liu,Y.等人Nat Biotechnol.2019 Apr;37(4):424-429所述,其内容通过引用并入本文)。
TET辅助的5-甲基胞嘧啶测序(TAmC-seq)富集了5mC基因座,并利用两个连续酶促反应,然后进行亲和力下拉(例如,如由Zhang,L.2013,Nat Commun 4:1517所述,其内容通过引用并入本文)。用T4-BGT处理片段DNA,从而通过糖基化保护5hmC。然后使用mTET1酶将5mC氧化为5hmC,并使用修饰的葡萄糖部分(6-N3-葡萄糖),用T4-BGT标记新形成的5hmC。点击化学用于引入生物素标签,实现了含有5mc的DNA片段的富集,以供检测和全基因组谱分析。
B.下一代测序
在一些实施方案中,通过下一代测序执行测序读取的生成。这可允许为给定区域实现较高的读取深度。这些可以是高通量方法,包括例如
Figure BDA0003971977860000451
(Solexa)测序、DNB-Sequencer T7
Figure BDA0003971977860000452
或G400(MGI Tech Co.,Ltd)、
Figure BDA0003971977860000453
测序(GenapSys,Inc.)、Roche 454测序(Roche Sequencing Solutions、Inc.)、Ion Torrent测序(Thermo Fisher Scientific)和SOLiD测序(Thermo Fisher
Figure BDA0003971977860000454
)。测序读取的次数可以根据DNA输入量和分析所需数据的深度进行调整。
在一些实施方案中,对从多个患者获得的样品同时进行测序读取的生成,其中对每个患者的无细胞核酸片段标注条形码。这允许在一次测序运行中对多个患者进行并行分析。
在另一方面,本公开提供了一种用于检测肿瘤的试剂盒,包括用于执行上述方法的试剂和用于检测肿瘤信号的说明书。试剂可包括例如引物集、PCR反应组分和/或测序试剂。
C.靶向测序
在靶向甲基化测序方法中,为了确定靶基因序列的甲基化状态,对生物样品(诸如cfDNA)中的靶向区域进行分析。在一些实施方案中,靶区域包括目标靶区域(诸如目标靶区域的至少约16个相邻核苷酸)的相邻核苷酸,或在严格条件下与之杂交。在不同的实例中,可以使用杂交捕获和扩增子测序方法来实现靶向测序。
D.杂交捕获
本文提供的杂交方法可用于各种形式的核酸杂交,诸如溶液内杂交和诸如固体支撑体上的杂交(例如,膜、微阵列和细胞/组织载玻片上的RNA、DNA和原位杂交)。具体来说,所述方法适用于溶液内杂交捕获,以供下一代靶向测序中使用的某些类型的基因组DNA序列(例如外显子)的靶标富集。对于杂交捕获方法,无细胞核酸样品经历文库制备。如本文所用,“文库制备”包括末端修复、加A-尾、适配体连接或对无细胞DNA进行的任何其他制备,以允许后续的DNA测序。在某些实例中,所制备的无细胞核酸文库序列含有连接到无细胞核酸样品分子上的适配体、序列标签、索引条形码。可利用各种商购获得的试剂盒来帮助文库制备以供下一代测序方法。下一代测序文库的构建可包括使用一系列协调的酶促反应来制备核酸靶标,以产生特定大小的随机DNA片段集合,用于高通量测序。各种文库制备技术的进步和发展扩大了下一代测序在诸如转录组学和表观遗传学的领域中的应用。
测序技术的改进带来了文库制备的变化和改进。由诸如
Figure BDA0003971977860000461
Bioo
Figure BDA0003971977860000462
Kapa
Figure BDA0003971977860000463
New England
Figure BDA0003971977860000464
Life
Figure BDA0003971977860000465
Pacific
Figure BDA0003971977860000466
Figure BDA0003971977860000467
的公司开发的下一代测序文库制备试剂盒为各种分子生物学反应提供了一致性和可重复性,确保与最新的NGS仪器技术兼容。
在靶向捕获基因面板的不同实例中,各种文库制备试剂盒可以选自Nextera Flex
Figure BDA0003971977860000468
DNA Prep
Figure BDA0003971977860000469
Ion
Figure BDA00039719778600004610
(Thermo Fisher
Figure BDA00039719778600004611
)、
Figure BDA00039719778600004612
(Thermo Fisher
Figure BDA00039719778600004613
)、Agilent ClearSeq
Figure BDA00039719778600004614
Capture
Figure BDA00039719778600004615
Bioo
Figure BDA00039719778600004616
Figure BDA00039719778600004617
xGen
Figure BDA00039719778600004618
Figure BDA00039719778600004619
Figure BDA00039719778600004620
Figure BDA00039719778600004621
在一些实施方案中,使用特异性探针对所制备的文库序列执行杂交捕获方法。在一些实施方案中,如本文所用的术语“特异性探针”一般是指对已知甲基化位点有特异性的探针。在一些实施方案中,特异性探针的设计是基于使用人类基因组作为参考序列,并使用已知具有甲基化位点的特定基因组区域作为靶序列。具体地,已知有甲基化位点的基因组区域可包括以下区域中的至少一个:启动子区、CpG岛区、CGI岛岸区和印迹基因区。因此,当使用一些实施方案的特异性探针进行杂交捕获时,可以有效地捕获与靶序列互补的样品基因组中的序列,例如,样品基因组中已知具有甲基化位点的区域(在本文中也称为“特定的基因组区域”)。
根据一个实例,本文所述的甲基化区域被用于设计特异性探针。在一些实施方案中,使用商购获得的方法(例如像eArray系统)设计特异性探针。探针的长度可足以与目标甲基化区域以足够的特异性进行杂交。在各个实例中,探针是10聚体、11聚体、12聚体、13聚体、14聚体、15聚体、16聚体、17聚体、18聚体、19聚体或20聚体。
利用数据库资源(诸如基因本体)筛选出上述表1-11中所列区域。根据互补碱基配对的原理,单链捕获探针可以与单链靶序列互补组合,从而成功捕获靶区域。在一些实施方案中,所设计的探针可被设计为固体捕获芯片(其中探针固定在固体支撑体上)或被设计为液体捕获芯片(其中探针在液体中是自由的),但受到以下各种因素的限制,诸如探针长度、探针密度和高成本等,固体捕获芯片很少使用,而液体捕获芯片使用较多。
在一些实施方案中,与正常序列(其中A、T、C、G碱基平均含量分别为25%)相比,核酸中富含GC的序列(其中GC碱基含量高于60%)可能会因C和G碱基的分子结构而导致捕获效率降低。对于重点研究区域,例如CGI区域(CpG岛),可以建议设计更多数量的探针,以获得足够和准确的CGI数据。
E.基于扩增子的测序
转化的DNA片段可被扩增。在一些实施方案中,用引物进行扩增,所述引物被设计成对其中具有至少一个甲基化位点的甲基化转化靶序列进行退火。甲基化测序转化导致未甲基化的胞嘧啶转化为尿嘧啶,而5-甲基胞嘧啶不受影响。因此,“转化的靶序列”被理解为以下序列:其中已知为甲基化位点的胞嘧啶被固定为“C”(胞嘧啶),而已知未甲基化的胞嘧啶被固定为“U”(尿嘧啶;在引物设计时,可以将其视为“T”(胸腺嘧啶))。
在各个实例中,DNA的来源是来自全血、血浆、血清的无细胞DNA或从细胞或组织中提取的基因组DNA。在一些实施方案中,扩增的片段长度介于约100与200个碱基对之间。在一些实施方案中,DNA来源从细胞来源(例如组织、活组织检查、细胞系)中提取,并且扩增的片段长度介于约100与350个碱基对之间。在一些实施方案中,扩增片段包含至少一个20碱基对序列,该序列包含至少一个、至少两个、至少三个或多于三个CpG二核苷酸。扩增可使用根据本公开的引物寡核苷酸集进行,并可使用热稳定聚合酶。若干DNA区段的扩增可以在同一个反应容器中同时进行。在一些实施方案中,两个或更多个片段同时被扩增。例如,可以使用聚合酶链式反应(PCR)进行扩增。
被设计来靶向这些序列的引物可对已转化的甲基化序列表现出一定程度的偏爱。在一些实施方案中,PCR引物被设计为甲基化特异性的,以供靶向甲基化测序应用。这可允许在一些应用中有更高的敏感性。例如,引物可被设计以包含可鉴别核苷酸(在亚硫酸氢盐转化后对甲基化序列有特异性),其被定位以(例如,在PCR应用中)实现最佳鉴别。鉴别体可位于3’末端或倒数第二的位置处。
在一些实施方案中,引物被设计来扩增长度为75至350bp的DNA片段。这是循环DNA已知的一般尺寸范围,并且根据本实例,优化引物设计以考虑靶尺寸可提高方法的敏感性。引物可被设计来扩增长度约50至200、约75至150或约100或125bp的区域。
在本文所述方法的一些实施方案中,可以使用甲基化特异性引物寡核苷酸,通过基于扩增子的方法检测核酸序列中预选CpG位置的甲基化状态。使用甲基化状况特异性引物扩增亚硫酸氢盐处理的DNA允许区分甲基化与未甲基化核酸。MSP引物对含有至少一个与转化的CpG二核苷酸杂交的引物。因此,所述引物的序列包含至少一个CpG、TpG或CpA二核苷酸。对非甲基化DNA有特异性的MSP引物在CpG中C的3’位置处含有“T”。因此,所述引物的碱基序列可需要包含长度为至少18个核苷酸的序列,该序列与预处理的核酸序列及其互补序列杂交,其中所述寡聚物的碱基序列包含至少一个CpG、TpG或CpA二核苷酸。在一些实施方案中,MSP引物包含2至5个CpG、TpG或CpA二核苷酸。在一些实施方案中,二核苷酸位于引物的3’半内,例如,对于长度为18个碱基的引物来说,指定的二核苷酸位于分子3’端起的前9个碱基内。除了CpG、TpG或CpA二核苷酸外,引物还可以包含几个甲基转化碱基(例如,胞嘧啶转化为胸腺嘧啶,或在杂交链上,鸟嘌呤转化为腺苷)。在一些实施方案中,引物被设计成包含不多于2个胞嘧啶或鸟嘌呤碱基。
在一些实施方案中,每个区域用多个引物对分区段进行扩增。在一些实施方案中,这些区段不重叠。这些区段可以直接相邻或间隔(例如,间隔可达10、20、30、40或50bp)。由于靶区域(包括CpG岛、CpG岸和/或CpG架)通常长于75至150bp,所以本实例允许评估跨越一个给定靶区域的更多(或全部)位点的甲基化状态。
可以使用合适的工具诸如Primer3、Primer3Plus、Primer-BLAST等为靶区域设计引物。如所讨论的,亚硫酸氢盐转化致使胞嘧啶转化为尿嘧啶,并且5’-甲基胞嘧啶转化为胸腺嘧啶。因此,引物定位或靶向可以利用亚硫酸氢盐转化的甲基化序列,这取决于所需的甲基化特异性程度。
扩增的靶区域被设计为具有至少10个CpG二核苷酸甲基化位点。然而,在一些实例中,扩增具有多于10个CpG甲基化位点的区域可为有利的。例如,300bp长的序列读取可具有约10、20、30、40或50个CpG甲基化位点,这些位点在与结肠细胞增殖性病症相关的核酸样品中被甲基化。在各个实例中,表1-11中鉴定的甲基化区域可具有至少25、50、100、200、300、400或500个CpG甲基化位点,这些位点在与结肠细胞增殖性病症相关的核酸样品中被甲基化。在一些实施方案中,引物被设计来扩增在靶向区域中包含3至20个CpG甲基化位点的DNA片段。总的来说,这种方法允许在单次测序读取中查询更多的甲基化位点,并提供额外的确定性(排除假阳性),因为在单次测序读取中可能检测到多个一致的甲基化。在一些实施方案中,肿瘤信号包含多于两个选自表1-11的甲基化区域。在本实例中,检测多重肿瘤信号可以提高肿瘤检测的置信度。这类信号可在同一位点或在不同位点。在一些实施方案中,在同一区域处多于一个肿瘤信号的检测指示肿瘤。
在一些实施方案中,可以在两个具有不同结肠细胞增殖性病症特点的群体之间对已鉴定的甲基化区域中的CpG位点数量建模,以鉴定甲基化阈值,其中一个区域中的CpG位点数量超过阈值指示结肠细胞增殖性病症。
在各个实例中,在已鉴定的甲基化区域中指示结直肠癌的CpG位点数量为至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17或18个,其中甲基化CpG的存在如果超过此鉴定的数量,则指示结直肠癌,并可用作机器学习模型的输入特征,该模型用作将群体分层为健康个体和结直肠癌个体的分类器。
在本实例中,对指示基因组中同一位点处的甲基化的多重肿瘤信号的检测可以提高肿瘤检测的置信度。对基因组中相邻位点处的甲基化的检测,即使信号来自不同的测序读取,也可以提高肿瘤检测的置信度。这反映了另一种类型的信号一致性。在一些实施方案中,在至少两个不同的测序读取中相邻或重叠的肿瘤信号的检测指示肿瘤。在一些实施方案中,相邻或重叠的肿瘤信号在同一CpG岛内。在一些实施方案中,在无细胞DNA片段中3至34个近端甲基化位点的检测指示肿瘤。在一些实施方案中,在片段中3至34个甲基化CpG位点的检测被用于鉴定阈值,以区分具有某种特点(例如,健康、疾病或疾病阶段)的个体群体。在一些实施方案中,读取片段中约4至10、约4至15、约10至20、约15至20、约15至25、约20至25、约20至34、约25至34、或约30至34个甲基化近端CpG位点的检测被用于确定阈值,以区分具有某种特点(例如健康、疾病或疾病阶段)的个体群体。如本文所用,术语“近端CpG位点”是指无细胞核酸样品中同一核酸片段上的CpG位点相邻或在2至10个CpG位点之间的CpG位点。
在一些实施方案中,使用多于100个引物对进行扩增。扩增可使用约10、约20、约30、约40、约50、约60、约70、约80、约90、约100、约110、约120、约130、约140、约150或更多个引物对进行。在一些实施方案中,扩增是复合扩增。复合扩增允许从基因组的许多靶区域并行地收集大量甲基化信息,即使是从DNA通常不丰富的cfDNA样品中也可以。复合可扩展到一个平台,诸如Ion
Figure BDA0003971977860000511
其中可同时查询多达约24000个扩增子。在一些实施方案中,扩增是巢式扩增。巢式扩增可提高敏感性和特异性。
此外,另一种用于并行检查多个甲基化序列的快速和稳健的方案被称为同步靶向甲基化测序(sTM-Seq)。此项技术的主要特点包括消除了对大量高分子量DNA的需求,以及5-甲基胞嘧啶(5mC)与5-羟甲基胞嘧啶(5hmC)的核苷酸特异性区分。此外,sTM-Seq是可扩展的并且可以用于在一次测序运行中调查几十个样品中的多个基因座。免费提供的基于网络的软件和通用引物用于多用途条形码、文库制备和定制测序,它们使sTM-Seq价格实惠、效率高、适用范围广(例如,如由Asmus,N.等人,Curr Protoc Hum Genet.2019Apr;101(1)所述,其内容通过引用并入本文)。
一般来说,本文提供的方法和系统对于制备下游应用测序反应的无细胞多核苷酸序列是有用的。在一些实施方案中,测序方法是经典桑格测序。测序方法可以包括但不限于:高通量测序、焦磷酸测序、合成测序、单分子测序、纳米孔测序、半导体测序、连接法测序、杂交测序、RNA-Seq
Figure BDA0003971977860000512
Digital Gene Expression
Figure BDA0003971977860000513
下一代测序、单分子合成测序(SMSS)
Figure BDA0003971977860000514
大规模平行测序、Clonal Single MoleculeArray(Solexa)、鸟枪法测序、Maxim-Gilbert测序、引物步移和任何其他测序方法。
焦磷酸测序可指的是一种基于核苷酸掺入后焦磷酸释放的光度检测的实时测序技术,适用于同时分析和定量若干个CpG位置的甲基化程度。在基因组DNA转化后,用聚合酶链式反应(PCR)扩增目标区域,其中两个引物中的一个被生物素化。PCR生成的模板呈现为单链,并且焦磷酸测序引物被退火以定量分析CpG位置。在亚硫酸氢盐处理和PCR之后,序列中每个CpG位置上的每个甲基化程度是由T与C信号的比率决定的,反映了原始序列中每个CpG位点上未甲基化与甲基化胞嘧啶的比例。
V.分类器、机器学习模型和系统
在各个实例中,甲基化测序特征被用作经训练的算法(例如,机器学习模型或分类器)的输入数据集,以寻找序列组成与患者分组之间的相关性。此类患者分组的实例包括疾病或病状的存在、阶段、亚型、应答者与无应答者、以及进展者与无进展者。在各个实例中,生成特征矩阵以比较从具有已知条件或特点的个体中获得的样品。在一些实施方案中,样品从健康个体或不具有任何已知适应症的个体获得并且样品从已知患有癌症的患者中获得。
如本文所用,关于机器学习和模式识别,术语“特征”一般是指被观察现象的单个可测量的特性或特点。“特征”的概念与统计技术中使用的解释变量的概念有关,例如,但不限于线性回归和逻辑回归。特征通常是数字的,但在语法模式识别中使用结构特征,诸如字符串和图。
如本文所用,术语“输入特征”(或“特征”)一般是指被经训练的算法(例如模型或分类器)用来预测样品的输出分类(标签)的变量,例如条件、序列内容(例如突变)、建议的数据收集操作或建议的处理。变量的值可以确定为一个样品,并用于确定分类。
在各个实例中,遗传数据的输入特征包括:比对变量,其与序列数据(例如序列读取)同基因组的比对相关,和非比对变量,例如与序列读取的序列内容、蛋白质或自身抗体的测量或基因组区域的平均甲基化水平相关。输入特征可以是基因特征,诸如V-绘图度量、FREE-C解卷积、染色质可及性和转录起始位点上的cfDNA测量。甲基化分析中可以使用的指标包括但不限于:CpG、CHG、CHH的逐个碱基甲基化百分比,转化效率(CHH的100-平均甲基化百分比),低甲基化段,甲基化水平(CPG、CHH、CHG的整体平均甲基化,片段长度,片段中点,和在诸如chrM、LINE1或ALU的一个或多个基因组区域中的甲基化水平),每个片段的甲基化CpG的数量,每个片段的CpG甲基化占总CpG的分率,每个区域的CpG甲基化占总CpG的分率,面板中CpG甲基化占总CpG的分率,二核苷酸覆盖率(归一化的二核苷酸覆盖率),覆盖均匀度(在1x和10x平均基因组覆盖下的独特CpG位点(对于S4运行)),整体平均CpG覆盖率(深度),以及在CpG岛、CGI架、CGI岸处的平均覆盖率。这些指标可以用作机器学习方法和模型的特征输入。
对于多个测定,系统鉴定特征集以输入到经训练的算法(例如,机器学习模型或分类器)中。系统对每一个分子类别进行分析,并从测量值形成特征向量。系统将特征向量输入到机器学习模型中,并得到生物样品是否具有指定特性的输出分类。
在一些实施方案中,机器学习模型输出一个分类器,该分类器能够区分个体的两个或更多个分组或类别或个体群体中的特征或群体的特征。在一些实施方案中,分类器是经训练的机器学习分类器。
在一些实施方案中,对肿瘤组织中生物标志物的信息基因座或特征进行分析,以形成图谱。受试者工作特征(ROC)曲线可通过绘制特定特征(例如,本文所述的任何生物标志物和/或任何额外生物医学信息项)在区分两个群体(例如,对治疗剂有应答的个体和无应答的个体)时的表现来生成。在一些实施方案中,跨整个群体(例如,病例和对照)的特征数据是基于单个特征值按升序排序的。
在各个实例中,指定的特性选自健康与癌症、疾病亚型、疾病阶段、进展者与非进展者、以及应答者与非应答者。
在一些实施方案中,结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。在一些实施方案中,结肠细胞增殖性病症包括结直肠癌。
A.数据分析
在一些实例中,本公开提供了一种系统、方法或试剂盒,其中数据分析可以在软件应用、计算硬件或这两者中实现。在各个实例中,分析应用或系统包括至少一个数据接收模块、一个数据预处理模块、一个数据分析模块(其可以对一种或多种类型的基因组数据进行操作)、一个数据解释模块或一个数据可视化模块。在一些实施方案中,数据接收模块可包括将实验室硬件或仪器与处理实验室数据的计算机系统连接起来的计算机系统。在一些实施方案中,数据预处理模块可包括硬件系统或计算机软件,其对数据执行操作,以备分析。可应用于预处理模块中的数据的操作的实例包括仿射转换、去噪操作、数据清理、重新格式化或子采样。数据分析模块可专门用于分析来自一个或多个基因组材料的基因组数据,例如,可以获取组装的基因组序列并执行概率和统计分析,以鉴定与疾病、病理、状态、风险、条件或表型相关的异常模式。数据解释模块可以使用分析方法,例如,从统计学、数学或生物学中提取的分析方法,以支持理解已鉴定的异常模式与健康状况、功能状态、预后或风险之间的关系。数据可视化模块可以使用数学建模、计算机图形学或渲染的方法来创建数据的可视化展现,该可视化展现可以促进对结果的理解或解释。
在各个实例中,应用机器学习方法来区分样品群体中的样品。在一些实施方案中,应用机器学习方法来区分健康与晚期疾病(例如腺瘤)样品。
在一些实施方案中,用于训练预测引擎的一个或多个机器学习操作包括以下中的一个或多个:广义线性模型、广义加性模型、非参数回归运算、随机森林分类器、空间回归运算、贝叶斯回归模型、时间序列分析、贝叶斯网络、高斯网络、决策树学习运算、人工神经网络、循环神经网络、卷积神经网络、强化学习操作、线性或非线性回归操作、支持向量机、聚类操作和遗传算法操作。
在各个实例中,计算机处理方法选自逻辑回归、多元线性回归(MLR)、降维、偏最小二乘(PLS)回归、主成分回归、自编码器、变分自编码器、奇异值分解、傅立叶基、小波、判别分析、支持向量机、决策树、分类和回归树(CART)、基于树的方法、随机森林、梯度推进树、逻辑回归、矩阵分解、多维标度(MDS)、降维方法、t-分布随机邻域嵌入(t-SNE)、多层感知器(MLP)、网络聚类、神经模糊和人工神经网络。
在一些实例中,本文公开的方法可以包括对来自个体或多个个体的样品的核酸测序数据的计算分析。
B.分类器生成
一方面,所公开的系统和方法提供了一种分类器,它是基于从cfDNA生物样品甲基化序列分析衍生的特征信息生成的。分类器形成预测引擎的一部分,用于根据生物样品(诸如cfDNA)中鉴定的序列特征在群体中区分各组。
在一些实施方案中,通过以下步骤来创建分类器:将序列信息的相似部分格式化为统一的格式和统一的规模来对序列信息进行归一化;将归一化的序列信息存储在柱状数据库中;通过对存储的归一化序列信息应用一个或多个机器学习操作,预测引擎针对特定群体映射一个或多个特征的组合,来训练预测引擎;将预测引擎应用于所访问的字段信息,以鉴定与分组相关的个体;以及将个体划分到分组中。
在一些实施方案中,通过以下步骤来创建层次结构:将序列信息的相似部分格式化为统一的格式和统一的规模来对序列信息进行归一化;将归一化的序列信息存储在柱状数据库中;通过对存储的归一化序列信息应用一个或多个机器学习操作,预测引擎针对特定群体映射一个或多个特征的组合,来训练预测引擎;将预测引擎应用于所访问的字段信息,以鉴定与分组相关的个体;以及将个体划分到分组中。
如本文所用的特异性一般是指“在没有患病的个体中,检测结果为阴性的概率”。它可以用检测结果为阴性的无病人数除以无病个体的总数来计算。
在各个实例中,模型、分类器或预测检验具有以下特异性:至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。
如本文所用的敏感性一般是指“在患病的个体中,检测结果为阳性的概率”。它可以用检测结果为阳性的患病个体数量除以患病个体的总数来计算。
在各个实例中,模型、分类器或预测检验具有以下敏感性:至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。
如本文所用的阳性预测值一般是指“阳性检测结果正确的概率”。它可以用真阳性检测结果数量除以阳性检测结果总数来计算。
在各个实例中,模型、分类器或预测检验具有以下阳性预测值:至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。
如本文所用的阴性预测值一般是指“阴性检测结果正确的概率”。它可以用真阴性检测结果数量除以阴性检测结果总数来计算。
在各个实例中,模型、分类器或预测检验具有以下阴性预测值:至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。
C.数字处理装置
在一些实例中,本文所述的主题可以包括数字处理装置或其用途。在一些实例中,数字处理装置可以包括一个或多个执行装置功能的硬件中央处理单元(CPU)、图形处理单元(GPU)或张量处理单元(TPU)。在一些实例中,数字处理装置可以包括被配置用于执行可执行指令的操作系统。
在一些实例中,数字处理装置可选地连接计算机网络。在一些实例中,数字处理装置可选地连接到互联网。在一些实例中,数字处理装置可选地连接到云计算设施。在一些实例中,数字处理装置可选地连接到内联网。在一些实例中,数字处理装置可选地连接到数据存储装置。
合适的数字处理装置的非限制性实例包括服务器计算机、台式计算机、笔记本计算机、笔记本计算机、子笔记本计算机、上网本计算机、上网板计算机、机顶盒计算机、手持计算机、互联网电器、移动智能手机和平板计算机。合适的平板计算机可以包括例如具有小册子、笔记板和可转换配置的那些。
在一些实例中,数字处理装置可以包括被配置用于执行可执行指令的操作系统。举例来说,操作系统可以包括软件,包括程序和数据,用于管理装置的硬件并为应用的执行提供服务。操作系统的非限制性实例包括Ubuntu、FreeBSD、OpenBSD、
Figure BDA0003971977860000572
Linux、
Figure BDA0003971977860000571
Mac OS X
Figure BDA0003971977860000573
Windows
Figure BDA0003971977860000574
Figure BDA0003971977860000575
合适的个人计算机操作系统的非限制性实例包括
Figure BDA0003971977860000576
Figure BDA0003971977860000577
Mac OS
Figure BDA0003971977860000578
和UNIX样操作系统,诸如
Figure BDA0003971977860000579
在一些实例中,操作系统可由云计算提供,并且云计算资源可由一个或多个服务提供商提供。
在一些实例中,装置可以包括存储和/或存储器装置。存储和/或存储器装置可以是用于临时或永久地存储数据或程序的一个或多个物理设备。在一些实例中,装置可以是易失性存储器,并且需要电力来维持存储的信息。在一些实例中,装置是非易失性存储器,并且在数字处理装置不通电时保留所存储的信息。在一些实例中,非易失性存储器可以包括闪速存储器。在一些实例中,非易失性存储器可以包括动态随机存取存储器(DRAM)。在一些实例中,非易失性存储器可以包括铁电随机存取存储器(FRAM)。在一些实例中,非易失性存储器可以包括相变随机存取存储器(PRAM)。
在一些实例中,装置可以是存储装置,包括例如CD-ROM、DVD、闪速存储器装置、磁盘驱动器、磁带驱动器、光盘驱动器和基于云计算的存储。在一些实例中,存储和/或存储器装置可以是诸如本文公开的那些装置的组合。在一些实例中,数字处理装置可以包括向用户发送视觉信息的显示器。在一些实例中,显示器可以是阴极射线管(CRT)。在一些实例中,显示器可以是液晶显示器(LCD)。在一些实例中,显示器可以是薄膜晶体管液晶显示器(TFT-LCD)。在一些实例中,显示器可以是有机发光二极管(OLED)显示器。在一些实例中,OLED显示器可以是无源矩阵OLED(PMOLED)或有源矩阵OLED(AMOLED)显示器。在一些实例中,显示器可以是等离子体显示器。在一些实例中,显示器可以是视频投影仪。在一些实例中,显示器可以是诸如本文所公开的那些装置的组合。
在一些实例中,数字处理装置可以包括从用户接收信息的输入装置。在一些实例中,输入装置可以是键盘。在一些实例中,输入装置可以是定点装置,包括例如鼠标、轨迹球、轨迹板、操纵杆、游戏控制器或触控笔。在一些实例中,输入装置可以是触摸屏或多点触摸屏。在一些实例中,输入装置可以是麦克风,用于捕获语音或其他声音输入。在一些实例中,输入装置可以是摄像机,用于捕捉运动或视觉输入。在一些实例中,输入装置可以是诸如本文公开的那些的装置的组合。
D.非临时计算机可读存储介质
在一些实例中,本文所公开的主题可以包括一种或多种非临时计算机可读存储介质,所述存储介质用包含可由可选的网络数字处理装置的操作系统可执行的指令的程序编码。在一些实例中,计算机可读存储介质可以是数字处理装置的有形组件。在一些实例中,计算机可读存储介质可选地是可从数字处理装置移除的。在一些实例中,计算机可读存储介质可以包括例如CD-ROM、DVD、闪速存储器装置、固态存储器、磁盘驱动器、磁带驱动器、光盘驱动器、云计算系统和服务等。在一些实例中,程序和指令可以永久地、大体上永久地、半永久地或非临时性地编码在介质上。
E.计算机系统
本公开提供了被编程以实现本文所述的方法的计算机系统。图1示出了计算机系统101,它被编程或以其他方式配置以存储、处理、鉴定或解释患者数据、生物数据、生物序列和参考序列。计算机系统101可以处理本公开的患者数据、生物数据、生物序列或参考序列的各个方面。计算机系统101可以是用户的电子装置或位于电子装置远端的计算机系统。电子装置可以是移动电子装置。
计算机系统101包括中央处理单元(CPU,本文也称为“处理器”和“计算机处理器”)105,其可以是单核或多核处理器,或者用于并行处理的多个处理器。计算机系统101还包括存储器或存储位置110(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元115(例如,硬盘)、用于与一个或多个其他系统通信的通信接口120(例如,网络适配器)以及外围装置125,诸如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器110、存储单元115、接口120和外围装置125通过通信总线(实线)(诸如主板)与CPU 105通信。存储单元115可以是用于存储数据的数据存储单元(或数据储存库)。借助于通信接口120,计算机系统101可以可操作地耦合到计算机网络(“网络”)130。网络130可以是因特网、互联网和/或外联网,或者与因特网通信的内联网和/或外联网。在一些实例中,网络130是电信和/或数据网络。网络130可以包括一个或多个计算机服务器,其可以实现分布式计算,诸如云计算。在一些实例中,借助于计算机系统101,网络130可以实现点对点网络,这可以使耦合到计算机系统101的装置表现为客户端或服务器。
CPU 105可以执行一系列机器可读的指令,这些指令可以体现在程序或软件中。指令可以存储在存储器位置(诸如存储器110)中。指令可以被引导到CPU 105,其可随后编程或以其他方式配置CPU 105以实施本公开的方法。由CPU 105进行的操作的实例可以包括提取、解码、执行和写回。
CPU 105可以是电路(诸如集成电路)的一部分。系统101的一个或多个其他部件可以包括在电路中。在一些实例中,电路是专用集成电路(ASIC)。
存储单元115可以存储文件,诸如驱动程序、库和保存的程序。存储单元115可以存储用户数据,例如,用户偏好和用户程序。在一些实例中,计算机系统101可以包括计算机系统101外部的一个或多个附加数据存储单元,诸如位于通过内联网或互联网与计算机系统101通信的远程服务器上。
计算机系统101可以通过网络130与一个或多个远程计算机系统通信。例如,计算机系统101可以与用户的远程计算机系统通信。远程计算机系统的实例包括个人计算机(例如,便携式PC)、平板(slate/tablet)PC(例如,
Figure BDA0003971977860000602
iPad、
Figure BDA0003971977860000601
Galaxy Tab)、电话、智能手机(例如,
Figure BDA0003971977860000603
iPhone、支持安卓的装置、
Figure BDA0003971977860000604
)或个人数字助理。用户可以经由网络130访问计算机系统101。
如本文所述的方法可以通过存储在计算机系统101的电子存储位置上(例如像,存储在存储器110或电子存储单元115上)的机器(例如,计算机处理器)可执行代码来实现。可以用软件的形式提供机器可执行或机器可读代码。在使用期间,代码可由处理器105执行。在一些实例中,代码可以从存储单元115中取回并存储在存储器110上以供处理器105访问。在一些实例中,可以排除电子存储单元115,而将机器可执行指令存储在存储器110上。
代码可以被预编译和配置成与具有适于执行代码的处理器的机器一起使用,或者可以在运行时解释或编译。可以用编程语言提供代码,可以选择所述编程语言以使代码能够以预编译、解释或所编译的方式执行。
本文提供的系统和方法的方面,诸如计算机系统101,可以在编程中体现。所述技术的各个方面可以被认为是“产品”或“制品”,通常是机器(或处理器)可执行代码和/或相关数据的形式,其被承载或包含在一种类型的机器可读介质中。机器可执行代码可以存储在电子存储单元诸如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”类型的介质可以包括计算机、处理器等的任何或所有有形存储器或其相关模块,诸如各种半导体存储器、磁带驱动器、磁盘驱动器等,它们可以在任何时候为软件编程提供非临时性存储。软件的全部或部分有时可以通过互联网或各种其他电信网络进行通信。例如,此类通信可以使得能够将软件从一台计算机或处理器加载到另一台计算机或处理器中,例如,从管理服务器或主计算机加载到应用服务器的计算机平台中。因此,可以承载软件元素的另一种类型的介质包括光、电和电磁波,诸如通过有线和光学陆线网络以及各种空中链路在本地装置之间的物理接口上使用的。携带此类波的物理元件,诸如有线或无线链路、光链路等,也可以被认为是承载软件的介质。如本文所用,除非限于非临时性的、有形的“存储”介质,否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。
因此,机器可读介质(诸如计算机可执行代码)可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如,光盘或磁盘,如任何一个或多个计算机等中的任何存储装置,诸如可以用于实现附图中所示的数据库等。易失性存储介质包括动态存储器,诸如这种计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内总线的电线。载波传输介质可以采取电信号或电磁信号的形式,或者声波或光波的形式,如在射频(RF)和红外(IR)数据通信期间产生的那些声波或光波。因此,计算机可读介质的常见形式包括例如:软盘、软磁盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有孔图案的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒式磁带、传输数据或指令的载波、传输这种载波的电缆或链路,或者计算机可以从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可以涉及将一个或多个指令的一个或多个序列传送到处理器以供执行。
计算机系统101可以包括电子显示器135或与电子显示器135通信,所述电子显示器135包括用户界面(UI)140,以用于提供例如核酸序列、浓缩核酸样品、甲基化谱、表达谱、以及甲基化或表达谱的分析。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。
本公开的方法和系统可以通过一种或多种算法来实现。算法可以在由中央处理单元105执行时通过软件来实现。例如,算法可以存储、处理、鉴定或解释患者数据、生物数据、生物序列和参考序列。
虽然本文已经示出和描述了方法和系统的某些实例,但技术人员会意识到这些只是通过举例方式提供的,并且不打算在说明书中加以限制。在不脱离本文所述的范围的情况下,本领域技术人员现将会想到许多变化、改变和替代。此外,应理解所述方法和系统的所有方面不限于本文所列举的具体描述、配置或相对比例,这些描述取决于多种条件和变量,并且描述旨在包括此类替代方案、修改、变化或等价物。
在一些实例中,本文所公开的主题可以包括至少一个计算机程序或其用途。计算机程序可以是在数字处理装置的CPU、GPU或TPU中执行、被编写以执行指定任务的指令序列。计算机可读指令可被实现为执行特定任务或实现特定抽象数据类型的程序模块,诸如函数、对象、应用编程接口(API)、数据结构等。鉴于本文提供的公开内容,计算机程序能够以各种版本的各种语言编写。
在各种环境中,可以根据需要对计算机可读指令的功能进行组合或分配。在一些实例中,计算机程序可以包括一个指令序列。在一些实例中,计算机程序可以包括多个指令序列。在一些实例中,计算机程序可以由一个位置提供。在一些实例中,计算机程序可以由多个位置提供。在一些实例中,计算机程序可以包括一个或多个软件模块。在一些实例中,计算机程序可以部分或整体地包括一个或多个网络应用、一个或多个移动应用、一个或多个独立应用、一个或多个网络浏览器插件、扩展项、加载项或附加项、或其组合。
在一些实例中,计算机处理可以是统计学、数学、生物学或其任何组合的方法。在一些实例中,计算机处理方法包括降维方法,例如,包括逻辑回归、降维、主成分分析、自编码器、奇异值分解、傅立叶基、奇异值分解、小波、判别分析、支持向量机、基于树的方法、随机森林、梯度推进树、逻辑回归、矩阵分解、网络聚类和神经网络。
在一些实例中,计算机处理方法是有监督的机器学习方法,包括例如回归、支持向量机、基于树的方法和网络。
在一些实例中,计算机处理方法是无监督的机器学习方法,包括例如聚类、网络、主成分分析和矩阵分解。
F.数据库
在一些实例中,本文公开的主题可以包括一个或多个数据库,或使用该数据库存储患者数据、生物数据、生物序列或参考序列的用途。参考序列可以从数据库中衍生。鉴于本文提供的公开内容,许多数据库可适用于存储和检索序列信息。在一些实例中,合适的数据库可以包括例如关系数据库、非关系数据库、面向对象的数据库、对象数据库、实体-关系模型数据库、关联数据库以及XML数据库。在一些实例中,数据库可以是基于互联网的。在一些实例中,数据库可以是基于网络的。在一些实例中,数据库可以是基于云计算的。在一些实例中,数据库可以是基于一个或多个本地计算机存储装置的。
一方面,本公开提供了一种非临时的计算机可读介质,其包括指示处理器执行本文所述的方法的指令。
一方面,本公开提供了一种包括计算机可读介质的计算装置。
在另一方面,本公开提供了一种对生物样品进行分类的系统,包括:a)接收多个训练样品的接收器,所述多个训练样品中的每个具有多个类别的分子,其中所述多个训练样品中的每个包含一个或多个已知标记,b)特征模块,用于鉴定与测定相对应的可操作的特征集,以便为多个训练样品中的每个输入到机器学习模型中,其中特征集对应于多个训练样品中的分子特性,其中对于多个训练样品中的每个,所述系统可操作以使训练样品中的多个类别的分子进行多个不同的测定,以获得测量值集,其中每个测量值集都来自于对训练样品中的一类分子进行的一次测定,其中为多个训练样品获取多个测量值集,c)分析模块,用于对测量值集进行分析,以得到训练样品的训练向量,其中训练向量包括对应测定的N个特征集的特征值,每个特征值对应于一个特征并包括一个或多个测量值,其中训练向量使用来自与多个不同测定的第一子集相对应的N个特征集中的至少两个的至少一个特征而形成,d)标记模块,用于使用机器学习模型的参数通知系统关于训练向量的信息,以便为多个训练样品获取输出标记,e)比较器模块,用于将输出标记与训练样品的已知标记相比较,f)训练模块,用于迭代搜索参数的最优值作为训练机器学习模型的一部分,该模型基于输出标记与训练样品的已知标记的比较,以及g)输出模块,用于提供机器学习模型的参数和机器学习模型的特征集。
VI.对群体中的对象进行分类的方法
所公开的方法旨在通过对象中的cfDNA分析,确定与结肠细胞增殖性病症相关的基因组DNA的遗传和/或表观遗传参数。所述方法用于改进结肠细胞增殖性病症的诊断、治疗和监测,更具体地说,是通过改进所述病症的阶段或亚类与所述病症的遗传易感性之间的鉴定和区分。
在一些实施方案中,所述方法包括分析CpG岛、CpG岸或CpG架的甲基化状态。
在一些实施方案中,所述方法包括分析生物样品中无细胞核酸的甲基化状态、半甲基化状态、高甲基化状态或低甲基化状态。
一方面,本公开提供了一种用于检测结肠细胞增殖性病症的方法,其可应用于无细胞样品,例如,以检测无细胞循环的结肠细胞增殖性病症DNA。所述方法利用在单次测序读取中甲基化信号的检测作为基本的“阳性”结肠细胞增殖性病症信号。
在一些实施方案中,结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。在一些实施方案中,结肠细胞增殖性病症包括结直肠癌。
一方面,本公开提供了一种用于检测结肠细胞增殖性病症的方法,包括:从对象获得的无细胞样品提取DNA,转化至少一部分所述DNA以供甲基测序,扩增癌症中由转化的DNA产生的甲基化区域,从扩增的区域生成测序读取,以及检测结肠细胞增殖性病症的信号,其包含至少一个、至少两个、至少三个或多于三个在癌症面板内的甲基化区域,以获取输入特征,所述特征被输入到机器学习模型中,以获得能够区分两组对象(例如,健康与癌症、疾病阶段、晚期腺瘤与癌症)的分类器。
本文所述的经训练的机器学习方法、模型和鉴别分类器可应用于各种医疗应用,包括癌症检测、诊断和治疗应答性。由于模型可以用个体元数据和分析物衍生特征来训练,所以应用可以进行定制,以对群体中的个体进行分层,并相应地指导治疗决策。
诊断
本文提供的方法和系统可以使用基于人工智能的方法执行预测分析,以分析从对象(患者)获得的数据,从而生成对患癌(例如,结直肠癌)对象的诊断输出。例如,所述应用可以对所获取的数据应用预测算法,以生成对患癌对象的诊断。预测算法可以包括基于人工智能的预测器,诸如基于机器学习的预测器,其被配置来处理所获取的数据,以生成对患癌对象的诊断。
机器学习预测器可以使用数据集来训练,例如,使用本文所述的签名面板对来自一个或多个患癌患者队列集的个体生物样品进行甲基化测定生成的数据集作为输入,和对象的已知诊断(例如,阶段和/或肿瘤分数)结果作为机器学习预测器的输出。
训练数据集(例如,使用本文所述的签名面板对个体生物样品进行甲基化测定而生成的数据集)可以从例如具有共同特点(特征)和结果(标记)的一个或多个对象集生成。训练数据集可以包括与诊断相关的特征相对应的特征和标记集。特征可以包括一些特点,例如像cfDNA测定测量的某些范围或类别,诸如从健康和疾病样品中获得的生物样品中重叠或落在参考基因组的箱(基因组窗口)集合中的cfDNA片段的计数。例如,在给定的时间点从给定的对象收集的特征集可以共同充当诊断签名,这可指示在给定的时间点对象患有已鉴定的癌症。特点还可以包括指示对象诊断结果(诸如一种或多种癌症)的标记。
标记可以包括结果,例如对象的已知诊断(例如,阶段和/或肿瘤分数)结果。结果可以包括与对象的癌症相关的特点。例如,特点可指示对象患有一种或多种癌症。
训练集(例如,训练数据集)可以通过对与一个或多个对象集(例如,患有或未患有一种或多种癌症的回顾性和/或前瞻性患者队列)相对应的一个数据集的随机抽样来选择。或者,训练集(例如,训练数据集)可以通过对与一个或多个对象集(例如,患有或未患有一种或多种癌症的回顾性和/或前瞻性患者队列)相对应的一个数据集的比例抽样来选择。训练集可以在与一个或多个对象集(例如,来自不同临床地点或试验的患者)相对应的数据集之间进行平衡。可以对机器学习预测器进行训练,直到满足某些预先确定的准确性或性能条件,诸如具有与诊断准确性度量相对应的最小期望值。例如,诊断准确性度量可对应于对对象的一种或多种癌症的诊断、阶段或肿瘤分数的预测。
诊断准确性度量的实例可以包括敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)、准确性以及与检测或预测癌症(例如结直肠癌)的诊断准确性相对应的受试者工作特征(ROC)曲线的曲线下面积(AUC)。
一方面,本公开提供了一种使用能够区分个体群体的分类器的方法,包括:a)对生物样品中的多个类别的分子进行分析,其中所述分析提供了代表所述多个类别分子的多个测量值集;b)鉴定与输入到机器学习或统计模型中的多个类别分子的每个的特性相对应的特征集;c)从所述多个测量值集的每个中准备特征值的特征向量,每个特征值对应于特征集的一个特征并且包括一个或多个测量值,其中所述特征向量包括使用所述多个测量值集的每个集获得的至少一个特征值;d)将以下装入计算机系统的存储器中:包括分类器的经训练的机器学习模型、使用从训练生物样品获得的训练向量来训练的经训练的机器学习模型、被鉴定为具有指定特性的训练生物样品的第一子集和被鉴定为不具有指定特性的训练生物样品的第二子集;以及e)将经训练的机器学习模型应用到特征向量上,以获得生物样品是否具有指定特性的输出分类,从而区分具有指定特性的个体群体。
一方面,本公开提供了一种使用能够区分个体群体的层次结构的方法,包括:a)对生物样品中的多个类别的分子进行分析,其中所述分析提供了代表所述多个类别分子的多个测量值集;b)鉴定与输入到机器学习或统计模型中的多个类别分子的每个的特性相对应的特征集;c)从所述多个测量值集的每个中准备特征值的特征向量,每个特征值对应于特征集的一个特征并且包括一个或多个测量值,其中所述特征向量包括使用所述多个测量值集的每个集获得的至少一个特征值;d)将以下装入计算机系统的存储器中:包括分类器的经训练的机器学习模型、使用从训练生物样品获得的训练向量来训练的经训练的机器学习模型、被鉴定为具有指定特性的训练生物样品的第一子集和被鉴定为不具有指定特性的训练生物样品的第二子集;以及e)将经训练的机器学习模型应用到特征向量上,以获得生物样品是否具有指定特性的输出分类,从而区分具有指定特性的个体群体。
一方面,本公开提供一种使用能够区分个体群体的层次结构的方法,包括:a)在一个或多个第一患者样品中,在预先选定的基因组区域的单次测序读取中检测甲基化信号,b)甲基化信号影响数据输出的层次结构,从而影响机器学习模型,以及c)第二患者样品使用受影响的层次结构来检测甲基化信号。
在一些实施方案中,预先选择的基因组区域选自表1-11中的两个或更多个甲基化基因组区域、表1-11中的三个或更多个甲基化基因组区域、表1-11中的四个或更多个甲基化基因组区域、表1-11中的五个或更多个甲基化基因组区域、表1-11中的六个或更多个甲基化基因组区域、表1-11中的七个或更多个甲基化基因组区域、表1-11中的八个或更多个甲基化基因组区域、表1-11中的九个或更多个甲基化基因组区域、表1-11中的十个或更多个甲基化基因组区域、表1-11中的十一个或更多个甲基化基因组区域、表1-11中的十二个或更多个甲基化基因组区域、或表1-11中的十三个或更多个甲基化基因组区域。
在另一方面,本公开提供了一种用于鉴定对象的癌症的方法,包括:a)提供来自所述对象的含有无细胞核酸(cfNA)分子的生物样品;b)对来自所述对象的所述cfNA分子进行甲基转化和测序以生成多个cfNA测序读取;c)将所述多个cfNA测序读取与参考基因组比对;d)在所述参考基因组的第一多个基因组区域的每个上生成所述多个cfNA测序读取的定量量度,以生成第一cfNA特征集,其中所述参考基因组的所述第一多个基因组区域包含至少约10个不同的区域,所述至少约10个不同的区域中的每个包含选自本文所述的签名面板中的甲基化区域的基因的至少一部分;以及e)将经训练的算法应用到所述第一cfNA特征集,以生成所述对象患有所述癌症的可能性。
在一些实例中,所述至少约10个不同的区域包含至少约20个不同的区域,所述至少约20个不同的区域中的每个包含表1-11中鉴定的甲基化区域的至少一部分。在一些实例中,所述至少约10个不同的区域包含至少约30个不同的区域,所述至少约30个不同的区域中的每个包含表1-11中鉴定的甲基化区域的至少一部分。
作为另一个实例,这种预先确定的条件可以是包括以下值的预测结肠细胞增殖性病症的特异性:例如,至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%。
作为另一个实例,这种预先确定的条件可以是包括以下值的预测结肠细胞增殖性病症的阳性预测值(PPV):例如,至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%。
作为另一个实例,这种预先确定的条件可以是包括以下值的预测结肠细胞增殖性病症的阴性预测值(NPV):例如,至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%。
作为另一个实例,这种预先确定的条件可以是包括以下值的预测结肠细胞增殖性病症的受试者工作特征(ROC)曲线的曲线下面积(AUC):至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.95、至少约0.96、至少约0.97、至少约0.98、或至少约0.99。
治疗应答性
本文所述的预测分类器、系统和方法可用于对个体群体进行分类,以用于多种临床应用(例如,基于使用本文所述的签名面板对个体生物样品进行甲基化测定)。这类临床应用的实例包括:检测早期癌症、诊断癌症、将癌症分为特定的疾病阶段、确定对治疗癌症的治疗剂的应答性或耐药性。
本文所述的方法和系统可应用于结肠细胞增殖性病症的特点,诸如分级和阶段。因此,在本系统和方法中可使用分析物与测定的组合来预测不同组织中不同癌症类型的癌症治疗剂的应答性,并根据治疗应答性对个体进行分类。在一些实施方案中,本文所述的分类器能够将一组个体分层为治疗应答者与非应答者。
本公开还提供了一种用于确定目标病状或疾病的药物靶标(例如,与特定类别相关或重要的基因)的方法,包括:评估从个体获得的样品中至少一种基因的基因表达水平;以及使用邻域分析程序,确定与样品分类相关的基因,由此确定一个或多个与分类相关的药物靶标。
本公开还提供了一种用于确定被设计来治疗疾病类别的药物的功效的方法,包括:从患有所述疾病类别的个体获取样品;使样品经受药物作用;评估经药物暴露的样品中至少一种基因的基因表达水平;以及利用加权投票方案建立的计算机模型,根据样品相对于模型的相对基因表达水平的函数,将经药物暴露的样品划分到一类疾病中。
本公开还提供了一种用于确定被设计来治疗疾病类别的药物的功效的方法,其中个体已受所述药物的作用,所述方法包括从受到药物作用的个体获取样品;评估样品中至少一种基因的基因表达水平;以及使用加权投票方案建立的模型,将样品划分到一类疾病中,包括与模型的基因表达水平相比评估样品的基因表达水平。
本公开还提供了一种确定个体是否属于表型类别(例如,智力、对治疗的应答、寿命长短、病毒性感染或肥胖的可能性)的方法,包括:从个体获取样品;评估样品中至少一种基因的基因表达水平;以及使用加权投票方案建立的模型,将样品划分到一类疾病中,包括与模型的基因表达水平相比评估样品的基因表达水平。
一方面,本文所述的与基于治疗应答性对群体分类相关的系统和方法是指使用DNA损伤剂、DNA修复靶向疗法、DNA损伤信号传导抑制剂、DNA损伤诱导细胞周期阻滞抑制剂和间接导致DNA损伤的过程抑制等类别但不限于这些类别)的(化疗剂治疗的癌症。这些化疗剂中的每一种都可被认为是“DNA损伤治疗剂”,如本文使用的术语一样。
基于患者的分析物数据,可将患者划分到高风险和低风险患者分组中,诸如临床复发风险高或低的患者,并且结果可用于确定治疗过程。例如,被确定为高危患者的患者可在手术后接受辅助化疗。对于被视为低危患者的患者,手术后可停止辅助化疗。因此,本公开在某些方面提供了一种制备指示复发风险的结肠癌肿瘤基因表达谱的方法。
在各个实例中,本文所述的分类器能够在对治疗有应答者与无应答者之间对个体群体进行分层。
另一方面,本文公开的方法可应用于涉及癌症检测或监测的临床应用。
在一些实施方案中,本文公开的方法可用于确定和/或预测对治疗的应答。
在一些实施方案中,本文公开的方法可用于监测和/或预测肿瘤负荷。
在一些实施方案中,本文公开的方法可用于检测和/或预测术后残留肿瘤。
在一些实施方案中,本文公开的方法可用于检测和/或预测治疗后的微小残留疾病。
在一些实施方案中,本文公开的方法可用于检测和/或预测复发。
一方面,本文公开的方法可用作二次筛查。
一方面,本文公开的方法可用作一次筛查。
一方面,本文公开的方法可用于监测癌症发展。
一方面,本文公开的方法可用于监测和/或预测癌症风险。
VII.鉴定或监测结直肠癌
在使用经训练的算法处理数据集后,可以在对象中鉴定或监测结直肠癌。所述鉴定可以至少部分基于结直肠癌相关基因组基因座面板的数据集序列读取的定量量度(例如,结直肠癌相关基因组基因座的RNA转录物或DNA的定量量度)。
可以以如下准确性在对象中鉴定结直肠癌:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更大。由经训练的算法鉴定结直肠癌的准确性可以计算为独立检测样品(例如,已知患有结直肠癌的对象或结直肠癌临床检测结果为阴性的对象)被正确鉴定或划分为患有或未患有结直肠癌的百分比。
可以以如下阳性预测值(PPV)在对象中鉴定结直肠癌:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更大。使用经训练的算法鉴定结直肠癌的PPV可计算为被鉴定或划分为具有结直肠癌的无细胞生物样品与真正患有结直肠癌的对象相对应的百分比。
可以以如下阴性预测值(NPV)在对象中鉴定结直肠癌:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更大。使用经训练的算法鉴定结直肠癌的NPV可计算为被鉴定或划分为不具有结直肠癌的无细胞生物样品与真正患有结直肠癌的对象相对应的百分比。
可以以如下临床敏感性在对象中鉴定结直肠癌:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.1%、至少约99.2%、至少约99.3%、至少约99.4%、至少约99.5%、至少约99.6%、至少约99.7%、至少约99.8%、至少约99.9%、至少约99.99%、至少约99.999%或更大。使用经训练的算法鉴定结直肠癌的临床敏感性可计算为与存在结直肠癌相关的独立检测样品(例如,已知患有结直肠癌的对象)被正确鉴定或划分为具有结直肠癌的百分比。
可以以如下临床特异性性在对象中鉴定结直肠癌:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.1%、至少约99.2%、至少约99.3%、至少约99.4%、至少约99.5%、至少约99.6%、至少约99.7%、至少约99.8%、至少约99.9%、至少约99.99%、至少约99.999%或更大。使用经训练的算法鉴定结直肠癌的临床特异性可计算为与不存在结直肠癌相关的独立检测样品(例如,结直肠癌临床检测结果为阴性的对象)被正确鉴定或划分为不具有结直肠癌的百分比。
在一些实施方案中,经训练的算法可以确定对象患结直肠癌的风险为至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更大。
经训练的算法可以确定对象有患结直肠癌的风险,准确性为至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.1%、至少约99.2%、至少约99.3%、至少约99.4%、至少约99.5%、至少约99.6%、至少约99.7%、至少约99.8%、至少约99.9%、至少约99.99%、至少约99.999%或更大。
在鉴定对象患有结直肠癌后,可以为对象提供治疗性干预(例如,为对象开出或施用治疗结直肠癌的适当治疗过程)。治疗性干预可以包括处方有效剂量的药物、对结直肠癌的进一步检测或评估、对结直肠癌的进一步监测,或其组合。如果对象目前正在以一个治疗过程接受结直肠癌的治疗,则治疗性干预可以包括后续的不同治疗过程(例如,由于当前治疗过程无效而增加治疗功效)。治疗性干预可由例如“WHO list of priority medicaldevices for cancer management,WHO Medical device technical series”,WorldHealth Organization,ISBN:978-92-4-156546-2,Geneva,2017来描述,其内容通过引用并入本文。治疗性干预可由例如Wolpin等人,“Systemic Treatment of ColorectalCancer,”Gastroenterology,第134卷,第5期,2008,第1296-1310.e1页来描述,其内容通过引用并入本文。
治疗性干预可以包括建议对象进行二次临床检查,以确认结直肠癌的诊断。此二次临床检查可以包括影像学检查、血液检查、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学检查、粪便免疫化学检查(FIT)、粪便潜血检查(FOBT)或其任何组合。
可以在一段时间上评估结直肠癌相关基因组基因座面板上数据集序列读取的定量量度(例如,在结直肠癌相关基因组基因座上的RNA转录物或DNA的定量量度),以监测患者(例如,患有结直肠癌或正在接受结直肠癌治疗的对象)。在这种情况下,患者数据集的定量量度可在治疗过程中发生变化。例如,对因有效治疗而降低结直肠癌风险的患者数据集的定量量度可转向健康对象(例如,未患结直肠癌的对象)的概况或分布。相反,例如,由于治疗无效而导致结直肠癌风险提高的患者数据集的定量量度可转向结直肠癌风险更高或结直肠癌分级或阶段更高的对象的概况或分布。
通过对治疗对象结直肠癌的治疗过程的监测,可监测对象的结直肠癌。监测可包括在两个或更多个时间点评估对象的结直肠癌。所述评估可以至少基于在结直肠癌相关的基因组基因座面板上数据集的序列读取的定量量度(例如,在结直肠癌相关基因组基因座上的RNA转录物或DNA的定量量度),包括在两个或更多个时间点的每个上确定的结直肠癌相关基因组基因座面板的定量量度。
在一些实施方案中,在结直肠癌相关基因组基因座面板上数据集的序列读取的定量量度(例如,在结直肠癌相关基因组基因座上的RNA转录物或DNA的定量量度)的差异,包括在两个或更多个时间点之间确定的结直肠癌相关基因组基因座面板的定量量度的差异,可以指示一个或多个临床指征,诸如:(i)对象的结直肠癌诊断;(ii)对象的结直肠癌预后;(iii)对象患结直肠癌的风险提高;(iv)对象患结直肠癌的风险降低;(v)治疗对象结直肠癌的治疗过程的功效;以及(vi)治疗对象结直肠癌的治疗过程无效。
在一些实施方案中,在结直肠癌相关基因组基因座面板上数据集的序列读取的定量量度(例如,在结直肠癌相关基因组基因座上的RNA转录物或DNA的定量量度)的差异,包括在两个或更多个时间点之间确定的结直肠癌相关基因组基因座面板的定量量度的差异,可以指示对象结直肠癌的诊断。例如,如果对象在较早的时间点没有检测到结直肠癌,但在较晚的时间点检测到,那么差异指示对象结直肠癌的诊断。临床行动或决定可以基于对象的结直肠癌诊断的这个指征作出,例如,为对象开出或施用新的治疗性干预。临床行动或决定可以包括建议对象进行二次临床检查,以确认结直肠癌的诊断。此二次临床检查可以包括影像学检查、血液检查、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学检查、粪便免疫化学检查(FIT)、粪便潜血检查(FOBT)或其任何组合。
在一些实施方案中,在结直肠癌相关基因组基因座面板上数据集的序列读取的定量量度(例如,在结直肠癌相关基因组基因座上的RNA转录物或DNA的定量量度)的差异,包括在两个或更多个时间点之间确定的结直肠癌相关基因组基因座面板的定量量度的差异,可以指示对象结直肠癌的预后。
在一些实施方案中,在结直肠癌相关基因组基因座面板上数据集的序列读取的定量量度(例如,在结直肠癌相关基因组基因座上的RNA转录物或DNA的定量量度)的差异,包括在两个或更多个时间点之间确定的结直肠癌相关基因组基因座面板的定量量度的差异,可以指示对象患结直肠癌的风险提高。例如,如果对象在较早的时间点和较晚的时间点都检测到结直肠癌,且如果差异是正性差异(例如,在结直肠癌相关基因组基因座面板上数据集的序列读取的定量量度(例如,在结直肠癌相关基因组基因座上的RNA转录物或DNA的定量量度)从较早的时间点到较晚的时间点是增加的),则差异可指示对象患结直肠癌的风险提高。临床行动或决定可以基于结直肠癌风险提高的这个指征作出,例如,为对象开出或施用新的治疗性干预或转换治疗性干预(例如,结束当前治疗,并开出或施用新的治疗)。临床行动或决定可以包括建议对象进行二次临床检查,以确认患结直肠癌的风险提高。此二次临床检查可以包括影像学检查、血液检查、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学检查、粪便免疫化学检查(FIT)、粪便潜血检查(FOBT)或其任何组合。
在一些实施方案中,在结直肠癌相关基因组基因座面板上数据集的序列读取的定量量度(例如,在结直肠癌相关基因组基因座上的RNA转录物或DNA的定量量度)的差异,包括在两个或更多个时间点之间确定的结直肠癌相关基因组基因座面板的定量量度的差异,可以指示对象患结直肠癌的风险降低。例如,如果对象在较早的时间点和较晚的时间点都检测到结直肠癌,且如果差异是负性差异(例如,在结直肠癌相关基因组基因座面板上数据集的序列读取的定量量度(例如,在结直肠癌相关基因组基因座上的RNA转录物或DNA的定量量度),包括结直肠癌相关基因组基因座面板的定量量度,从较早的时间点到较晚的时间点是减少的),则差异可指示对象患结直肠癌的风险降低。临床行动或决定可以基于结直肠癌风险降低的这个指征作出,为对象(例如,继续或结束当前的治疗性干预)。临床行动或决定可以包括建议对象进行二次临床检查,以确认患结直肠癌的风险降低。此二次临床检查可以包括影像学检查、血液检查、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学检查、粪便免疫化学检查(FIT)、粪便潜血检查(FOBT)或其任何组合。
在一些实施方案中,在结直肠癌相关基因组基因座面板上数据集的序列读取的定量量度(例如,在结直肠癌相关基因组基因座上的RNA转录物或DNA的定量量度)的差异,包括在两个或更多个时间点之间确定的结直肠癌相关基因组基因座面板的定量量度的差异,可以指示治疗对象结直肠癌的治疗过程的功效。例如,如果对象在较早的时间点检测到结直肠癌,但在较晚的时间点没有检测到,那么差异可指示治疗对象结直肠癌的治疗过程的功效。临床行动或决定可以基于治疗对象结直肠癌的治疗过程功效的这个指征作出,例如,为对象继续或结束当前的治疗性干预。临床行动或决定可以包括建议对象进行二次临床检查,以确认治疗对象结直肠癌的治疗过程的功效。此二次临床检查可以包括影像学检查、血液检查、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学检查、粪便免疫化学检查(FIT)、粪便潜血检查(FOBT)或其任何组合。
在一些实施方案中,在结直肠癌相关基因组基因座面板上数据集的序列读取的定量量度(例如,在结直肠癌相关基因组基因座上的RNA转录物或DNA的定量量度)的差异,包括在两个或更多个时间点之间确定的结直肠癌相关基因组基因座面板的定量量度的差异,可以指示治疗对象结直肠癌的治疗过程无效。例如,如果对象在较早的时间点和较晚的时间点都检测到结直肠癌,且如果差异是正性或零差异(例如,在结直肠癌相关基因组基因座面板上数据集的序列读取的定量量度(例如,在结直肠癌相关基因组基因座上的RNA转录物或DNA的定量量度),包括结直肠癌相关基因组基因座面板的定量量度,从较早的时间点到较晚的时间点是增加的或保持在恒定水平),则差异可指示治疗对象结直肠癌的治疗过程无效。临床行动或决定可以基于治疗对象结直肠癌的治疗过程无效的这个指征作出,例如,为对象结束当前的治疗性干预和/或转换(例如开出或施用)新的不同治疗性干预。临床行动或决定可以包括建议对象进行二次临床检查,以确认治疗对象结直肠癌的治疗过程的无效。此二次临床检查可以包括影像学检查、血液检查、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学检查、粪便免疫化学检查(FIT)、粪便潜血检查(FOBT)或其任何组合。
VIII.试剂盒
本公开提供了用于鉴定或监测对象癌症的试剂盒。试剂盒可以包括探针,用于鉴定对象的无细胞生物样品中多个癌症相关基因组基因座中每个上的序列定量量度(例如,指示存在、不存在或相对数量)。无细胞生物样品中多个癌症相关基因组基因座中每个上的序列定量量度(例如,指示存在、不存在或相对数量)可指示一种或多种癌症。探针可对无细胞生物样品中多个癌症相关基因组基因座上的序列有选择性。试剂盒可以包括使用探针处理无细胞生物样品以生成数据集的说明书,所述数据集指示对象的无细胞生物样品中多个癌症相关基因组基因座的每个上的序列定量量度(例如,指示存在、不存在或相对数量)。
试剂盒中的探针可对无细胞生物样品中多个癌症相关基因组基因座上的序列有选择性。试剂盒中的探针可被配置为选择性富集与多个癌症相关基因组基因座相对应的核酸(例如RNA或DNA)分子。试剂盒中的探针可以是核酸引物。试剂盒中的探针可与来自多个癌症相关基因组基因座或基因组区域中的一个或多个的核酸序列具有序列互补性。多个癌症相关基因组基因座或基因组区域可以包含至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个或更多个不同的癌症相关基因组基因座或基因组区域。多个癌症相关基因组基因座或基因组区域可以包含选自表1-11中所列区域的一个或多个成员。
试剂盒中的说明书可以包括使用对无细胞生物样品中多个癌症相关基因组基因座上的序列有选择性的探针来测定所述无细胞生物样品的说明书。这些探针可以是核酸分子(例如RNA或DNA),与来自多个癌症相关基因组基因座中的一个或多个的核酸序列(例如RNA或DNA)具有序列互补性。这些核酸分子可以是引物或富集序列。测定无细胞生物样品的说明书可以包括执行阵列杂交、聚合酶链式反应(PCR)或核酸测序(例如,DNA测序或RNA测序)以处理无细胞生物样品由此生成数据集的说明书,所述数据集指示在无细胞生物样品中多个癌症相关基因组基因座的每个上的序列定量量度(例如,指示存在、不存在或相对数量)。无细胞生物样品中多个癌症相关基因组基因座中每个上的序列定量量度(例如,指示存在、不存在或相对数量)可指示一种或多种癌症。
试剂盒中的说明书可以包括测量和解释测定读出的说明书,所述测定读出可以在多个癌症相关基因组基因座中的一个或多个处量化,以生成数据集,所述数据集指示无细胞生物样品中多个癌症相关基因组基因座的每个上的序列定量量度(例如,指示存在、不存在或相对数量)。例如,与多个癌症相关基因组基因座相对应的阵列杂交或聚合酶链式反应(PCR)的量化可以生成指示无细胞生物样品中多个癌症相关基因组基因座的每个上的序列定量量度(例如,指示存在、不存在或相对数量)的数据集。测定读出可包括定量PCR(qPCR)值、数字PCR(dPCR)值、数字液滴PCR(ddPCR)值、荧光值等,或其归一化值。
实施例
实施例1:用于结直肠癌检测的甲基化区域的选择
对于结直肠癌,使用本公开的系统和方法,在肿瘤中鉴定了20个高度甲基化的基因组区域,但其中多个正常组织不表现出这些区域的甲基化。这些区域被用作存在肿瘤的高度特异性标志物,背景信号几乎没有或没有。
在表12中,‘位置开始-位置结束’指定人类基因组参考序列hg18构建中靶区域的坐标。基因ID和染色体场是指与编号区域相关的基因和染色体编号。相对于邻近基因的这些序列的检查表明,它们分别见于上游、5’启动子、5’增强子、内含子、外显子、远端启动子、编码区或基因间区中。
使用
Figure BDA0003971977860000805
无细胞DNA分离试剂盒(Applied
Figure BDA0003971977860000802
),根据制造商说明书从250微升(μL)血浆中提取无细胞DNA(掺有独特的合成双链DNA(dsDNA)片段用于样品跟踪)。使用
Figure BDA0003971977860000803
Ultra II DNA文库制备试剂盒(New England
Figure BDA0003971977860000801
)制备配对末端测序文库,包括聚合酶链式反应(PCR)扩增和独特分子标识符(UMI),并使用
Figure BDA0003971977860000804
NovaSeq 6000测序系统在多个S2或S4流细胞上以2x5 l碱基对测序,直至最少4亿个读取(中值=6.36亿个读取)。
针对结直肠癌的探针
PCR引物对被开发到基因组的不同区域,这些区域在来自TOGA数据库的多个结直肠癌样品中显示出广泛的甲基化,但在多个正常组织和血细胞(外周血单核细胞和其他)中没有或有很少甲基化。
然后,这些引物被用于从有患结直肠癌风险的个体的血浆样品中扩增转化的DNA。将测序适配体连接到DNA上,并进行下一代测序。然后将测序读取按区域分离,并使用诸如BiQ Analyzer HT程序的工具对序列读取进行分析。
对所获得的测序读取进行解复用,适配体修整,并使用Burrows Wheeler比对器(BWA-MEM 0.7.15)将其与人类参考基因组(带有诱饵、alt重叠群和HLA重叠群的GRCh38)比对。PCR复制片段若存在,则使用片段端点和/或UMI移除。
通过计数与基因组中每个推定蛋白质编码区对齐的片段的数量,为每个样品创建cfDNA“谱”。此类型的数据展现显示了cfDNA通过可变核小体保护的表观遗传变化,导致观察到的与对照相比的覆盖率和甲基化增加的片段的变化。
人类基因组的功能区集,包括推定的蛋白质编码基因区(基因组坐标范围包括内含子和外显子),在测序数据中被注释。蛋白质编码基因区(“基因”区域)的注释获自综合人类表达序列(CHESS)项目(v1.0)。
获得的结果如下。
表12提供了从患结直肠癌的个体的样品中鉴定的无细胞核酸样品中高甲基化的基因组区域的集合。对于每个区域,提供了该区域中甲基化CpG位点的示例性数量作为用于区分健康个体与CRC个体的阈值。
表12
Figure BDA0003971977860000811
Figure BDA0003971977860000821
在这里的讨论中,对诸如ITGA4、TMEM163和SFMBT2的基因的提及例如可能并不指示所关注的基因本身,而是指示在签名面板中描述的相关甲基化区域。
总共有50个区域被发现是与CRC相关的高甲基化的。为了区分健康个体与CRC个体,并非所有区域都需要纳入分类模型中。因此,一些区域似乎大体指示所评估的各种类型癌症。其他区域在这些的亚组中被甲基化,而剩下的则对癌症有特异性。在此测定和所检查的癌症类型的背景下,当在预测模型中训练样品序列时,某些区域可被描述为“在结直肠癌中特别甲基化的”,并在签名中具有更高的权重。这些与CRC相关的权重较高的甲基化区域被用于特定模型中,该模型经训练以区分健康个体群体与CRC个体群体。
实施例2:构建和训练用于区分结直肠癌个体群体的分类模型
使用本公开的系统和方法,使用基于人工智能的方法构建和训练机器学习分类模型,以分析从对象获取的cfDNA数据(生成患有结直肠癌的对象的诊断输出)。
预期的人类血浆样品是从49例诊断为CRC的患者中获取的。此外,从目前没有癌症诊断(但可能有其他共病或未诊断的癌症)的患者中获取了92个对照样品的集合。所有样品都被去身份化。
为每个样品获取每个患者的年龄、性别和癌症阶段(可用时)。将从每个患者收集的血浆样品在-80℃下保存,并在使用前解冻。表13提供了研究队列的描述,其中显示了用于CRC实验的健康和癌症样品的数量(按阶段、性别和年龄划分)。
表13
Figure BDA0003971977860000831
Figure BDA0003971977860000841
根据本文所述的方法,特别是实施例1中所述的方法,对样品进行处理和测序。表12中的甲基化区域是专门用来确定健康个体与结直肠癌个体之间的甲基化CpG状态的。对于表12第1列中所列的每个区域,第2列中示出的CpG位点的阈值数量被用于定义供分析用的甲基化片段。其余片段如果有多个CpG位点大于阈值,则被归类为甲基化;否则,这些片段则被归类为未甲基化。为了计算每个样品的原始评分,将每个样品的这些计数跨区域汇总,所述原始评分由每个样品中与表12中所列区域重叠的甲基化片段的数量给出。对每个样品的原始评分进行归一化处理,以考虑每个样品的覆盖率差异。每个样品的原始评分乘以样品特有的比例因子,所述比例因子由样品总数除以预先指定的靶标覆盖率水平给出。这些归一化和比例化的甲基化比率输出为每个样品的评分。根据来自训练集的所需特异性靶标选择阈值评分。基于这些样品的评分是否超过此阈值,样品被分为阳性或阴性。通过考虑具有该评分的样品的等级或考虑阈值,生成ROC曲线。
如上所述训练机器学习分类模型,并在一个独立提出的样品集上选择参数。将机器学习分类模型应用于表13中所述的样品。选择具有最高比例的高甲基化片段计数的健康样品作为用于划分新样品为阳性或阴性的截止值。利用由归一化的高甲基化片段计数得到的等级,基于上述训练集计算ROC曲线下面积(AUC)。用选定的截止值计算敏感性和特异性。采用Clopper-Pearson置信区间计算敏感性和特异性的置信区间,并使用由Fay,M.和Malinovsky,Y.,Statistics in Medicine 37(27):3991-4006(2018)(其内容通过引用并入本文)所述的方法计算AUC的置信区间。
此方法的平均曲线下面积(AUC)为0.9488(0.87-0.98),在92%的特异性(0.86-0.96)下,IU样品的平均敏感性为70%(0.49-0.87)(图2)。
实施例3:无细胞样品的检测和个体分类
使用本公开的系统和方法,使用基于人工智能的方法进行预测分析,以分析从对象获取的cfDNA数据,从而生成患有结直肠癌的对象的诊断输出。
本文为无症状患者提供了一种预测罹患或发展为癌症的风险提高的方法,其中由实施例1中提供的过程的签名面板训练的模型被应用于所测量的生物标志物面板,并使用年龄和性别的临床因素来鉴定罹患或发展为结直肠癌风险提高的那些患者。在实施方案中,此方法和本发明分类器模型使用在正常临床范围内测量的生物标志物的输入变量,其中当第一分类器模型的输出高于基于区域内甲基化CpG位点数量的计算阈值时,结直肠癌分类器模型使用年龄输入变量和来自患者的生物标志物面板的测量值将患者划分为风险提高的类别。
根据实施例1选择基因,目的是选择具有较强差异甲基化(β差异,即甲基化特异性探针与甲基化非特异性探针之间的差异和p值)、预测能力(AUC)和对基因表达的影响(来自基因表达的p值)的标志物基因和CpG位点。
这一选择产生了本文提供的签名面板,其中含有可以区分健康样品与CRC样品的甲基化区域。区域的第一子集包含20个区域,这些区域具有甲基化增加的至少4至18个CpG位点,这些位点映射到18个基因(许多基因由许多CpG位点表示)。
输入cfDNA的cfDNA CpG计数谱展现可以充当血液中可用甲基化信号的无偏展现,允许捕获直接来自肿瘤的信号以及来自非肿瘤来源如循环免疫系统或肿瘤微环境的那些信号。
基于这些基因的无监督聚类显示出与健康或CRC表型相关的明确甲基化模式。
为了评估甲基化区域用于早期检测CRC的准确性,计算了签名面板中区域的受试者工作特征(ROC)曲线和ROC曲线下面积(AUC)。图3A-3F示出了ROC结果,显示出这些差异甲基化区域(DMR)检测CRC和区分早期癌症的能力,包括具有1期(图3A)、2期(图3B)、3期(图3C)、4期(图3D)、缺失阶段(图3E)和所有样品(图3F)的患者。总共鉴定了80个与甲基化增加相关的基因区域。具有平均甲基化水平的甲基化区域与对照相比逐渐增加,或可用于区分CRC的早期与晚期。例如,表12相关的甲基化区域具有较高的CRC检测能力[CRC与对照的AUC=0.924(95% CI:0.752至0.954)]。
如表14所汇总,结果表明,从血液中早期癌症检测(例如,在13个I期和II期样品的集中)具有优良的性能。
表14
Figure BDA0003971977860000861
虽然已经在本文中示出和描述了本发明的优选实施方案,但是对于本领域技术人员显而易见的是,此类实施方案仅为通过举例方式提供。本发明不意在受限于本说明书内提供的具体实施例。虽然已经参考上述具体说明描述了本发明,但是对本文中实施方案的描述和示例说明不意在以限制性意义进行解释。在不脱离本发明的情况下,本领域技术人员现将想到多种变型、变化和替代方案。此外,应理解,本发明的所有方面不限于本文中所述的取决于各种条件和变量的具体的描绘、配置或相对比例。应理解,本文所述的本发明的实施方案的各种替代方案可以用于实施本发明。因此,设想本发明还应覆盖任何这种替代方案、修改、变型或等同方案。所附权利要求意在界定本发明的范围并且意在由此覆盖处于这些权利要求的范围内的方法和结构及它们的等同方案。

Claims (49)

1.一种为结肠细胞增殖性病症所特有的甲基化签名面板,其包含:
选自表11的一个或多个甲基化基因组区域,其中所述一个或多个区域在来自患有结肠细胞增殖性病症或结肠细胞增殖性病症亚型的个体的生物样品中的甲基化程度更高,而在未患结肠细胞增殖性病症的个体的正常组织和正常血细胞中的甲基化程度则较低。
2.如权利要求1所述的甲基化签名面板,其中所述生物样品是核酸、DNA、RNA或无细胞核酸(cfDNA或cfRNA)。
3.如权利要求1所述的甲基化签名面板,其中所述签名面板在两个或更多个选自表11的基因组区域中包含增加的甲基化。
4.如权利要求1所述的甲基化签名面板,其中所述结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
5.如权利要求1所述的甲基化签名面板,其中所述结肠细胞增殖性病症选自1期结直肠癌、2期结直肠癌、3期结直肠癌和4期结直肠癌。
6.如权利要求1所述的甲基化签名面板,其中所述签名面板包含表1-11中的两个或更多个甲基化基因组区域、表1-11中的三个或更多个甲基化基因组区域、表1-11中的四个或更多个甲基化基因组区域、表1-11中的五个或更多个甲基化基因组区域、表1-11中的六个或更多个甲基化基因组区域、表1-11中的七个或更多个甲基化基因组区域、表1-11中的八个或更多个甲基化基因组区域、表1-11中的九个或更多个甲基化基因组区域、表1-11中的十个或更多个甲基化基因组区域、表1-11中的十一个或更多个甲基化基因组区域、表1-11中的十二个或更多个甲基化基因组区域、或表1-11中的十三个或更多个甲基化基因组区域。
7.如权利要求1所述的甲基化签名面板,其中所述签名面板包含在结直肠癌中被甲基化的基因组区域,包括在选自以下的一个或多个基因组区域中的甲基化区域:IKZF1、KCNQ5、ELMO1、CHST2、PRKCB和FLI1。
8.如权利要求1所述的甲基化签名面板,其中所述在结直肠癌中被甲基化的区域包括选自以下的甲基化区域:IKZF1、KCNQ5和ELMO1基因组区域。
9.如权利要求1所述的甲基化签名面板,其中所述在结直肠癌中被甲基化的区域包括在选自以下的一个或多个基因组区域中的甲基化区域:IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72B和ST3GAL1。
10.如权利要求1所述的甲基化签名面板,其中所述签名面板包含选自表1、表2、表3、表4、表5、表6、表7、表8、表9、表10和表11的甲基化基因组区域。
11.一种为结肠细胞增殖性病症所特有的甲基化签名面板,其包含:
选自表1-11的两个或更多个甲基化基因组区域,其中所述两个或更多个区域在来自患有结肠细胞增殖性病症或结肠细胞增殖性病症亚型的个体的生物样品中的甲基化程度更高,而在未患结肠细胞增殖性病症的个体的正常组织和正常血细胞中的甲基化程度则较低。
12.如权利要求11所述的甲基化签名面板,其中所述生物样品是核酸、DNA、RNA或无细胞核酸。
13.如权利要求11所述的甲基化签名面板,其中所述签名面板包含选自表1-11的6个或更多个基因组区域中的甲基化增加。
14.如权利要求11所述的甲基化签名面板,其中所述结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
15.如权利要求11所述的甲基化签名面板,其中所述结肠细胞增殖性病症选自1期结直肠癌、2期结直肠癌、3期结直肠癌和4期结直肠癌。
16.如权利要求11所述的甲基化签名面板,其中所述签名面板包含表1-11中的三个或更多个甲基化基因组区域、表1-11中的四个或更多个甲基化基因组区域、表1-11中的五个或更多个甲基化基因组区域、表1-11中的六个或更多个甲基化基因组区域、表1-11中的七个或更多个甲基化基因组区域、表1-11中的八个或更多个甲基化基因组区域、表1-11中的九个或更多个甲基化基因组区域、表1-11中的十个或更多个甲基化基因组区域、表1-11中的十一个或更多个甲基化基因组区域、表1-11中的十二个或更多个甲基化基因组区域、或表1-11中的十三个或更多个甲基化基因组区域。
17.如权利要求11所述的甲基化签名面板,其中所述签名面板包含在结直肠癌中被甲基化的基因组区域,包括在选自以下的一个或多个基因组区域中的甲基化区域:IKZF1、KCNQ5、ELMO1、CHST2、PRKCB和FLI1。
18.如权利要求11所述的甲基化签名面板,其中所述在结直肠癌中被甲基化的区域包括选自以下的甲基化区域:IKZF1、KCNQ5和ELMO1基因组区域。
19.如权利要求11所述的甲基化签名面板,其中所述在结直肠癌中被甲基化的区域包括在选自以下的一个或多个基因组区域中的甲基化区域:IKZF1、KCNQ5、ELMO1、CHST2、PRKCB、FLI1、CLIP4、ELOVL5、FAM72B和ST3GAL1。
20.如权利要求11所述的甲基化签名面板,其中所述签名面板包含选自表1、表2、表3、表4、表5、表6、表7、表8、表9、表10和表11的甲基化基因组区域。
21.一种能够区分健康个体群体与患有结肠细胞增殖性病症的个体群体的机器学习分类器,其包括:
a)代表如权利要求1所述的差异甲基化基因组区域的测量值集,其中所述测量值获自来自健康对象和患有结肠细胞增殖性病症的对象的甲基化测序数据;
b)其中所述测量值用于生成与所述差异甲基化基因组区域的特性相对应的特征集,并且其中将所述特征输入到机器学习或统计模型;
c)其中所述模型提供用作分类器的特征向量,所述分类器能够区分健康个体群体与患有结肠细胞增殖性病症的个体群体。
22.如权利要求21所述的分类器,其中所述测量值集描述了选自以下的甲基化区域的特点:CpG、CHG、CHH的逐个碱基甲基化百分比,在区域中观察到的具有不同计数或比率的甲基化CpG的片段的计数或比率,转化效率(CHH的100-平均甲基化百分比),低甲基化段,甲基化水平(CPG、CHH、CHG的整体平均甲基化,片段长度,片段中点,每个片段的甲基化CpG的数量,每个片段的CpG甲基化占总CpG的分率,每个区域的CpG甲基化占总CpG的分率,面板中CpG甲基化占总CpG的分率,二核苷酸覆盖率(归一化的二核苷酸覆盖率),覆盖均匀度(在1x和10x平均基因组覆盖下的独特CpG位点(对于S4运行)),整体平均CpG覆盖率(深度),以及在CpG岛、CGI架和CGI岸处的平均覆盖率。
23.一种用于检测结肠细胞增殖性病症的包括机器学习模型分类器的系统,其包括:
a)包括分类器的计算机可读介质,所述分类器可操作以将对象根据甲基化签名面板划分为患有结肠细胞增殖性病症或未患有结肠细胞增殖性病症;和
b)一个或多个处理器,用于执行存储在所述计算机可读介质上的指令。
24.如权利要求23所述的系统,包括被加载到计算机系统的存储器中的如权利要求21所述的分类器、使用从训练生物样品中获得的训练向量训练的机器学习模型、被鉴定为患有结肠细胞增殖性病症的所述训练生物样品的第一子集和被鉴定为未患有结肠细胞增殖性病症的所述训练生物样品的第二子集。
25.一种用于确定来自个体的无细胞脱氧核糖核酸(cfDNA)样品的甲基化谱的方法,其包括:
a)提供能够在所述cfDNA样品的核酸分子中将未甲基化的胞嘧啶转化为尿嘧啶以产生多个转化核酸的条件;
b)使所述多个转化核酸与核酸探针接触,所述核酸探针与选自表1-11的至少两个差异甲基化区域的预鉴定甲基化签名面板互补,以富集与所述签名面板相对应的序列;
c)测定所述多个转化核酸分子的核酸序列;以及
d)将所述多个转化核酸分子的所述核酸序列与参考核酸序列比对,由此确定所述个体的所述甲基化谱。
26.如权利要求25所述的方法,还包括扩增所述多个转化核酸。
27.如权利要求26所述的方法,其中所述扩增包括聚合酶链式反应(PCR)。
28.如权利要求25所述的方法,还包括在大于1000x、大于2000x、大于3000x、大于4000x或大于5000x的深度下对所述转化核酸分子的所述核酸序列进行测定。
29.如权利要求25所述的方法,其中所述参考核酸序列是人类参考基因组的至少一部分。
30.如权利要求29所述的方法,其中所述人类参考基因组是hg18。
31.如权利要求25所述的方法,其中所述预鉴定甲基化签名面板包含表1-11中的三个或更多个甲基化基因组区域、表1-11中的四个或更多个甲基化基因组区域、表1-11中的五个或更多个甲基化基因组区域、表1-11中的六个或更多个甲基化基因组区域、表1-11中的七个或更多个甲基化基因组区域、表1-11中的八个或更多个甲基化基因组区域、表1-11中的九个或更多个甲基化基因组区域、表1-11中的十个或更多个甲基化基因组区域、表1-11中的十一个或更多个甲基化基因组区域、表1-11中的十二个或更多个甲基化基因组区域、或表1-11中的十三个或更多个甲基化基因组区域。
32.如权利要求31所述的方法,其中所述预鉴定甲基化签名面板包含表11中的一个或多个甲基化基因组区域、表11中的两个或更多个甲基化基因组区域、或表11中的三个甲基化基因组区域。
33.如权利要求25所述的方法,其中所述甲基化谱指示所述个体中存在或不存在结肠细胞增殖性病症。
34.如权利要求33所述的方法,其中所述结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
35.如权利要求33所述的方法,其中所述结肠细胞增殖性病症选自1期结直肠癌、2期结直肠癌、3期结直肠癌或4期结直肠癌。
36.一种用于检测对象中结肠细胞增殖性病症的存在或不存在的方法,包括:
a)提供能够在获自或衍生自所述对象的生物样品的核酸分子中将未甲基化的胞嘧啶转化为尿嘧啶以产生多个转化核酸的条件;
b)使所述多个转化核酸与核酸探针接触,所述核酸探针与选自表1-11的至少两个差异甲基化区域的预鉴定甲基化签名面板互补,以富集与所述签名面板相对应的序列;
c)测定所述转化核酸分子的核酸序列;
d)将所述多个转化核酸分子的所述核酸序列与参考核酸序列比对,由此确定所述个体的甲基化谱;以及
e)将经训练的机器学习分类器应用于所述甲基化谱,其中所述经训练的机器学习分类器被训练为能够区分健康个体与患有结肠细胞增殖性病症的个体,以提供与存在结肠细胞增殖性病症相关的输出值,由此检测所述对象中所述结肠细胞增殖性病症的存在或不存在。
37.如权利要求36所述的方法,其中获自所述对象的所述生物样品选自:无细胞DNA、无细胞RNA、体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞及其组合。
38.如权利要求36所述的方法,还包括扩增所述多个转化核酸。
39.如权利要求38所述的方法,其中所述扩增包括聚合酶链式反应(PCR)。
40.如权利要求36所述的方法,还包括在大于1000x、大于2000x、大于3000x、大于4000x或大于5000x的深度下对所述转化核酸分子的所述核酸序列进行测定。
41.如权利要求36所述的方法,其中所述参考核酸序列是人类参考基因组的至少一部分。
42.如权利要求41所述的方法,其中所述人类参考基因组是hg18。
43.如权利要求36所述的方法,其中所述预鉴定甲基化签名面板包含表1-11中的三个或更多个甲基化基因组区域、表1-11中的四个或更多个甲基化基因组区域、表1-11中的五个或更多个甲基化基因组区域、表1-11中的六个或更多个甲基化基因组区域、表1-11中的七个或更多个甲基化基因组区域、表1-11中的八个或更多个甲基化基因组区域、表1-11中的九个或更多个甲基化基因组区域、表1-11中的十个或更多个甲基化基因组区域、表1-11中的十一个或更多个甲基化基因组区域、表1-11中的十二个或更多个甲基化基因组区域、或表1-11中的十三个或更多个甲基化基因组区域。
44.如权利要求43所述的方法,其中所述预鉴定甲基化签名面板包含表11中的一个或多个甲基化基因组区域、表11中的两个或更多个甲基化基因组区域、或表11中的三个甲基化基因组区域。
45.如权利要求36所述的方法,还包括基于检测到所述个体中所述结肠细胞增殖性病症的存在而向所述个体施用针对所述结肠细胞增殖性病症的治疗。
46.如权利要求36所述的方法,其中所述结肠细胞增殖性病症选自:腺瘤(腺瘤性息肉)、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
47.如权利要求36所述的方法,其中所述结肠细胞增殖性病症包括结直肠癌。
48.如权利要求36所述的方法,其中所述结肠细胞增殖性病症选自1期结直肠癌、2期结直肠癌、3期结直肠癌和4期结直肠癌。
49.如权利要求36所述的方法,其中所述经训练的机器学习分类器选自:深度学习分类器、神经网络分类器、线性判别分析(LDA)分类器、二次判别分析(QDA)分类器、支持向量机(SVM)分类器、随机森林(RF)分类器、线性核支持向量机分类器、一阶或二阶多项式核支持向量机分类器、岭回归分类器、弹性网算法分类器、序列最小优化算法分类器、朴素贝叶斯算法分类器和主成分分析分类器。
CN202180039398.8A 2020-03-31 2021-03-29 通过核酸甲基化分析检测结直肠癌的方法和系统 Pending CN115667554A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063002878P 2020-03-31 2020-03-31
US63/002,878 2020-03-31
PCT/US2021/024604 WO2021202351A1 (en) 2020-03-31 2021-03-29 Methods and systems for detecting colorectal cancer via nucleic acid methylation analysis

Publications (1)

Publication Number Publication Date
CN115667554A true CN115667554A (zh) 2023-01-31

Family

ID=77929568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180039398.8A Pending CN115667554A (zh) 2020-03-31 2021-03-29 通过核酸甲基化分析检测结直肠癌的方法和系统

Country Status (8)

Country Link
US (2) US20230101485A1 (zh)
EP (1) EP4127215A1 (zh)
JP (1) JP2023524627A (zh)
KR (1) KR20230017169A (zh)
CN (1) CN115667554A (zh)
AU (1) AU2021245992A1 (zh)
CA (1) CA3178302A1 (zh)
WO (1) WO2021202351A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497561A (zh) * 2022-09-01 2022-12-20 北京吉因加医学检验实验室有限公司 一种甲基化标志物分层筛选的方法及装置
CN116298295A (zh) * 2023-05-18 2023-06-23 上海秤信生物科技有限公司 用于结直肠癌早期检测的肿瘤自身抗原/抗体组合及应用

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019060716A1 (en) 2017-09-25 2019-03-28 Freenome Holdings, Inc. SAMPLE EXTRACTION METHODS AND SYSTEMS
US11788152B2 (en) 2022-01-28 2023-10-17 Flagship Pioneering Innovations Vi, Llc Multiple-tiered screening and second analysis
WO2023164017A2 (en) * 2022-02-22 2023-08-31 Flagship Pioneering Innovations Vi, Llc Intra-individual analysis for presence of health conditions
US20240003888A1 (en) 2022-05-17 2024-01-04 Guardant Health, Inc. Methods for identifying druggable targets and treating cancer
WO2024056008A1 (zh) * 2022-09-16 2024-03-21 江苏鹍远生物科技股份有限公司 鉴别癌症的甲基化标志物及应用

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8383338B2 (en) * 2006-04-24 2013-02-26 Roche Nimblegen, Inc. Methods and systems for uniform enrichment of genomic regions
US20130022974A1 (en) * 2011-06-17 2013-01-24 The Regents Of The University Of Michigan Dna methylation profiles in cancer
CN105143465A (zh) * 2013-03-14 2015-12-09 梅奥医学教育和研究基金会 检测赘生物
WO2019195268A2 (en) * 2018-04-02 2019-10-10 Grail, Inc. Methylation markers and targeted methylation probe panels
CA3095056A1 (en) * 2018-04-13 2019-10-17 Freenome Holdings, Inc. Machine learning implementation for multi-analyte assay of biological samples

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497561A (zh) * 2022-09-01 2022-12-20 北京吉因加医学检验实验室有限公司 一种甲基化标志物分层筛选的方法及装置
CN116298295A (zh) * 2023-05-18 2023-06-23 上海秤信生物科技有限公司 用于结直肠癌早期检测的肿瘤自身抗原/抗体组合及应用
CN116298295B (zh) * 2023-05-18 2023-09-01 上海秤信生物科技有限公司 用于结直肠癌早期检测的肿瘤自身抗原/抗体组合及应用

Also Published As

Publication number Publication date
AU2021245992A1 (en) 2022-11-10
KR20230017169A (ko) 2023-02-03
EP4127215A1 (en) 2023-02-08
US20230101485A1 (en) 2023-03-30
CA3178302A1 (en) 2021-10-07
US20230220492A1 (en) 2023-07-13
WO2021202351A1 (en) 2021-10-07
JP2023524627A (ja) 2023-06-13

Similar Documents

Publication Publication Date Title
JP7455757B2 (ja) 生体試料の多検体アッセイのための機械学習実装
US20210230684A1 (en) Methods and systems for high-depth sequencing of methylated nucleic acid
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
US20230101485A1 (en) Methods and systems for detecting colorectal cancer via nucleic acid methylation analysis
US20230175058A1 (en) Methods and systems for abnormality detection in the patterns of nucleic acids
US20230160019A1 (en) Rna markers and methods for identifying colon cell proliferative disorders
US20240084397A1 (en) Methods and systems for detecting cancer via nucleic acid methylation analysis
WO2023183468A2 (en) Tcr/bcr profiling for cell-free nucleic acid detection of cancer
US20240055073A1 (en) Sample contamination detection of contaminated fragments with cpg-snp contamination markers
WO2022243566A1 (en) Dna methylation biomarkers for hepatocellular carcinoma
Luong Predicting Formalin-fixed Paraffin-embedded (FFPE) Sequencing Artefacts from Breast Cancer Exome Sequencing Data Using Machine Learning
WO2023161482A1 (en) Epigenetic biomarkers for the diagnosis of thyroid cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination