CN115836349A - 用于评估纵向生物特征数据的系统和方法 - Google Patents

用于评估纵向生物特征数据的系统和方法 Download PDF

Info

Publication number
CN115836349A
CN115836349A CN202080094549.5A CN202080094549A CN115836349A CN 115836349 A CN115836349 A CN 115836349A CN 202080094549 A CN202080094549 A CN 202080094549A CN 115836349 A CN115836349 A CN 115836349A
Authority
CN
China
Prior art keywords
cancer
test
subject
bin
genotype
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080094549.5A
Other languages
English (en)
Inventor
M·赛勒斯·马厄
亚历克斯·阿尔法尼斯
安吉拉·赖
奥利弗·克劳德·维恩
理查德·拉瓦
晶·项
约瑟夫·马库斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grail Inc
Original Assignee
Grail Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grail Inc filed Critical Grail Inc
Publication of CN115836349A publication Critical patent/CN115836349A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Primary Health Care (AREA)
  • Organic Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Physiology (AREA)
  • Hospice & Palliative Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Oncology (AREA)

Abstract

提供了用于确定一测试对象是否患有一疾病状况的系统和方法。在一个方面,所述方法包括确定一测试对象的至少第一基因型数据结构和第二基因型数据结构,其由在不同时间分别从来自所述对象的第一样本和第二样本收集的数据形成。将所述第一基因型数据结构和所述第二基因型数据结构输入到所述疾病状况的一模型中,从而分别产生所述疾病状况的第一模型得分集和第二模型得分集。基于所述第一模型得分集与所述第二模型得分集之间的一差异来确定一测试δ得分集。对照多个参考δ得分集来评估所述测试δ得分集,以确定所述测试对象的所述疾病状况,其中每个参考δ得分集用于多个参考对象中的一相应参考对象。

Description

用于评估纵向生物特征数据的系统和方法
相关申请的交叉引用
本申请要求于2020年11月27日提交的美国临时专利申请第62/941,012号的优先权,其全部内容通过引用明确并入本文。
技术领域
本公开涉及用于基于对象的基因型特征随时间的变化来评估对象的疾病状态的方法。
背景技术
癌症代表了一个突出的全球公共卫生问题。仅美国在2015年就报告了1,658,370例病例。筛查计划和早期诊断对提高癌症患者的无病存活率和降低死亡率具有重要影响。例如,结直肠癌的早期筛查使美国的结直肠癌发病率和死亡率降低了近50%。这种降低与癌症分期相关的存活率相一致,从结直肠癌1期的94%下降到结直肠癌4期的11%。然而,早期癌症检测存在两大挑战:患者依从性和敏感性差。
有利地,对癌症的分子发病机制的认识的增加和次世代定序技术的快速发展正在推进对涉及体液中癌症发展的早期分子改变的研究。在血浆、血清和尿液中的游离DNA(cfDNA)中发现了与此类癌症发展相关的特定遗传和表观遗传改变。这种改变可能被用作几种癌症的诊断生物标志物。有利的是,非侵入性采样方法,例如所谓的“液体活检(liquidbiopsies)”,可以促进患者的依从性,因为它们更容易、更快且执行成本更低。
可以在血清、血浆、尿液和其他体液中发现游离DNA,从而实现“液体活检”,这代表了对象中许多不同组织(包括患病组织)的基因组组成的快照(snapshot)。cfDNA来源于坏死或凋亡细胞,通常由所有类型的细胞释放。cfDNA包含特定的肿瘤相关改变,例如突变、甲基化和拷贝数变异(copy number variations,CNV),因此包含循环(circulating)肿瘤DNA(ctDNA)。
然而,因为cfDNA代表从广泛的组织释放的DNA,包括健康组织和经历造血的白细胞,其挑战仍然是能够区分源自疾病组织(例如:癌症)的信号与源自生殖细胞的信号。事实上,在大多数癌症患者中,大部分cfDNA来自健康细胞,例如,大于80%、90%、95%或更多。cfDNA信号可以被富集,例如,通过识别具有不符合典型1:1比例的等位基因部分的变体等位基因,例如生殖系中的杂合等位基因所示。cfDNA信号也可以根据被定序的cfDNA的大小进行富集,因为据观察,源自癌性肿瘤的cfDNA的平均长度比源自生殖细胞的cfDNA来得短。
不幸的是,迄今为止,大多数cfDNA诊断研究都集中在晚期肿瘤阶段。基于cfDNA的诊断分析在早期恶性疾病阶段的识别中的应用文献较少。尽管早期癌症检测与晚期癌症检测的工作原理相同,但早期检测存在一些独特的障碍。这些包括较低的畸变频率和数量、潜在的混杂现象,例如非肿瘤组织的克隆扩展或癌症相关突变随年龄增长的积累,以及对驱动(driver)改变的不完整了解。
在血液中,细胞凋亡是决定cfDNA量的常见事件。然而,在癌症患者中,cfDNA的数量也会受到坏死(necrosis)的影响。由于细胞凋亡似乎是主要的释放机制,循环cfDNA的大小分布显示富含约167bp的短片段,对应于凋亡细胞产生的核小体。
发明内容
一般而言,与使用常规分类方法可能的情况相比,本文所述的系统和方法通过考虑对象生物特征的个体差异,可以更早地检测到疾病状态。对对象的疾病状态进行分类的常规方法可能涉及在单个时间点获得对象的一个或多个生物特征的快照(snapshot),并根据预定的疾病概况或经过训练的分类器评估对象的信息。虽然这种方法足以在对象病情进展充分时确定疾病的存在,但通常无法可靠地检测疾病的前期状态甚至早期阶段。例如,已经开发了几种分类器,用于通过询问从对象血浆中分离的游离DNA(cfDNA)的序列读取来诊断对象的癌症。然而,由于血浆含有来自健康生殖细胞和造血细胞的cfDNA,这些分类器使用血浆中存在的循环肿瘤DNA(ctDNA)的最小量,称为最小肿瘤分数(tumor fraction),以检测cfDNA序列读取中的癌性特征。然而,由于疾病的诊断阶段与治疗结果之间存在着很强的相关性,因此需要更敏感的方法来识别早期疾病的存在。
有利的是,本公开提供了用于早期疾病识别的此类方法,至少部分地通过询问对象的生物特征随时间的变化,而不是在单个时间点。具体而言,通过使用来自对象的多个生物样本随时间推移的数据,在监测疾病状态时可以解释对象生物特征的个性化差异。
在一个方面,本公开提供了一种用于确定对象的疾病状态的方法,方法通过将对象患有疾病状态的模型化概率随时间的变化与模型化概率随时间的变化的总体分布进行比较。在一些实施方案中,方法包括确定对象的第一基因型数据结构,第一基因型数据结构包括基于在第一测试时间点从对象获得的第一生物样本中的第一多个核酸分子的电子形式的第一多个序列读取的多个基因型特征的值。方法可以包括将第一基因型数据结构输入到疾病状况的模型中,从而生成疾病状况的第一模型得分集。方法可以包括确定测试对象的第二基因型数据结构,第二基因型数据结构包括基于在第一测试时间点之后发生的第二测试时间点从对象获得的第二生物样本中的第二多个核酸分子的电子形式的第二多个序列读取的多个基因型特征的值。方法可以包括将第二基因型数据结构输入到模型中,从而生成疾病状况的第二模型得分集。方法可以包括基于第一和第二模型得分集之间的差异来确定测试δ得分集。然后,方法可以包括对照多个参考δ得分集来评估测试δ得分集,从而确定测试对象的疾病状况,其中多个参考δ得分集中的每个参考δ得分集针对多个参考对象中的相应参考对象。
在另一方面,本发明提供了一种通过使用时间趋势测试评估对象具有疾病状态的模型化概率随时间的变化来确定对象的疾病状态的方法。在一些实施方案中,方法包括为多个测试时间点中的每个相应测试时间点确定测试对象的对应基因型数据结构,对应基因型数据结构包括基于在相应测试时间点从对象处获得的对应的生物样本中的对应的多个核酸分子的电子形式的对应的多个序列读取的多个基因型特征的值。方法可以包括将对应的基因型数据结构输入到疾病状况的模型中(在本文中单独描述),以在相应测试时间点生成疾病状况的对应的时间戳模型得分集,从而获得测试对象的多个时间戳测试模型得分集,其中,每个相应的时间戳测试模型得分集耦合到多个测试时间点中的不同测试时间点。方法可以包括将多个时间戳测试模型得分集与时间趋势测试拟合,从而获得测试对象的测试趋势参数集。方法可包括对照多个参考对象的多个参考趋势参数集评估对象的测试趋势参数集,从而确定对象的疾病状况,其中多个参考趋势参数集中的每个相应参考趋势参数集是针对多个参考对象中的对应的参考对象。
方法可包括基于所有时间点的数据创建分类器,以一次利用所有时间点来了解疾病状况,而不是将分类器略微应用于每个时间点(例如,将预先训练的单个时间点分类器应用于从多个时间点收集的测试样本),以及以时间信息对模型分数进行事后分析(例如,分析癌症概率/得分相对于参考δ得分分布的显着趋势或差异)。例如,可以创建通过时间检测疾病状况(例如,癌症信号)的联合模型。联合模型可以是一个多时间点分类器,对时间序列数据(例如,时间序列基因型数据结构)进行训练和测试。联合模型可以改进癌症概率和总体趋势的推断或结果,因为数据(例如,时间序列数据)在多个时间点上共享。联合模型可以包括时间空间的渐近维,并且可以针对时间空间(例如,时间序列数据)和特征空间(例如,其他基因型数据结构)联合训练。在这种情况下,联合模型可以包括导致癌症的基因型数据构造可以随时间变化的信息。对多时间点分类器的输入可以包括在两个或多个时间点测量的基因型数据结构(例如,基因组特征)和疾病状况(例如,癌症或非癌症或起源组织的输出标签),并且多时间点分类器可以包括对应于每个样本和时间点的癌症概率的逻辑斯(logit)变换。在确定新样本的疾病状况的过程中,可以使用先前时间点的新样本的基因型数据结构来估计以后时间点的癌症概率,反之亦然。通过对估计的癌症概率进行阈值化,可以进一步训练联合模型,并将其应用于测试样本的分类,以预测测试样本在其相应的时间点(例如,当前时间点)的癌症状态。联合模型还可以根据估计癌症概率的变化率,预测未来癌症概率趋势,无论是否有医疗干预。为了更好地改进分类并提供可解释性,可以通过概率模型或惩罚使用不同的正则化方法,例如鼓励潜在癌症概率随时间平滑发展,或强制癌症概率随阶段单调增加。
引用并入:
本文的所有出版物、专利和专利申请均通过引用整体并入。如果本文中的术语与并入参考文献中的术语发生抵触,则以本文中的术语为准。
附图说明
本文所公开的实施方案在附图的图中以示例而非限制的方式示出。在附图的几个视图中,相同的附图标记指代相应的部分。
图1A和图1B共同示出了根据本公开的各种实施方案的用于确定一对象的疾病状态的计算系统的实施例的框图;
图2示出了根据本公开的各种实施方案的用于确定一对象的疾病状态的工作流的实施例;
图3A、图3B、图3C、图3D、图3E、图3F和图3G共同示出了根据本公开的各种实施方案的用于确定对象的疾病状态的实施例过程;
图4A、图4B、图4C、图4D、图4E和图4F共同示出了根据本公开的各种实施方案的用于确定对象的疾病状态的实施例过程;
图5A和图5B示出了一系列计算机(in silico)增强的正常样本的癌症概率的变化,如实施例1所述;
图6示出了使用基于拷贝数的癌症分类器为来自年龄匹配和没有癌症的年轻健康对象的样本计算的癌症概率分布;
图7A和图7B示出了在0.0和1.0的肿瘤分数之间(图7A)的拷贝数变异数据的计算机(in silico)回归,以及从3个模拟的肿瘤分数系列计算的癌症概率的实施例,作为肿瘤分数的函数(图7B);
图8示出了使用5种不同技术从8名健康参考对象收集和扩增的样本产生的癌症概率;
图9示出了针对每个癌症分期实现的各种癌症检测模型的灵敏度,如模拟的肿瘤分数所定义的;
图10示出了使用基于cfDNA的甲基化癌症分类器,在相隔12至40个月的第1时间点和第2时间点之间,为个体确定的癌症概率变化的分布;
图11示出了使用基于cfDNA的甲基化癌症分类器,在相隔12至40个月的第1(横坐标)时间点和第2(纵坐标)时间点,为个体确定的癌症概率图;
图12示出了使用基于cfDNA的甲基化癌症分类器,在相隔12至40个月的第1时间点和第2时间点之间,为个体确定的癌症概率的变化,绘制为抽血之间时间段的函数;以及
图13示出了使用基于cfDNA的甲基化癌症分类器,在相隔12至40个月的第1(横坐标)时间点和第2(纵坐标)时间点,为选定的个体确定的癌症概率图。
具体实施方式
现在详细参考实施方案,其示例在附图中示出。在以下详细描述中,阐述了许多具体细节以提供对本公开的透彻理解。然而,对于本领域普通技术人员而言显而易见的是,可以在没有这些具体细节的情况下实践本公开。在其他情况下,没有详细描述众所周知的方法、过程、组件、电路和网络,以免混淆实施方案的方面。
除其他方面外,本公开提供了用于通过评估对象的生物学特性随时间的变化来识别对象疾病状态的系统和方法,而不是像常规疾病检测那样在单个时间点进行。具体而言,通过使用来自对象的多个生物样本随时间推移的数据,在监测疾病状态时可以考虑对象生物特征的个性化差异。
例如,常规的癌症诊断,无论是使用实体肿瘤样本或是基于血液的液体活检,将从单个样本或同时获得的多个样本中确定的可归因于癌组织的一对象的基因组畸变(genomic aberrations)与在一组对照中观察到的基因组畸变进行比较。这种方法的一个限制是个体的异常基线水平(baseline level of aberration)可能不同,这使得对基因组异常的通用截止具有限制性。在此描述的系统和方法的基础理论可以替代地假定可以将每个个体与他们自己的基线状态进行比较。在检测基因组畸变(包括新的基因组变化)时,此结果可以提高灵敏度和特异性。这可以通过多种方式实现。例如,在一个实施方案中,计算的癌症概率的个体内差异随时间与一组参考对照对象中类似计算的癌症概率的个体内差异进行比较。在另一个实施方案中,将从来自个体的新样本确定的癌症概率与从来自个体的先前样本确定的癌症概率进行比较,例如,使用t检验可以允许也可以不允许纳入来自参考对照对象组的先前信息。在另一个实施方案中,对于多于两个纵向样本,对一系列计算的癌症概率执行趋势测试,其可以或可以不进一步与针对参考对照对象组获得的类似趋势测试结果进行比较。
有利的是,通过考虑一些程度的个人差异,本文提供的方法可以提高任何潜在疾病模型的敏感性和特异性,例如,根据从单个样本测量的生物特征,提供对象患有特定疾病状态的似然。例如,如实施例2所述,在使用回归分析模拟癌症进展的时间序列数据的计算机实验(silico experiment)中,本文所述的比较方法可能将0期癌症检测的敏感性至少提高100%,将I期癌症检测的敏感性至少提高70%,II期癌症检测灵敏度至少提高40%。
定义:
如本文所用,术语“约(about)”或“约(approximately)”可以指在本领域普通技术人员确定的特定值的可接受误差范围内,这部分取决于如何测量或确定值,例如测量系统的限制。例如,根据本领域的实践,“约”可以表示在1个或1个以上的标准偏差之内。“约”可以指给定值的±20%、±10%、±5%或±1%的范围。术语“约(about)”或“约(approximately)”可以表示在一个数量级内、一个值的5倍内或2倍内。如果本申请和权利要求中描述了特定值,除非另有说明,否则可以假设术语“约”的含义在特定值的可接受误差范围内。术语“约”可以具有本领域普通技术人员通常理解的含义。术语“约”可指±10%。术语“约”可指±5%。
如本文所用,术语“基因型(genotypic)”是指生物体的基因组的特征。基因型特征的非限制性示例包括与全部或部分基因组的初级核酸序列相关的那些(例如,是否存在核苷酸多态性、indel、序列重排、突变频率等),基因组内一个或多个特定核苷酸序列的拷贝数(例如,拷贝数、等位基因频率分数、单染色体或全基因组倍性(entire genome ploidy)等)、基因组全部或部分的表观遗传状态(例如,共价核酸修饰,如甲基化、组蛋白修饰、核小体定位等)、生物体基因组的表达谱(例如,基因表达水平、同型表达水平、基因表达率等)。因此,“基因型数据结构(genotypic data construct)”是指数据结构,例如电子数据文件,其包括对象的一个或多个基因型特征的值。在一些实施方案中,基因型数据结构包括从单个时间收集的生物样本确定的一个或多个基因型特征。在其他实施方案中,基因型数据结构包括从在多个时间点收集的生物样本确定的一个或多个基因型特征。
如本文所用,术语“生物样本(biological sample)”、“患者样本(patientsample)”或“样本(sample)”是指从对象身上采集的任何样本,其可以反映与对象相关的生物状态,并且包括游离DNA。生物样本的示例包括但不限于对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。生物样本可以包括从活的或死的对象身上提取的任何组织或材料。生物样本可以是游离(cell-free)样本。生物样本可以包含核酸(例如,DNA或RNA)或其片段。术语“核酸”可指脱氧核糖核酸(DNA)、核糖核酸(RNA)或其任何杂交或片段。样本中的核酸可以是游离核酸。样本可以是液体样本或固体样本(例如,细胞或组织样本)。生物样本可以是体液,如血液、血浆、血清、尿液、阴道液、来自鞘膜积液(例如睾丸的)的液体、阴道冲洗液、胸膜液、腹水、脑脊液、唾液、汗液、眼泪、痰、支气管肺泡灌洗液、乳头排出液、身体不同部位(如甲状腺、乳腺)的抽吸液,等等。生物样本可以是粪便样本。在各种实施方案中,已富集游离DNA的生物样本(例如,通过离心程序获得的血浆样本)中的大部分DNA可以是游离的(例如,大于50%、60%、70%、80%、90%、95%或99%的DNA可以是游离的)。可对生物样本进行处理以物理破坏组织或细胞结构(例如,离心和/或细胞裂解),从而将细胞内成分释放到溶液中,溶液可进一步包含可用于制备样本以供分析的酶、缓冲液、盐、洗涤剂等。
如本文所用,术语“癌症”或“肿瘤”是指异常的组织肿块,其中肿块的生长超过正常组织的生长,并且与正常组织的生长不协调。根据以下特征,可以将癌症或肿瘤定义为“良性”或“恶性”:细胞分化程度,包括形态和功能、生长速度、局部侵袭和转移。“良性”肿瘤可以很好地分化,比恶性肿瘤生长缓慢,并且仍然局限于原发部位。此外,在某些情况下,良性肿瘤不具备浸润、侵入或转移至远处部位的能力。“恶性”肿瘤可以是低分化(间变性(anaplasia)),具有特征性的快速生长,伴随着周围组织的进行性浸润、侵袭和破坏。此外,恶性肿瘤可以具有转移到远处部位的能力。
如本文所用,术语“癌症状况(cancer condition)”是指乳癌、肺癌、前列腺癌、结直肠癌、肾癌(renal cancer)、子宫癌、胰脏癌、食道癌、淋巴瘤、头/颈癌、卵巢癌、肝胆癌、黑色素瘤、子宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌及胃癌。癌症状况可以是乳癌的预定阶段、肺癌的预定阶段、前列腺癌的预定阶段、结直肠癌的预定阶段、肾癌的预定阶段、子宫癌的预定阶段、胰脏癌的预定阶段、食道癌的预定阶段、淋巴瘤的预定阶段、头/颈癌的预定阶段、卵巢癌的预定阶段、肝胆癌的预定阶段、黑色素瘤的预定阶段、子宫颈癌的预定阶段、多发性骨髓瘤的预定阶段、白血病的预定阶段、甲状腺癌的预定阶段、膀胱癌的预定阶段,或胃癌的预定阶段。癌症状况也可以是存活度量(survival metric),其可以是预定时间段内的预定存活似然。
如本文所用,术语“循环游离基因组图谱(Circulating Cell-free GenomeAtlas)”或“CCGA”被定义为一项观察性临床研究,前瞻性地从新诊断的癌症患者以及没有癌症诊断的对象收集血液和组织。这项研究的目的是开发一种泛癌分类器,用于区分癌症和非癌症,并识别来源组织。实施例1提供了CCGA研究的进一步详细信息。
术语“分类(classification)”可以指与样本的特定性质相关联的任何数字或其他特征。例如,“+”符号(或“阳性”一词)可以代表样本被归类为具有缺失或扩增。在另一个例子中,术语“分类”可以指对象和/或样本中肿瘤组织的量、对象和/或样本中肿瘤的大小、对象中肿瘤的阶段、对象和/或样本中肿瘤负荷,以及对象中是否存在肿瘤转移。分类可以是二元的(例如,阳性或阴性)或具有更多级别的分类(例如,属于分类器支持或输出的某个数字范围)。术语“截止(cutoff)”和“阈值”可以指在操作中使用的预定数字。例如,截止大小可以指大于其片段被排除的大小。阈值可以是高于或低于特定分类应用的值。这些术语中的任何一个都可以用于这些上下文中的任何一个。
如本文所用,术语“核酸”和“核酸分子”可互换使用。这些术语是指任何组成形式的核酸,例如脱氧核糖核酸(DNA,例如互补DNA(cDNA)、基因组DNA(gDNA)等)和/或DNA类似物(例如,含有碱基类似物、糖类似物)和/或非天然骨架等),所有这些都可以是单链或双链形式。除非另有限制,核酸可以包含已知的天然核苷酸类似物,其中一些可以以与天然存在的核苷酸相似的方式起作用。核酸可以是可用于进行本文过程的任何形式(例如,线性、环状、超螺旋、单链、双链等)。在一些实施方案中,核酸可以来自单个染色体或其片段(例如,核酸样本可以来自从二倍体生物获得的样本的一个染色体)。在某些实施方案中,核酸包括核小体、核小体的片段或部分或核小体样结构。核酸可以包含蛋白质(例如,组蛋白、DNA结合蛋白等)。通过本文所述的方法分析的核酸可以基本上分离,并且基本上不与蛋白质或其他分子结合。核酸还可以包括从单链(“有义(sense)”或“反义(antisense)”、“正”链(plusstrand)或“负”链(minus strand)、“正向”读码框(forward reading frame)或“反向”读码框(reverse reading frame))和双链多核苷酸合成、复制或扩增的DNA的衍生物、变体和类似物。脱氧核糖核苷酸可以包括脱氧腺苷、脱氧胞苷、脱氧鸟苷和脱氧胸苷。可以使用从对象获得的核酸作为模板来制备核酸。
如本文所用,术语“游离核酸(cell-free nucleic acids)”是指可在细胞外、体液(例如,对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、汗液、眼泪、胸膜液、心包液或是腹腔液)中发现的核酸分子。游离核酸源自于一个或多个健康细胞和/或一个或多个癌细胞。游离核酸可作为循环核酸互换使用。游离核酸的实施例包括但不限于RNA、线粒体DNA或是基因组DNA。如本文所用,术语“游离核酸”、“游离DNA”和“cfDNA”可互换使用。
如本文所用,术语“对照(control)”、“对照样本”、“参考(reference)”、“参考样本”、“正常”和“正常样本”描述的是来自没有特定条件或健康的对象的样本。在一实施例中,可以对具有肿瘤的对象执行本文所公开的方法,其中参考样本是从对象的健康组织中提取的样本。参考样本可从对象或数据库中获得。参考可以是,例如,用于映射从对对象样本定序获得的序列读取的参考基因组。参考基因组可以指单倍体或二倍体(diploid)基因组,从生物样本读取的序列可以与之对齐和比较。对照样本的一个实施例可以是从对象获得的白细胞DNA。对于单倍体基因组,每个基因组可以有一个核苷酸。对于二倍体基因组,可以识别杂合基因组;每个杂合子基因座可以有两个等位基因,其中任何一个等位基因都可以与所述基因座对齐。
如本文所用,短语“健康的(healthy)”是指具有良好健康的对象。健康对象可以证明不存在任何恶性或非恶性疾病。“健康个体”可能患有其他疾病或状况,与所检测的状况无关,通常不被视为“健康”。
本文使用的术语“高信号癌症(high-signal cancer)”是指5年癌症特异性死亡率超过50%的癌症。高信号癌症包括肛肠癌、结直肠癌、食道癌、头/颈癌、肝胆癌、肺癌、卵巢癌、胰腺癌、淋巴瘤和多发性骨髓瘤。高信号癌症可能更具侵袭性,从患者身上获得的测试样本中的游离核酸浓度通常高于平均水平。在一些实施方案中,“高信号癌症”是指不属于低信号癌组的癌症(例如,子宫癌、甲状腺癌、前列腺癌和激素受体阳性I/II期乳癌)。
如本文所用,术语“癌症分期(stage of cancer)”(其中术语“癌症”是一般癌症或列举的癌症类型)是指癌症(或指定的列举癌症类型)是否存在(例如,存在或不存在)某种程度的癌症、肿瘤大小、是否存在转移、身体的总肿瘤负担和/或衡量癌症严重程度(例如,癌症复发)的其他指标。癌症的分期可以是数字或其他标记,如符号、字母和颜色。分期可以为零。癌症分期还可以包括与突变或许多突变相关的癌前或癌前状态。癌症的分期可以用各种方法来衡量。例如,筛检(screening)可以检查以前不知道是否患有癌症的人是否患有癌症。评估可以调查被诊断患有癌症的人,以监测癌症的进展,研究治疗的有效性或确定预后。在一个实施方案中,预后可代表为对象死于癌症的机会,或癌症在特定持续时间或时间后进展的机会,或是癌症转移的机会。检测可以包括“筛检”,也可以包括检查具有癌症暗示特征(如症状或其他阳性检测)的人是否患有癌症。“病理水平(level of pathology)”可指与病原体相关的病理水平,其中所述水平可如上文针对癌症所述。当癌症与病原体相关时,某种程度的癌症可以是某种程度的病理学类型。
如本文所用,术语“参考基因组(reference genome)”是指可用于参考来自对象的已识别序列的任何生物体或病毒的任何特定已知、定序或表征的基因组,无论是部分的还是完整的。用于人类对象以及许多其他生物的示例性参考基因组在由国家生物技术信息中心(“NCBI”)或是加利福尼亚大学圣克鲁兹分校(University of California,Santa Cruz,UCSC)托管的在线基因组浏览器中提供。“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。如本文所用,参考序列或参考基因组可以是来自个体或是多个个体的组装或部分组装的基因组序列。在一些实施方案中,参考基因组是来自一个或多个人类个体的组装或部分组装的基因组序列。参考基因组可以被视为一个物种基因组的代表性例子。在一些实施方案中,参考基因组包含分配给染色体的序列。示例性人类参考基因组包括但不限于NCBI build 34(UCSC等效物(equivalent):hg16)、NCBI build 35(UCSC等效物:hg17)、NCBI build 36.1(UCSC等效物:hg18)、GRCh37(UCSC等效物:hg19)和GRCh38(UCSC等效物:hg38)。
如本文所用,如本文所用的术语“定序(sequencing)”、“序列测定(sequencedetermination)”等通常是指可用于确定诸如核酸或蛋白质之类的生物大分子的顺序的任何和所有生化过程。例如,定序数据可以包括核酸分子如DNA片段中的全部或部分核苷酸碱基。
如本文所用,术语“序列读取(sequence reads)”或“读取”是指由本文所述或本领域已知的任何定序过程产生的核苷酸序列。读取可以从核酸片段的一端生成(“单端读取(single-end reads)”),有时也可以从核酸的两端生成(例如,双端读取(paired-endreads)、双端读取(double-end reads)。在一些实施方案中,序列读取(例如,单端或双端读取)可以从靶向核酸片段的一条或两条链产生。序列读取的长度可以与特定的定序技术相关联。例如,高通量方法可以提供大小从几十个到几百个碱基对(bp)不等的序列读取。在一些实施方案中,序列读取的平均、中值或平均长度为约15bp至900bp长(例如,约20bp、约25bp、约30bp、约35bp、约40bp、约45bp约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp。在一些实施方案中,序列读取的平均、中值或平均长度为约1000bp、2000bp、5000bp、10,000bp或50,000bp或更多。例如,纳米孔定序(Nanopore sequencing)可以提供大小从几十到几百到几千个碱基对不等的序列读取。Illumina并行定序可以提供变化不大的序列读取,例如,大多数序列读取可以小于200bp。序列读取(或定序读取)可以指对应于核酸分子(例如,一串核苷酸)的序列信息。例如,序列读取可以对应于来自部分核酸片段的一串核苷酸(例如,约20至约150个),可以对应于核酸片段一端或两端的一串核苷酸,或者可以对应于整个核酸片段的核苷酸。序列读取可以通过多种方式获得,例如,使用定序技术或使用探针,例如杂交阵列或捕获探针,或扩增技术,例如聚合酶链式反应(PCR),或使用单一引物的线性扩增或等温扩增。
如本文所用,术语“定序广度(sequencing breadth)”是指特定参考基因组(例如,人类参考基因组)或基因组的一部分已被分析的部分。分数的分母可以是重复掩蔽基因组(repeat-masked genome),因此100%可以对应于所有参考基因组减去掩蔽部分。重复掩蔽基因组可以指序列重复被掩蔽的基因组(例如,序列读取与基因组的未掩蔽部分对齐)。基因组的任何部分都可以被掩蔽,因此人们可以专注于参考基因组的任何特定部分。广义定序可以指对至少0.1%的基因组进行定序和分析。
如本文所用,术语“定序深度(sequencing depth)”可与术语“覆盖(coverage)”互换使用,是指在定序过程中调查基因组位置的次数。例如,其可以通过与基因座对齐的独特核酸靶分子对应的共有序列(Consensus Sequence)读取覆盖基因座的次数来反映;例如,定序深度等于覆盖基因座的独特核酸靶分子的数量。基因组位置可以小到一个核苷酸,大到一个染色体臂,或是大到整个基因组。定序深度可以表示为“Yx”,例如,50x、100x等,其中“Y”是指基因组位置被对应于核酸靶标的序列覆盖的次数;例如,获得覆盖特定基因组位置的独立序列信息的次数。在一些实施方案中,定序深度对应于已定序的基因组数量。定序深度也可以应用于多个基因座或整个基因组,在这种情况下,Y可以指基因座或单倍体基因组或整个基因组分别独立定序的平均数(mean)或平均次数。当引用平均深度时,数据集中包含的不同基因座的实际深度可以跨越一系列值。在一些实施方案中,深度定序可以指在一个基因座处的定序深度至少为100x。在一些实施方案中,可以采用10,000x或更高的定序深度以鉴定稀有突变。
如本文所用,术语“灵敏度(sensitivity)”或“真阳性率(true positive rate,TPR)”是指真阳性的数量除以真阳性和假阴性的数量之和。灵敏度可以表征测定或方法正确识别真正患有某种疾病的族群的比例的能力。例如,灵敏度可以表征一种方法正确识别族群中患有癌症的对象的数量的能力。在另一个例子中,灵敏度可以表征一种方法正确识别一种或多种指示癌症的标志物(marker)的能力。
如本文所用,术语“特异性(specificity)”或“真阴性率(true negative rate,TNR)”是指真阴性的数量除以真阴性和假阳性的数量之和。特异性可以表征测定或方法正确识别真正没有疾病的族群比例的能力。例如,特异性可以表征一种方法正确识别族群中未患有癌症的对象的数量的能力。在另一个例子中,特异性表征一种方法正确识别一种或多种指示癌症的标志物的能力。
如本文所用,术语“真阳性”(true positive,TP)是指患有病症的对象。“真阳性”可以指患有肿瘤、癌症、癌前病症(例如,癌前病变)、局部或转移性癌症或非恶性疾病的对象。“真阳性”可以指对象患有病症,并且通过本公开的测定或方法被鉴定为患有此病症。
如本文所用,术语“真阴性”(true negative,TN)是指不具有病症或不具有可检测到病症的对象。真阴性可以指没有疾病或可检测到疾病的对象,例如肿瘤、癌症、癌前病症(例如,癌前病变)、局部或转移的癌症、非恶性疾病、或其他方面健康的对象。真阴性可以指不具有病症或不具有可检测到病症,或通过本公开的测定或方法被鉴定为不具有病症的对象。
如本文所用,术语“单核苷酸变体(single nucleotide variant)”或“SNV”指一个核苷酸在核苷酸序列的位置(例如,位点)处的取代,例如,对应于来自个体的靶核酸分子的序列个体,对应于与参考基因组中对应位置处的核苷酸不同的核苷酸。从第一个核碱基X到第二个核碱基Y的取代可以表示为“X>Y”。例如,胸腺嘧啶SNV的胞嘧啶可以表示为“C>T”。在一些实施方案中,SNV不会导致氨基酸表达的变化(同义变体(synonymous variant))。在一些实施方案中,SNV导致氨基酸表达的变化(非同义变体(non-synonymous variant))。
如本文所用,术语“甲基化(methylation)”是指脱氧核糖核酸(DNA)的修饰,其中胞嘧啶碱基的嘧啶环上的氢原子被转化为甲基,形成5-甲基胞嘧啶。甲基化可发生在胞嘧啶和鸟嘌呤的二核苷酸(dinucleotides)处,本文称为“CpG位点”。在其他情况下,甲基化可能发生在不是CpG位点一部分的胞嘧啶或另一个不是胞嘧啶的核苷酸上;但是,这些情况很少见。在本公开中,为了清楚起见,甲基化可以参考CpG位点进行讨论。异常cfDNA甲基化可被识别为高甲基化或低甲基化,这两者都可能表明癌症状态。如本领域所熟知的,DNA甲基化异常(与健康对照相比)可引起不同的影响,这可能导致癌症。
在异常甲基化cfDNA片段的鉴定中出现了各种挑战。首先,与一组对照组相比,确定对象的cfDNA异常甲基化可以保持体重,因此如果对照组人数较少,则此确定可能会与小对照组失去信心。此外,在一组对照对象中,甲基化状态可能会有所不同,这在确定对象的cfDNA异常甲基化时可能难以解释。另一方面,CpG位点胞嘧啶的甲基化可能会影响后续CpG位点的甲基化。
本文所述的原理同样适用于检测非CpG环境中的甲基化,包括非胞嘧啶甲基化。此外,甲基化状态向量可以包含通常是已经发生或未发生甲基化的位点的向量的元件(即使这些位点不是特定的CpG位点)。通过此替换,本文描述的其余过程是相同的,因此,本文描述的发明概念适用于那些其他形式的甲基化。
如本文所用,每个基因组位点(例如,CpG位点,DNA区域,其中一个胞嘧啶核苷酸后跟一个鸟嘌呤核苷酸,在碱基的线性序列中沿着其5'→3'方向)的术语“甲基化指数”可以指在此位点显示甲基化的序列读取与覆盖此位点的读取总数的比例。区域的“甲基化密度”可以是区域内显示甲基化的位点的读取除以覆盖此区域位点的读取总数。位点可以具有特定特征(例如,位点可以是CpG位点)。区域的“CpG甲基化密度”可以是显示CpG甲基化的读取除以覆盖此区域中CpG位点(例如,特定CpG位点、CpG岛内的CpG位点或更大区域内的CpG位点)的读取总数。例如,人类基因组中每个100-kb箱的甲基化密度可以从CpG位点处未转换的胞嘧啶的总数(可对应甲基化胞嘧啶)中确定,作为映射到100-kb区域的序列读取所覆盖的所有CpG位点的比例。在一些实施方案中,此测定针对其他箱的大小进行,例如,50-kb或1-Mb等。在一些实施方案中,区域是整个基因组或染色体或染色体的一部分(例如,染色体臂)。当区域包括CpG位点时,CpG位点的甲基化指数可以与此区域的甲基化密度相同。“甲基化胞嘧啶的比例”可以指显示为甲基化(例如,在亚硫酸盐转化后未转化)的胞嘧啶位点“C's”的数量与所分析的胞嘧啶残基的总数相比,例如,包括此区域中CpG之外的胞嘧啶。甲基化指数、甲基化密度和甲基化胞嘧啶的比例是“甲基化水平”的实施例。
如本文所用,术语“甲基化概况(methylation profile)”(也称为甲基化状态)可以包括与区域的DNA甲基化相关的信息。与DNA甲基化相关的信息可以包括CpG位点的甲基化指数、区域中CpG位点的甲基化密度、连续区域中CpG位点的分布、包含多个CpG位点的区域内每个单独CpG位点的甲基化模式或水平和非CpG甲基化。基因组大部分的甲基化概况可以被认为等同于甲基化组(methylome)。哺乳动物基因组中的“DNA甲基化”可以指在CpG二核苷酸中胞嘧啶的杂环的第5个位置添加甲基(例如,以产生5-甲基胞嘧啶)。胞嘧啶的甲基化可以发生在其他序列环境中的胞嘧啶中,例如5'-CHG-3'和5'-CHH-3',其中H是腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化也可以是5-羟甲基胞嘧啶的形式。DNA的甲基化可以包括非胞嘧啶核苷酸的甲基化,例如N6-甲基腺嘌呤。
如本文所用,术语“大小概况(size profile)”和“大小分布(sizedistribution)”可以涉及生物样本中DNA片段的大小。大小概况可以是提供多种大小的DNA片段量分布的直方图。各种统计参数(也称为尺寸参数或仅称为参数)可以将一种尺寸概况与另一种尺寸概况区分。一个参数可以是特定大小或大小范围的DNA片段相对于所有DNA片段或相对于另一大小或范围的DNA片段的百分比。
如本文所用,术语“对象(subject)”是指任何活的或非活的有机体,包括但不限于人类(例如,男性人类、女性人类、胎儿、怀孕的女性、儿童等)、非人类动物、植物、细菌、真菌或原生生物。任何人类或非人类动物都可以作为对象,包括但不限于哺乳动物、爬行动物、鸟类、两栖动物、鱼类、有蹄类动物、反刍动物、牛(bovine)(例如:牛(cattle))、马(equine)(例如:马(horse))、山羊(caprine)和绵羊(ovine)(例如:绵羊(sheep)、山羊(goat))、猪(swine)(例如:猪(pig))、骆驼(camelid)(例如:骆驼(camel)、美洲驼(llama)、羊驼(alpaca))、猴子、猿(例如:大猩猩、黑猩猩)、熊(ursid)(例如:熊(bear))、家禽、狗、猫、老鼠、老鼠、鱼、海豚、鲸鱼和鲨鱼。在一些实施方案中,对象是任何年龄的男性或女性(例如,男性、女性或儿童)。
如本文所用,术语“组织”是指作为功能单元一起发挥作用的一组细胞。在单个组织中可以发现不止一种类型的细胞。不同类型的组织可能包括不同类型的细胞(例如,肝细胞、肺泡细胞或血细胞),但也可以对应于来自不同生物体的组织(母亲与胎儿)或健康细胞与肿瘤细胞。术语“组织”通常可以指在人体中发现的任何细胞组(例如,心脏组织、肺组织、肾组织、鼻咽组织、口咽组织)。在一些方面,术语“组织”或“组织类型”可用于指代游离核酸来源的组织。在一个例子中,病毒核酸片段可以来源于血液组织。在另一个例子中,病毒核酸片段可以来源于肿瘤组织。
在此使用的术语是为了描述特定情况的目的,而不是限制性的。如本文所用,单数形式“一(a)”、“一(an)”和“所述(the)”旨在也包括复数形式,除非上下文另有明确指示。此外,在详细描述和/或权利要求中使用的术语“包括(including)”、“包括(includes)”、“具有(having)”、“具有(has)”、“具有(with)”或其变体的范围内,这些术语旨在以类似于“包含”一词的方式包含在内。
下面参考示例应用来描述几个方面以用于说明。阐述了许多具体细节、关系和方法以提供对本文描述的特征的全面理解。可以在没有一个或多个具体细节的情况下或使用其他方法来实践本文描述的特征。此处描述的特征不受所示出的动作或事件顺序的限制,因为一些动作可以以不同的顺序发生和/或与其他动作或事件同时发生。此外,并非所有图示的动作或事件都用于实施根据本文描述的特征的方法。
可以为这里描述的组件、操作或结构提供多个实例作为单个实例。最后,各种组件、操作和数据存储之间的边界在某种程度上是任意的,并且在特定说明性配置的上下文中说明了特定操作。功能的其他分配被设想并且可能落入实施的范围内。通常,在示例配置中呈现为单独组件的结构和功能可以实现为组合结构或组件。类似地,作为单个组件呈现的结构和功能可以实现为单独的组件。这些和其他变化、修改、添加和改进落入实施的范围内。
尽管在本文中可以使用术语第一、第二等来描述各种元素,但是这些元素不应受这些术语的限制。这些术语用于区分一个元素和另一个元素。例如,第一对象可以称为第二对象,并且类似地,第二对象可以称为第一对象,而不脱离本公开的范围。第一主题和第二主题都是对象,但它们不是同一个对象。
如本文所用,根据上下文,术语“如果”可以解释为表示“何时”或“在”或“响应于确定”或“响应于检测”。类似地,短语“如果确定”或“如果检测到规定的条件或事件”可以解释为表示“在确定时”或“响应于确定”或“在检测到(规定的条件或事件(或“响应检测(所述条件或事件)”,具体取决于上下文。
系统的实施方案:
一种用于确定对象疾病状态的系统100的详细描述结合图1A和图1B进行描述。因此,图1A和图1B共同说明了根据本公开的实施方案的系统的拓扑(topology)。
参考图1A,在一些实施方案中,系统100包括一个或多个计算机。为了在图1A中说明的目的,系统100被表示为单个计算机,其包括使用来自基于细胞的测定的数据来识别复杂生物系统内的相互作用的所有功能。然而,在一些实施方案中,用于确定对象疾病状态的功能分布在任意数量的联网计算机上和/或驻留在若干联网计算机中的每一个上和/或托管在通过通信网络105可访问位于远程位置的一个或多个虚拟机。各种不同的计算机拓扑结构中的任何一个都可以用于此应用,并且所有这样的拓扑结构都在本公开的范围内。
现在结合图1描述示例性系统的细节。图1是示出根据一些实施方案的系统100的框图。在一些实施方式中,装置100包括至少一个或多个处理单元CPU 102(也称为处理器)、一个或多个网络接口104、用户接口106,例如,包括显示器108和/或键盘110、存储器111和用于互连这些组件的一个或多个通信总线114。一个或多个通信总线114可选地包括互连和控制系统组件之间的通信的电路(有时称为芯片组)。存储器111可以是非持久性存储器、持久性存储器或其任意组合。非持久性存储器可以包括高速随机存取存储器,例如DRAM、SRAM、DDR RAM、ROM、EEPROM、闪存,而持久性存储器可以包括CD-ROM、数字通用磁盘(DVD)或其他光存储、磁带(magnetic cassettes)、磁带(magnetic tape)、磁盘存储或其他磁性存储装置、磁盘存储装置、光盘存储装置、闪存装置或其他非易失性固态存储装置。不管其具体实现方式如何,存储器111包括至少一个非暂态计算机可读存储介质,其上存储有计算机可执行指令,所述指令可以是程序、模块和数据结构的形式。
在一些实施方案中,如图1所示,存储器111存储:
与可选操作系统116相关的指令、程序、数据或信息,其包括用于处理各种基本系统服务和用于执行硬件相关任务的过程;
与可选网络通信模块(或指令)118相关联的指令、程序、数据或信息,用于将系统100与其他装置和/或通信网络105连接;
测试基因型数据结构数据库120,用于存储测试对象的基因型数据结构124的集合122,其中每个基因型数据结构124包括从对对象的游离DNA定序获得的基因型特征,例如,一个或多个基因组拷贝数数据124,例如对象的基因组的不同区域的箱读取计数126,变异等位基因数据128,例如对象基因组内不同等位基因的等位基因状态130,等位基因比率数据132,例如对象的基因组内不同等位基因的等位基因分数134,以及基因组甲基化数据136,例如对象的基因组的不同基因组区域的CpG甲基化状态138;
与疾病分类评估模块140相关的指令、程序、数据或信息,用于使用疾病分类模型142询问测试对象122的一个或多个基因型数据结构124,以提供测试对象144的疾病分类模块得分集146;以及
与δ得分评估模块150相关联的指令、程序、数据或信息,用于对照参考δ得分集154来评估测试对象的多个疾病分类模型得分集146,以提供测试对象分类162,δ得分评估模块150在评估之前可选地将一个或多个参考δ得分集协变量158应用于疾病分类模型得分集146及参考δ得分集154之一或两者,及/或包括归一化子模块,以在评估之前归一化疾病分类模型得分集146及参考δ得分集154之一或两者。
在一些实施方案中,模块118、140和/或150和/或数据存储122、144、152和/或160可在任何浏览器内访问(例如,安装在电话、平板电脑或笔记本电脑/台式机系统上)。在一些实施方案中,模块118、140和/或150在本地装置框架上运行,并且可用于下载到运行操作系统116的系统100上,例如Windows、macOS、Linux操作系统、Android OS或iOS。
在一些实施方案中,用于确定对象的疾病状态的系统100的一个或多个上述识别的数据元素或模块被存储在一个或多个先前描述的存储器装置中,并且对应于一组用于执行上述功能的指令。上述数据、模块或程序(例如,指令集)可以不被实现为单独的软件程序、过程或模块,因此这些模块的各种子集可以在各种实施方式中组合或以其他方式重新布置。在一些实施方式中,存储器111可选地存储上述模块和数据结构的子集。此外,在一些实施方案中,存储器111存储上面未描述的附加模块和数据结构。在一些实施例中,上述识别的元素中的一个或多个被存储在系统100之外的计算机系统中,其可由系统100寻址,使得系统100可以检索所有或部分这样的数据。
尽管图1描绘了“系统100”,但是此图旨在作为可能存在于计算机系统中的各种特征的功能描述,而不是作为此处描述的实现的结构示意图。在实践中,单独显示的项目可以合并,一些项目可以分开。此外,尽管图1描绘了存储器111(其可以是非持久或持久存储器)中的某些数据和模块,但可以理解,这些数据和模块或其一部分可以存储在一个以上的存储器中。
所公开的任何方法都可以利用公开在以下文件的任何测定或算法:美国专利第9,121,069号,题为“使用基因组定序诊断癌症(Diagnosing cancer using genomicsequencing)”;美国专利公开第2017/0218450A1号,题为“使用基因组定序检测与癌症相关的遗传异常(Detecting genetic aberrations associated with cancer using genomicsequencing)”;美国专利第9,965,585号,题为“检测与癌症相关的遗传或分子异常(Detection of genetic or molecular aberrations associated with cancer)”;美国专利第9,892,230号,题为“血浆中胎儿或肿瘤DNA分数的基于大小的分析(Size-basedanalysis of fetal or tumor DNA fraction in plasma)”;美国专利公开第2016/0201142A1号,题为“使用血浆DNA中的大小和数量异常来检测癌症(Using size andnumber aberrations in plasma DNA for detection cancer)”;美国专利申请第62/642,461号,题为“一种选择、管理和分析高维数据的方法和系统(Method and system forselecting,managing and analyzing data of high dimensionality)”;美国专利申请第62/679,746号,题为“用于数据分类的卷积神经网络系统和方法(convolutional neuralnetwork systems and methods for data classification)”;美国专利申请第62/777,693号,题为“针对多种癌症类别对患者进行分类的系统和方法(Systems and Methods forClassifying Patients with Respect to Multiple Cancer Classes)”;出于所有目的,上述公开内容以引用的方式全文并入本文。因此,在一些实施方案中,本文公开的系统100可以包括在任何上述专利和专利申请中描述的任何模块或数据存储。
现在已经公开了用于确定对象疾病状态的系统100的细节,下面公开了根据本公开的各种实施方案的关于系统的过程和特征的细节。具体而言,下面参考图2、图3A至图3G和图4A至图4F描述示例过程。在一些实施方案中,系统的此类过程和特征由模块118、140和/或150执行,如图1所示。参考这些方法,本文描述的系统(例如,系统100)可以包括用于执行用于确定对象的疾病状态的方法。
图2图示了根据本公开的各种实施方案的用于通过评估对象的一个或多个生物特征随时间的变化来确定对象的疾病状态的示例工作流200。关于工作流200中所示步骤的各种实现的进一步细节在下面更具体地描述,例如,结合示例方法300和400的描述。然而,方法300和400可以是工作流200的示例实现,其可以是用于执行工作流200中所示的每个步骤的合适的替代方案。
在一些实施方案中,工作流200的第一步骤是在第一时间从对象收集(202)基础生物数据。可以例如在多个时间点从对象收集(204)生物样本。在一些实施方案中,如图2所示,用于本文所述方法的生物样本包括游离核酸,例如cfDNA。有利地,游离核酸可以通过从对象中微创、小体积的血液抽取,或者可能通过其他体液例如唾液或尿液的无创取样来获得。然而,本文所述的系统和方法可适用于评估可用于检测对象疾病状态的任何类型的生物数据,例如游离或细胞基因组数据、转录组数据、表观遗传学数据、蛋白质组学数据、代谢组学数据等
可以处理生物样本以获得关于对象的生物信息(206),例如对象在给定时间点的一个或多个生物特征。在一些实施方案中,如图2所示,对样本中的游离核酸(例如,cfDNA)进行定序以产生cfDNA序列读取。例如,可用于DNA或RNA定序的许多次世代定序方法可用于分离和定序游离核酸。这些方法可以包括合成定序技术(Illumina)、焦磷酸定序(454LifeSciences)、离子半导体技术(Ion Torrent定序)、单分子实时定序(PacificBiosciences)、连接定序(SOLiD定序)、纳米孔定序(Oxford Nanopore Technologies)或是双端定序。然而,由于本文描述的方法可以使用其他类型的生物信息来执行,例如游离或细胞基因组数据、转录组数据、表观遗传学数据、代谢组学数据等,因此本文还可以考虑提取生物特征的其他方法,例如,杂交、qPCR、质谱、基于免疫亲和性的检测方法等。
尽管工作流200说明了收集生物样本(例如,获得cfDNA样本204)和生物特征提取(例如,产生多个cfDNA序列读取206)的可选步骤,但在一些实施方案中,本文描述的用于确定对象的疾病状态的方法开始于获得先前提取的生物特征(例如,序列读取),例如,通过例如网络105以电子形式接收生物特征(例如,序列读取)。
工作流200包括基于在步骤206收集的生物信息生成(208)生物特征集的步骤。在一些实施方案中,如图2所示,生物特征集包括基因型特征(例如,基因型数据结构122)从游离核酸(例如:cfDNA)样本的序列读取中获得。可用于本文所述方法的基因型特征的实施例包括读取计数(例如,箱读取计数126),其提供关于以下的信息:测试生物样本中特定序列(例如,基因组或外显子基因座)的相对丰度;变异等位基因的存在(例如,等位基因状态130),其提供关于对象的基因组(例如,在生殖系或患病组织中的一个或两个中)相对于对象物种的参考基因组的差异的信息;等位基因频率(例如,等位基因分数134)提供关于变异等位基因相对于非变异等位基因在测试生物样本中的相对丰度的信息;和甲基化状态(例如,CpG甲基化状态138),其提供有关测试生物样本中不同基因组区域的甲基化状态的信息。包括在数据结构中的特定特征和数据结构的格式可以由工作流200的步骤210中使用的分类器规定。
因此,在步骤208中生成的生物特征集(例如,基因型数据结构124)可以应用于(210)疾病分类器(例如,疾病分类模型140),以生成在第一时间的对象的疾病模型得分集(例如,疾病分类模型得分集146))。例如,在收集生物样本时对象患有疾病状况(例如癌症、特定类型的癌症、心血管疾病等)的概率。
在一些实施方案中,如工作流200中所示,疾病模型得分用于最初将对象分类(212)为具有疾病状态或不具有疾病状态(例如,患有癌症或未患有癌症、患有心血管疾病或没有心血管疾病等)。当疾病模型得分集指示对象中存在疾病状态(例如,对象患有癌症、对象患有心血管疾病等)时,对象可以被分类(214)为患有疾病状况,并且不使用随时间推移对对象的疾病模型得分变化的评估,因为对象已经被确定为具有疾病状态。然而,当疾病模型得分集指示对象中不存在疾病状态(例如,对象没有癌症、对象没有心血管疾病等)时,本文描述的方法可用于识别对象患有疾病状态或正在发展疾病状态,但疾病状态尚未发展到足以通过疾病分类器进行识别的人。例如,基于从游离DNA获得的基因型数据的癌症分类器可以使用最小的肿瘤分数,以便获得足够的信号来确定地识别癌症特征。有利地,本文描述的方法能够识别指示早期疾病状态的生物数据的变化,甚至在疾病信号强到足以使用例如基于单个时间点采集的数据的传统分类器进行确定识别之前。
当疾病模型得分集(例如,在步骤210生成的疾病分类模型得分集146)指示对象不具有疾病状态,或指示不能将对象肯定地分类为具有疾病状态时,本文所述的方法可用于比较随时间疾病模型得分集中的变化,以进一步询问对象是否具有单时间点分类器无法辨别的疾病状态。然而,本文所述的方法可以使用在至少两个不同时间点从对象获得的生物数据。因此,当确定(216)在工作流200的步骤210生成的疾病模型得分集是为对象生成的第一这样的疾病模型得分时,可以使用在第二次获取的来自另一个样本的生物数据,如图2中返回收集步骤202的箭头所示。
在一些实施方案中,虽然第二疾病模型得分集之前可能没有使用与步骤210中使用的相同分类器生成,但来自对象的生物数据可以从例如之前在不同分类器中使用的不同测试获得。在一些实施方案中,为两种不同测定收集的生物数据可能存在大量重叠,以允许使用共同分类器评估两个数据集,例如先前使用的两个分类器中的任何一个,或是尚未使用的第三个分类器。以这种方式,可以在两个不同的时间点为对象生成疾病模型得分,从而允许进行比较,如本文所述。
因此,当一个或多个先前生成的疾病模型得分集可用于对象时,例如,使用相同分类器、与步骤210中使用的分类器具有已知对应关系的不同分类器,或是使用与在步骤202收集的生物数据有大量重叠的生物数据的分类器,以允许生成至少两个时间点的疾病模型得分,工作流200可以通过确定疾病模型得分随时间的变化(218)来进行(例如,使用疾病分类评估模块140确定的δ得分集148)。例如,如果第一疾病模型得分集指示对象在第一时间点出现疾病状态的几率为12%,而第二疾病模型得分集指示对象在第二时间点出现疾病状态的几率为14%,则在第一个时间点和第二个时间点之间,对象患有疾病状态的概率发生了2%的变化。如下文进一步描述,在一些实施方案中,疾病模型得分随时间的变化被归一化或以其他方式调整(例如作为协变量)参数,例如第一和第二时间点之间的时间段的长度,或测试对象的个人特征(例如,年龄、性别/生理性别、种族、吸烟状况、家族史等)。在步骤218中确定的疾病模型得分随时间的变化可以对照一模型随时间的变化的来进行评估(220)(例如,使用δ得分评估模块150)。
在一些实施方案中,如下文结合方法300进一步描述的,此模型包括统计检验,此统计检验用于使用与工作流200的步骤210中使用的相同的分类器,确定对象的疾病模型得分随时间的变化(例如,δ得分集148)是否属于从被分类为没有疾病状态(或不能被肯定地分类为患有疾病状态)的参考对象的群体(例如,参考δ得分集152)确定的疾病模型得分随时间变化的分布。在一些实施方案中,如下文进一步描述的,此参考分布针对一个或多个参数进行归一化,例如第一和第二时间点之间的时间段的长度,或测试对象的个人特征(例如,年龄、性别、种族、吸烟状况、家族史等),例如,在评估测试δ得分集148之前,通过将一个或多个先验应用于参考分布化。
在其他实施方案中,如下面结合方法400进一步描述的,当已经为对象生成了2个以上的δ得分集时,即对象已经在3个或更多个时间点测试了疾病状态,此模型包括将时间趋势测试应用于对象的所有先前的δ得分集148,以生成测试时间趋势测试统计,例如,衡量对象的δ得分集随时间的变化是否存在统计上显着的趋势。可以将对象的时间趋势检验统计与来自被分类为没有疾病状态的参考对象群体的时间趋势检验统计(例如:参考统计154)的分布进行比较,例如,使用统计假说检定。在一些实施方案中,如下文进一步描述,例如,在评估测试时间趋势测试统计之前,通过将一个或多个先验应用于参考分布,对照一个或多个参数,来对此参考分布归一化,所述参数例如测试对象的个人特征(例如,年龄、性别、种族、吸烟状况、家族史等)。
根据测试值的比较(例如,δ得分集148或时间趋势测试统计),可以对对象的疾病状态进行分类。例如,在一些实施方案中,使用对象的测试值不属于参考测试值的分布的零假设来执行统计假设检定(检定)。当通过测试证明零假设时,例如,测试返回满足定义阈值(例如,0.05、0.01或0.005)的统计显着值,可将对象归类为具有疾病状态。当未通过测试证明零假设时,例如,测试返回的统计显着值不满足定义的阈值(例如,0.05、0.01或0.005),则可将对象归类为不具有疾病状态。
概述了基于对象的生物特征随时间的变化来确定对象的疾病状态的一般工作流200,下面参考具体实施方法300和400,进一步描述了根据本发明的各种实施例的系统过程和特征,如图3A至图3G和图4A至图4F所示。在一些实施方案中,系统的此类过程和特征由模块118、140和/或150执行,如图1所示。参考这些方法,本文描述的系统(例如,系统100)可以包括用于执行用于确定对象的疾病状态的方法的说明。用于实现本文所述方法的这些特定过程和特征并非旨在限制,并且替代过程和特征可用于执行所公开方法的各个步骤。
疾病状态:
通常,本文所述的系统和方法可用于提高诊断与生物疾病特征发展相关的任何疾病状态的敏感性和特异性。也就是说,可以基于对对象的生物特征的检查来诊断的任何疾病状态,例如基因组特征、表观遗传学特征、转录组学特征、蛋白质组学特征、代谢物组学特征等。
在一些实施方案中,疾病状态是可以基于游离DNA(cell-free DNA,cfDNA)的基因组特征进行诊断的状态。cfDNA是本文所述方法的一个特别有用的生物数据源,因为它很容易从各种体液中获得,例如血液、血浆、血清、尿液、阴道液、来自鞘膜积液(例如睾丸的)的液体、阴道冲洗液、胸膜液、腹水、脑脊液、唾液、汗液、眼泪、痰、支气管肺泡灌洗液、从乳头排出液体、从身体不同部位(例如:甲状腺、乳房)吸入液体等。有利的是,使用体液可以方便地进行连续监测,因为这些液体可以通过无创或微创方法收集。这可能与依赖实体组织样本的方法形成对比,例如活检,后者通常使用侵入性外科手术。此外,由于体液(例如:血液)在全身循环,cfDNA群体可以代表来自许多不同位置的许多不同组织类型的样本。
在一些实施方案中,使用本文所述系统和方法测试的疾病状况是癌症状况(3026)。例如,美国专利申请公开第2019/0287652号中描述了基于cfDNA甲基化模式评估对各种癌症状况进行分类的方法,出于所有目的,其内容通过引用并入本文。类似地,美国专利申请公开第2019/0287649号中描述了基于cfDNA中相对基因组拷贝数的评估对各种癌症状况进行分类的方法,出于所有目的,其内容通过引用并入本文。在一些实施方案中,癌症可以是一肾上腺癌、一胆道癌、一膀胱癌、一骨/骨髓癌、一脑癌、一子宫颈癌、一结直肠癌、一食道癌、一胃癌、一头/颈癌、一肝胆癌、一肾癌、一肝癌、一肺癌、一卵巢癌、一胰脏癌、一骨盆腔癌、一胸膜癌、一前列腺癌、一肾癌、一皮肤癌、一胃癌、一睾丸癌、一胸腺癌、一甲状腺癌、一子宫癌、一淋巴瘤、一黑色素瘤、一多发性骨髓瘤或一白血病。
在一些实施方案中,使用本文所述系统和方法测试的疾病状况为冠心病(338)。例如,Zemmour H等人,自然-通讯(Nat Commun.),9(1):1443(2018),其内容通过引用并入本文,确定了心肌细胞中差异非甲基化的基因组基因组,并证明可在急性ST段抬高心肌梗死患者血浆中检测到这些非甲基化序列的增加。同样,Khush KK等人,移植杂志(Am JTransplant.),19(10):2889-99(2019),其内容通过引用并入本文,证明在分类为急性排斥反应的样本中,心脏移植后供体特异性(donor-specific)cfDNA增加。肾移植排斥反应也有类似的结果。
在一些实施方案中,疾病状况是一组疾病状况中的一种疾病状况,并且此模型提供了设置条件中每个疾病状况的概率或似然(3028)。例如,在一些实施方案中,本文描述的系统及方法能够检测及/或区分若干相关疾病。例如,出现类似症状及/或类似生物特征的疾病。类似地,在一些实施方案中,本文描述的系统及方法能够检测及/或区分一种或多种疾病的几个不同阶段。例如,在疾病的早期、中期及/或晚期之间。例如,不同的癌症阶段,如0-IV期。
在一些实施方案中,所述一组疾病状况包括多种癌症状况(330)。在一些实施方案中,所述多种癌症状况包括一肾上腺癌、一胆道癌、一膀胱癌、一骨/骨髓癌、一脑癌、一子宫颈癌、一结直肠癌、一食道癌、一胃癌(gastric cancer)、一头/颈癌、一肝胆癌、一肾癌(kidney cancer)、一肝癌、一肺癌、一卵巢癌、一胰脏癌、一骨盆腔癌、一胸膜癌、一前列腺癌、一肾癌(renal cancer)、一皮肤癌、一胃癌(stomach cancer)、一睾丸癌、一胸腺癌、一甲状腺癌、一子宫癌、一淋巴瘤、一黑色素瘤、一多发性骨髓瘤或一白血病。
类似地,在一些实施方案中,所述多种癌症状况包括以下癌症的预定阶段(predetermined stage):一肾上腺癌、一胆道癌、一膀胱癌、一骨/骨髓癌、一脑癌、一子宫颈癌、一结直肠癌、一食道癌、一胃癌(gastric cancer)、一头/颈癌、一肝胆癌、一肾癌(kidney cancer)、一肝癌、一肺癌、一卵巢癌、一胰脏癌、一骨盆腔癌、一胸膜癌、一前列腺癌、一肾癌(renal cancer)、一皮肤癌、一胃癌(stomach cancer)、一睾丸癌、一胸腺癌、一甲状腺癌、一子宫癌、一淋巴瘤、一黑色素瘤、一多发性骨髓瘤或一白血病。
在一些实施方案中,疾病状况是疾病的预后。例如,未经治疗的预期寿命、接受治疗的预期寿命或对特定治疗的预期反应。在一些实施方案中,预后是存活统计,例如,疾病特异性存活统计(例如,1年、2年、5年、10年、20年或其他存活时间),相对存活统计(例如,1年、2年、5年、10年、20年或其他存活时间),总体存活统计(例如,1年、2年、5年、10年、20年或其他存活时间),或无病存活统计(例如,1年、2年、5年、10年、20年或其他无复发或无进展存活时间)。在一些实施方案中,预后是对特定治疗方案的预测反应。在一些实施方案中,疾病状况是癌症的预后(332)。因此,在一些实施方案中,癌症的预后是癌症的特定治疗的预后(334)。类似地,在一些实施方案中,癌症的预后是癌症复发的预后(336)。在一些实施方案中,疾病状况是冠心病的预后。在一些实施方案中,疾病状况是冠心病的特定治疗的预后。
生物样本采集:
如本文所述,cfDNA可以是本文所述方法的特别有用的生物学数据来源,因为它很容易从各种体液中获得。有利地,由于易于收集,使用体液可以促进连续监测,因为这些体液可通过非侵入性或微创方法收集。这与依赖实体组织样本的方法(例如:活检)形成对比,后者通常使用侵入性外科手术。此外,由于体液(例如:血液)在全身循环,cfDNA群体可以代表来自许多不同位置的许多不同组织类型的样本。因此,在一些实施方案中,从对象获得的生物样本选自血液、血浆、血清、尿液、阴道液、来自鞘膜积液(例如睾丸的)的液体、阴道冲洗液、胸膜液、腹水、脑脊液液体、唾液、汗水、眼泪、痰液、支气管肺泡灌洗液、乳头排出的液体、身体不同部位(例如:甲状腺、乳房)的吸液等。
在一些实施方案中,方法包括评估来自两个生物样本(例如,如下文参考方法300所述)的生物特征(例如,cfDNA),从测试对象获得的第一生物样本以及从测试对象获得的第二生物样本分别包括对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。类似地,在一些实施方案中,方法包括从一系列两个以上的生物样本(例如,如下文参考方法400所述)中评估生物特征(例如,cfDNA),从测试对象获得的每个样本分别包括对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。
在一些实施方案中,来自测试对象的一系列样本中的每个样本都是相同类型的。例如,在一些实施方案中,方法包括评估来自两个生物样本(例如,如下文参考方法300所述)的生物特征(例如,cfDNA),从测试对象获得的第一生物样本与从测试对象获得的第二生物样本是相同类型的样本,选自于对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液及腹膜液。在一些实施方案中,从测试对象获得的第一生物样本以及从测试对象获得的第二生物样本均为血液样本。在一些实施方案中,从测试对象获得的第一生物样本以及从测试对象获得的第二生物样本均为血浆样本。
类似地,在一些实施方案中,方法包括从一系列两个以上的生物样本(如下文参考方法400所述)中评估生物特征(例如,cfDNA),从测试对象获得的每个样本都是相同类型的样本,选自于对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液及腹膜液。在一些实施方案中,从一系列生物样本中的测试对象获得的每个生物样本都是血液样本。在一些实施方案中,从一系列生物样本中的对象获得的每个生物样本都是血浆样本。
获得生物特征:
如上所述,参考工作流200的步骤202,在一些实施方案中,本文所述的方法(例如,方法300和/或方法400)包括从从对象获得的生物样本中获得生物特征的步骤。例如,在一些实施方案中,方法300使用的生物学特性是从来自对象的液体样本中游离DNA的序列读取。因此,在一些实施方案中,方法包括从对象获得cfDNA样本以及从cfDNA样本生成序列读取中的一个或两个。
在一些实施方案中,例如,如工作流200的步骤206所示,结合本文所述的系统和方法使用的生物特征是从对象的液体生物样本中获取的基因组特征。有利的是,可以通过从对象身上微创、小体积的血液抽取,或者可能通过对其他体液(如唾液或尿液)的非侵入性取样来获得游离核酸。如下文进一步所述,可从液体生物样本中存在的游离DNA的序列读取中提取生物特征(例如,读取计数126、等位基因状态130、等位基因分数134和甲基化状态138中的一个或多个)。
因此,在一些实施方案中,结合本文所述方法(例如,方法300和400)使用的生物样本是包含人类基因组任何子集(包括整个基因组)的液体样本。样本可从已知患有或疑似患有癌症的对象中提取。样本可包括血液、血浆、血清、尿液、粪便、唾液、其他类型的体液或其任何组合。在一些实施例中,用于抽取血样的方法(例如,注射器或手指穿刺)可能比用于获取组织活检的程序(可以使用手术)的侵入性小。提取的样本可包括cfDNA和/或ctDNA。在一些实施方案中,例如,使用基于探针的富集方法(probe-based enrichment),针对基因组的特定区域和/或基因组富集样本。
然后可以从样本中制备定序文库,例如,其可能或可能没有针对特定序列进行富集。在一些实施例中,在文库制备期间,通过适配器连接将唯一分子标识符(uniquemolecular identifiers,UMI)添加到核酸分子(例如DNA分子)。唯一分子标识符是短核酸序列(例如,4-10碱基对),在适配器连接期间添加到DNA片段的末端。在一些实施例中,唯一分子标识符是简并碱基对,用作唯一标签,可用于识别源自特定DNA片段的序列读取。在一些实施例中,例如,当多重定序可用于在单个定序反应中对来自多个对象的cfDNA进行定序时,还向核酸分子添加患者特异性指数(specific index)。在一些实施例中,患者特异性指数是在文库构建期间添加到DNA片段末端的短核酸序列(例如,3-20个核苷酸),其用作可用于识别源自特定患者样本的序列读取的唯一标签。在适配器连接后的PCR扩增过程中,唯一分子标识符可以与连接的DNA片段一起复制。这可以提供一种在下游分析中识别来自相同原始片段的序列读取的方法。
在一些实施方案中,在分类模型评估一个或多个基因座的甲基化状态的情况下,在生成定序文库之前,处理从生物样本(例如cfDNA)中分离的核酸,以将未甲基化的胞嘧啶转化为尿嘧啶。因此,当对核酸进行定序时,定序反应中所称的所有胞嘧啶都可以甲基化,因为未甲基化的胞嘧啶可以转化为尿嘧啶,因此在定序反应中被称为胸腺嘧啶,而不是胞嘧啶。商业试剂盒可用于亚硫酸盐介导的甲基化胞嘧啶向尿嘧啶的转化,例如EZ DNAMethylationTM-Gold、EZ DNA MethylationTM-Direct和EZ DNA MethylationTM-Lightningkit(可从Zymo Research Corp(加利福尼亚州尔湾市(Irvine,CA))获得)。商业试剂盒也可用于甲基化胞嘧啶到尿嘧啶的酶转化,例如APOBEC Seq试剂盒(可从马萨诸塞州伊普斯威奇(Ipswich,MA)NEBiolabs获得)。
然后,可以从序列库或序列库池生成序列读取。序列数据可以通过本领域的已知手段获取。例如,次世代定序(NGS)技术,如合成定序技术(Illumina)、焦磷酸定序(454LifeSciences)、离子半导体技术(Ion Torrent sequencing)、单分子实时定序(single-molecule real-time sequencing)(Pacific Biosciences)、连接定序(sequencing byligation)(SOLiD sequencing)、纳米孔定序(Oxford nanopore Technologies)或双端定序(paired-end sequencing)。在一些实施例中,通过使用可逆染料终止剂的合成定序来执行大规模并行定序。
然后可以使用本领域的已知方法将序列读取与对象物种的参考基因组比对,以确定比对位置信息。比对位置通常可描述参考基因组中对应于给定读取序列的起始核苷酸基和终止核苷酸基的区域的起始位置和终止位置。
在一些实施方案中,本文所述分类器中使用的生物学特性包括基因组数据、表观遗传学数据、转录组数据、蛋白质组数据、代谢组学数据等中的一个或多个。事实上,特定的数据来源和类型可能对本文所述的方法并不重要,只要它可以用于区分对象的两种或更多疾病状态。
方法300:
在一个方面,本发明提供了一种方法300,所述方法使用群体分布(populationdistribution),来基于测试对象患有疾病状态的概率或似然的变化对测试对象的疾病状态进行分类,如使用经过训练以将疾病状态与一个或多个其他疾病状态区分开来的分类器确定的。方法300可直接涉及上述疾病状态和用于获得生物样本的方法。
一般参考图3A至图3G,在一些实施例中,方法包括确定测试对象的第一基因型数据结构(例如,基因型数据结构124-1-1)(例如,如上参考工作流200的步骤208所述)。第一基因型数据结构可以包括基于在第一测试时间点(例如,在工作流200的步骤204处获得的样本)从测试对象获得的第一生物样本中的第一多个核酸分子的电子形式(例如,在工作流200的步骤206生成的cfDNA序列读取)的第一多个序列读取的多个基因型特征(例如,读取计数126、等位基因状态130、等位基因分数134和甲基化状态138中的一个或多个)的值。方法可包括将第一基因型数据结构输入到疾病状况的模型(例如,疾病分类模型142)(例如,如上参考工作流200的步骤210所述),从而生成疾病状况的第一模型得分集(例如,疾病分类模型得分集146-1-1)。方法可以包括确定测试对象的第二基因型数据结构(例如,基因型数据结构124-1-2)(例如,如上参考工作流200的重复步骤208所述),第二基因型数据结构包括基于在第一个测试时间点之后发生的第二个测试时间点(例如,当重复工作流200的步骤204时获得的样本)从测试对象获得的第二生物样本中的第二多个核酸分子的电子形式(例如,当重复工作流200的步骤206时产生的cfDNA序列读取)的第二多个序列读取的多个基因型特征(例如,与包括在第一基因型数据结构124-1-1中的相同的一个或多个读取计数126、等位基因状态130、等位基因分数134和甲基化状态138)的值。方法可以包括将第二基因型数据结构输入到模型中(例如,与用于第一基因型数据结构的相同疾病分类模型142),从而生成疾病状况的第二模型得分集(例如,疾病分类模型得分集146-1-2)。方法可以包括基于第一和第二模型得分集之间的差异(例如,如上面参考工作流200的步骤218概述的)来确定测试δ得分集(例如,δ得分集148-1)。然后,方法可以包括对照多个参考δ得分集(例如,参考δ得分集152)评估测试δ得分集(例如,如上文参考工作流200的步骤220概述的),从而确定测试对象的疾病状况(例如,测试对象分类162),其中多个参考δ得分集中的每个参考δ得分集(例如,参考δ得分集154)是针对多个参考对象中的相应参考对象。
生成第一生物特征集:
如上文参考工作流200的步骤208概述的,方法300包括从从生物样本获得的生物特征生成生物特征集(例如,基因型数据结构124)的步骤。生物特征集中包括的特定特征和其格式可以由所使用的分类器(例如:疾病分类模型142)规定,以确定特定疾病状态(例如,癌症、一种癌症、心血管疾病等)的初始概率或似然。在一些实施方案中,分类器使用从来自对象的含有核酸的样本(例如,含有cfDNA的液体样本)获得的序列读取获得的基因型特征。
因此,在一些实施方案中,生物特征集包括从从对象获得的第一生物样本中的第一多个核酸确定的特征。在一些实施方案中,第一多个核酸包括DNA分子(例如,cfDNA或基因组DNA)。在一些实施方案中,第一多个核酸包括RNA分子(例如,mRNA)。在一些实施方案中,第一多个核酸包括DNA和RNA分子。
因此,在一些实施方案中,方法300包括确定(302)测试对象的第一基因型数据结构。第一基因型数据结构包括基于在第一测试时间点,从测试对象获得的第一生物样本中的第一多个核酸分子的电子形式的第一多个序列读取(例如,如上文参考图2所示的步骤206所述获得的序列读取)的多个基因型特征的值)。
在一些实施方案中,测试对象是人(304)。在一些实施方案中,测试对象(例如,人)尚未被诊断为患有疾病状况(306)。例如,本文描述的方法在能够在疾病的生物特征达到常规分类器的检测水平(level of detection,LOD)之前识别对象的疾病状态方面发现有用。因此,在一些实施方案中,已经多次测试对象的疾病状态,并且每次都被分类为没有疾病状态。
在一些实施方案(308)中,基因型特征包括任何特征,包括基因座处的单核苷酸变体的支持(例如,等位基因状态130)、基因座处的甲基化状态(例如,区域甲基化状态138)、基因座的相对拷贝数(例如,箱读取计数126)、基因座的等位基因比率(例如,等位基因分数134)、游离核酸分子的片段大小度量,以及其数学组合。
可以使用从多个电子序列读取中提取基因型特征的任何方法。例如,美国专利申请公开第2019/0287652号描述了用于确定多个基因组位置的甲基化状态的方法,其内容出于所有目的通过引用并入本文。类似地,美国专利申请公开第2019/0287649号,其内容出于所有目的通过引用并入本文,描述了用于确定多个基因组位置的相对拷贝数的方法。同样,使用次世代定序数据鉴定多个基因组位置的单核苷酸变体和等位基因频率的方法在例如Nielsen R.等人,公共科学图书馆:综合(PLoS One),7(7):e37558(2012)中有所描述,其内容出于所有目的通过引用并入本文。
在一些实施方案中,多个基因型特征包括多个相对拷贝数(例如,箱读取计数126),其中多个相对拷贝数中的每个相应相对拷贝数对应于多个基因座中的不同基因座(310)。在一些实施方案中,相对拷贝数代表来自多个基因组区域的序列读取的相对丰度。在一些实施方案中,基因组区域具有相同的大小。在一些实施方案中,基因组区域具有不同的大小。
在一些实施方案中,基因组区域由此区域内的核酸残基数量定义。在一些实施方案中,基因组区域由其位置和此区域内的核酸残基数量定义。任何合适的大小都可以用来定义基因组区域。例如,基因组区域可以包括10kb或更少、20kb或更少、30kb或更少、40kb或更少、50kb或更少、60kb或更少、70kb或更少、80kb或更少、90kb或更少、100kb或更少、110kb或更少、120kb或更少、130kb或更少、140kb或更少、150kb或更少、160kb或更少、170kb或更少、180kb或更少、190kb或更少、200kb或更少、或250kb或更少。
在一些实施方案中,基因组区域通过将对象物种的参考基因组划分为多个区段(即,基因组区域)来定义。例如,在某些实施方案中,参考基因组被划分为多达1,000个区域、2,000个区域、4,000个区域、6,000个区域、8,000个区域、10,000个区域、12,000个区域、14,000个区域、16,000个区域、18,000个区域、20,000个区域、22,000个区域、24,000个区域、26,000个区域、28,000个区域、30,000个区域、32,000个区域、34,000个区域、36,000个区域、38,000个区域、40,000个区域、42,000个区域、44,000个区域、46,000个区域、48,000个区域、50,000个区域、55,000个区域、60,000个区域、65,000个区域、70,000个区域、80,000个区域、90,000个区域或最多100,000个区域。在一些实施方案中,对象的序列读取可以归一化为对象所有染色体区域的平均读取计数,例如,如美国专利申请公开第2019/0287649号中所述,其内容出于所有目的通过引用并入本文。
在一些实施方案中,拷贝数数据被进一步归一化,例如,以减少或消除由潜在混杂因素引起的定序数据的差异。在一些实施方案中,归一化涉及以样本内集中趋势的量数为中心、以来自参考样本或群组的数据为中心、GC含量的归一化和主成分分析(principalcomponent analysis,PCA)校正中的一项或多项。附加地或替代地,归一化可以包括B分数(B-score)处理,如美国专利申请公开第2019/0287649号中所述。
在一些实施方案中,多个基因型特征包括多个甲基化状态(例如,区域甲基化状态138),其中多个甲基化状态中的每个甲基化状态对应于多个基因座中的不同基因座(312)。在一些实施方案中,每个甲基化状态由甲基化状态向量表示,例如在2018年3月13日提交的题为“甲基化片段异常检测(Methylation Fragment Anomaly Detection)”的美国临时专利申请第62/642,480号中所述,其全部内容通过引用并入本文。在一些实施方案中,甲基化状态向量经历p值过滤和分类,如美国专利公开第US 2019-0287652A1号中所述,其内容通过引用并入本文。
在一些实施方案中,多种甲基化状态通过全基因组亚硫酸盐定序(whole genomebisulfite sequencing,WGBS)获得。在一些实施方案中,多个甲基化状态通过使用多个探针的靶向DNA甲基化定序获得。在一些实施方案中,多个探针与人类基因组中的至少100个基因座杂交。在其他实施方案中,多个探针与人类基因组中的至少250、500、750、1000、2500、5000、10,000、25,000、50,000、100,000或更多个基因座杂交。例如,在美国专利申请公开第2019/0287649号中描述了用于识别信息甲基化基因座以对疾病状况(例如,癌症)进行分类的方法。
在一些实施方案中,靶向DNA甲基化定序检测一种或多种5-甲基胞嘧啶(5mC)和/或5-羟甲基胞嘧啶(5hmC)。在一些实施方案中,靶向DNA甲基化定序包括将一种或多种未甲基化胞嘧啶或一种或多种甲基化胞嘧啶转化为相应的一种或多种尿嘧啶。在一些实施方案中,靶向DNA甲基化定序包括将一种或多种未甲基化的胞嘧啶转化为相应的一种或多种尿嘧啶,并且DNA甲基化序列将一种或多种尿嘧啶读出为一种或多种相应的胸腺嘧啶。在一些实施方案中,靶向DNA甲基化定序包括将一种或多种甲基化胞嘧啶转化为相应的一种或多种尿嘧啶,并且DNA甲基化序列将一种或多种5mC和/或5hmC读出为一种或多种相应的胸腺嘧啶。在一些实施方案中,一种或多种未甲基化胞嘧啶或一种或多种甲基化胞嘧啶的转化包括化学转化、酶促转化或其组合。
因此,在一些实施方案中,第一基因型数据结构(例如,基因型数据结构124-1-1)的多个基因型特征包括一第一多个箱值(例如,甲基化状态138-1)。第一多个箱值中的每个相应箱值可以代表多个箱中的一对应箱。第一多个箱值中的每个相应箱值可以代表使用映射到多个箱中的对应箱的第一多个序列读取中的序列读取识别的具有预定甲基化模式的独特核酸片段的数量。第二基因型数据结构(例如,基因型数据结构124-1-2)的多个基因型特征可以包括第二多个箱值(例如,甲基化状态138-1)。第二多个箱值中的每个相应箱值可以代表多个箱中的一对应箱。第二多个箱值中的每个相应箱值可以代表使用映射到多个箱中的对应箱的第二多个序列读取中的序列读取识别的具有预定甲基化模式的独特核酸片段的数量。多个箱中的每个箱可以代表测试对象物种的参考基因组的非重叠区域。
在一些实施方案中,甲基化数据被归一化,例如,以减少或消除由潜在混杂因素引起的定序数据的差异。在一些实施方案中,归一化涉及以样本内集中趋势的量数为中心、以来自参考样本或群组的数据为中心、GC含量的归一化和主成分分析校正中的一个或多个。甲基化数据的归一化的进一步描述可以在例如美国临时专利申请第62/642,480号和美国专利申请公开第2019/0287649号中找到。
在一些实施方案中,甲基化值以样本内集中趋势的量数为中心。例如,在一些实施方案中,归一化包括确定跨第一多个箱值的第一集中趋势量数(例如,从在第一时间获得的来自对象的第一生物样本确定的甲基化状态138-1)和确定第二多个箱值的第二集中趋势量数(例如,从在第二时间获得的来自对象的第二生物样本确定的甲基化状态138-2)。然后,第一多个箱中的每个相应箱值(例如,甲基化状态138-1)可以被替换为相应箱值除以第一集中趋势量数;并且类似地,第二多个箱值中的每个相应箱值(例如,甲基化状态138-1)可以被替换为相应箱值除以第二集中趋势量数。在一些实施方案中,第一集中趋势量数和第二集中趋势量数选自于整个多个对应的箱值的算术平均数、加权平均数、中程数(midrange)、中枢纽(midhinge)、三均值、极端值调整平均数(Winsorized mean)、平均数或是众数。
在一些实施方案中,甲基化值被归一化以校正GC偏差。例如,在一些实施方案中,归一化包括用针对第一多个箱值中的相应第一GC偏差校正的相应箱值替换第一多个箱值中的每个相应箱值(例如,从在第一时间获得的来自对象的第一生物样本确定的甲基化状态138-1),并且用针对第二多个箱值中的相应第二GC偏差校正的相应箱值替换第二多个箱值中的每个相应箱值(例如,从在第二时间获得的来自对象的第二生物样本确定的甲基化状态138-2)。
在一些实施方案中,相应的第一GC偏差由拟合到第一多个二维点的曲线或直线的第一方程定义,其中,每个相应的二维点包括:(i)第一值,其是参考基因组的对应区域的相应GC含量,由对应于相应二维点的第一个多个箱(例如甲基化状态138-1)中的相应箱表示;以及(ii)第二值,其是相应箱的第一多个箱值中的箱值。然后,可以从相应的箱值中减去相应箱的GC校正,所述校正来自由相应箱和第一等式表示的物种的参考基因组的对应区域的GC含量。类似地,可以通过拟合到第一多个二维点的曲线或直线的第二方程来定义相应的第二GC偏差,其中,每个相应的二维点包括:(i)第三值,其可以是由对应于相应二维点的第二多个箱中的相应箱(例如,甲基化状态138-2)中的相应箱表示的参考基因组的对应区域的相应GC含量;以及(ii)第四值,其可以是相应箱的第二多个箱值中的箱值。然后,可以从相应的箱值中减去相应箱的GC校正,所述校正来自由相应箱和第二等式表示的物种的参考基因组的相应区域的GC含量。
然而,如本文所述,在一些实施方案中,特定分类模型评估除基因组特征以外的特征,例如,代替或补充上述基因组特征。例如,在一些实施方案中,分类模型评估表观遗传标记(表观遗传学)、基因表达谱(转录组学)、蛋白质表达或活性谱(蛋白质组学)、代谢谱(代谢组学)等。因此,在一些实施例中,生物特征形成的集合包括一种或多种这些非基因组生物特征。
此外,在一些实施方案中,分类模型除了评估生物特征外,还评估对象的一个或多个个人特征,例如性别、年龄、吸烟状况、饮酒量、家族史等。因此,在一些实施方案中,形成的生物特征集包括对象的一个或多个个人特征。
生成第一疾病模型得分集:
如上所述,参考工作流200的步骤210,方法300包括使用从对象样本获得的生物特征形成的第一生物特征集来生成第一疾病模型得分集。因此,在一些实施方案中,方法300包括将第一基因型数据结构输入(314)到疾病状况的模型中,从而生成疾病状况的第一模型得分集。通常,本文所述系统和方法使用的疾病模型的身份和类型无关紧要。
已经开发了许多不同的模型,用于评估生物特征,以便对对象的一种或多种疾病状态(例如癌症状态、冠心病状态等)进行分类。例如,美国专利申请公开第2019/0287652号描述了评估多个基因组位点甲基化状态的模型,例如,使用cfDNA样本,以便对对象的癌症状态进行分类。类似地,美国专利申请公开第2019/0287649号描述了评估多个基因组位点的相对拷贝数的模型,例如,使用cfDNA样本,以便对对象的癌症状态进行分类。同样,为了对对象的癌症状态进行分类,已经开发了各种模型来评估变异等位基因的存在(例如,单核苷酸变异、INDEL、缺失、颠换(transversions)、易位等)。其他合适的模型在2019年5月31日提交的美国专利申请第16/428575号标题为“卷积神经网络系统和数据分类方法(Convolutional Neural Network Systems and Methods for Data Classification)”中披露。一般而言,为对对象的疾病状态进行分类而开发的任何模型可与本文所述的系统和方法结合使用。
在一些实施方案中,此模型用于检测对象中疾病状态的存在,例如,检测对象中的癌症或冠心病。也就是说,本文提供的系统和方法特别适合于改进现有疾病模型的敏感性和特异性,因为它们有助于识别对象的生物特征随时间的变化,即使生物信号还不足以使基础模型检测到。因此,在一些实施方案中,模型(例如,用于在工作流200的步骤210评估基因型数据结构124的基础模型)评估来自单个时间点的数据(316)。这可以是评估从来自对象的单个样本或是从在相同或相似时间点从对象获得的多个样本(例如,提供不同类型生物信息的样本,例如基因组和转录组信息)获得的生物特征的样本。
通常,在本文描述的系统和方法中可以使用许多不同的分类算法。例如,在一些实施方案中,模型是神经网络算法、支持向量机算法、朴素贝叶斯分类器算法、最邻近搜索算法、提升树算法、随机森林算法、决策树算法、多分类逻辑回归算法、线性模型或线性回归算法(324)。通常,使用本文描述的系统和方法,用于生成一个或多个疾病状态的疾病模型得分集的分类器的类型可能无关紧要。在一些实施方案中,模型是在一组对象中进行训练的(322),其中在所述一组对象中的一第一部分具有疾病状况,并且在所述一组对象中的一第二部分不具有所述疾病状况,例如,对模型进行专门训练以区分对应于没有疾病状况的第一状态和对应于有疾病状况的第二状态。
神经网络。在一些实施方案中,分类器是神经网络或卷积神经网络。神经网络可以是机器学习算法,可以对其进行训练以将输入数据集映射到输出数据集,其中神经网络包括组织为多层节点的互连节点组。例如,神经网络架构可以包括至少一输入层、一个或多个隐藏层和一个输出层。神经网络可以包括任意总数的层和任意数量的隐藏层,其中隐藏层用作可训练的特征提取器,允许将一组输入数据映射到一个输出值或一组输出值。如本文所使用的,深度学习算法(deep learning algorithm,DNN)可以是包括多个隐藏层(例如,两个或多个隐藏层)的神经网络。神经网络的每一层都可以包含许多节点(或“神经元”)。节点可以接收直接来自前一层中节点的输入数据或输出的输入,并执行特定操作,例如求和操作。在一些实施方案中,从输入到节点的连接与权重(或权重因子)相关联。在一些实施方案中,节点可以将所有输入对的乘积xi及其相关权重相加。在一些实施方案中,权重和被偏差b抵销(offset)。在一些实施方案中,可以使用阈值或激活函数(activationfunction)f选通节点或神经元的输出,其可以是线性或非线性函数。激活函数可以是,例如,整流线性单位函数(rectified linear unit,ReLU)激活函数、Leaky ReLU激活函数或其他函数,例如饱和双曲正切(saturating hyperbolic tangent)、恒等式(identity)、二元阶跃(binary step)、逻辑斯谛(logistic)、反正切(arcTan)、softsign、参数整流线性单位函数(parametric rectified linear unit)、指数线性单元(exponential linear unit)、softPlus、bent identity、softExponential、正弦曲线(Sinusoid)、Sine、高斯(Gaussian)或S型函数(sigmoid function),或其任何组合。
神经网络的加权因子、偏差值和阈值或其他计算参数可在训练阶段使用一组或多组训练数据进行“教学”或“学习”。例如,可以使用来自训练数据集的输入数据和梯度下降或反向传播方法来训练参数,以便ANN计算的输出值与训练数据集中包括的示例一致。参数可以从反向传播神经网络训练过程中获得。
各种神经网络中的任何一种都可能适合用于分析产品开发。示例可以包括但不限于前馈神经网络(feedforward neural networks)、径向基函数网络(radial basisfunction networks)、循环神经网络(recurrent neural networks)、卷积神经网络(convolutional neural networks)等。在一些实施方案中,机器学习利用预先训练的ANN或深度学习架构。根据本发明,卷积神经网络可用于对甲基化模式进行分类。
支持向量机。在一些实施方案中,分类器是支持向量机(support vectormachine,SVM)。当用于分类时,支持向量机使用与标记数据最大距离的超平面来分离给定的二进制标记数据集。对于不可能进行线性分离的情况,支持向量机可以与“核(kernels)”技术结合使用,此技术可以自动实现到特征空间的非线性映射。支持向量机在特征空间中找到的超平面可以对应输入空间中的非线性决策边界。
朴素贝叶斯算法(
Figure BDA0003764461760000461
Bayes algorithms)。朴素贝叶斯分类器可以是一系列基于应用贝叶斯定理的“概率分类器”,在特征之间具有强(单纯
Figure BDA0003764461760000462
)独立性假设。在一些实施方案中,它们与核密度估计结合。在一些实施方案中,分类器是朴素贝叶斯算法。
最邻近(Nearest neighbor)算法。最邻近分类器可以基于内存,并且不包含要匹配的分类器。给定一个查询点x0,可以识别距离x0最近的k个训练点x(r),r,...,k,然后使用k个最邻近对点x0进行分类。Tie可以随意断开。在一些实施方案中,特征空间中的欧几里德距离(Euclidean distance)用于将距离确定为:
d(i)=||x(i)-x(0)||
在一些实施方案中,当使用最邻近算法时,训练集的箱值可以归一化为具有均值零和方差1。在一些实施方案中,最邻近分析被细化以解决不等类先验、差分误分类代价和特征选择的问题。其中许多改进可能涉及对邻域(neighbor)进行某种形式的加权投票。在一些实施方案中,分类器是最邻近算法。
随机森林(Random forest)、决策树(decision tree)和提升树(boosted tree)算法。在一些实施方案中,分类器是决策树。基于树的方法可以将特征空间划分为一组矩形,然后在每个矩形中拟合一个模型(如常数)。在一些实施方案中,决策树是随机森林回归。可以使用的一种特定算法是分类和回归树(CART)。其他特定的决策树算法包括但不限于ID3、C4.5、MART和随机林。
回归。在一些实施方案中,回归算法用作分类器。回归算法可以是任何类型的回归。例如,在一些实施方案中,回归算法是逻辑回归(logistic regression)。在一些实施方案中,回归算法是具有lasso、L2或弹性网正则化(elastic net regularization)的逻辑回归。在一些实施方案中,对那些具有不满足阈值的相应回归系数的提取特征进行删减(去除)。在一些实施方案中,处理多类别响应的逻辑回归模型的泛化被用作分类器。在一些实施方案中,分类器利用回归模型。
线性判别分析(Linear discriminant analysis)算法。线性判别分析(LDA)、正常判别分析(normal discriminant analysis,NDA)或判别函数分析(discriminantfunction analysis)可以是Fisher线性判别分析(Fisher’s linear discriminant)的推广,Fisher线性判别分析是统计学、模式识别和机器学习中使用的一种方法,用于找到表征或分离两类或多类对象或事件的特征的线性组合。在本发明的一些实施方案中,所得组合可用作分类器(线性分类器)。
混合物模型(Mixture model)。在一些实施方案中,分类器是混合物模型。例如,参见美国专利公开第US 2020-0365229 A1号,其通过引用并入本文。
隐马尔可夫模型(Hidden Markov Model,HMM)。在一些实施方案中,尤其是在那些包括时间分量的实施例中,分类器是隐马尔可夫模型。
高斯过程(Gaussian process)。在一些实施方案中,为了分类,logit变换概率被建模为高斯过程。
惩罚模型(Penalized model)。在一些实施方案中,当学习模型(例如,分类器)的权重时,时间信息用于惩罚。在这种情况下,癌症概率的时间趋势可以是平滑的,并且可以使用惩罚来惩罚这种平滑。
聚类(Clustering)。在一些实施方案中,分类器是非监督式聚类模型(unsupervised clustering model)。在一些实施例中,分类器是监督式聚类模型(supervised clustering model)。聚类问题可以描述为在数据集中找到自然分组的问题。要确定自然分组,可以解决两个问题。首先,可以确定测量两个样本之间相似性(或不相似性)的方法。此度量(例如,相似性度量)可用于确保一个集群中的样本比其他集群中的样本更相似。其次,可以确定使用相似性度量将数据划分为集群的机制。开始聚类调查的一种方法是定义距离函数并计算训练集中所有样本对之间的距离矩阵。如果距离是一个很好的相似性度量,那么同一集群中的参考实体之间的距离可能会明显小于不同集群中的参考实体之间的距离。然而,聚类可以不使用距离度量。例如,非度量相似性函数s(x,x’)可用于比较两个向量x和x’。s(x,x’)可以是一个对称函数,当x和x’某种程度上“相似”时,其值很大。一旦选择了测量数据集中点之间“相似性”或“相异性”的方法,聚类就可以使用一个标准函数来测量数据的任何分区的聚类质量。可以使用使准则函数(criterion function)达到极值的数据集分区对数据进行聚类。可在本发明中使用的特定示例性聚类技术可包括但不限于层次聚类(hierarchical clustering)(使用最邻近算法、最远邻算法(farthest-neighboralgorithm)、平均连结算法(the average linkage algorithm)、质心算法(centroidalgorithm)或平方和算法的聚集聚类)、k均值聚类、模糊k均值聚类算法(fuzzy k-meansclustering algorithm)、Jarvis Patrick聚类。在一些实施方案中,聚类包括非监督式聚类(例如,没有预先设想的集群数量和/或没有预先确定集群分配)。
本文所述的A评分分类器(A score classifier)可以是基于非同义突变的靶向定序分析的肿瘤突变负担分类器。例如,分类分数(例如,“A分数”)可以使用肿瘤突变负荷数据的逻辑回归计算,其中每个个体的肿瘤突变负荷估计值是从靶向cfDNA分析中获得的。在一些实施方案中,可以将肿瘤突变负担估计为每个个体的变体总数,其是:在cfDNA中称为候选变体,通过噪声建模和联合调用,和/或在与变体重叠的任何基因注释中发现为非同义。可以将训练集的肿瘤突变负荷数输入到惩罚逻辑回归分类器(penalized logisticregression classifier)中,以确定通过交叉验证达到95%特异性的决断值(cutoff)。
B评分分类器(B score classifier)在美国专利公开第62/642461号中进行了描述,申请号为62/642461,现通过引用将其并入本文。根据B评分方法,可以针对低变异性区域分析来自健康对象参考组中的健康对象的核酸样本的第一组序列读取。因此,来自每个健康对象的核酸样本的第一组序列读取中的每个序列读取可以与参考基因组中的区域进行对齐。由此,可以从训练组中的对象的核酸样本的序列读取中选择序列读取的训练集。训练集中的每个序列读取可以与从参考集识别的参考基因组中的低可变性区域中的一个区域对齐。训练集可以包括健康对象的核酸样本的序列读取,以及已知患有癌症的患病对象核酸样本的序列读取。来自训练组的核酸样本的类型可以与来自健康对象参考组的核酸样本的类型相同或相似。由此,可以使用从训练集的序列读取得到的量来确定一个或多个参数,这些参数反映了训练组内健康对象的核酸样本的序列读取与患病对象核酸样本的序列读取之间的差异。然后,可以接收与包含来自癌症状态未知的测试对象的cfNA片段的核酸样本相关的序列读取的测试集,并且可以基于一个或多个参数确定对象患癌症的可能性。
M评分分类器(M score classifier)在2018年3月13日提交的美国专利申请第62/642480号“甲基化片段异常检测(Methylation Fragment Anomaly Detection)”中进行了描述,现通过引用并入本文。
分类器和提升(boosting)的集合。在一些实施方案中,使用分类器的集合(两个或更多)。在一些实施方案中,诸如AdaBoost的提升(boosting)技术与许多其他类型的学习算法结合使用,以改进分类器的性能。在此方法中,本文公开的任何分类器的输出或其等效物可以组合成表示增强分类器的最终输出的加权和。
在一些方面,所公开的方法可以与癌症分类模型结合使用。癌症分类模型可以是本文其他地方描述的任何模型。例如,机器学习或深度学习模型(例如,疾病分类器)可用于基于从一个或多个游离DNA分子或序列读取(例如,从一个或多个cfDNA分子衍生)确定的一个或多个特征的值来确定疾病状态。在各种实施方案中,机器学习或深度学习模型的输出是疾病状态的预测得分或概率(例如,一预测癌症得分)。
在一些实施方案中,机器学习模型包括逻辑回归分类器。在其他实施方案中,机器学习或深度学习模型可以是决策树、集合(ensemble)(例如,装袋(bagging)、提升、随机森林)、梯度提升机、线性回归、朴素贝叶斯或神经网络中的一个。疾病状态模型可以包括训练期间调整的特征的学习权重。术语“权重(weights)”在本文一般用于表示与模型的任何给定特征相关联的学习量,而不管使用哪种特定的机器学习技术。在一些实施方案中,通过将来自一个或多个DNA序列(或其DNA序列读取)的特征的值输入到机器学习或深度学习模型中来确定癌症指示得分。
在训练期间,可以处理训练数据以生成用于训练疾病状态模型权重的特征值。例如,训练数据可以包括从训练样本获得的cfDNA数据、癌症gDNA和/或WBC gDNA数据,以及输出标签。例如,输出标签可以指示个体是否已知患有特定疾病(例如,已知患有癌症)或已知健康(例如,没有疾病)。在其他实施方案中,此模型可用于确定疾病类型或起源组织(例如,起源癌组织)或疾病严重程度的指示(例如,癌症分期),并为此生成输出标签。根据特定实施方案,疾病状态模型可以接收从用于检测和量化从中衍生的cfDNA分子或序列的DNA分析中确定的一个或多个特征的值,以及与要训练的模型相关的计算分析。在一个实施方案中,一个或多个特征包括一个或多个cfDNA分子的数量或从中衍生的序列读取。根据模型在训练中输出的分数与训练数据的输出标签之间的差异,可以优化预测癌症模型的权重,以使疾病状态模型能够做出更准确的预测。在各种实施方案中,疾病状态模型可以是非参数模型(例如,K-近邻算法(k-nearest neighbors)),因此,预测性癌症模型可以被训练以更准确地进行预测,而无需优化参数。
由特定模型评估的生物特征的确切性质(或至少只要它们保持在本文所述生物样本和生物特征的类型范围内),以及特定模型下的分类算法,通常对本文所述的系统和方法来说是无关紧要的。在一些实施方案中,模型的输出(例如,疾病分类模型得分集146,如关于工作流200中的步骤210所述)是一组连续或半连续的溃疡(sores)。以这种方式,可以识别(例如,如上文关于工作流200中的步骤218所述的δ得分集148)和评估(例如,对照参考δ得分集154,如上文相对于步骤200所述的)对象的连续或半连续得分的范围随时间发生的变化,以对对象的疾病状态进行分类。因此,在一些实施方案中,模型的模型得分集(例如,第一疾病分类模型得分集146-1和第二疾病分类模型得分集146-2)患有疾病状况的似然(likelihood)或概率(318)。类似地,在一些实施方案中,模型的模型得分集(例如,第一疾病分类模型得分集146-1和第二疾病分类模型得分集146-2)不患有疾病状况的似然或概率(320)。因此,从第一时间点到第二时间点具有/不患有疾病状态的似然或概率的变化可以量化为输出的连续范围中的差异。
在一些实施方案中,例如,当疾病分类评估模型是神经网络(例如,传统或卷积神经网络)时,疾病分类器的输出是分类,例如,癌症阳性或癌症阴性。然而,在一些实施方案中,为了为模型的输出提供连续或半连续的值,而不是分类,将神经网络的隐藏层(例如,恰好在输出层之前的隐藏层)用作疾病分类模型得分集。
因此,在一些实施方案中,模型包括(376)(i)用于接收多个基因型特征值的输入层,其中多个基因型特征包括第一数量的维度,以及(ii)包括一组权重的嵌入层,其中嵌入层直接或间接接收输入层的输出,以及其中嵌入层的输出是具有小于第一数量的维度的第二数量的维度的模型得分集;以及(iii)直接或间接从嵌入层接收模型得分集的输出层。在这些实施方案中,第一模型得分集是在将第一基因型数据结构输入到输入层时嵌入层的模型得分集,第二模型得分集是在将第二基因型数据结构输入到输入层时嵌入层的模型得分集。换句话说,在一些实施方案中,模型得分集是与称为嵌入层的神经网络中的隐藏层相关联的一组神经元的输出。在此类实施方案中,嵌入层中的每个此类神经元与权重和激活函数相关联,并且模型得分集包括每个此类激活函数的输出。在一些实施方案中,嵌入层中神经元的激活函数为整流线性单位函数(ReLU)、tanh或sigmoid激活函数。在一些这样的实施方案中,嵌入层的神经元完全连接到输入层的每个输入。在一些这样的实施方案中,输出层的每个神经元完全连接到嵌入层的每个神经元。在一些实施方案中,输出层的每个神经元与Softmax激活函数相关联。在一些实施方案中,嵌入层和输出层中的一个或多个未完全连接。
在一些实施方案中,嵌入层的权重集中的每个权重对应于嵌入层中多个神经元中的不同神经元。在一些这样的实施方案中,多个隐藏神经元包括200到500个、300到400个、400到300个、500到200个或600到100个神经元。在一些实施方案中,多个隐藏神经元包括4到24个神经元。
生成第二疾病模型得分集:
如上面参考工作流200所描述的,本文描述的系统和方法依赖于为对象者的两个或更多个生物特征集生成的疾病分类模型分数的比较。因此,如工作流200所示,执行生物样本收集、生物特征集形成和疾病模型得分集生成的第二迭代。通常,相同的生物特征可用于形成第二生物特征集,以及用于分析一系列样本的任何后续生物特征集。在一些实施方案中,生物特征集包括从来自对象的核酸样本中获得的基因组特征。然而,如本文所述,本文所述的系统和方法不限于基因组特征,还可以包括例如转录组学特征、表观遗传学特征、蛋白质组学特征、代谢物组学特征等。
因此,在一些实施方案中,方法300包括确定(338)测试对象的第二基因型数据结构(例如,基因型数据结构124-2)。第二基因型数据结构可以包括基于在第一测试时间点之后发生的第二测试时间点(例如,如上文概述的关于步骤208或工作流200的第二迭代),从测试对象获得的第二生物样本中的第二多个核酸分子的电子形式的第二多个序列读取的多个基因型特征(例如,包括在第一基因型数据结构124-1中的读取计数126、等位基因状态130、等位基因分数(fraction)134和甲基化状态138中的相同的一个或多个)的多个值。
在一些实施方案中,第二时间点在第一时间点之后至少1个月。在一些实施方案中,第二时间点在第一时间点之后至少3个月。在一些实施方案中,第二时间点在第一时间点之后至少6个月。在一些实施方案中,第二时间点在第一时间点之后至少12个月。在其他实施方案中,第二时间点是第一时间点后至少2周、3周、1个月、2个月、3个月、4个月、5个月、6个月、9个月或12个月。
在一些实施方案中,本文提供的系统和方法可用于周期性监测过程。例如,在一些实施方案中,对象在常规基础上例如每月提供生物样本,例如唾液样本、血液样本或其他液体样本,根据本文所述的方法对其进行分析以监测对象的疾病状态,例如癌症的发展。在一些实施方案中,对象约每3个月提供一次生物样本。在一些实施方案中,对象约每6个月提供一次生物样本。在一些实施方案中,对象约每年提供一次生物样本。在一些实施方案中,对象约每2年提供一次生物样本。
在一些实施方案中,在当前时间点生成的模型分数(例如,第一模型得分)用于确定当前时间点与后续时间点(例如,距当前时间点6个月)之间的时间跨度)。例如,对象提供生物样本,例如唾液样本、血液样本或其他液体样本,根据本文所述的方法对其进行分析,以推断对象的疾病状况(例如,癌症)。在这种情况下,对于接近但低于预定阈值的模型分数,可以使用更频繁的定期监测间隔(例如,对于其他个体,每3个月而不是每年)。
因此,在一些实施方案中,将第一基因型数据结构输入到疾病状况的模型中以生成疾病状况的第一模型得分集的步骤在从测试对象获得的第二生物样本之前执行(在第一和第二时间点之间)。在一些这样的实施方案中,评估模型得分集,以确定何时应该对测试对象进行后续筛选。例如,在一些实施方案中,当模型得分集表明对象在一段时间(例如,6个月、12个月、18个月、24个月、3年、4年、5年、10年、15年、20年或更长时间)内患疾病状况(例如,癌症)的可能性低时,向测试对象提供在一时间点重复测试的建议,所述时间点比向一对象提供的建议更远,所述对象的模型得分集表明在此时间段内出现所述疾病状况的可能性更高。因此,在一个实施方案中,本公开提供了一种确定一测试对象是否具有一疾病状况的方法,包含:(a)确定所述测试对象的一第一基因型数据结构,所述第一基因型数据结构包括基于在一第一测试时间点从所述测试对象获得的一第一生物样本中的一第一多个核酸分子的电子形式的一第一多个序列读取的多个基因型特征的多个值;(b)将所述第一基因型数据结构输入到所述疾病状况的一模型中,从而产生所述疾病状况的第一模型得分集;(c)基于,例如所述疾病状况随时间发展的一风险模型,评估所述第一模型得分集,以确定一第二时间测试时间点,(d)确定所述测试对象的一第二基因型数据结构,所述第二基因型数据结构包括基于在发生在所述第一测试时间之后的所述第二测试时间点从所述测试对象获得的一第二生物样本中的一第二多个核酸分子的电子形式的一第二多个序列读取的所述多个基因型特征的多个值;(e)将所述第二基因型数据结构输入到所述模型中,从而产生所述疾病状况的一第二模型得分集;(f)基于所述第一模型得分集与所述第二模型得分集之间的一差异来确定一测试δ得分集;以及(g)对照多个参考δ得分集来评估所述测试δ得分集,从而确定所述测试对象是否具有所述疾病状况,其中在所述多个参考δ得分集中的每个参考δ得分集是针对多个参考对象中的一相应参考对象。
因此,如上文关于工作流200的步骤210的第二次迭代所概述的,方法300包括将第二基因型数据结构124-2输入(346)模型中(例如,用于评估第一个基因型数据结构124-1的相同疾病分类模型142),以生成疾病状况的第二模型得分集。用于评估第二基因型数据结构的疾病分类模型可能与用于评估第一基因型数据结构的疾病分类模型略有不同,例如,随着它的不断完善。当特定疾病分类模型已被改进或被不同的(例如,改进的)疾病分类模型替换时,第一基因型结构建或第一基因型数据结构的改进版本可以通过改进或替换的疾病分类模型进行评估,使得得到的第一和第二疾病分类模型得分集146-1-1和146-1-2更具可比性。
确定测试δ得分集:
如上文参考工作流200的步骤218概述的,方法300包括随时间评估疾病模型得分集的变化的步骤,例如,对应在第一时间点对象的疾病状态的第一疾病模型得分集与对应在第二时间点对象的疾病状态的第二疾病模型得分集。因此,方法300包括基于第一和第二疾病模型得分集(例如,疾病分类模型得分集146-1-1及146-1-2)之间的一差异来确定(348)测试δ得分集(例如,δ得分集148)。
在一些实施方案中,测试δ得分集是对应于两个疾病模型得分集的值的原始差异的值或值矩阵。在一些实施方案中,在针对来自参考群体的测试δ得分集的分布进行评估之前,测试δ得分集被进一步归一化。所设想的归一化类型的示例在以下部分中描述。
评估测试δ得分集
如上文参考工作流200的步骤220概述的,方法300包括评估疾病模型得分集随时间的变化(例如,评估δ得分集148)的步骤,例如,以确定疾病模型得分急是否有显着变化,表明对象患有疾病状态。即,在一些实施方案中,方法300包括对照多个参考δ得分集(例如,参考δ得分集152)评估(360)测试δ得分集(例如,δ得分集148)的步骤,从而确定测试对象的疾病状况。多个参考δ得分集中的每个参考δ得分集(例如,参考δ得分集154)可以用于多个参考对象中的相应参考对象。
通常,参考方法300,本文所述系统和方法可以评估随时间的变化对象的疾病模型得分是否与随时间的变化无疾病状态的参考对象的疾病模型得分类型有显着差异。如果测试对象的疾病模型得分变化在统计学上与这些参考对象的疾病模型得分变化相似,则可以确定地将测试对象归类为无疾病状态。然而,如果对象的疾病模型得分变化与不存在疾病状况的参考对象的疾病模型得分变化在统计学意义上不同(例如,p值为0.05、0.01、0.005等),则可以推断对象具有不同的疾病状态,即,对象可能有疾病状态或正在发展疾病状态。在一些实施方案中,通过生成多个参考对象的疾病模型得分中的变化的分布(例如,参考δ得分集152的分布)和询问(例如,使用统计假说检定(hypothesis test))来进行此比较,测试对象的疾病模型得分中的变化(如δ得分集148)是否为此分布的成员(或是在统计假说检定的情况下,测试δ得分集是否不是通过零假设(null hypothesis)的此分布的成员)。
因此,在一些实施方案中,第一模型得分集(例如,疾病分类模型得分集146-1)包括测试对象在第一测试时间点患有疾病状况的概率和第二模型得分集(例如,疾病分类模型得分集146-1)包括测试对象在第二测试时间点患有疾病的概率(例如,如使用疾病分类模型142所确定的)。因此,测试δ得分集(例如,δ得分集148)可以包括相对于在第一时间点具有疾病状态的概率,测试对象在第二时间点具有疾病状态的概率中的变化。可以将测试δ得分集与参考δ得分集(例如,参考δ得分集146)的分布进行比较(362),其中多个参考δ得分中的每个参考δ得分集(例如,每个参考δ得分集154)是基于以下(i)与(ii)之间的差异针对在多个参考对象中的相应参考对象:(i)相应参考对象具有疾病的第一概率,第一概率使用包括多个基因型特征(例如,与用于测试对象的相同基因型特征)的多个值的第一相应参考基因型数据结构通过模型(例如,与用于评估测试对象的生物特征相同的疾病分类评估模型)来提供,多个值是使用在相应第一时间点从相应参考对象获得的第一相应生物样本来获取;以及(ii)相应参考对象具有疾病的第二概率,第二概率使用包括多个基因型特征的多个值的第二相应基因型数据结构通过模型来提供,多个值是使用在第一相应时间点之后发生的第二相应时间点从相应参考对象获得的第二相应生物样本来获取,其中相应训练对象至少在第一相应时间点以及第二相应时间点的期间不具有疾病。
在一些方面,本公开至少部分地基于以下认识:考虑到测试对象的个人特征可以提高用于对测试对象的疾病状态进行分类的方法的敏感性和特异性。也就是说,因为测试对象的个人特征影响测试对象的疾病状态生物特征的表现。因此,考虑到测试对象的这些个人特征中的一个或多个可以进一步提高疾病状态分类的敏感性和特异性。例如,第一疾病分类模型得分集和第二疾病分类模型得分集之间的变化幅度,以及变化的显着性,至少会受到以下因素的影响:(i)测试对象,例如疾病状态的发展和进展可以增加疾病分类模型得分集的量级(magnitude),而疾病状态的回归可以降低疾病分类模型得分集的量级(magnitude);(ii)构成对象疾病状态特征的生物特征的背景差异;(iii)对象的个人特征,例如年龄、性别、种族、吸烟状况、饮酒量、家族史等;以及(iv)第一时间点(例如,从测试对象获得第一个生物样本的时间)和第二个时间点(例如,从测试对象获得第二个生物样本的时间)之间的时间长度,例如,如果样本采集事件之间的时间间隔为20年,则对象患有特定疾病状态的概率增加10%的显着性低于样本采集事件之间的时间间隔为两个月的情况。
例如,背景方差是指对象生物学特性的自然波动,例如甲基化等基因型特征。例如,在一些实施方案中,个体基因组的甲基化状态可以随时间从基线状态以与个体的特定状态(例如癌症状态)无关的方式上下波动。以这种方式,即使在个体的健康状况(例如癌症状况)不会改变。在一些情况下,第一个个体的生物特征值的范围可以不同于第二个个体的生物特征值的范围,这代表第一和第二个体的生物特征值的不同水平的背景变化。
因此,在一些实施方案中,影响第一疾病分类模型得分集和第二疾病分类模型集之间的变化的幅度和/或显着性的一个或多个因素在评估测试δ得分集时被考虑在内。测试对象对参考δ得分集的分布。在一些实施方案中,这些特征通过调整或归一化测试δ得分集和参考δ得分集的分布中的一个或两个来解决。在一些实施方案中,调整或归一化直接应用于测试δ得分集和/或参考δ得分集,例如,每个参考δ得分集相互独立地被调整或归一化。在一些实施方案中,通过参考分布将调整或归一化应用于参考δ得分集,例如,作为分布的函数而不是基于个体化的个体参考δ得分集被调整或归一化。在一些实施方案中,由疾病分类模型评估的基础生物特征数据被调整或归一化。
在一些实施方案中,从测试对象和/或参考对象收集第一和第二生物样本之间的时间长度用于调整或归一化,例如测试对象和/或参考对象生物数据,和/或测试对象和/或参考对象δ得分集,和/或参考δ得分集的分布被调整或归一化,以考虑测试对象样本收集之间的时间。
因此,在一些实施方案中,多个参考对象中的每个相应参考对象的相应第一时间点和相应第二时间点之间的时间量在计算分布(例如,参考δ得分集的分布152)。然后,可以基于表示测试对象的第一测试时间点和第二测试时间点之间的时间差的协变量来调整测试δ得分集(例如,δ得分集148)。在一些实施方案中,将表示第一测试时间点和第二测试时间点之间的时间差(例如,测试生物样本采集之间的时间长度)的协变量应用于第一基因型数据结构(例如,基因型数据结构142-1-1),第二基因型数据结构(例如,基因型数据结构142-1-1),每个第一相应参考基因型数据结构(例如,代表参考δ得分集152生成中的第一时间点的参考基因型数据结构),或每个第二相应参考基因型数据结构(例如,代表参考δ得分集152生成中的第二时间点的参考基因型数据结构)的多个基因型特征中的一个或多个基因型特征。在一些实施方案中,将表示第一测试时间点和第二测试时间点之间的时间差的协变量应用于测试δ得分集(例如,δ得分集148)和参考δ得分的分布中的每个参考δ得分集(例如,参考δ得分集148)。
类似地,在一些实施方案中,针对相应对象的相应第一时间点和相应第二时间点之间的时间量,对多个参考δ得分集中的每个相应参考δ得分集进行归一化,并且测试δ得分集在第一测试时间点和测试第二个时间点之间的时间量内进行归一化。同样,在一些实施方案中,通过在相应对象的相应第一时间点和相应第二时间点之间的时间量内归一化每个第一相应参考基因型数据结构或每个第二相应参考基因型数据结构的多个特征中的一个或多个基因型特征,对多个参考δ得分集中的每个相应参考δ得分集针对相应参考对象的相应第一时间点和相应第二时间点之间的时间量进行归一化。通过在第一测试时间点和第二测试时间点之间的时间量内归一化第一基因型数据结构和第二基因型数据结构中的一个或多个基因型特征,可以在第一测试时间点和测试第二时间点之间的时间量内归一化测试δ得分集。在一些实施方案中,将归一化应用于测试δ得分集和参考δ得分集的分布中的每个参考δ得分集。
在一些实施方案中,测试对象和/或参考对象的年龄用于调整或归一化,例如测试对象和/或参考对象的生物学数据,和/或测试对象和/或参考对象的δ得分集,和/或参考δ得分集的分布被调整或归一化,以考虑测试对象的年龄。
因此,在一些实施方案中,多个参考对象中的每个相应参考对象的年龄被用作计算分布(例如,参考δ得分集152的分布)的协变量(352)。然后可以基于测试对象的年龄来调整测试δ得分集(例如,δ得分集148)。在一些实施方案中,将代表测试对象年龄的协变量应用于第一基因型数据结构(例如,基因型数据结构142-1-1)、第二基因型数据结构(例如,基因型数据结构142-1-1)、每个第一相应参考基因型数据结构(例如,代表参考δ得分集152的生成中的第一时间点的参考基因型数据结构),或每个第二相应参考基因型数据结构(例如,代表参考δ得分集152生成中的第二时间点的参考基因型数据结构)的多个特征中的一个或多个基因型特征。在一些实施方案中,将表示测试对象年龄的协变量应用于测试δ得分集(例如,δ得分集148)和参考δ得分的分布中的每个参考δ得分集(例如,参考δ得分集148)。
类似地,在一些实施方案中,多个参考δ得分集中的每个相应的参考δ得分集针对相应参考对象的年龄(例如,年龄被用作协变量)进行归一化,并且测试δ得分集针对测试对象的年龄进行归一化。通过针对相应对象的年龄对每个第一相应参考基因型数据结构或每个第二相应参考基因型数据结构的多个特征中的一个或多个基因型特征进行归一化,可以针对相应参考对象的年龄对多个参考δ得分集中的每个相应参考δ得分集进行归一化,并且测试δ得分集可以针对测试对象的年龄进行归一化。在一些实施方案中,将归一化应用于测试δ得分集和参考δ得分集的分布中的每个参考δ得分集。
在一些实施方案中,测试和/或参考对象的吸烟状态或酒精消耗特征用于调整或归一化,例如测试对象和/或参考对象生物数据,和/或测试对象和/或参考对象/或参考对象δ得分集,和/或参考δ得分集的分布被调整或归一化,以考虑测试对象的吸烟状态或饮酒特征。
因此,在一些实施方案中,多个参考对象中的每个相应参考对象的吸烟状态或酒精消耗特征被用作计算分布(例如,参考δ得分集152的分布)的协变量(354)。然后,可以基于测试对象的吸烟状态或酒精消耗特征来调整测试δ得分集(例如,δ得分集148)。在一些实施方案中,将表示测试对象的吸烟状况或饮酒特征的协变量应用于第一基因型数据结构(例如,基因型数据结构142-1-1),第二基因型数据结构(例如,基因型数据结构142-1-1),每个第一相应参考基因型数据结构(例如,代表参考δ得分集152的生成中的第一时间点的参考基因型数据结构),或每个第二相应参考基因型数据结构(例如,代表参考δ得分集152的生成中的第二时间点的参考基因型数据结构)的多个特征中的一个或多个基因型特征。在一些实施方案中,表示测试对象的吸烟状态或饮酒特征的协变量被应用于测试δ得分集(例如,δ得分集148)和在参考δ得分的分布中的每个参考δ得分集(例如,参考δ得分集148)。
类似地,在一些实施方案中,多个参考δ得分集中的每个相应参考δ得分集针对相应参考对象的吸烟状态或酒精消耗特征进行归一化,并且测试δ得分集针对测试对象的吸烟状况或饮酒特征进行归一化。通过针对相应对象的吸烟状况或饮酒特征对每个第一相应参考基因型数据结构或每个第二相应参考基因型数据结构的多个特征中的一个或多个基因型特征进行归一化,可以针对相应参考对象的吸烟状态或酒精消耗特征对多个参考δ得分集中的每个相应参考δ得分集进行归一化,并且可以针对测试对象的吸烟状态或酒精消耗特征对测试δ得分集进行归一化。在一些实施方案中,将归一化应用于测试δ得分集和在参考δ得分集的分布中的每个参考δ得分集。
在一些实施方案中,测试对象和/或参考对象的性别/生物学性别用于调整或归一化,例如测试对象和/或参考对象生物数据,和/或测试对象和/或参考对象δ得分集和/或参考δ得分集的分布被调整或归一化,以考虑测试对象的性别。
因此,在一些实施方案中,多个参考对象中的每个相应参考对象的性别被用作计算分布(例如,参考δ得分集152的分布)的协变量(354)。然后,可以基于测试对象的性别来调整测试δ得分集(例如,δ得分集148)。在一些实施方案中,将代表测试对象的性别的协变量应用于第一基因型数据结构(例如,基因型数据结构142-1-1)、第二基因型数据结构(例如,基因型数据结构142-1-1)、每个第一相应参考基因型数据结构(例如,代表参考δ得分集152的生成中的第一时间点的参考基因型数据结构),或每个第二相应参考基因型数据结构(例如,代表参考δ得分集152生成中的第二时间点的参考基因型数据结构)的多个特征中的一个或多个基因型特征。在一些实施例中,将表示测试对象的性别的协变量应用于测试δ得分集(例如,δ得分集148)和参考δ得分的分布中的每个参考δ得分集(例如,参考δ得分集148)。
类似地,在一些实施方案中,多个参考δ得分集中的每个相应参考δ得分集针对相应参考对象的性别进行归一化,并且测试δ得分集针对测试对象的性别进行归一化。通过针对相应对象的性别对每个第一相应参考基因型数据结构或每个第二相应参考基因型数据结构的多个特征中的一个或多个基因型特征进行归一化,可以针对相应参考对象的性别对多个参考δ得分集中的每个相应参考δ得分集进行归一化,并且测试δ得分集可以针对测试对象的性别进行归一化。在一些实施方案中,将归一化应用于测试δ得分集和参考δ得分集的分布中的每个参考δ得分集。
在一些实施方案中,测试和/或参考对象的生物特征的背景方差用于调整或归一化,例如测试对象和/或参考对象的生物学数据,和/或测试对象和/或或参考对象δ得分集,和/或参考δ得分集的分布被调整或归一化,以考虑测试对象的生物特征的背景方差。也就是说,任何特定生物特征的测量值的变化量可能因人而异。因此,在一些实施方案中,例如通过在多个不同时间从对象收集多个生物样本,例如2、3、4、5、6、7、8、9、10或更多个生物样本,来为测试对象确定测量的生物特征的背景变化的相对水平。在一些实施方案中,每个样本是在前一个生物样本的1天内收集的,或是在前一个生物样本的2天、3天、4天、5天、6天、7天、两周、三周或一个月内收集的。收集这些样本的目的可以不是检测与疾病状态进展相关的生物特征水平的变化,而是确定来自测试对象的生物特征测量值的变化量。
因此,在一些实施方案中,多个参考对象中的每个相应参考对象的生物特征的背景方差在计算分布(例如,参考δ得分集152的分布)中用作协变量(354))。然后,可以基于测试对象的生物特征的背景方差来调整测试δ得分集(例如,δ得分集148)。在一些实施方案中,将表示测试对象的生物特征的背景方差的协变量应用于第一基因型数据结构(例如,基因型数据结构142-1-1),第二基因型数据结构(例如,基因型数据结构142-1-1),每个第一相应参考基因型数据结构(例如,代表参考δ得分集152的生成中的第一时间点的参考基因型数据结构),或每个第二个相应的参考基因型数据结构(例如,代表参考δ得分集152的生成中的第二时间点的参考基因型数据结构)的多个特征中的一个或多个基因型特征。在一些实施方案中,将表示测试对象的生物特征的背景方差的协变量应用于测试δ得分集(例如,δ得分集148)和参考δ得分的分布中的每个参考δ得分集(例如,参考δ得分集148)。
类似地,在一些实施方案中,多个参考δ得分集中的每个相应参考δ得分集针对相应参考对象的生物特征的背景方差进行归一化,并且针对测试对象的生物特征的背景方差对测试δ得分集进行归一化。通过针对相应对象的生物特征的背景方差对每个第一相应参考基因型数据结构或每个第二相应参考基因型数据结构的多个特征中的一个或多个基因型特征进行归一化,可以针对相应参考对象的生物特征的背景方差对多个参考δ得分集中的每个相应参考δ得分集进行归一化,并且可以针对测试对象的生物特征的背景方差对测试δ得分集进行归一化。在一些实施方案中,将归一化应用于测试δ得分集和参考δ得分集的分布中的每个参考δ得分集。
在一些实施方案中,不是调整或归一化参考δ得分集的单个分布,而是使用分段参考分布,其中所有参考对象都是与测试对象共享一个或多个个人特征的枚举类别中的一个。例如,在一些实施方案中,选择参考分布使得参考分布中使用的所有参考对象具有与测试对象相似的年龄。在一些实施方案中,系统100存储多个分段参考分布,或基于测试对象的一个或多个个人属性形成分段参考分布。在一些实施方案中,分段分布中的每个参考对象具有与测试对象共享的年龄、性别、吸烟状况、生物特征的背景变化和/或饮酒特征。因此,在一些实施方案中,针对性别、年龄、吸烟状况、饮酒、生物特征的背景变化或其组合对多个参考对象进行分割(3074)。例如,可以从与测试对象共享一个或多个列举的个人特征的参考δ得分集154形成分段的参考分布。
在一些实施方案中,为了考虑测试对象中生物特征的变化,确定测试对象的多个基线基因型数据结构(358)。多个基线基因型数据结构中的每个相应基线基因型数据结构可以包括多个基因型特征(例如,用于形成基因型数据结构124和相应参考基因型数据结构的相同的一个或多个读取计数126、等位基因状态130、等位基因分数134和甲基化状态138)的值,其是基于在第二测试时间点之前(例如,在获得第一个生物样本之前,或在获得第一个生物样本之后)发生的对应的基线测试时间点从测试对象获得的在多个基线生物样本中的对应的基线生物样本中的对应的多个核酸分子的电子形式的对应的基线多个序列读取。在一些实施方案中,第一生物样本用作测试对象的基线生物样本之一。然后,在多个基线基因型结构中的相应基线基因型数据结构之间的多个基因型特征中的一个或多个相应基因型特征的值的方差量可用于计算测试对象特有的基线方差协变量。此基线协变量可以应用于参考δ得分集的分布,以根据测试对象的基线可变性对参考δ得分集的分布进行归一化。
在一些实施方案中,测试δ得分集(例如,测试δ得分集148)是通过针对来自未患疾病状态的参考对象的δ得分集(例如,参考δ得分集152)的参考分布执行统计假说检定(hypothesis test)来评估的,其可能会或可能不会被调整或归一化以考虑协变量。在一些实施方案中,统计假说检定提供了关于测试δ得分集是否是参考δ得分集分布的成员的统计显着性度量。在一些实施方案中,当统计假说检定提供满足显着性阈值水平的单纯p值时,例如p=0.05、0.1、0.005等,认为对象患有疾病状态。在一些实施方案中,使用单纯检定(one-tailed test)是因为疾病分类模型得分集中的负变化表明此疾病在对象中正在消退,而不是在进展。因此,可以确定分布高端的异常值具有疾病状态。
在相关方法中,在一些实施方案中,通过确定测试δ得分集是否落入参考分布的拒绝区域内来评估测试δ得分集(例如,测试δ得分集148)。例如,可以通过选择显着性水平(例如,当虚无假说(null hypothesis),即对象确实患有疾病,为真时,设置可接受的错误概率的α水平支持替代假说,即对象没有疾病状况)来定义δ得分集的参考分布的拒绝区域,然后确定测试δ得分集(例如,测试δ得分集148)是否落入参考分布的拒绝区域内。
因此,在一些实施方案中,测试δ得分集和参考δ得分集的分布之间的比较包括确定(364)分布的集中趋势的量数(例如,参考δ得分集的分布152)以及分布的散布(spread)量数。然后,比较可以包括使用分布的集中趋势的量数和分布的散布量数来确定测试δ得分集的显着性。在一些实施方案中,分布的集中趋势的量数是分布中的算术平均数、加权平均数、中程数、中枢纽、三均值、极端值调整平均数(Winsorized mean)、平均数或众数(366)。在一些实施方案中,分布的散布量数是分布的标准差、方差或范围(368)。
在一些实施方案中,分布的集中趋势的量数是分布的平均数,分布的散布量数是分布的标准差,并且使用分布的集中趋势的量数和分布的散布量数包括确定多个标准差的数量测试δ得分集是来自分布的平均数(370)。在一些实施方案中,当自分布的平均数的多个标准差的数量测试δ得分集满足一阈值时,测试对象被确定具有疾病状况(372)。也就是说,如果测试对象的δ得分集与分布中的那些相似,则可以预期测试对象没有疾病状况(例如,癌症或冠状动脉疾病状况)。
在一些实施方案中,对δ得分集(例如,参考δ得分集152)的参考分布进行归一化以生成常态分布、t分布、卡方分布、F分布、对数常态分布、Weibull分布、指数分布、均匀分布或任何其他归一化分布。
在一些实施方案中,使用针对多个参考δ得分集训练的分类器而不是例如通过与参考δ得分集的分布进行统计比较来评估测试δ得分集。例如,在一些实施方案中,评估(378)包括将测试δ得分输入到针对多个参考δ得分集训练的分类器中,其中多个参考δ得分中的每个参考δ得分集基于以下各项之间的差异用于相应参考对象:(i)所述相应参考对象具有所述疾病状况的一第一概率,所述第一概率使用包括所述多个基因型特征的多个值的一相应第一参考基因型数据结构通过所述模型来提供,所述多个值是使用在一相应第一时间点从所述相应参考对象获得的一相应第一生物样本来获取;以及(ii)所述相应参考对象具有所述疾病状况的一第二概率,所述第二概率使用包括所述多个基因型特征的多个值的一相应第二参考基因型数据结构通过所述模型来提供,所述多个值是使用在所述相应第一时间点之后发生的一相应第二时间点从所述相应参考对象获得的一相应第二生物样本来获取,其中所述相应训练对象至少在所述相应第一时间点以及所述相应第二时间点的期间不具有所述疾病状况。
在一些实施方案中,分类器被进一步训练关于一个或多个参考对象后来是否发展为疾病状况(例如,后来发展为癌症)。即,在一些实施方案中,确定多个参考对象中的每一个在相应的第一和第二时间点不具有疾病状况(例如,癌症),例如,如使用疾病分类模型142所确定的,所述疾病分类模型142基于从生物样本(例如,液体生物样本)确定的基因型数据结构124提供疾病分类模型得分集146。当训练分类器时,疾病分类模型得分集随时间的变化,例如,δ得分集148,被用作自变量。然后,可以在第一和第二时间点之后的第三时间点进一步评估一些或所有参考对象的疾病状况。在一些实施方案中,稍后评估的结果,例如,参考对象后来是否发展了疾病状况,在训练分类器时用作因变量。以这种方式,疾病分类模型得分集146随时间的特定变化可以更好地与未来结果相关联和/或可以用于利用疾病状况的早期检测。因此,在一些实施方案中,针对在多个参考对象的至少一个子集中的每个相应的训练对象,进一步训练分类器,确定相应对象是否在相应第二时间点之后发生的相应第三时间点患有疾病状况。
如本文参考其他实施例所述,在一些实施方案中,相应的第一、第二和第三时间点之间的时间量,以及参考对象的非基因型特征,用于归一化数据。也就是说,当确定基因型数据结构、疾病分类模型得分集或δ得分集的值时,这些特征可以用作协变量,例如,在训练分类器之前。在一些实施方案中,这些特征中的一个或多个进一步用于训练分类器。
在一些实施方案中,分类器是神经网络算法、支持向量机算法、朴素贝叶斯分类器算法、最邻近搜索算法、提升树算法、随机森林算法、决策树算法、多分类逻辑回归算法或线性回归算法,如本文别处所述。
在一些实施方案中,测试δ得分集通过逻辑回归而不是统计来评估。例如,在一些实施方案中,评估(378)包括使用通过逻辑回归训练的逻辑函数针对多个参考δ得分集来评估测试δ得分集。
在一些实施方案中,多个参考δ分数中的每个参考δ得分集是基于以下各项之间的差异针对多个参考对象中的相应参考对象:(i)一第一得分集,使用包括多个基因型特征的多个值的一第一相应参考基因型数据结构由模型的嵌入层来提供,所述多个值是使用在一相应第一时间点从相应参考对象获得的一第一相应生物样本来获取;以及(ii)一第一二得分集,使用包括所述多个基因型特征的多个值的一第二相应基因型数据结构由所述模型的所述嵌入层来提供,所述多个值是使用在不同于所述第一相应时间点的一相应第二时间点从所述相应参考对象获得的一第二相应生物样本来获取。在一些实施方案中,模型是卷积神经网络(380)。在一些实施方案中,多个参考对象的第一子集具有疾病状况,并且多个参考对象的第二子集不具有疾病状况(382)。在一些实施方案中,多个参考对象中的每个参考对象不具有疾病状况(384)。
在一些实施方案中,逻辑回归还包括个人特征,例如性别、年龄、吸烟状况和饮酒量中的一项或多项,以便解释这些特征,如上文针对统计方法所述。
回归算法可以是任何类型的回归。例如,在一些实施方案中,回归算法是逻辑回归。在一些实施方案中,逻辑回归假设:
Figure BDA0003764461760000681
其中:
xi=(xi1,xi2,...,xik)是从第i个对应的测试对象的生物样本中获得的相应生物特征值(例如,读取计数126、等位基因状态130、等位基因分数134和甲基化状态138中的一个或多个),其中第i个对应的训练对象具有第一疾病状态(例如,癌症状况或冠状动脉疾病)(Y=1)或第二疾病状态(Y=0);
Y∈{0,1}是一个分类标签(class label),当对应的对象i有第一个疾病状态时,它的值为“1”,当对应的对象i有第二个疾病状态时,它的值为“0”,
β0是截距(intercept),并且
βj=(j=1,...k)为多个回归系数,其中多个回归系数中的每个相应回归系数是针对对应的生物特征值。
在一些实施方案中,逻辑回归是逻辑最小绝对收缩和选择算子回归(logisticleast absolute shrinkage and selection operator(LASSO)regression)。在这样的实施方案中,逻辑LASSO估计值
Figure BDA0003764461760000691
被定义为负对数似然的最小值:
Figure BDA0003764461760000692
,受限于
Figure BDA0003764461760000693
其中λ是针对任何给定数据集优化的常数。
在一些实施方案中,回归算法是具有lasso、L2或弹性网络正则化(elastic netregularization)的逻辑回归。
如上述等式中所述,每个xi=(xi1,xi2,...,xik)是第i个对应的训练对象的相应特征值,因此,每个xi代表一个对应的生物特征。此外,每个βj=(j=1,...k)是对应的生物特征的回归系数。在一些实施方案中,具有不满足阈值的对应回归系数的那些提取的特征被(从)多个生物特征中修剪(pruned)(去除)。在一些实施方案中,此阈值为零。因此,在这样的实施方案中,在训练分类器之前,从上述回归中具有为零的对应回归系数的那些生物特征被从多个生物特征中去除。例如,在使用L2正则化的一些实施方案中,阈值为0.1。因此,在这样的实施方案中,在训练分类器之前从多个提取的特征中去除具有来自上述回归的绝对值小于0.1的对应回归系数的那些生物特征。在一些实施方案中,阈值是0.1和0.3之间的值。这种实施方案的示例是阈值为0.2的情况。在这样的实施方案中,在训练分类器之前,从多个提取的特征中去除从上述回归中具有绝对值小于0.2的对应回归系数的那些提取特征。
方法400:
在一个方面,本公开提供了一种方法400,所述方法400使用群体分布来基于测试对象在一系列测量中具有疾病状态的概率或似然的变化对测试对象的疾病状态进行分类,如使用经过训练以将疾病状态与一种或多种其他疾病状态区分开来的分类器来确定。方法400直接涉及疾病状态的描述、获得生物样本的方法和获得上述生物特征的方法。此外,方法400中涉及的许多特征和过程可以与上述方法300相同。为简洁起见,以下不再重复对其中一些特征的描述。然而,以上描述的任何特征和过程,例如,参考方法300,也可以适用于方法400。
一般地参考图4A至图4F,在一些实施方案中,方法包括为多个测试时间点中的每个相应测试时间点,确定测试对象的对应基因型数据结构(例如,基因型数据结构124)(例如,如上文参考工作流200的步骤208的若干迭代所概述的)。对应基因型数据结构可以包括多个基因型特征的值(例如,读取计数126、等位基因状态130、等位基因分数134和甲基化状态138中的一个或多个),其是基于在相应测试时间点从测试对象获得的对应的生物样本(例如,在工作流200的步骤204的相应迭代中获得的样本)中的对应的多个核酸分子的电子形式的对应的多个序列读取(例如,在工作流200的步骤206的相应迭代中生成的cfDNA序列读取)。方法可以包括将(例如,基因型数据结构124的)相应基因型数据结构输入到疾病状况的模型(例如,疾病分类模型142)中,以在相应测试时间点生成的疾病状况的(例如,疾病分类模型得分集146-1的)相应的时间戳模型得分集,从而获得测试对象的多个时间戳测试模型得分集(例如,通过146-1-N疾病分类模型得分集146-1-1),其中每个相应的时间戳测试模型得分集耦合到多个测试时间点中的不同测试时间点(例如,数据收集和分析工作流的不同迭代)。方法可以包括将多个时间戳测试模型得分集与时间趋势测试拟合(例如,如上文参考工作流200的步骤218概述的),从而获得测试对象的时间测试趋势参数集(例如,时间测试趋势参数149-1)。方法可以包括相对多个参考对象的多个参考趋势参数集(例如,类似于参考δ得分集152)评估测试对象的测试趋势参数集(例如,如上文参考工作流200的步骤220概述的),从而确定测试对象的疾病状况(例如,测试对象分类162),其中多个参考趋势参数集中的每个相应参考趋势参数集用于多个参考对象中的对应参考对象。
有利地,通过随时间收集测试对象的一系列生物样本,在监测疾病状态时可以更好地考虑对象生物特征的个人差异。例如,一些对象可以天生表现出更大的生物特征差异。在这些对象中,对象具有特定疾病状态的确定概率的微小变化可能比在生物特征上具有较小差异的对象中提供的信息更少。即,预期当监测表现出疾病状况的生物特征随时间变化较大的对象时,对象患有疾病状态的概率可以例如,在正向和负向两者上波动更大。因此,对象患有疾病状态的确定概率的小幅增加很可能通过其生物特征的自然变化来解释,而不是通过对疾病状态发展的潜在生物反应来解释。相反,生物特征差异很小的对象患有疾病状态的确定概率的小幅增加不太可能用自然差异来解释,并且更有可能表明与疾病状态的发展相关的生物反应。用于对对象的疾病状态进行分类的传统方法无法解释对象的生物特征的个人差异,因为它们使用单个时间点的数据。有利地,在一些实施方案中,本文描述的系统和方法改进了这些用于通过考虑个人差异来对疾病状态进行分类的常规方法。
因此,在一些实施方案中,方法400使用来自在多个测试时间点收集的一系列样本的生物信息。在一些实施方案中,多个测试时间点是3个或更多个时间点(436)。在一些实施方案中,多个测试时间点是4个或更多个时间点。在一些实施方案中,多个测试时间点是10个或更多个时间点。在其他实施方案中,多个测试时间点是至少3、4、5、6、7、8、9、10、15、20或更多个测试时间点。
在一些实施方案中,多个测试时间点跨越数月或数年的时期(438)。例如,在一些实施方案中,多个测试时间点跨越至少6个月。在一些实施方案中,多个测试时间点跨越至少1年。在一些实施方案中,多个测试时间点跨越至少5年。在又一些实施方案中,多个测试时间点跨越至少6个月、7个月、8个月、9个月、10个月、11个月、1年、2年、3年、4年、5年、6年、7年、8年、9年、10年、15年、20年或更长时间。
在一些实施方案中,多个测试时间点形成不均匀间隔的时间序列(440)。例如,在一些实施方案中,当对象例如出于不相关的原因访问医疗机构(例如,医生办公室、医院、诊所、医学实验室等)时,从对象收集生物样本。在其他实施例中,多个测试时间点形成更均匀间隔的时间序列。例如,在一些实施方案中,每月、每半年或每年为基础从对象收集生物样本,例如,通过定期访问医疗设施或通过远程样本提交。
生成生物特征集:
如上文参考工作流200的步骤208概述的,方法400包括从从多个生物样本获得的生物特征生成生物特征集(例如,基因型数据结构124)的步骤,其是自测试对象在一系列时间上获得的。生物特征集中包括的特定特征和其格式可以由使用的分类器(例如:疾病分类模型142)规定,以确定特定疾病状态(例如癌症、一种类型的癌症、心血管疾病等)的初始概率或似然。在一些实施方案中,分类器使用从来自对象的含有核酸的样本(例如,含有cfDNA的液体样本)获得的序列读取获得的基因型特征。
因此,在一些实施方案中,相应的特征集包括从从对象获得的相应生物样本中的相应多个核酸确定的特征。在一些实施方案中,相应的多个核酸包括DNA分子(例如cfDNA或基因组DNA)。在一些实施方案中,相应的多个核酸包括RNA分子(例如,mRNA)。在一些实施方案中,相应的多个核酸包括DNA和RNA分子。
因此,在一些实施方案中,方法400包括,对于多个测试时间点中的每个相应测试时间点(402),确定(404)测试对象的对应基因型数据结构,对应基因型数据结构包括多个基因型特征的值,其是基于在相应测试时间点从测试对象获得的对应的生物样本中的对应的多个核酸分子的电子形式的对应的多个序列读取(例如,如上文参考图2所示的步骤206所述获得的序列读取)。
在一些实施方案中,测试对象是人(406)。在一些实施方案中,测试对象(例如人)尚未被诊断为患有疾病状况(408)。例如,在一些实施方案中,本文描述的方法发现能够在疾病的生物特征达到常规分类器的检测水平(level of detection,LOD)之前识别对象的疾病状态。因此,在一些实施方案中,已经多次测试对象的疾病状态,并且每次都被分类为没有疾病状态。
在一些实施方案(410)中,多个基因型特征包括一个或多个特征,包括在基因座的单核苷酸变体的支持(例如:等位基因状态130)、在基因座的甲基化状态(区域性的甲基化状态138)、基因座的相对拷贝数(例如:箱读取计数126)、基因座的等位基因比率(例如:等位基因分数134)、游离核酸分子的片段大小度量、基因座的甲基化模式及其数学组合。
在一些实施方案中,多个基因型特征包括多个相对拷贝数(例如,箱读取计数126),其中多个相对拷贝数中的每个相应相对拷贝数对应于多个基因座中的不同的基因座(412)。在一些实施方案中,相对拷贝数代表来自多个基因组区域的序列读取的相对丰度。在一些实施方案中,基因组区域具有相同的大小。在一些实施方案中,基因组区域具有不同的大小。如上所述,参考方法300,在一些实施方案中,拷贝数数据被进一步归一化,例如,以减少或消除由潜在混杂因素引起的定序数据的变化。
在一些实施方案中,多个基因型特征包括多个甲基化状态(例如,区域甲基化状态138),其中多个甲基化状态中的每个甲基化状态对应于多个基因座中的不同基因座(414)。在一些实施方案中,每个甲基化状态由甲基化状态向量表示,例如在2018年3月13日提交的题为“甲基化片段异常检测(Methylation Fragment Anomaly Detection)”的美国临时专利申请第62/642,480号中所述,其全部内容通过引用并入本文。如上所述,参考方法300,在一些实施方案中,甲基化数据被归一化,例如,以减少或消除由潜在混杂因素引起的定序数据的变化。
然而,如本文所述,在一些实施方案中,特定分类模型评估除基因组特征之外的特征,例如,代替上述基因组特征或除上述基因组特征之外。例如,在一些实施方案中,分类模型评估表观遗传标记(表观遗传学)、基因表达谱(转录组学)、蛋白质表达或活性剖析(activity profiling)(蛋白质组学)、代谢剖析(metabolic profiling)(代谢组学)等。因此,在一些实施方案中,形成的生物特征组包括这些非基因组生物特征中的一种或多种。
此外,在一些实施方案中,分类模型评估对象的一种或多种个人特征,例如,除了生物特征之外,性别、年龄、吸烟状况、饮酒、家族史等。因此,在一些实施方案中,所形成的生物特征集包括对象的一种或多种个人特征。
生成疾病模型得分集:
如上文参考工作流200的步骤210概述的,方法400包括使用从随时间从对象的生物样本获得的生物特征形成的生物特征集来生成一系列疾病模型得分集。因此,在一些实施方案中,方法400包括,对于多个测试时间点中的每个相应测试时间点,将对应的基因型数据结构(例如,基因型数据结构124)输入(416)到疾病状况的模型(例如,疾病分类模型142)中,从而为相应测试时间点的疾病状况生成对应的时间戳模型得分集(例如,疾病分类模型得分集146),从而获得测试对象的多个时间戳测试模型得分集。每个相应的时间戳测试模型得分集可以耦合到多个测试时间点中的不同测试时间点。通常,本文所述的系统和方法使用的疾病模型的身份和类型可能无关紧要。
已经开发了许多不同的模型来评估生物特征,以便对对象的一种或多种疾病状态(例如,癌症状态、冠状动脉疾病状态等)进行分类。例如,美国专利申请公开第2019/0287652号描述了,例如,使用cfDNA样本来评估多个基因座的甲基化状态的模型,以便对对象的癌症状态进行分类。类似地,美国专利申请公开第2019/0287649号描述了,例如,使用cfDNA样本来评估多个基因座的相对拷贝数的模型,以便对对象的癌症状态进行分类。同样,已经开发了各种模型来评估变异等位基因(例如,单核苷酸变异、插入缺失、缺失、颠换、易位等)的存在,以便对对象的癌症状态进行分类。通常,为对象的疾病状态分类而开发的任何模型都可以与本文所述的系统和方法结合使用。
在一些实施方案中,此模型用于检测对象中疾病状态的存在,例如,检测对象中的癌症或冠状动脉疾病。也就是说,本文提供的系统和方法特别适用于改进现有疾病模型的敏感性和特异性,因为它们有助于识别对象的生物特征随时间的变化,即使当生物信号还不强时足以让基础模型(underlying model)检测到。因此,在一些实施方案中,模型(例如,用于评估在工作流200的步骤210的基因型数据结构124的基础模型)评估来自单个时间点的数据。这可以是评估从对象的单个样本或从对象在相同或相似时间点获得的多个样本(例如,提供不同类型生物信息的样本,例如基因组和转录组信息)。
通常,许多不同的分类算法可用于本文所述的系统和方法。例如,在一些实施方案中,模型是一神经网络算法、一支持向量机算法、一朴素贝叶斯分类器算法、一最邻近搜索算法、一提升树算法、一随机森林算法、一决策树算法、一多分类逻辑回归算法或一线性回归算法(434),其细节在本文别处描述。一般而言,使用本文描述的系统和方法,用于为一种或多种疾病状态生成疾病模型得分集的分类器类型可能无关紧要。在一些实施方案中,模型是在一组对象中进行训练的(432),其中在所述一组对象中的第一部分具有疾病,并且在所述一组对象中的第二部分不具有所述疾病,例如,使得它被专门训练区分对应于没有疾病状况的第一状态和对应于患有疾病状况的第二状态。
在一些方面,所公开的方法可以与癌症分类模型结合使用(418)。例如,机器学习或深度学习模型(例如,疾病分类器)可用于基于从一种或多种游离DNA分子或序列读取(例如,衍生于一种或多种cfDNA分子)确定的一个或多个特征值,来确定疾病状态。在各种实施方案中,机器学习或深度学习模型的输出是疾病状态的预测得分或概率(例如,预测癌症得分)。
在一些实施方案中,机器学习模型包括逻辑回归分类器。在其他实施方案中,机器学习或深度学习模型可以是决策树、集成(例如,引导(bagging)、提升(boosting)、随机森林)、梯度提升机、线性回归、朴素贝叶斯(
Figure BDA0003764461760000761
Bayes)或神经网络中的一种。疾病状态模型可以包括在训练期间调整的特征的学习权重。术语“权重”在本文一般用于表示与模型的任何给定特征相关联的学习量,无论使用哪种特定的机器学习技术。在一些实施方案中,癌症指标得分(indicator score)通过将源自一个或多个DNA序列(或其DNA序列读取)的特征值输入机器学习或深度学习模型来确定。
在训练期间,可以处理训练数据,以生成用于训练疾病状态模型的权重的特征的值。例如,训练数据可以包括从训练样本中获得的cfDNA数据、癌症gDNA和/或WBC gDNA数据,以及输出标签。例如,输出标签可以指示个体是否已知患有特定疾病(例如,已知患有癌症)或已知健康(即,没有疾病)。在其他实施方案中,此模型可用于确定疾病类型或起源组织(例如,起源的癌组织),或是疾病严重程度的指示(例如,癌症分期),并且为此生成输出标签。取决于特定实施方案,疾病状态模型可以接收从用于检测和量化cfDNA分子或由此衍生的序列的DNA测定以及与待训练的模型相关的计算分析中确定的一个或多个特征的值。在一个实施方案中,一种或多种特征包括定量的一种或多种cfDNA分子或由此衍生的序列读取。根据训练中模型输出的分数和训练数据的输出标签之间的差异,可以优化预测癌症模型的权重,使疾病状态模型能够做出更准确的预测。在各种实施方案中,疾病状态模型可以是非参数模型(例如,K-近邻算法(k-nearest neighbors)),因此,预测性癌症模型可以被训练,以做出更准确的预测,而无需优化参数。
虽然由特定模型评估的生物特征的确切性质(或至少只要它们保持在本文所述的生物样本类型和生物特征的范围内),以及基于特定模型的分类算法,通常对于本文所述的系统和方法而言可能是无关紧要的,但在一些实施方案中,模型的输出(例如,疾病分类模型得分集146,如关于工作流200中的步骤210所描述的)可以是一组连续的或半连续的连续得分。以这种方式,可以识别(例如,使用趋势测试参数149,如上文关于工作流200中的步骤218所描述的)和评估(例如,对照参考趋势测试参数,如上文关于步骤200所描述的),以对对象的疾病状态进行分类。因此,在一些实施方案中,模型的模型得分集(例如,疾病分类模型得分集146)是患有疾病状况的似然(likelihood)或概率(420)。类似地,在一些实施方案中,模型的模型得分集(例如,疾病分类模型得分集146)是没有疾病状况的似然或概率。因此,从第一时间点到第二时间点患有/不患有疾病状态的似然或概率的变化可以量化为输出的连续范围的差异。
在一些实施方案中,例如,当疾病分类评估模型是神经网络(例如,常规或卷积神经网络)时,疾病分类器的输出是分类,例如癌症阳性或癌症阴性。然而,在一些实施方案中,为了为模型的输出提供连续或半连续值,而不是分类,神经网络的隐藏层,例如输出层之前的隐藏层,是用作疾病分类模型得分集。
因此,在一些实施方案中,模型包括:(i)输入层,用于接收多个基因型特征的多个值,其中所述多个基因型特征包括第一数量的维度;(ii)嵌入层,包括一组权重,其中嵌入层直接或间接接收输入层的输出,并且嵌入层的输出是具有第二数量的维度的模型得分集,第二数量的维度小于第一数量的维度;以及(iii)输出层,直接或间接从嵌入层接收模型得分集,其中第一模型得分集是在将第一基因型数据结构输入到输入层时嵌入层的模型得分集;并且第二模型得分集是在将第二基因型数据结构输入到输入层时嵌入层的模型得分集。
确定测试趋势参数集:
如上文参考工作流200的步骤218概述的,方法400包括评估,例如,在对应于此系列中的多个测试时间点的每个时间点的对象的疾病状态的多个疾病模型得分集(例如,疾病分类模型得分集146-1-1到146-1-N)之间,疾病模型得分集随时间的变化的步骤。在一些实施方案中,使用时间趋势检验进行评估,例如,Cochran-Armitage趋势检验、Mann-Kendall检验和Mann-Whitney U检验。
例如,Cochran-Armitage趋势检验评估跨单个变量水平的二项式比例趋势。简而言之,来自Cochran-Armitage趋势统计的虚无假说(null hypothesis)(无关联)的方差Var(T):
Figure BDA0003764461760000791
其中k是类别数,ti是权重,Nki代表第k个类别的第i个观测值,Rk代表第k个类别的第i个观测值之和,可以计算为:
Figure BDA0003764461760000792
Mann-Kendall检验可以是用于识别系列数据中的单调趋势(monotonic trend)(单向趋势(one-way trend))的非参数趋势检验。简而言之,Mann-Kendall检验可以采用连续观察(例如,针对多个时间点确定的一系列疾病分类模型得分集146)与时间的Kendall等级相关性,以检验单调趋势。检验的虚无假说(null hypothesis)可以是没有趋势。也就是说,观察可以相对于时间序列独立分布。Kendall的tau系数可以是用于衡量两个测量量之间的序数关联的统计量,例如疾病分类模型得分集146。
因此,在一些实施方案中,方法400包括使用时间趋势检验(例如,Cochran-Armitage趋势检验、Mann-Kendall检验、Mann-Whitney U检验或通过对数线性最小二乘拟合(log-linear least squares fitting)),拟合(446)多个时间戳测试模型得分集(例如,通过时间序列的146-1-N的疾病分类模型得分集146-1-1),从而获得测试对象的检验趋势参数集(例如,时间趋势测试参数149)。在一些实施方案中,拟合时间戳测试模型得分集是通过对数线性最小二乘拟合测试对象的多个时间戳测试模型得分来执行的,以获得测试对象的直线的斜率。
在一些实施方案中,方法400还包括用时间趋势测试(例如,用于拟合测试对象的数据的相同时间趋势测试)拟合对应的多个参考时间戳时间模型得分集,从而获得对应参考对象的多个参考趋势参数集的分布中的相应参考趋势参数集。在一些实施方案中,时间趋势检验是Cochran-Armitage趋势检验、Mann-Kendall检验、Mann-Whitney U检验或通过对数线性最小二乘拟合(log-linear least squares fitting)。在一些实施方案中,拟合包括对数线性最小二乘拟合对应参考对象的对应多个时间戳时间点,以获得对应参考对象的直线的斜率。
评估测试趋势参数集:
如上文参考工作流200的步骤220概述的,方法400包括评估疾病模型得分集随时间的变化(例如,评估时间趋势测试参数149)的步骤,例如,以确定是否存在疾病模型得分集的显着变化表明对象患有疾病状态。也就是说,方法400可以包括针对多个参考对象的多个参考趋势参数集(例如,类似的参考趋势测试参数到参考δ得分集154,如图1A所示),从而确定测试对象的疾病状况,其中多个参考趋势参数集中的每个相应参考趋势参数集是针对在多个参考对象中的对应参考对象。
通常,参考方法400,在一些实施方案中,本文描述的系统和方法评估对象的疾病模型得分随时间变化的趋势是否与不具有疾病状态的参考对象的疾病模型得分随时间变化的趋势类型显着不同。如果测试对象的疾病模型得分的变化趋势在统计上类似于那些参考对象的疾病模型得分的变化趋势,那么测试对象可以被自信地分类为没有疾病状态。但是,如果测试对象的疾病模型得分的变化趋势与统计显着性不同(例如,p值为0.05、0.01、0.005等),与没有疾病状况的参考对象的疾病模型得分变化趋势相比,可以推断测试对象具有不同的疾病状态,即对象可能患有疾病状态或正在发展疾病状态。在一些实施方案中,通过为多个参考对象生成疾病模型得分变化的趋势统计分布来进行此比较(例如,类似于参考δ得分集152的分布,如上文参考方法300所讨论的)并且例如使用统计假说检定(hypothesis test)询问,测试对象的疾病模型得分的变化趋势(例如,时间趋势检验参数149)是否属于此分布(或者在统计假说检定的情况下,通过虚无假说(null hypothesis),趋势检验参数是否不属于此分布)。
在一些实施方案中,趋势检验参数的评估是使用参数统计假说检定(hypothesistest)来完成的。在一些实施方案中,多个时间戳测试模型得分集(例如,通过测试对象的146-1-N的疾病分类模型得分集146-1-1)中的每个时间戳测试模型得分集包括测试对象在对应的测试时间点具有疾病状况(例如,癌症或冠状动脉疾病)的概率(4054)。因此,趋势测试参数(例如,时间趋势测试参数149)可以是时间戳测试模型集中是否存在趋势的统计量度。测试对象的测试趋势参数集(例如,时间趋势测试参数149)可以与由多个参考趋势参数集形成的分布(例如,类似于图1A中所示的参考δ得分集152的分布)进行比较。
多个参考趋势参数集中的每个参考趋势参数集可以针对多个参考对象中的对应参考对象,并且可以通过对于与对应参考对象相关联的对应的多个参考时间点中的每个相应的参考时间点来确定:(i)确定参考对象的对应基因型数据结构,对应基因型数据结构包括多个基因型特征的值(例如,用于形成测试对象的基因型数据结构124的相同基因型特征),所述多个值基于在对应时间点从对应参考对象获得的对应生物样本中的对应多个核酸分子的电子形式的对应多个序列读取;以及(ii)将对应基因型数据结构输入模型(例如,与用于生成测试对象的疾病分类模型得分集146相同的疾病分类模型142)中,以在对应参考对象的相应时间点为疾病状况生成对应的参考时间戳模型得分集。因此,可以形成对应参考对象的对应多个参考时间戳模型得分集,其中每个参考时间戳模型得分集针对与对应参考对象相关联的对应多个时间点中的不同时间点。然后,可以使用时间趋势测试(例如,用于拟合测试对象的疾病分类模型得分集146的相同时间趋势测试)来拟合对应的多个参考时间戳时间模型得分集,从而获得对应参考对象的趋势参数分布中的相应趋势参数。
本公开的一些方面可以至少部分地基于以下认识:考虑到测试对象的个人特征可以提高用于对测试对象的疾病状态进行分类的方法的敏感性和特异性。也就是说,因为测试对象的个人特征会影响测试对象的疾病状态生物特征的表现。因此,考虑到测试对象的这些个人特征中的一个或多个可以进一步提高疾病状态分类的敏感性和特异性。例如,一系列疾病分类模型得分集中的连续疾病分类模型得分集之间的变化幅度以及变化的显着性至少受(i)测试对象的疾病状态变化的影响,例如,疾病状态的发展和进展可以增加疾病分类模型得分集的量级(magnitude),而疾病状态的回归可以降低疾病分类模型得分集的量级;(ii)构成对象的疾病状态特征的生物特征的背景差异;(iii)对象的个人特征,例如年龄、性别、种族、吸烟状况、饮酒、家族史等;以及(iv)连续时间之间的时间长度点。例如,如果样本采集事件之间的时间长度为20年,则对象患有特定疾病状态的概率增加10%的显着性低于样本采集事件之间的时间间隔为两个月的情况。
因此,在一些实施方案中,在对照参考趋势测试参数的分布评估对象的时间趋势测试参数时,考虑了影响疾病分类模型得分集的时间序列中连续疾病分类模型得分数之间变化幅度和/或显着性的一个或多个因素。在一些实施方案中,通过调整或归一化趋势测试参数和参考趋势测试参数的分布中的任一个或两者来考虑这些特征。在一些实施方案中,调整或归一化直接应用于趋势测试参数和/或参考趋势测试参数,例如,每个趋势测试参数彼此独立地调整或归一化。在一些实施方案中,调整或归一化通过参考分布应用于参考趋势测试参数,例如,单个参考趋势测试参数被调整或归一化作为分布的函数,而不是基于个体化。在一些实施方案中,由疾病分类模型评估的基础生物特征数据被调整或归一化。
在一些实施方案中,从测试对象和/或参考对象收集连续生物样本之间的时间长度,例如时间序列中所有生物样本收集之间的平均时间长度,用于调整或归一化,例如,测试对象和/或参考对象生物数据,和/或测试对象和/或参考对象趋势测试参数,和/或参考趋势测试参数的分布被调整或归一化,以考虑生物样本收集之间的时间。
因此,在一些实施方案中,多个参考对象中的每个相应参考对象的连续时间点之间的时间量(例如,时间序列中的生物样本收集之间的平均时间长度)被用作计算分布的协变量(例如,参考趋势测试参数的分布)。然后,可以基于表示连续测试时间点之间的时间差的协变量(例如,在时间序列中从测试对象收集的生物样本之间的平均时间长度),来调整趋势测试参数(例如,趋势测试参数149)。在一些实施方案中,针对测试对象或参考对象之一或两者,将表示连续测试时间点之间的时间差异的协变量应用于对应于连续时间点的基因型数据结构(例如,基因型数据结构142)之一或两者的多个特征中的一个或多个基因型特征。在一些实施方案中,将表示时间序列中连续时间点之间的时间差的协变量应用于趋势测试参数(例如,趋势测试参数149)和趋势测试参数分布中的每个参考趋势测试参数。
类似地,在一些实施方案中,多个参考趋势测试参数中的每个相应趋势测试参数针对相应对象的时间序列中的连续时间点之间的时间量进行归一化,并且测试趋势测试参数被归一化测试对象的时间序列中连续时间点之间的时间量。同样,在一些实施方案中,通过对对应于相应对象的时间序列中的连续时间点的相应参考基因型数据结构中的一个或两个的多个特征中的一个或多个基因型特征进行归一化,多个参考趋势测试参数中的每个相应参考趋势测试参数针对相应参考对象的时间序列中的连续时间点之间的时间量进行归一化。通过对与测试对象的时间序列中的连续时间点相对应的基因型数据结构中的一个或两个中的一个或多个基因型特征进行归一化,测试趋势测试参数可以针对测试对象的时间序列中连续测试时间点之间的时间量进行归一化。在一些实施方案中,对测试趋势测试参数和参考趋势测试参数分布中的每个参考趋势测试参数归一化。
在一些实施方案中,测试对象和/或参考对象的年龄用于调整或归一化,例如测试对象和/或参考对象的生物数据,和/或测试对象和/或参考对象的趋势测试参数和/或参考趋势测试参数的分布被调整或归一化,以考虑测试对象的年龄。
因此,在一些实施方案中,在计算分布(例如,参考趋势测试参数的分布)时,将多个参考对象中的每个相应参考对象的年龄用作协变量(462)。然后,可以基于测试对象的年龄调整测试趋势测试参数(例如,趋势测试参数149)。在一些实施方案中,将表示测试对象年龄的协变量应用于在测试对象的多个基因型数据结构中,和/或多个参考对象中的每个相应参考对象的多个基因型数据结构中的一个或多个基因型数据结构中的一个或多个基因型数据结构(例如,基因型数据结构142)的多个特征中的一个或多个基因型特征。在一些实施方案中,将表示测试对象年龄的协变量应用于测试趋势测试参数(例如,趋势测试参数149)和参考趋势测试参数的分布中的每个参考趋势测试参数。
类似地,在一些实施方案中,多个参考趋势测试参数中的每个相应参考趋势测试参数针对相应参考对象的年龄进行归一化,并且测试趋势测试参数针对测试对象的年龄进行归一化。通过针对相应对象的年龄对每个相应参考基因型数据结构的多个特征中的一个或多个基因型特征进行归一化,多个参考趋势测试参数中的每个相应参考趋势测试参数可以针对相应参考对象的年龄进行归一化,并且测试趋势测试参数针对测试对象的年龄进行归一化。在一些实施方案中,对测试趋势测试参数和参考趋势测试参数的分布中的每个参考趋势测试参数归一化。
在一些实施方案中,测试和/或参考对象的吸烟状态或酒精消耗特征用于调整或归一化,例如测试对象和/或参考对象生物数据,和/或测试对象和/或参考对象/或参考对象趋势测试参数,和/或参考趋势测试参数的分布被调整或归一化,以考虑测试对象的吸烟状态或酒精消耗特征。
因此,在一些实施方案中,多个参考对象中的每个相应参考对象的吸烟状态或酒精消耗特征被用作计算分布(例如,参考趋势测试参数的分布)的协变量(464)。然后,可以基于测试对象的吸烟状态或酒精消耗特性来调整测试趋势测试参数(例如,趋势测试参数149)。在一些实施方案中,将表示测试对象的吸烟状况或饮酒特征的协变量应用于测试对象的多个基因型数据结构中的一个或多个基因型数据结构(例如,基因型数据结构142)和/或多个参考对象中的每个相应参考对象的多个基因型数据结构中的一个或多个基因型数据结构的多个特征中的一个或多个基因型特征。在一些实施方案中,将表示测试对象的吸烟状态或酒精消耗特性的协变量应用于测试趋势测试参数(例如,趋势测试参数149)和参考趋势测试参数分布中的每个参考趋势测试参数。
类似地,在一些实施方案中,多个参考趋势测试参数中的每个相应参考趋势测试参数针对相应参考对象的吸烟状态或酒精消耗特征进行归一化,并且测试趋势测试参数针对测试对象的吸烟状况或饮酒特征进行归一化。通过对相应对象的吸烟状态或酒精消耗特征对每个相应参考基因型数据结构的多个特征中的一个或多个基因型特征归一化,多个参考趋势测试参数中的每个相应参考趋势测试参数可以针对相应参考对象的吸烟状态或酒精消耗特征进行归一化,并且测试趋势测试参数针对测试对象的吸烟状态或酒精消耗特征进行归一化。在一些实施方案中,对测试趋势测试参数和参考趋势测试参数的分布中的每个参考趋势测试参数归一化。
在一些实施方案中,测试对象和/或参考对象的性别用于调整或归一化,例如测试对象和/或参考对象生物数据,和/或测试对象和/或参考对象趋势测试参数,和/或参考趋势测试参数的分布被调整或归一化,以考虑测试对象的性别。
因此,在一些实施方案中,多个参考对象中的每个相应参考对象的性别/生物性别在计算分布(例如,参考趋势测试参数的分布)中被用作协变量(466)。然后,可以基于测试对象的性别来调整测试趋势测试参数(例如,趋势测试参数149)。在一些实施方案中,将表示测试对象性别的协变量应用于测试对象的多个基因型数据结构(例如,基因型数据结构142)的多个特征中的一个或多个基因型特征,和/或多个参考对象中的每个相应参考对象的多个基因型数据结构中的一个或多个基因型数据结构。在一些实施方案中,将表示测试对象性别的协变量应用于测试趋势测试参数(例如,趋势测试参数149)和参考趋势测试参数的分布中的每个参考趋势测试参数。
类似地,在一些实施方案中,多个参考趋势测试参数中的各个参考趋势测试参数针对各个参考对象的性别进行归一化,并且测试趋势测试参数针对测试对象的性别进行归一化。多个参考趋势测试参数中的每个相应参考趋势测试参数可以通过针对相应参考对象的性别归一化每个相应参考基因型数据结构的多个特征中的一个或多个基因型特征来针对相应参考对象的性别归一化,并且测试趋势测试参数针对测试对象的性别进行归一化。在一些实施方案中,归一化应用于测试趋势测试参数和参考趋势测试参数的分布中的每个参考趋势测试参数。
在一些实施方案中,不是调整或归一化趋势测试参数的单个分布,而是使用分段参考分布,其中所有参考对象都是与测试对象共享一个或多个个人特征的列举的个体类别之一。例如,在一些实施方案中,选择参考分布使得参考分布中使用的所有参考对象具有与测试对象相似的年龄。在一些实施例中,系统100存储多个分段参考分布,或基于测试对象的一个或多个个人属性形成分段参考分布。在一些实施例中,分段分布中的每个参考对象具有与测试对象共享的年龄、性别、吸烟状况和/或饮酒特征。因此,在一些实施方案中,针对性别、年龄、吸烟状况、饮酒、生物特征的背景变化或其组合对多个参考对象进行分段(468)。这种分段分布可以包括关于不同协变量之间的依赖结构的信息。例如,分段参考分布由趋势测试参数形成,这些参数与测试对象共享一个或多个列举的个人特征。在一个示例中,可以从共享相同性别、年龄和吸烟状态的趋势测试参数形成分段参考分布。
在一些实施方案中,测试趋势测试参数(例如,趋势测试参数149)通过对照来自未患疾病状态的参考对象的趋势测试参数的参考分布执行统计假设检定来评估,这可能或者可能不会被调整或归一化以解释协变量(covariate)。在一些实施方案中,统计假设检定提供关于测试趋势检验参数是否是参考趋势测试参数的分布的成员的统计显着性的量数。在一些实施方案中,当统计假设检定提供满足显着性的阈值水平的p值时,认为对象患有疾病状态,例如p=0.05、0.1、0.005等。
然而,因为p值测量了一定义事件(例如,零假设)或比定义事件更罕见的事件的聚合概率(aggregated probability),所以具有统计意义的p值不能识别定义事件是落在分布中的一个极端还是另一个极端。因此,在一些实施方案中,测试趋势测试参数与参考趋势测试参数的分布的比较进一步使用了测试趋势测试参数属于哪个极值的检查。例如,疾病分类模型得分集中的阴性变化可以表明对象的疾病正在消退,而不是在进展。
在一些实施方案中,测试趋势测试参数和参考趋势测试参数的分布之间的比较包括确定(456)分布的集中趋势的量数和分布的散布量数。然后,比较可以包括使用分布的集中趋势的量数和分布的散布量数来确定测试趋势测试参数的显着性。在一些实施方案中,分布的集中趋势的量数是所述分布中的一算术平均数、一加权平均数、一中程数、一中枢纽、一三均值、一极端值调整平均数、一平均数或一众数。在一些实施方案中,分布散布的量数是所述分布的标准差、方差或范围。
在一些实施方案中,分布的集中趋势的量数是分布的平均数,分布的散布量数是分布的标准差,并且使用分布的集中趋势的量数和分布的散布量数来确定测试趋势测试参数的显着性包括确定标准差的数量测试趋势测试参数是来自分布的平均数(458)。在一些实施方案中,当自分布的平均数的标准差的数量测试趋势测试参数满足阈值时,确定测试对象患有疾病状况(460)。也就是说,如果他们的趋势测试参数与分布中的参数相似,则可以预期测试对象没有疾病状况(例如,癌症或冠状动脉疾病状况)。
在一些实施方案中,测试趋势测试参数通过逻辑回归而不是统计来评估。例如,在一些实施方案中,评估包括对照多个参考趋势测试参数,通过逻辑回归训练的逻辑函数来评估测试趋势测试参数。在一些实施方案中,多个参考趋势参数集中的每个参考趋势参数集是基于(i)与(ii)之间的一差异针对在所述多个参考对象中的一相应参考对象:(i)一第一时间戳模型得分集,使用包括所述多个基因型特征的多个值的一第一相应参考基因型数据结构由所述模型的所述嵌入层来提供,所述多个值是使用在一相应第一时间点从所述相应参考对象获得的一第一相应生物样本来获取;以及(ii)一第二时间戳模型得分集,使用包括所述多个基因型特征的多个值的一第二相应基因型数据结构由所述模型的所述嵌入层来提供,所述多个值是使用在不同于所述第一相应时间点的一相应第二时间点从所述相应参考对象获得的一第二相应生物样本来获取。
在一些实施方案中,逻辑回归进一步包括个人特征,例如性别、年龄、吸烟状况和酒精消费中的一项或多项,以便解释这些特征,如上文针对统计方法所述。
回归算法可以是任何类型的回归。例如,在一些实施方案中,回归算法是逻辑回归。在一些实施方案中,逻辑回归假设:
Figure BDA0003764461760000891
其中:
xi=(xi1,xi2,...,xik)是从第i个对应的训练对象的生物样本中获得的对应生物特征值(例如,读取计数126、等位基因状态130、等位基因分数134和甲基化状态138中的一个或多个),其中第i个对应的训练对象具有第一疾病状态(例如,癌症状况或冠状动脉疾病)(Y=1)或第二疾病状态(Y=0);
Y∈{0,1}是一个类标签,当对应的对象i有第一个疾病状态时,它的值为“1”,当对应的对象i有第二个疾病状态时,它的值为“0”,
β0是截距,并且
βj=(j=1,...k)为多个回归系数,其中,多个回归系数中的各个回归系数对应于对应的生物特征值。
在一些实施方案中,逻辑回归是逻辑最小绝对收缩和选择算子(LASSO)回归。在一些这样的实施方案中,逻辑LASSO估计量
Figure BDA0003764461760000892
被定义为负对数似然的最小值:
Figure BDA0003764461760000893
受限于
Figure BDA0003764461760000894
其中λ是针对任何给定数据集优化的常数。
在一些实施方案中,回归算法是具有套索(lasso)、L2或弹性网络正则化(elasticnet regularization)的逻辑回归。
如上述等式中所述,每个xi=(xi1,xi2,...,xik)是第i个对应训练对象的对应特征值,因此,每个xi代表一个相应的生物特征。此外,每个βj=(j=1,…k)是对应生物特征的回归系数。在一些实施方案中,具有不满足阈值的对应回归系数的那些提取的特征被修剪(移除)多个生物特征。在一些实施方案中,此阈值为零。因此,在这样的实施方案中,在训练分类器之前,从上述回归中具有为零的对应回归系数的那些生物特征被从多个生物特征中去除。例如,在使用L2正则化的一些实施方案中,阈值为0.1。因此,在这样的实施方案中,在训练分类器之前从多个提取的特征中去除具有来自上述回归的绝对值小于0.1的对应回归系数的那些生物特征。在一些实施方案中,阈值是0.1和0.3之间的值。这种实施方案的实施例是阈值为0.2的情况。在这样的实施方案中,在训练分类器之前,从多个提取的特征中去除从上述回归中具有绝对值小于0.2的对应回归系数的那些提取特征。
实施例:
以下实施例1和2中呈现的分析中使用的数据是作为CCGA临床研究的一部分收集的。CCGA(NCT02889978)是最大的基于cfDNA的早期癌症检测研究。这项前瞻性、多中心、观察性研究已在141个地点招募了超过10,000名人口统计平衡的参与者,其中包括至少20种肿瘤类型和所有临床阶段的健康个体和癌症患者。所有样本均通过以下方式进行分析:(1)配对cfDNA和白细胞(WBC)靶向定序(60,000X,507基因组),使用队列研究(joint caller)去除WBC衍生的体细胞变异和残留的技术噪声;(2)配对cfDNA和WBC全基因组定序(WGS),序列覆盖率约为35X;(3)cfDNA全基因组亚硫酸盐定序(WGBS),序列覆盖率约为34X,使用异常甲基化片段归一化得分。
从收集的血液样本中分离出游离DNA,然后如上所述进行定序,以提供cfDNA定序数据。同样,使用血沉棕黄层分离(buffy coat separation)方法分离血细胞,然后对来自白细胞的基因组制剂进行定序,以提供目标基因座的匹配序列读取,例如,用于克隆性造血产生的序列变体的阳性分配。
CCGA研究中包括的癌症类型包括浸润性乳癌、肺癌、结直肠癌、原位乳房癌(Ductal carcinoma in situ,DCIS)、卵巢癌、子宫癌、黑色素瘤、肾癌、胰腺癌、甲状腺癌、胃癌、肝胆癌、食道癌、前列腺癌、淋巴瘤、白血病、多发性骨髓瘤、头/颈癌和膀胱癌。
实施例1–在计算机(in silico)中将癌症信号添加到来自非癌症对象的数据中:
据推测,癌前基因组畸变会随着年龄的增长而积累,但会受到免疫系统、端粒缩短等的控制,直到出现适当的(和不太可能的进化上)适应。也就是说,癌症进化在进化瓶颈处变得断断续续/跳跃。也就是说,由于对象之间的生物学差异(例如,衰老),在发生癌症(例如,患有进展的早期癌症)的对象中,癌症的生物特征的发展将在不同对象中以不同的方式进行。例如,图6显示了基于检查cfDNA序列读取为健康个体计算的癌症模型概率的两种分布。XA分布包括来自CCGA对照组的非癌症患者,其年龄分布与CCGA癌症患者相匹配。XB分布包括来自CCGA对照组的年轻健康个体。如图6所示,两种分布之间存在统计学上的显着差异(p=0.0000005)。这强化了这样一个结论,即年龄在癌症信号的发展中起着关键作用。因此,通过使用生物特征的个性化基线来调整这种变化可以提高任何癌症分类器的检测水平。
为了研究此理论,设计了计算机(in silico)数据尖峰(spiking)实验,来测试将相同量的各种癌症信号添加到不同生物背景中的效果。在此实验中,将已知患有各种类型癌症的对象的多个基因组区域的序列读取所确定的箱值的增加百分比连续添加到肿瘤分数非常低的对象的多个基因组区域的序列读取所确定的箱值中。这旨在使用多种不同的生物学背景在计算机(in silico)上模拟癌症的时间序列发展。然后,针对每个尖峰数据样本评估癌症信号的发展,正如从针对拷贝数变异训练的癌症分类器衍生的癌症概率所报告的。本实验中使用的分类器在美国专利申请公开第2019/0287649号中有所描述。
简而言之,还从CCGA研究数据中选择了22名具有不可检测水平的游离肿瘤分数的CCGA低肿瘤分数对象和匹配数量的已知患有不同类型癌症的高肿瘤分数对象,每个人的游离DNA肿瘤分数至少为10%,并且癌症分类器为他们提供至少90%的患癌概率。接下来,将来自每个高肿瘤分数对象的越来越多的箱计数添加到每个低肿瘤分数对象的箱计数数据的不同实例的箱计数中,形成484组具有增加的箱计数的癌症系列数据,如图5所示图表的x轴上绘制的。然后,由癌症分类器评估每个尖峰箱计数的实例,以生成从患有癌症的对象获得尖峰数据的概率。这些概率被绘制为肿瘤分数的函数,如图5所示。
如图5中的图表所示,为给定模拟样本计算的癌症概率取决于:(i)模拟的肿瘤分数;(ii)癌症类型;以及(iii)参考对象提供的背景信号(数据中含有癌症信号的对象)。例如,参考参考个体2813,其图在图5C中放大,用于在不同类型癌症中产生已识别癌症概率的峰值的肿瘤分数存在近10倍的差异。例如,当来自第一个癌症的信号被添加到参考个体的2813背景中(由系列502表示)时,在模拟肿瘤分数仅大于0.001(0.1%)时,发现的癌症概率显着增加。然而,当来自两种不同癌症的信号被加标到相同的背景中(分别由系列504和506表示)时,直到模拟的肿瘤分数增加到0.01(1%)以上时,才发现已识别的癌症概率增加。这证明了癌症类型对计算出的癌症概率的依赖性。同样,图5表明,个人背景信号对计算的癌症概率的依赖性相当显着。例如,在大多数参考背景中,直到模拟样本的肿瘤分数达到0.01(1%)以上,才观察到一种特定癌症类型的计算的癌症概率的峰值(spike)。然而,当此癌症的癌症信号被添加到个体510的数据中时,在显着低于0.01的肿瘤分数处观察到癌症概率的峰值。事实上,对于几乎所有不同的癌症类型,参考个体510的计算的癌症概率中可检测到的峰值明显更早。相比之下,当将此癌症类型的癌症信号添加到个体1314的数据中时,直到肿瘤分数显着高于0.01(1%)才观察到癌症概率的增加。事实上,对于大多数癌症类型,参考个体1314的计算癌症概率中可检测到的峰值似乎显着延迟。
实施例2–计算机(In Silico)分布的测试:
如实施例1所述,为掺入22种不同参考背景的癌症类型样本生成的计算机时间序列数据用作数据集,以测试本文所述的用于将癌症概率随时间的变化与参考分布进行比较的方法是否可以提高癌症的分类器的灵敏度。采用两种不同的方法来生成参考分布,可以比较图5中所示的癌症概率变化。
在第一种方法中,确定单个阳性癌细胞系对照的超过100个样本的箱计数。由于这些样本含有癌细胞,因此已知样本的有效肿瘤分数为1.0。给定来自参考、非癌性样本的数据,有效肿瘤分数为0.0,回归分析用于模拟来自0.0和1.0之间的多个肿瘤分数的信号,如图7A所示。然后使用美国专利申请公开第2019/0287649号中描述的拷贝数分类器生成每个参考样本的每个回归肿瘤分数的癌症概率。图7B说明了为3个模拟肿瘤分数系列生成的计算癌症概率的实施例。
接下来,基于对所有样本进行的回归,建立作为肿瘤分数的函数的癌症概率变化的分布。此分布被定义为包括那些没有掺入癌症DNA信号的健康样本。然后,将所有样本的癌症概率变化与已建立的参考分布进行比较。如图7B所示,当单独使用拷贝数分类器来分类样本是否癌变时,在肿瘤分数约为0.02(2%)时达到了95%的特异性。然而,当连续模拟数据集之间的概率变化与已建立的基线进行比较时,使用95%的统计截止值(cut-off)(p=0.05),在肿瘤分数约为0.01时实现了95%的特异性,代表LoD的2倍改善,达到50%灵敏度的肿瘤分数。
在第二种方法中,使用cfDNA分离和扩增方案的5种不同组合,使用来自8个不同健康个体的样本的3个复制品来建立个体内方差的癌症概率的归一化分布,如图8所示。使用此分布,在约0.08(8%)的肿瘤分数下实现了95%的特异性。
接下来,上面建立的两个分布用于比较实施例1中描述的所有模拟肿瘤分数系列数据的癌症概率变化。使用95%统计截止值(cut-off)(p=0.05)调用样本是否可以分类为癌性或非癌性。图9显示了针对每个癌症阶段实现的各种模型的灵敏度细分,由模拟肿瘤分数定义。简而言之,数据显示,使用第一参考分布,本文所述的癌症比较变化方法在检测0期癌症的95%特异性下将灵敏度提高了约一倍,将检测I期癌症的灵敏度提高了约70%,将检测II期癌症的灵敏度提高了约40%,将检测III期癌症的灵敏度提高了约20%。有利地,与传统的单时间点测定相比,这些灵敏度改进会显着改善早期癌症的检测。
实施例3-CCGA系列样本研究-子研究
开发了一项研究以确定是否可以使用在单独的研究(CCGA)中开发和验证的基于次世代定序(next generation sequencing,NGS)的癌症分类器的患者结果随时间的变化用于鉴定被分类器分类为非癌性的对象中的早期癌症。简而言之,对从对象采集的血浆中分离出的游离DNA(cfDNA)进行定序,并使用经过训练的分类器进行分析,以区分多种癌症,并提供癌症组织的起源信息。测试的输出提供了选自于以下群组的诊断的诊断或预测,其至少包括:(i)未检测到癌症信号,表明对象没有癌症;(ii)具有不确定起源组织的癌症信号,表明对象患有源自未确定组织类型的癌症;和(iii)具有确定的起源组织的癌症信号,表明对象患有源自特定组织类型的癌症。
此研究的目的是:(i)评估个体随时间连续变化的cfDNA特征,(ii)描述cfDNA特征随时间变化与癌症诊断之间的关联,以及(iii)描述cfDNA特征随时间变化与对象结果之间的关联。因此,此研究的总体目标是探索随时间变化的癌症信号,并在可以进行连续抽血时,证明癌症检测的敏感性和特异性增加。
本研究是CCGA的子研究。CCGA是一项前瞻性、多中心、观察性研究,收集了来自美国、加拿大和英国临床网络的至少15000名参与者的未鉴定生物样本和临床数据。此研究在30个月的登记期内,登记了患有多种恶性肿瘤的癌症对象(癌症组)和未经临床诊断为癌症的代表性对象(非癌症组)。从所有参与者及其基线时的病历(收集生物样本的时间)中收集与癌症状况相关的临床信息、人口统计学和医疗数据,然后在未来的间歇时间点从病历中收集,至少每年收集一次,最长可达5年。在随访期间,也可能要求研究对象在未来进行血液采集,但这不是预定的事件。
子研究群体来源于登记的CCGA群体。根据资格标准,选择当前的CCGA参与者纳入子研究。同意参与的对象接受登记研究访问以获得同意。同意对象接受两次研究抽血,间隔约3个月。收集了有关过去和当前健康状况的其他临床信息。这包括但不限于过去的病史、当前的医疗状况、诊断和筛查测试以及与健康相关的风险因素。400名参与者参加了子研究,其中200名在登记期间被诊断出癌症,200名在登记期间没有被诊断出癌症。子研究参与包括相隔3个月的2次额外抽血,以及在方案规定的CCGA研究期间内的随访,此研究期间最长为入组后5年。子研究中的参与并未将研究持续时间超出CCGA方案中已经规定的时间。
简而言之,通过外周静脉抽血从子研究参与者收集静脉血,其中将20mL(最大)外周血最佳收集到2x10mL Streck游离DNA BCT中。此外,从参与者问卷和医疗记录(基线和随访时)收集临床数据,包括影像学和病理学报告。数据是在电子数据采集(electronic datacapture,EDC)系统中采集和管理的。
实施例4-甲基化的时间变化:
进行了一项研究以评估基因组甲基化模式随时间的变化,特别是指示癌症前期和/或早期癌症发展的基因组甲基化模式的变化。此研究是CCGA的子研究。迄今为止,基于CCGA的研究已经评估了从给定供体的单个时间点抽取的血液。虽然对于识别癌症患者与正常参与者中存在的主要甲基化变异很有用,但单时间点观察并不能评估非癌症参与者中随时间发生的参与者水平(participant-level)的表观遗传变化。
作为研究的第一个目标,研究了健康参与者的时间甲基化变化。简而言之,从选定的CCGA2参与者收集后续抽血,以进行靶向甲基化测定。甲基化模式的纵向速度通过将原始CCGA2血液样本中的甲基化模式与随后的抽血进行比较来表征。第一个目标的结果用于设计后续研究,以解决次要研究目标。这些次要目标包括:(i)使用纵向抽血提高分类器性能,(ii)识别伴随和/或驱动对象从非癌状态转变为癌状态的甲基化模式的时间变化,(iii)评估随着时间的推移,癌症信号的表观遗传变化速度,以及(iv)评估特定个体是否具有在重复抽血中持续存在的固有噪声甲基化信号。
简而言之,为此研究选择了188名具有纵向抽血的CCGA2参与者。这些CCGA2参与者在基线检查时有一个可评估的化验结果,后来又有一次抽血。选择来自每个参与者的单管血浆进行处理。参与者的选择或优先级基于以下标准:(i)对象在第一次抽血时具有强烈的癌症信号,这是由多癌症分类器的阳性癌症预测确定的,特异性为97%、98%和99%;(ii)来自对象的相应白细胞的DNA定序数据是可用的;(iii)所选队列的对象分布大致均匀,其纵向样本在基线抽血后12个月、18个月、24个月和30个月左右收集;(iv)所选队列的男性和女性人数大致相同;(v)所选队列中以下年龄组的参与者的人数大致相等:<30、31-40、41-50、51-60、61-70、71-80和>80。
处理了188个冷冻纵向CCGA血浆样本,并对2个cfDNA提取批次(板)进行了处理和定量。在cfDNA提取步骤中,将2个PC2阳性对照(代表配制用于在多癌症测定中处理时提供异常计数的对照样本)添加到每个样本板中。这些样本经过配制,可在多癌症检测中提供一致的异常和二元覆盖(箱ary coverage),并且用作实验质量控制。对两个板中的样本进行亚硫酸盐转化、DNA文库制备和样本定量。使用Accuclear对完成的cfDNA文库进行量化并合并,以进行多重富集。例如,如美国专利公开第US 2020-0365229 A1号中所述,使用富集CpG富集区域的探针文库、文库量化和归一化汇集进行多重富集方案。然后在单个S4流通池(flow cell)上对所有样本进行定序。
定序数据被解多路复用(de-multiplexed)并输入到基于cfDNA甲基化的多癌症分类器中,例如,如美国专利公开第US 2020-0365229 A1号所述,其通过引用其并入本文,以99.4%的靶向特异性实施。本研究中使用了两种版本的分析方法(甲基化试验v1和甲基化试验v2),基于这两种方法,最初用于评估CCGA2研究数据中对象的首次采血。
分类器输出一个概率分数,范围从0到1,表示相应抽血时的癌症信号。然后对每个对象在初次和纵向样本抽血(如第二次抽血)之间产生的输出分数变化进行统计分析,以对上述关键目标进行定性分析。
首先,确定第一个和第二个样本之间每个对象概率得分的变化分布。这些变化的柱状图如图10所示,用于在初次抽血时使用甲基化分析的版本1(左)和版本2(右)处理的样本。如图10所示,两种分析版本的变化分布都聚集在0左右。此外,这种分布似乎相当有规律,变化次数相似,大于或小于零。这可能代表了这些健康对象甲基化信号的背景差异。也就是说,在12到40个月期间,基因组甲基化模式的波动在很大程度上导致分类器输出的癌症概率发生微小变化。
接下来,针对每个对象(使用第二次纵向抽血)生成的第二癌症概率得分绘制为对象的第一癌症概率得分(使用第一次抽血)的函数。如图11所示,大部分点落在图的左下象限,代表第一次和第二次抽血产生的癌症概率得分较低的病例。在少数情况下,这些点落在图的右上象限,代表第一次和第二次抽血产生的癌症概率得分都很高的病例。然而,在少数情况下,观察到癌症概率得分的显着变化,由落在图表左上象限和右下象限内的点表示。从透视角度来看,密度图表示4503名CCGA2对象v1试验重复之间癌症概率得分的变化,在图上以连续线覆盖。值得注意的是,大多数的点,尤其是在最初抽血时使用甲基化测试的第2版时,都属于这种分布,这表明癌症概率得分的一些微小变化可归因于检测中的噪声,而不是基础生物学。
为了研究第一次抽血和第二次抽血之间的时间是否显着影响癌症概率,将癌症概率得分的每个变化绘制为第一次和第二次抽血之间的时间间隔的函数。如图12所示,在纵向数据集的短时间范围内,癌症概率得分的变化与时间流逝之间没有明显的关系。
为了研究癌症概率得分的巨大变化背后的生物学意义,进一步研究了几个相应对象的医疗记录。这些对象对应于图11中图表左下象限之外的点,如图13中再次表示的那样。图13中的密度图表示从纵向参与者计算的分布,在初始抽血v1和v2测定中取平均值。
研究了对象ccga_15379的医疗记录。此对象落在图11和图13所示图表的右上象限内,表明在此对象相隔12个月的第一次和第二次抽血中存在稳定的癌症信号。虽然此对象没有表现出癌症的临床迹象,但他们在第一次抽血前10多年被诊断出患有意义未明的单克隆丙种球蛋白病(monoclonal gammopathy of undetermined significance,MGUS)。MGUS是由浆细胞异常变化引起的疾病,通常不会引起任何症状。每年约有1%的MGUS患者会发展为血癌,例如多发性骨髓瘤。
还研究了对象ccga_4540和ccga_7860的医疗记录。这些对象落在图11和图13所示图表的左上象限内,表明在第一次和第二次抽血之间的时间里,这些患者体内出现了明显的癌症信号。
对象ccga_4540的医疗记录没有表明此对象已患上癌症。然而,此对象第一次和第二次抽血之间的时间为35个月,这是调查的最长时间段之一。一种可能性是,这种观察到的变化是由于时间的推移和对象癌症概率得分的变化之间的关系。第二种可能性是这种观察到的变化代表了临床上尚未检测到的癌前或癌变状态。第三种可能性是与更改相关的临床记录尚不可用。
相反,对象ccga_7860的病历显示,此对象在第二次抽血后一个月内被诊断患有膀胱癌。这表明在初次抽血27个月后采集的纵向抽血中检测到的癌症信号的变化代表了此对象的癌症发展。
还研究了对象ccga_10260和ccga_9055的病历。这些对象位于图11和图13所示图表的右下象限,表明在第一次抽血中检测到的癌症信号在第一次和第二次抽血之间显着减少。
对象ccga_10260的病历显示,在首次抽血时,对象尚未被诊断为癌症。然而,3个月后,此对象被诊断为ER+/PR+/HER2乳癌。值得注意的是,这是一种生长缓慢的管腔癌,表明对象在第一次抽血时就已经患上了这种癌症。对象在新辅助治疗后进行乳房切除术治疗,然后在首次抽血25个月后进行第二次抽血之前进行放疗。值得注意的是,这是一种通常与积极的临床预后相关的癌症,这与第二次抽血中检测到的癌症信号显着下降相一致。
对象ccga_9055的病历表明,对象未显示任何癌症临床症状。然而,对象ccga_9055被诊断为MGUS和血小板减少症。虽然对象ccga_9055的癌症信号在第一次和第二次采血之间的25个月内减弱,但信号下降幅度小于对象ccga_10260。这与ccga_15379对象的结果一致,ccga_15379对象也被诊断为MGUS,观察到信号随着时间的推移略有下降。这些结果表明,患有非癌性血液疾病的对象,如MGUS,可能在其生物癌症信号中表现出更大的自然变异。
一个中心假设是,除了典型的变异外,检测到的癌症信号仅随时间增加。为了验证这一假设,将研究两种分析。首先,在基线检查时(初始抽血)检测到的阳性癌症信号在随后的抽血时是否仍为阳性。第二,基线检查时的阴性癌症信号是否转化为稍后时间点检测到的阳性癌症信号,或者是否没有可检测到的信号的方向性。使用R软件版本3.6或更高版本进行分析。
为了计算基线和第二次抽血之间的分类器预测转换,计算以下度量。首先,通过构建一个2x2矩阵,并估计阳性一致性百分比(positive percent agreement)、阴性一致性百分比(negative percent agreement)、总体一致性和样本的分数,来评估参与者匹配的基线和其他血液样本之间分类器结果(阳性与阴性)的一致性,其中在两次抽血的分类器结果之间,其预测从非癌症变为癌症。
其次,估计协变量对分类器预测转换的贡献。计算表示样本的癌症状态在两次预测之间是否发生变化的指示变量(indicator variable)。将此指示作为因变量,并将性别、年龄-箱和抽血间隔月数作为协变量,拟合逻辑回归模型。如果有足够的样本在抽血之间改变癌症预测,那么协变量之间的交互效应也会包括在内。无法预测有多少样本在两次抽血之间会有变化的癌症信号。如果少于10个样本的癌症预测发生变化,则不会执行此分析。
第三,使用测量的协变量(例如:年龄和性别),广义线性混合模型(generalizedlinear mixed model)与表示分类器预测和固定效应的二元结果相拟合。对一个随机效应进行建模,所述随机效应的协方差表示在不同时间点对相同参与者进行采样所产生的“纵向”相关性。为了有效计算,此时间协方差使用离散自回归过程模型进行参数化。如果两次抽血之间的癌症预测没有变化,则无法拟合此模型或学习潜在的时间协方差。如上所述,如果少于10个样本的癌症预测发生变化,则不会执行此分析。
第四,分类器概率(或罗吉特变换(logit-transformed)概率)的潜在差异被建模为双分量混合分布,其中第一个分量是零点质量,第二个分量是灵活的非负分布(flexiblenon-negative distribution)。使用允许在观察到的癌症概率差异中采样变化的高斯(Gaussian)似然(likelihood)。此模型捕捉到这样一个事实,即大多数样本的潜在癌症概率没有变化,但随着时间的推移,一些样本将转向增加癌症概率。属于任一组件的概率使用经验贝叶斯(empirical Bayes)方法从数据中估计。
第五,计算在两次抽血之间接收到不同TOO调用的样本的数量,包括具有“未检测到癌症”分配的样本。在接受癌症TOO分配的样本中,确定时间点之间每个样本的TOO分类器输出的拟合概率之间的“差异”度量(difference metric)(例如,Kullback-Leibler散度(Kullback-Leibler divergence))。
此外,执行若干探索性分析。首先,应用编辑分析,使用第一次抽血作为基线数据,所述基线数据的信号从第二次抽血中删除。使用此方法,可以移除相对于基线看起来不寻常的任何片段,并且可以使用编辑数据重新运行与上述相同的分析。
其次,一组甲基化变体使用来自CCGA1的非癌症WGBS cfDNA样本(例如,不与本研究中分析的参与者重叠)以及完全甲基化或未甲基化的变体的大型参考数据库定义,这些变体是被过滤罕见的非癌症样本。参考集在分析后续样本之前被锁定。此数据集以癌症的一高概率为条件,并针对多个时间点之间的频率变化的一偏移分布来进行测试,其中所述偏移代表潜在肿瘤分数的潜在增加。
第三,重点关注在第一次抽血时已经接收到起源组织(tissue of origin,TOO)调用(call)的样本子集。对于第一时间点的每个预测的起源组织,目标甲基化变体从预先计算的甲基化变体参考数据库中定义,此数据库调用对应的TOO,过滤此数据库中的高频变体。然后,估计肿瘤分数的后验分布,并推断/测试第一次与第二次抽血之间肿瘤分数的潜在变化。然后,执行上述相同的“无参考(reference free)”肿瘤分数估计方法,但以第二次抽血而不是第一次抽血时的TOO调用为条件。
第四,统一流形逼近和投影(Uniform Manifold Approximation andProjection,UMAP)及主成分分析(Principal Component Analysis,PCA)应用于为纵向引导数据生成的混合模型特征矩阵。此矩阵的每一行代表一样本,每一列代表一混合模型特征。值得注意的是,同一个人出现在不同的行中,但他们的数据是在不同的抽血时采样的。然后,我们将对UMAP输出的每个维度上的一些协变量(年龄、性别、检测类型、抽血指标)进行回归,以解释哪些模式驱动了样本之间的相似性。
第五,主成分分析应用于为训练集样本生成的混合模型特征。然后,每个纵向试验数据样本被投影到由应用于训练集的主成分分析定义的变化轴上。这允许利用来自训练集中的大量及多样化的样本集合,以从较小的纵向试点数据中寻找样本之间的整体关系。执行上述相同协变量的类似回归,以寻找关联。
结论:
本文引用的所有参考文献均以引用的方式整体并入本文,并且出于所有目的,其程度与每个单独的出版物或专利或专利申请被具体地及单独地指示以引用的方式整体并入以用于所有目的的程度相同。
本发明可以实现为计算机程序产品,所述计算机程序产品包括嵌入在非暂时性计算机可读存储介质中的计算机程序机制。例如,计算机程序产品可以包含在图1至8的任何组合中示出及/或描述的程序模块。这些程序模块可以存储在CD-ROM、DVD、磁盘存储产品、USB密钥(USB Key)或任何其他非暂时性计算机可读取据或程序存储产品上。
在不脱离其精神及范围的情况下,可以对本发明进行许多修改及变化,并且这对于本领域技术人员来说是显而易见的。此处描述的特定实施例仅作为示例提供。被选择及描述的实施例是为了最好地解释本发明的原理及其实际应用,从而使本领域的其他技术人员能够最好地利用本发明以及具有适合于预期的特定用途的各种修改的各种实施例。本发明仅受所附权利要求的条款以及这些权利要求所享有的等同物的全部范围的限制。

Claims (131)

1.一种确定一测试对象是否具有一疾病状况的方法,其特征在于,所述方法包含:
在一计算机系统执行以下步骤,其中所述计算机系统具有一个或多个处理器以及内存,所述内存存储一个或多个程序以供所述一个或多个处理器执行:
(A)确定所述测试对象的一第一基因型数据结构,所述第一基因型数据结构包括基于在一第一测试时间点从所述测试对象获得的一第一生物样本中的一第一多个核酸分子的电子形式的一第一多个序列读取的多个基因型特征的多个值;
(B)将所述第一基因型数据结构输入到所述疾病状况的一模型中,从而产生所述疾病状况的第一模型得分集;
(C)确定所述测试对象的一第二基因型数据结构,所述第二基因型数据结构包括基于在发生在所述第一测试时间之后的一第二测试时间点从所述测试对象获得的一第二生物样本中的一第二多个核酸分子的电子形式的一第二多个序列读取的所述多个基因型特征的多个值;
(D)将所述第二基因型数据结构输入到所述模型中,从而产生所述疾病状况的一第二模型得分集;
(E)基于所述第一模型得分集与所述第二模型得分集之间的一差异来确定一测试δ得分集;以及
(F)对照多个参考δ得分集来评估所述测试δ得分集,从而确定所述测试对象是否具有所述疾病状况,其中在所述多个参考δ得分集中的每个参考δ得分集是针对多个参考对象中的一相应参考对象。
2.如权利要求1所述的方法,其特征在于:所述模型评估来自单个时间点的数据。
3.如权利要求1或2所述的方法,其特征在于:
所述第一模型得分集包括所述测试对象在所述第一测试时间点具有所述疾病状况的一概率;
所述第二模型得分集包括所述测试对象在所述第二测试时间点具有所述疾病状况的一概率,以及
所述评估(F)包括将所述测试δ得分集与所述多个参考δ得分集的一分布进行比较,其中所述多个参考δ得分中的每个参考δ得分集是基于以下(i)与(ii)之间的一差异针对在所述多个参考对象中的一相应参考对象:
(i)所述相应参考对象具有所述疾病状况的一第一概率,所述第一概率使用包括所述多个基因型特征的多个值的一相应第一参考基因型数据结构通过所述模型来提供,所述多个值是使用在一相应第一时间点从所述相应参考对象获得的一相应第一生物样本来获取;以及
(ii)所述相应参考对象具有所述疾病状况的一第二概率,所述第二概率使用包括所述多个基因型特征的多个值的一相应第二参考基因型数据结构通过所述模型来提供,所述多个值是使用在所述相应第一时间点之后发生的一相应第二时间点从所述相应参考对象获得的一相应第二生物样本来获取,其中所述相应训练对象至少在所述相应第一时间点以及所述相应第二时间点的期间不具有所述疾病状况。
4.如权利要求1或2所述的方法,其特征在于:所述模型的所述第一模型得分集包括具有所述疾病状况的一概率。
5.如权利要求1或2所述的方法,其特征在于:所述模型的所述第一模型得分集包括不具有所述疾病状况的一似然或一概率。
6.如权利要求1至3中任一项所述的方法,其特征在于:所述评估(F)包括:
确定所述分布的一集中趋势的量数以及所述分布的一散布量数;以及
使用所述分布的所述集中趋势的量数以及所述分布的所述散布量数来确定所述测试δ得分集的一显着性。
7.如权利要求6所述的方法,其特征在于:所述分布的所述集中趋势的量数是所述分布中的一算术平均数、一加权平均数、一中程数、一中枢纽、一三均值、一极端值调整平均数、一平均数或一众数。
8.如权利要求6或7所述的方法,其特征在于:所述分布的所述散布量数是所述分布的一标准差、一方差或一范围。
9.如权利要求6所述的方法,其特征在于:
所述分布的所述集中趋势的量数是所述分布的所述平均数;
所述分布的所述散布量数是所述分布的所述标准差;以及
使用所述分布的所述集中趋势的量数以及所述分布的所述散布量数来确定所述测试δ得分集的所述显着性包括确定多个标准差的数量所述测试δ得分集是来自所述分布的所述平均数。
10.如权利要求9所述的方法,其特征在于:当自所述分布的所述平均数的所述多个标准差的数量所述测试δ得分集满足一阈值时,所述测试对象被确定具有所述疾病状况。
11.如权利要求1至3中任一项所述的方法,其特征在于:所述评估(F)包括将所述测试δ得分输入到对照所述多个参考δ得分集训练的一分类器中,其中所述多个参考δ得分中的每个参考δ得分集是基于以下(i)与(ii)之间的一差异针对在所述多个参考对象中的一相应参考对象:
(i)所述相应参考对象具有所述疾病状况的一第一概率,所述第一概率使用包括所述多个基因型特征的多个值的一相应第一参考基因型数据结构通过所述模型来提供,所述多个值是使用在一相应第一时间点从所述相应参考对象获得的一相应第一生物样本来获取;以及
(ii)所述相应参考对象具有所述疾病状况的一第二概率,所述第二概率使用包括所述多个基因型特征的多个值的一相应第二参考基因型数据结构通过所述模型来提供,所述多个值是使用在所述相应第一时间点之后发生的一相应第二时间点从所述相应参考对象获得的一相应第二生物样本来获取,其中所述相应训练对象至少在所述相应第一时间点以及所述相应第二时间点的期间不具有所述疾病状况。
12.如权利要求11所述的方法,其特征在于:针对所述多个参考对象的至少一子集中的每个相应训练对象,对照在所述相应第二时间点之后发生的一相应第三时间点的所述相应对象是否具有所述疾病状况的一确定,来对所述分类器进一步进行训练。
13.如权利要求11或12所述的方法,其特征在于:所述分类器是一神经网络算法、一支持向量机算法、一朴素贝叶斯分类器算法、一最邻近搜索算法、一提升树算法、一随机森林算法、一决策树算法、一多分类逻辑回归算法或一线性回归算法。
14.如权利要求3至10中任一项所述的方法,其特征在于:
将所述多个参考对象中的每个相应参考对象的所述相应第一时间点与所述相应第二时间点之间的一时间量用作计算所述分布的一协变量;以及
针对所述测试对象基于表示所述第一测试时间点与所述第二测试时间点之间的一时间差的所述协变量来调整所述测试δ得分集。
15.如权利要求14所述的方法,其特征在于:将表示所述第一测试时间点与所述第二测试时间点之间的一时间差的所述协变量应用于所述第一基因型数据结构、所述第二基因型数据结构、每个第一相应参考基因型数据结构或是每个第二相应参考基因型数据结构的所述多个特征中的一个或多个基因型特征。
16.如权利要求14所述的方法,其特征在于:将表示所述第一测试时间点与所述第二测试时间点之间的一时间差的所述协变量应用于所述测试δ得分集以及多个参考δ得分的分布中的每个参考δ得分集。
17.如权利要求3至10中任一项所述的方法,其特征在于:还包括归一化,其中:
针对所述相应对象将所述多个参考δ得分集中的每个相应参考δ得分集归一化所述相应第一时间点与所述相应第二时间点之间的一时间量;以及
将所述测试δ得分集归一化所述第一测试时间点与所述第二测试时间点之间的一时间量。
18.如权利要求17所述的方法,其特征在于:
通过针对所述相应对象对每个第一相应参考基因型数据结构或是每个第二相应参考基因型数据结构的所述多个特征中的一个或多个基因型特征归一化所述相应第一时间点与所述相应第二时间点之间的一时间量,来针对所述相应参考对象将所述多个参考δ得分集中的每个相应参考δ得分集归一化所述相应第一时间点与所述相应第二时间点之间的一时间量;以及
通过将所述第一基因型数据结构以及所述第二基因型数据结构中的一个或多个基因型特征归一化所述第一测试时间点与所述第二测试时间点之间的一时间量,来将所述测试δ得分集归一化所述第一测试时间点与所述第二测试时间点之间的一时间量。
19.如权利要求17所述的方法,其特征在于:将所述归一化应用于所述测试δ得分集以及所述多个参考δ得分集的分布中的每个参考δ得分集。
20.如权利要求3至19中任一项所述的方法,其特征在于:
将所述多个参考对象中的每个相应参考对象的一非基因型特征作为计算所述分布中的一协变量;以及
所述测试δ得分集是根据所述测试对象的所述非基因型特征来进行调整。
21.如权利要求20所述的方法,其特征在于:将所述协变量应用于所述第一基因型数据结构、所述第二基因型数据结构、每个相应第一参考基因型数据结构或是每个相应第二参考基因型数据结构的所述多个特征中的一个或多个基因型特征。
22.如权利要求20所述的方法,其特征在于:将所述协变量应用于所述测试δ得分集以及所述多个参考δ得分集的分布中的每个参考δ得分集。
23.如权利要求2至19中任一项所述的方法,其特征在于:所述方法还包含:一归一化,其中:
针对所述相应参考对象的一非基因型特征将所述多个参考δ得分集中的每个相应参考δ得分集进行归一化;以及
针对所述测试对象的所述非基因型特征将所述测试δ得分集进行归一化。
24.如权利要求23所述的方法,其特征在于:
通过对所述相应参考对象的所述非基因型特征的每个相应第一参考基因型数据结构或是每个相应第二参考基因型数据结构的所述多个特征中的一个或多个基因型特征归一化,针对所述相应参考对象的所述非基因型特征对所述多个参考δ得分集中的每个相应参考δ得分集归一化;以及
针对所述测试对象的所述非基因型特征对所述测试δ得分集归一化。
25.如权利要求23所述的方法,其特征在于:所述归一化应用于所述测试δ得分集以及所述多个参考δ得分集的所述分布中的每个参考δ得分集。
26.如权利要求20至25中任一项所述的方法,其特征在于:所述非基因型特征包括年龄、饮酒状态、吸烟状态、性别或其一组合。
27.如权利要求1至26中任一项所述的方法,其特征在于:所述多个参考对象针对性别、年龄、吸烟状况、饮酒或其一组合进行分段。
28.如权利要求1至27中任一项所述的方法,其特征在于:所述疾病状况是一癌症。
29.如权利要求1至27中任一项所述的方法,其特征在于:所述疾病状况是一组疾病状况中的一种疾病状况,并且所述模型为所述一组疾病状况中的每种疾病状况提供一概率或一似然。
30.如权利要求29所述的方法,其特征在于:所述一组疾病状况包括多种癌症状况。
31.如权利要求30所述的方法,其特征在于:所述多种癌症状况包括一肾上腺癌、一胆道癌、一膀胱癌、一骨/骨髓癌、一脑癌、一子宫颈癌、一结直肠癌、一食道癌、一胃癌、一头/颈癌、一肝胆癌、一肾癌、一肝癌、一肺癌、一卵巢癌、一胰脏癌、一骨盆腔癌、一胸膜癌、一前列腺癌、一肾癌、一皮肤癌、一胃癌、一睾丸癌、一胸腺癌、一甲状腺癌、一子宫癌、一淋巴瘤、一黑色素瘤、一多发性骨髓瘤或一白血病。
32.如权利要求30所述的方法,其特征在于:所述多种癌症状况包括以下癌症的一预定阶段:一肾上腺癌、一胆道癌、一膀胱癌、一骨/骨髓癌、一脑癌、一子宫颈癌、一结直肠癌、一食道癌、一胃癌、一头/颈癌、一肝胆癌、一肾癌、一肝癌、一肺癌、一卵巢癌、一胰脏癌、一骨盆腔癌、一胸膜癌、一前列腺癌、一肾癌、一皮肤癌、一胃癌、一睾丸癌、一胸腺癌、一甲状腺癌、一子宫癌、一淋巴瘤、一黑色素瘤、一多发性骨髓瘤或一白血病。
33.如权利要求1至中任一项所述的方法,其特征在于:所述疾病状况是一癌症的一预后。
34.如权利要求33所述的方法,其特征在于:所述癌症的所述预后是所述癌症的一特定治疗的一预后。
35.如权利要求33所述的方法,其特征在于:所述癌症的所述预后是癌症复发的一预后。
36.如权利要求1至27中任一项所述的方法,其特征在于:所述疾病状况是一冠状动脉疾病。
37.如权利要求1至36中任一项所述的方法,其特征在于:所述测试对象是一人。
38.如权利要求1至37中任一项所述的方法,其特征在于:所述测试对象未被诊断为具有所述疾病状况。
39.如权利要求1至38中任一项所述的方法,其特征在于:从所述测试对象获得的所述第一生物样本以及从所述测试对象获得的所述第二生物样本独立地包括所述对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗水、眼泪、胸膜液、心包液或腹膜液。
40.如权利要求1至39中任一项所述的方法,其特征在于:从所述测试对象获得的所述第一生物样本以及从所述测试对象获得的所述第二生物样本均为血液样本。
41.如权利要求1至39中任一项所述的方法,其特征在于:从所述测试对象获得的所述第一生物样本以及从所述测试对象获得的所述第二生物样本均为血浆样本。
42.如权利要求1至41中任一项所述的方法,其特征在于:所述第一测试时间点以及所述第二测试时间点相隔至少6个月、至少10个月或至少1年。
43.如权利要求1至42中任一项所述的方法,其特征在于:所述第一多个核酸分子以及所述第二多个核酸分子是游离DNA分子。
44.如权利要求1至43中任一项所述的方法,其特征在于:所述多个基因型特征包括从以下群组中选择的一个或多个特征:在一基因座的一单核苷酸变体的支持、在一基因座的一甲基化状态、在一基因座的一相对拷贝数、在一基因座的一等位基因比率、所述多个游离核酸分子的一片段大小度量、在一基因座的一甲基化模式及其一数学组合。
45.如权利要求1至43中任一项所述的方法,其特征在于:所述多个基因型特征包括多个相对拷贝数,其中所述多个相对拷贝数中的每个相应相对拷贝数对应于多个基因座中的一不同基因座。
46.如权利要求1至43中任一项所述的方法,其特征在于:所述多个基因型特征包括多个甲基化状态,其中所述多个甲基化状态中的每个甲基化状态对应于多个基因座中的一不同基因座。
47.如权利要求1至43中任一项所述的方法,其特征在于:
所述第一基因型数据结构的所述多个基因型特征包括一第一多个箱值,所述第一多个箱值中的每个相应箱值代表多个箱中的一对应箱;
所述第一多个箱值中的每个相应箱值代表使用映射到多个箱中的所述对应箱的所述第一多个序列读取中的多个序列读取来鉴定的具有一预定甲基化模式的多个独特核酸片段的一数量;
所述第二基因型数据结构的所述多个基因型特征包括一第二多个箱值,所述第二多个箱值中的每个相应箱值代表所述多个箱中的一对应箱;
所述第二多个箱值中的每个相应箱值代表映射到所述多个箱中的所述对应箱的所述第二多个序列读取中的多个序列读取来鉴定的具有一预定甲基化模式的多个独特核酸片段的一数量;以及
所述多个箱中的每个箱代表所述测试对象的一物种的一参考基因组的一非重叠区域。
48.如权利要求47所述的方法,其特征在于:所述方法还包含对所述第一多个箱值中的每个相应箱值以及所述第二多个箱值中的每个相应箱值归一化。
49.如权利要求48所述的方法,其特征在于:所述归一化至少部分地包括:确定所述第一多个箱值的一第一集中趋势量数;
确定所述第二多个箱值的一第二集中趋势量数;
将所述第一多个箱值中的每个相应箱值替换为所述相应箱值除以所述第一集中趋势量数;以及
将所述第二多个箱值中的每个相应箱值替换为所述相应箱值除以所述第二集中趋势量数。
50.如权利要求49所述的方法,其特征在于:
所述第一集中趋势量数是所述第一多个箱值的一算术平均数、一加权平均数、一中程数、一中枢纽、一三均值、一极端值调整平均数、一平均数或一众数;以及
所述第二集中趋势量数是所述第二多个箱值的一算术平均数、一加权平均数、一中程数、一中枢纽、一三均值、一极端值调整平均数、一平均数或一众数。
51.如权利要求48所述的方法,其特征在于:所述归一化至少部分地包括:将所述第一多个箱值中的每个相应箱值替换为针对所述第一多个箱值中的一相应第一GC偏差校正的所述相应箱值;以及
将所述第二多个箱值中的每个相应箱值替换为针对所述第二多个箱值中的一相应第二GC偏差校正的所述相应箱值。
52.如权利要求51所述的方法,其特征在于:
所述相应第一GC偏差由拟合到一第一多个二维点的一曲线或一直线的一第一方程定义,其中所述第一多个二维点中的每个相应二维点包括:(i)一第一值,所述第一值是所述参考基因组的对应区域的相应GC含量,由对应于所述相应二维点的所述第一多个箱中的所述相应箱代表;以及(ii)一第二值,所述第二值是所述相应箱的所述第一多个箱值中的所述箱值;将所述第一多个箱值中的每个相应箱值替换为针对所述第一多个箱值中的一相应第一GC偏差校正的所述相应箱值包括从所述相应箱值减去所述相应箱的一GC校正,所述GC校正源自由所述相应箱以及所述第一方程代表的所述多个物种的所述参考基因组的所述对应区域的所述GC含量;
所述相应第二GC偏差由拟合到一第二多个二维点的一曲线或一直线的一第二方程定义,其中所述第二多个二维点中的每个相应二维点包括:(i)一第三值,所述第三值是所述多个物种的所述参考基因组的对应区域的相应GC含量,由对应于所述相应二维点的所述第二多个箱中的所述相应箱代表;以及(ii)一第四值,所述第四值是所述相应箱的所述第二多个箱值中的所述箱值;以及
将所述第二多个箱值中的每个相应箱值替换为针对所述第二多个箱值中的一相应第二GC偏差校正的所述相应箱值包括从所述相应箱值减去所述相应箱的一GC校正,所述GC校正源自由所述相应箱以及所述第二方程代表的所述多个物种的所述参考基因组的所述对应区域的所述GC含量。
53.如权利要求1至52中任一项所述的方法,其特征在于:所述第一多个核酸分子是DNA。
54.如权利要求1至53中任一项所述的方法,其特征在于:所述第一多个核酸分子通过使用多个探针的一靶向DNA甲基化定序获得。
55.如权利要求54所述的方法,其特征在于:所述多个探针与所述人类基因组中的100个或更多个基因座杂交。
56.如权利要求54所述的方法,其特征在于:所述靶向DNA甲基化定序检测所述第一多个核酸中的一个或多个5-甲基胞嘧啶及/或5-羟甲基胞嘧啶。
57.如权利要求54所述的方法,其特征在于:所述靶向DNA甲基化定序包括将所述第一多个核酸中的一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶转化为对应的一个或多个尿嘧啶。
58.如权利要求57所述的方法,其特征在于:
所述靶向DNA甲基化定序包括将所述第一多个核酸中的一个或多个未甲基化胞嘧啶转化为对应的一个或多个尿嘧啶;以及
所述DNA甲基化定序将所述一个或多个尿嘧啶读出为一个或多个对应的胸腺嘧啶。
59.如权利要求57所述的方法,其特征在于:
所述靶向DNA甲基化定序包括将所述第一多个核酸中的一个或多个甲基化胞嘧啶转化为对应的一个或多个尿嘧啶;以及
所述DNA甲基化定序将所述一个或多个5-甲基胞嘧啶或5-羟甲基胞嘧啶读出为一个或多个对应的胸腺嘧啶。
60.如权利要求59所述的方法,其特征在于:一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶的转化包括一化学转化、一酶促转化或其组合。
61.如权利要求1至60中任一项所述的方法,其特征在于:所述模型是在一组对象中进行训练的,其中在所述一组对象中的一第一部分具有所述疾病状况,并且在所述一组对象中的一第二部分不具有所述疾病状况。
62.如权利要求1至61中任一项所述的方法,其特征在于:所述模型是一神经网络算法、一支持向量机算法、一朴素贝叶斯分类器算法、一最邻近搜索算法、一提升树算法、一随机森林算法、一决策树算法、一多分类逻辑回归算法或一线性回归算法。
63.如权利要求1至61中任一项所述的方法,其特征在于:所述模型包括:
(i)一输入层,用于接收所述多个基因型特征的多个值,其中所述多个基因型特征包括一第一数量的维度;
(ii)一嵌入层,包括一组权重,其中所述嵌入层直接或间接接收所述输入层的输出,并且所述嵌入层的一输出是具有一第二数量的维度的一模型得分集,所述第二数量的维度小于所述第一数量的维度;以及
(iii)一输出层,直接或间接从所述嵌入层接收所述模型得分集,其中所述第一模型得分集是在将所述第一基因型数据结构输入到所述输入层时所述嵌入层的所述模型得分集;并且
所述第二模型得分集是在将所述第二基因型数据结构输入到所述输入层时所述嵌入层的所述模型得分集。
64.如权利要求63所述的方法,其特征在于:
所述评估(F)包括对照所述多个参考δ得分集通过逻辑回归训练使用一逻辑函数来评估所述测试δ得分集,其中所述多个参考δ得分中的每个参考δ得分集是基于以下(i)与(ii)之间的一差异针对在所述多个参考对象中的一相应参考对象:
(i)一第一得分集,使用包括所述多个基因型特征的多个值的一第一相应参考基因型数据结构由所述模型的所述嵌入层来提供,所述多个值是使用在一相应第一时间点从所述相应参考对象获得的一第一相应生物样本来获取;以及
(ii)一第一二得分集,使用包括所述多个基因型特征的多个值的一第二相应基因型数据结构由所述模型的所述嵌入层来提供,所述多个值是使用在不同于所述第一相应时间点的一相应第二时间点从所述相应参考对象获得的一第二相应生物样本来获取。
65.如权利要求63或64所述的方法,其特征在于:所述模型是一卷积神经网络。
66.如权利要求63至65中任一项所述的方法,其特征在于:所述多个参考对象的一第一子集具有所述疾病状况,并且所述多个参考对象的一第二子集不具有所述疾病状况。
67.如权利要求63至65中任一项所述的方法,其特征在于:所述多个参考对象中的每个参考对象不具有所述疾病状况。
68.如权利要求1至67中任一项所述的方法,其特征在于:在评估(F)之前,所述方法还包含:
确定所述测试对象的多个基线基因型数据结构,所述多个基线基因型数据结构中的每个相应基线基因型数据结构包括基于在所述第二测试时间点之前发生的一对应基线测试时间点,从所述测试对象获得的多个基线生物样本中的一对应基线生物样本中的多个对应核酸分子的电子形式的多个对应基线序列读取的所述多个基因型特征的多个值;
使用在所述多个基线基因型结构中的多个相应基线基因型数据结构之间的所述多个基因型特征中的一个或多个相应基因型特征的多个值的一方差量来计算特定于所述测试对象的一基线方差协变量;以及
将所述基线协变量应用于所述多个参考δ得分集的所述分布,以对照所述测试对象的基线变异性来对所述多个参考δ得分集的所述分布归一化。
69.如权利要求1至68中任一项所述的方法,其特征在于:所述第一测试时间点与所述第二测试时间点之间的一跨度是基于所述第一模型得分集。
70.一种存储有多个程序代码指令的非暂时性计算机可读存储介质,其特征在于:当一处理器执行所述多个程序代码指令时,使所述处理器执行如权利要求1至69中任一项所述的方法。
71.一种计算机系统,其特征在于,所述计算机系统包含:
一个或多个处理器;以及
包括多个计算机可执行指令的一非暂时性计算机可读介质,当所述一个或多个处理器执行所述多个计算机可执行指令时,使所述处理器执行如权利要求1至69中任一项所述的方法。
72.一种确定一测试对象是否具有一疾病状况的方法,其特征在于,所述方法包含:
在一计算机系统执行以下步骤,其中所述计算机系统具有一个或多个处理器以及内存,所述内存存储一个或多个程序以供所述一个或多个处理器执行:
(A)对于多个测试时间点中的每个相应测试时间点:
(i)确定所述测试对象的一对应基因型数据结构,所述对应基因型数据结构包括基于在所述相应测试时间点从所述测试对象获得的一对应生物样本中的多个对应核酸分子的电子形式的多个对应序列读取的多个基因型特征的多个值;以及
(ii)将所述对应基因型数据结构输入到所述疾病状况的一模型中,从而在所述相应测试时间点为所述疾病状况生成一对应时间戳模型得分集;
从而获得所述测试对象的多个时间戳测试模型得分集,每个相应的时间戳测试模型得分集与所述多个测试时间点中的不同测试时间点耦合;
(B)将所述多个时间戳测试模型得分集与一时间趋势测试进行拟合,从而获得所述测试对象的一测试趋势参数集;以及
(C)对照多个参考对象的多个参考趋势参数集来评估所述测试对象的所述测试趋势参数集,从而确定所述测试对象的所述疾病状况,其中所述多个参考趋势参数集中的每个相应参考趋势参数集是针对所述多个参考对象中的一对应参考对象。
73.如权利要求72所述的方法,其特征在于:所述时间趋势测试是获得一直线的一斜率的对数线性最小二乘拟合,并且所述趋势参数是所述直线的一斜率。
74.如权利要求72所述的方法,其特征在于:
将所述多个时间戳测试模型集与所述时间趋势测试拟合,从而获得所述测试对象的所述趋势参数包括对数线性最小二乘法拟合所述测试对象的多个时间戳测试模型得分,以获得所述测试对象的所述直线的斜率;以及
将所述多个对应参考时间戳时间模型得分集与所述时间趋势测试拟合,从而获得所述对应参考对象的所述多个参考趋势参数集的所述分布中的所述相应参考趋势参数集包括对数线性最小二乘法拟合所述对应参考对象的多个对应时间戳时间点,以获得所述对应参考对象的一直线的斜率。
75.如权利要求72至74中任一项所述的方法,其特征在于:所述多个测试时间点是3个或更多个测试时间点、4个或更多个测试时间点、或是10个或更多个测试时间点。
76.如权利要求72至75中任一项所述的方法,其特征在于:所述多个测试时间点跨越数月或数年的一时间段。
77.如权利要求72至76中任一项所述的方法,其特征在于:所述多个测试时间点形成一不均匀间隔的时间序列。
78.如权利要求72至77中任一项所述的方法,其特征在于:
所述多个时间戳测试模型得分集中的每个时间戳测试模型得分集包括所述所述测试对象在所述对应测试时间点具有所述疾病状况的一概率;
所述评估(C)包括将所述测试对象的所述测试趋势参数集与由多个参考趋势参数集形成的一分布进行比较,其中所述多个参考趋势参数集中的每个参考趋势参数集用于在由以下各项确定的所述多个参考对象中的一队应参考对象:
对于与所述对应参考对象相关联的多个对应参考时间点中的每个相应对应参考时间点:
(i)确定所述参考对象的一对应基因型数据结构,所述对应基因型数据结构包括基于在发生在所述对应时间点从所述对应参考对象获得的一对应生物样本中的多个对应核酸分子的电子形式的多个对应序列读取的所述多个基因型特征的多个值;以及
(ii)将所述对应基因型数据结构输入所述模型,从而生成所述对应参考对象在所述相应时间点的所述疾病状况的一对应参考时间戳模型得分集;
从而获得所述对应参考对象的多个对应参考时间戳模型得分集,在所述多个对应时间点中的一不同时间点的每个相应参考时间戳模型得分集与所述对应参考对象相关联;以及
将所述多个对应参考时间戳时间模型得分集与所述时间趋势测试拟合,从而获得所述对应对象的多个趋势参数的所述分布中的所述相应趋势参数。
79.如权利要求78所述的方法,其特征在于:所述评估(C)包括:
确定所述分布的一集中趋势的量数以及所述分布的一散布量数;以及
使用所述分布的所述集中趋势的量数以及所述分布的所述散布量数来确定所述测试对象的所述测试趋势参数集的一显着性。
80.如权利要求79所述的方法,其特征在于:所述分布的所述集中趋势的量数是所述分布中的一算术平均数、一加权平均数、一中程数、一中枢纽、一三均值、一极端值调整平均数、一平均数或一众数。
81.如权利要求79或80所述的方法,其特征在于:所述分布的所述散布量数是所述分布的一标准差、一方差或一范围。
82.如权利要求79所述的方法,其特征在于:
所述分布的所述集中趋势的量数是所述分布的所述平均数;
所述分布的所述散布量数是所述分布的所述标准差;以及
使用所述分布的所述集中趋势的量数以及所述分布的所述散布量数来确定所述测试δ得分集的所述显着性包括确定多个标准差的数量所述测试δ得分集是来自所述分布的所述平均数。
83.如权利要求82所述的方法,其特征在于:当自所述分布的所述平均数的所述多个标准差的数量所述测试δ得分集满足一阈值时,所述测试对象被确定具有所述疾病状况。
84.如权利要求78至83中任一项所述的方法,其特征在于:
将所述多个参考对象中的每个相应参考对象的一非基因型特征作为计算所述分布中的一协变量;以及
根据所述测试对象的所述非基因型特征对所述测试趋势参数集进行调整。
85.如权利要求84所述的方法,其特征在于:将所述协变量应用于以下各项的所述多个基因型特征中的一个或多个基因型特征:
所述多个测试时间点中的每个相应测试时间点的所述对应基因型数据结构;或是
针对每个相应参考对象,在所述多个对应参考时间点中,每个相应对应参考时间点的所述对应基因型数据结构。
86.如权利要求84所述的方法,其特征在于:将所述协变量应用于所述测试趋势参数集以及所述参考趋势参数集的所述分布中的每个参考趋势参数集。
87.如权利要求78至83中任一项所述的,其特征在于:所述方法还包含归一化,其中:
针对所述相应参考对象的一非基因型特征,对所述多个参考趋势参数集中的每个相应参考趋势参数集进行归一化;以及
针对所述测试对象的所述非基因型特征,对所述测试趋势参数集进行归一化。
88.如权利要求87所述的方法,其特征在于:
通过针对所述相应参考对象的所述非基因型特征的每个相应参考对象,在所述多个对应参考时间点中的每个相应对应参考时间点,对每个对应基因型数据结构的所述多个基因型特征中的一个或多个基因型特征归一化,来针对所述相应参考对象的所述非基因型特征,对所述多个参考趋势参数集中的每个相应参考趋势参数集归一化;以及
通过在所述多个测试时间点中的每个相应测试时间点,对所述测试对象的每个对应基因型数据结构的所述多个基因型特征中的所述一个或多个基因型特征归一化,来针对所述测试对象的所述非基因型特征对所述测试趋势参数集归一化。
89.如权利要求87所述的方法,其特征在于:所述归一化应用于所述测试趋势参数集以及所述参考趋势参数集的所述分布中的每个参考趋势参数集。
90.如权利要求72至中任一项所述的方法,其特征在于:所述多个参考对象针对性别、年龄、吸烟状况、饮酒或其一组合进行分段。
91.如权利要求72至90中任一项所述的方法,其特征在于:所述疾病状况是一癌症状况。
92.如权利要求72至90中任一项所述的方法,其特征在于:所述疾病状况是一组疾病状况中的一种疾病状况,并且所述模型为所述一组疾病状况中的每种疾病状况提供一概率或一似然。
93.如权利要求92所述的方法,其特征在于:所述一组疾病状况包括多种癌症状况。
94.如权利要求93所述的方法,其特征在于:所述多种癌症状况包括一肾上腺癌、一胆道癌、一膀胱癌、一骨/骨髓癌、一脑癌、一子宫颈癌、一结直肠癌、一食道癌、一胃癌、一头/颈癌、一肝胆癌、一肾癌、一肝癌、一肺癌、一卵巢癌、一胰脏癌、一骨盆腔癌、一胸膜癌、一前列腺癌、一肾癌、一皮肤癌、一胃癌、一睾丸癌、一胸腺癌、一甲状腺癌、一子宫癌、一淋巴瘤、一黑色素瘤、一多发性骨髓瘤或一白血病。
95.如权利要求93所述的方法,其特征在于:所述多种癌症状况包括以下癌症的一预定阶段:一肾上腺癌、一胆道癌、一膀胱癌、一骨/骨髓癌、一脑癌、一子宫颈癌、一结直肠癌、一食道癌、一胃癌、一头/颈癌、一肝胆癌、一肾癌、一肝癌、一肺癌、一卵巢癌、一胰脏癌、一骨盆腔癌、一胸膜癌、一前列腺癌、一肾癌、一皮肤癌、一胃癌、一睾丸癌、一胸腺癌、一甲状腺癌、一子宫癌、一淋巴瘤、一黑色素瘤、一多发性骨髓瘤或一白血病。
96.如权利要求72至90中任一项所述的方法,其特征在于:所述疾病状况是一癌症的一预后。
97.如权利要求96所述的方法,其特征在于:所述癌症的所述预后是所述癌症的一特定治疗的一预后。
98.如权利要求96所述的方法,其特征在于:所述癌症的所述预后是癌症复发的一预后。
99.如权利要求72至90中任一项所述的方法,其特征在于:所述疾病状况是一冠状动脉疾病。
100.如权利要求72至99中任一项所述的方法,其特征在于:所述测试对象是一人。
101.如权利要求72至100中任一项所述的方法,其特征在于:所述测试对象未被诊断为具有所述疾病状况。
102.如权利要求72至101中任一项所述的方法,其特征在于:对于所述多个测试时间点中的每个相应测试时间点,从所述测试对象获得的所述对应生物样本独立地包括所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗水、眼泪、胸膜液、心包液或腹膜液。
103.如权利要求72至101中任一项所述的方法,其特征在于:对于所述多个测试时间点中的每个相应测试时间点,从所述测试对象获得的所述对应生物样本为一血液样本。
104.如权利要求72至101中任一项所述的方法,其特征在于:对于所述多个测试时间点中的每个相应测试时间点,从所述测试对象获得的所述对应生物样本为一血浆样本。
105.如权利要求72至104中任一项所述的方法,其特征在于:对于所述多个测试时间点中的每个相应测试时间点,所述多个对应核酸分子是游离DNA分子。
106.如权利要求72至105中任一项所述的方法,其特征在于:所述多个基因型特征包括从以下群组中选择的一特征:在一基因座的一单核苷酸变体的支持、在一基因座的一甲基化状态、在一基因座的一相对拷贝数、在一基因座的一等位基因比率、所述多个游离核酸分子的一片段大小度量、在一基因座的一甲基化模式及其一数学组合。
107.如权利要求106所述的方法,其特征在于:所述多个基因型特征包括多个相对拷贝数,其中所述多个相对拷贝数中的每个相应相对拷贝数对应于多个基因座中的一不同基因座。
108.如权利要求106或107所述的方法,其特征在于:所述多个基因型特征包括多个甲基化状态,其中所述多个甲基化状态中的每个甲基化状态对应于多个基因座中的一不同基因座。
109.如权利要求106至108中任一项所述的方法,其特征在于:
所述第一基因型数据结构的所述多个基因型特征包括一第一多个箱值,所述第一多个箱值中的每个相应箱值代表多个箱中的一对应箱;
所述第一多个箱值中的每个相应箱值代表使用映射到多个箱中的所述对应箱的所述第一多个序列读取中的多个序列读取来鉴定的具有一预定甲基化模式的多个独特核酸片段的一数量;
所述第二基因型数据结构的所述多个基因型特征包括一第二多个箱值,所述第二多个箱值中的每个相应箱值代表所述多个箱中的一对应箱;
所述第二多个箱值中的每个相应箱值代表映射到所述多个箱中的所述对应箱的所述第二多个序列读取中的多个序列读取来鉴定的具有一预定甲基化模式的多个独特核酸片段的一数量;以及
所述多个箱中的每个箱代表所述测试对象的一物种的一参考基因组的一非重叠区域。
110.如权利要求109所述的方法,其特征在于:所述方法还包含对所述第一多个箱值中的每个相应箱值以及所述第二多个箱值中的每个相应箱值归一化。
111.如权利要求110所述的方法,其特征在于:所述归一化至少部分地包括:
确定所述第一多个箱值的一第一集中趋势量数;
确定所述第二多个箱值的一第二集中趋势量数;
将所述第一多个箱值中的每个相应箱值替换为所述相应箱值除以所述第一集中趋势量数;以及
将所述第二多个箱值中的每个相应箱值替换为所述相应箱值除以所述第二集中趋势量数。
112.如权利要求111所述的方法,其特征在于:
所述第一集中趋势量数是所述第一多个箱值的一算术平均数、一加权平均数、一中程数、一中枢纽、一三均值、一极端值调整平均数、一平均数或一众数;以及
所述第二集中趋势量数是所述第二多个箱值的一算术平均数、一加权平均数、一中程数、一中枢纽、一三均值、一极端值调整平均数、一平均数或一众数。
113.如权利要求110所述的方法,其特征在于:所述归一化至少部分地包括:
将所述第一多个箱值中的每个相应箱值替换为针对所述第一多个箱值中的一相应第一GC偏差校正的所述相应箱值;以及
将所述第二多个箱值中的每个相应箱值替换为针对所述第二多个箱值中的一相应第二GC偏差校正的所述相应箱值。
114.如权利要求113所述的方法,其特征在于:
所述相应第一GC偏差由拟合到一第一多个二维点的一曲线或一直线的一第一方程定义,其中所述第一多个二维点中的每个相应二维点包括:(i)一第一值,所述第一值是所述参考基因组的对应区域的相应GC含量,由对应于所述相应二维点的所述第一多个箱中的所述相应箱代表;以及(ii)一第二值,所述第二值是所述相应箱的所述第一多个箱值中的所述箱值;将所述第一多个箱值中的每个相应箱值替换为针对所述第一多个箱值中的一相应第一GC偏差校正的所述相应箱值包括从所述相应箱值减去所述相应箱的一GC校正,所述GC校正源自由所述相应箱以及所述第一方程代表的所述多个物种的所述参考基因组的所述对应区域的所述GC含量;
所述相应第二GC偏差由拟合到一第二多个二维点的一曲线或一直线的一第二方程定义,其中所述第二多个二维点中的每个相应二维点包括:(i)一第三值,所述第三值是所述多个物种的所述参考基因组的对应区域的相应GC含量,由对应于所述相应二维点的所述第二多个箱中的所述相应箱代表;以及(ii)一第四值,所述第四值是所述相应箱的所述第二多个箱值中的所述箱值;以及
将所述第二多个箱值中的每个相应箱值替换为针对所述第二多个箱值中的一相应第二GC偏差校正的所述相应箱值包括从所述相应箱值减去所述相应箱的一GC校正,所述GC校正源自由所述相应箱以及所述第二方程代表的所述多个物种的所述参考基因组的所述对应区域的所述GC含量。
115.如权利要求72至114中任一项所述的方法,其特征在于:对于所述多个测试时间点中的每个相应测试时间点,所述多个对应核酸分子是DNA。
116.如权利要求72至114中任一项所述的方法,其特征在于:所述第一多个核酸分子通过使用多个探针的一靶向DNA甲基化定序获得。
117.如权利要求116所述的方法,其特征在于:所述多个探针与所述人类基因组中的100个或更多个基因座杂交。
118.如权利要求116所述的方法,其特征在于:所述靶向DNA甲基化定序检测所述第一多个核酸中的一个或多个5-甲基胞嘧啶及/或5-羟甲基胞嘧啶。
119.如权利要求116所述的方法,其特征在于:所述靶向DNA甲基化定序包括将所述第一多个核酸中的一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶转化为对应的一个或多个尿嘧啶。
120.如权利要求119所述的方法,其特征在于:
所述靶向DNA甲基化定序包括将所述第一多个核酸中的一个或多个未甲基化胞嘧啶转化为对应的一个或多个尿嘧啶;以及
所述DNA甲基化定序将所述一个或多个尿嘧啶读出为一个或多个对应的胸腺嘧啶。
121.如权利要求119所述的方法,其特征在于:
所述靶向DNA甲基化定序包括将所述第一多个核酸中的一个或多个甲基化胞嘧啶转化为对应的一个或多个尿嘧啶;以及
所述DNA甲基化定序将所述一个或多个5-甲基胞嘧啶或5-羟甲基胞嘧啶读出为一个或多个对应的胸腺嘧啶。
122.如权利要求121所述的方法,其特征在于:一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶的转化包括一化学转化、一酶促转化或其组合。
123.如权利要求72至122中任一项所述的方法,其特征在于:所述模型是在一组对象中进行训练的,其中在所述一组对象中的一第一部分具有所述疾病状况,并且在所述一组对象中的一第二部分不具有所述疾病状况。
124.如权利要求72至123中任一项所述的方法,其特征在于:所述模型是一神经网络算法、一支持向量机算法、一朴素贝叶斯分类器算法、一最邻近搜索算法、一提升树算法、一随机森林算法、一决策树算法、一多分类逻辑回归算法或一线性回归算法。
125.如权利要求72至124中任一项所述的方法,其特征在于:所述模型包括:
(i)一输入层,用于接收所述多个基因型特征的多个值,其中所述多个基因型特征包括一第一数量的维度;
(ii)一嵌入层,包括一组权重,其中所述嵌入层直接或间接接收所述输入层的输出,并且所述嵌入层的一输出是具有一第二数量的维度的一时间戳模型得分集,所述第二数量的维度小于所述第一数量的维度;以及
(iii)一输出层,直接或间接从所述嵌入层接收所述模型得分集,其中所述多个时间戳测试模型得分集中的每个时间戳测试模型得分集是在将所述对应基因型数据结构输入到所述输入层时所述嵌入层的所述时间戳模型得分集。
126.如权利要求125所述的方法,其特征在于:
所述评估(C)包括对照所述多个参考趋势参数集通过逻辑回归训练使用一逻辑函数来评估所述测试趋势参数集,其中所述多个参考趋势参数集中的每个参考趋势参数集是基于以下(i)与(ii)之间的一差异针对在所述多个参考对象中的一相应参考对象:
(i)一第一时间戳模型得分集,使用包括所述多个基因型特征的多个值的一第一相应参考基因型数据结构由所述模型的所述嵌入层来提供,所述多个值是使用在一相应第一时间点从所述相应参考对象获得的一第一相应生物样本来获取;以及
(ii)一第二时间戳模型得分集,使用包括所述多个基因型特征的多个值的一第二相应基因型数据结构由所述模型的所述嵌入层来提供,所述多个值是使用在不同于所述第一相应时间点的一相应第二时间点从所述相应参考对象获得的一第二相应生物样本来获取。
127.如权利要求125或126所述的方法,其特征在于:所述模型是一卷积神经网络。
128.如权利要求125至127中任一项所述的方法,其特征在于:所述多个参考对象的一第一子集具有所述疾病状况,并且所述多个参考对象的一第二子集不具有所述疾病状况。
129.如权利要求125至127中任一项所述的方法,其特征在于:所述多个参考对象中的每个参考对象不具有所述疾病状况。
130.一种存储有多个程序代码指令的非暂时性计算机可读存储介质,其特征在于:当一处理器执行所述多个程序代码指令时,使所述处理器执行如权利要求72至129中任一项所述的方法。
131.一种计算机系统,其特征在于,所述计算机系统包含:
一个或多个处理器;以及
一非暂时性计算机可读介质,包括多个计算机可执行指令,当所述一个或多个处理器执行所述多个计算机可执行指令时,使所述一个或多个处理器执行如权利要求72至129中任一项所述的方法。
CN202080094549.5A 2019-11-27 2020-11-25 用于评估纵向生物特征数据的系统和方法 Pending CN115836349A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962941012P 2019-11-27 2019-11-27
US62/941,012 2019-11-27
PCT/US2020/062350 WO2021108654A1 (en) 2019-11-27 2020-11-25 Systems and methods for evaluating longitudinal biological feature data

Publications (1)

Publication Number Publication Date
CN115836349A true CN115836349A (zh) 2023-03-21

Family

ID=74104167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080094549.5A Pending CN115836349A (zh) 2019-11-27 2020-11-25 用于评估纵向生物特征数据的系统和方法

Country Status (6)

Country Link
US (1) US20210166813A1 (zh)
EP (1) EP4066245A1 (zh)
CN (1) CN115836349A (zh)
AU (1) AU2020391488A1 (zh)
CA (1) CA3158101A1 (zh)
WO (1) WO2021108654A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3170277A1 (en) * 2020-03-30 2021-10-07 M. Cyrus MAHER Cancer classification with synthetic training samples
CN113871006B (zh) * 2021-09-03 2024-09-10 华中科技大学 基于脓毒症病人检测信息进行生存概率打分的方法及系统
CN114203307A (zh) * 2021-12-07 2022-03-18 康奥生物科技(天津)股份有限公司 一种受试者分配方法、系统及电子设备
CN114496076B (zh) * 2022-04-01 2022-07-05 微岩医学科技(北京)有限公司 一种基因组遗传分层联合分析方法及系统
US20240161867A1 (en) * 2022-11-16 2024-05-16 Grail, Llc Optimization of model-based featurization and classification
US20240229149A1 (en) * 2023-01-09 2024-07-11 Clearnote Health, Inc. 5-HYDROXYMETHYLATION ANALYSIS OF BUFFY COAT gDNA IN CANCER DETECTION

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104781422A (zh) * 2012-09-20 2015-07-15 香港中文大学 从血浆无创测定胎儿或肿瘤的甲基化组
US20170213008A1 (en) * 2016-01-22 2017-07-27 Grail, Inc. Variant based disease diagnostics and tracking
CN108779487A (zh) * 2015-11-16 2018-11-09 普罗格尼迪公司 用于检测甲基化状态的核酸和方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US461A (en) 1837-11-11 Improvement in the method of constructing locks for fire-arms
US20100112590A1 (en) 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
TWI719339B (zh) 2010-11-30 2021-02-21 香港中文大學 與癌症有關之基因或分子變異之檢測
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
US20160002717A1 (en) * 2014-07-02 2016-01-07 Boreal Genomics, Inc. Determining mutation burden in circulating cell-free nucleic acid and associated risk of disease
US10364467B2 (en) 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
WO2019178289A1 (en) 2018-03-13 2019-09-19 Grail, Inc. Method and system for selecting, managing, and analyzing data of high dimensionality
AU2019234843A1 (en) 2018-03-13 2020-09-24 Grail, Llc Anomalous fragment detection and classification
EP3969622A1 (en) 2019-05-13 2022-03-23 Grail, Inc. Model-based featurization and classification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104781422A (zh) * 2012-09-20 2015-07-15 香港中文大学 从血浆无创测定胎儿或肿瘤的甲基化组
CN108779487A (zh) * 2015-11-16 2018-11-09 普罗格尼迪公司 用于检测甲基化状态的核酸和方法
US20170213008A1 (en) * 2016-01-22 2017-07-27 Grail, Inc. Variant based disease diagnostics and tracking

Also Published As

Publication number Publication date
WO2021108654A1 (en) 2021-06-03
EP4066245A1 (en) 2022-10-05
AU2020391488A1 (en) 2022-06-09
US20210166813A1 (en) 2021-06-03
CA3158101A1 (en) 2021-06-03

Similar Documents

Publication Publication Date Title
CN112888459B (zh) 卷积神经网络系统及数据分类方法
CN115836349A (zh) 用于评估纵向生物特征数据的系统和方法
CA3133639A1 (en) Systems and methods for deriving and optimizing classifiers from multiple datasets
JP2023507252A (ja) パッチ畳み込みニューラルネットワークを用いる癌分類
US11869661B2 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
US20210310075A1 (en) Cancer Classification with Synthetic Training Samples
JP2023524627A (ja) 核酸のメチル化分析による結腸直腸癌を検出するための方法およびシステム
CN115335533A (zh) 使用基因组区域建模进行癌症分类
CN115702457A (zh) 使用自动编码器确定癌症状态的系统和方法
US20230175058A1 (en) Methods and systems for abnormality detection in the patterns of nucleic acids
US20210102262A1 (en) Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
CN115244622A (zh) 使用甲基化测序数据调用变体的系统和方法
US20220090211A1 (en) Sample Validation for Cancer Classification
US12073920B2 (en) Dynamically selecting sequencing subregions for cancer classification
US20240170099A1 (en) Methylation-based age prediction as feature for cancer classification
US20230272486A1 (en) Tumor fraction estimation using methylation variants
US20240312564A1 (en) White blood cell contamination detection
US20240296920A1 (en) Redacting cell-free dna from test samples for classification by a mixture model
US20240312561A1 (en) Optimization of sequencing panel assignments
US20230272477A1 (en) Sample contamination detection of contaminated fragments for cancer classification
US20240161867A1 (en) Optimization of model-based featurization and classification
US20230005569A1 (en) Chromosomal and Sub-Chromosomal Copy Number Variation Detection
Huang et al. Identifying a small set of marker genes using minimum expected cost of misclassification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40086340

Country of ref document: HK