CN113661542A - 使用甲基化信息估计细胞来源部分的系统和方法 - Google Patents

使用甲基化信息估计细胞来源部分的系统和方法 Download PDF

Info

Publication number
CN113661542A
CN113661542A CN201980092387.9A CN201980092387A CN113661542A CN 113661542 A CN113661542 A CN 113661542A CN 201980092387 A CN201980092387 A CN 201980092387A CN 113661542 A CN113661542 A CN 113661542A
Authority
CN
China
Prior art keywords
nucleic acid
cell
cancer
methylation state
methylation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980092387.9A
Other languages
English (en)
Inventor
奥利弗·克劳德·维恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SDG Ops LLC
Original Assignee
Grail Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grail Inc filed Critical Grail Inc
Publication of CN113661542A publication Critical patent/CN113661542A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Medical Informatics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本申请公开用于确定一测试对象的一生物样本中的一细胞来源部分的多种系统和方法。多个核酸片段从所述测试对象包含无细胞核酸的一生物样本中获得。对于多个第一核酸片段中的每个核酸片段获得一甲基化状态。每个相应核酸片段被单独分配一第一分数,从而获得多个第一分数。每个相应分数代表对应核酸片段从与所述第一细胞来源相关联的一无细胞核酸分子获得的一似然性。将所述多个第一分数转换为多个第一计数,所述多个第一计数中的每个计数为对于一第一预定甲基化位点集中的一甲基化位点。使用所述多个第一计数估计所述测试对象的一第一细胞来源部分。

Description

使用甲基化信息估计细胞来源部分的系统和方法
相关申请案
本申请要求2018年12月18日提交的发明名称为“使用甲基化信息估计细胞来源部分的系统和方法”的美国临时专利申请第62/781,549号的优先权,其通过引用并入本文。
技术领域
本说明书描述了从一对象获得的多个生物样本(特别是多个无细胞核酸样本)中使用所述对象的多个核酸来估计的细胞来源部分(例如肿瘤部分)。
背景技术
对癌症分子基础知识的不断增加和下一代测序技术的快速发展正在推进对体液中癌症发展所涉及的早期分子改变的研究。大规模测序技术,例如下一代测序(nextgeneration sequencing,NGS),提供了以低于每百万个碱基1美元的成本实现测序的机会,实际上已经实现了低于每百万个碱基10美分的成本。在血浆、血清和尿液的无细胞DNA(cell-free DNA,cfDNA)中发现了与此类癌症发展相关的特定遗传和表观遗传改变。这种改变可能被用作几类癌症的诊断生物标志物(参见,Salvi等人,2016,Onco Targets Ther.期刊9:6549-6559)。
无细胞DNA(cfDNA)可以在血清、血浆、尿液和其他体液中找到(Chan等人,2003,Ann Clin Biochem期刊40(Pt 2):122–130)表示为“液体活检”,这是一种特定疾病的循环图片(参见De Mattos-Arruda和Caldas,2016年,Mol Oncol.期刊10(3):464–474)。这代表了一种潜在的、非侵入性的多种癌症筛查方法。
几十年前,Mandel和Metais证明了cfDNA的存在(Mandel和Metais,1948,CRSeances Soc Biol Fil.期刊142(3–4):241–243)。cfDNA来源于坏死或凋亡细胞,通常由所有类型的细胞释放。Stroun等人进一步表明,可以在患者的cfDNA中发现特定的癌症改变(参见Stroun等人,1989肿瘤学期刊1989 46(5):318-322)。随后的多篇文章证实,cfDNA包含特定的肿瘤相关改变,例如突变、甲基化和拷贝数变异(copy number variations,CNV),从而证实了循环肿瘤DNA(circulating tumor DNA,ctDNA)的存在(参见Goessl等人,2000癌症研究期刊60(21):5941–5945和Frenel等人,2015,临床癌症研究期刊21(20):4586–4596)。
血浆或血清中的cfDNA得到了很好的表征,而尿液cfDNA(ucfDNA)的表征传统上较少。然而,最近的研究表明,ucfDNA也可能是一种有希望的生物标志物来源(例如,卡萨迪奥等人,2013,Urol Oncol.期刊31(8):1744-1750)。
在血液中,细胞凋亡是决定cfDNA数量的常见事件。然而,在癌症患者中,cfDNA的数量似乎也受坏死的影响(参见Hao等人,2014,Br J Cancer期刊111(8):1482–1489和Zonta等人,2015高级临床化学期刊70:197–246)。由于细胞凋亡似乎是循环cfDNA的主要释放机制,其大小分布显示约167个碱基对的短片段富集,(参见Heitzer等人,2015,临床化学期刊61(1):112–123和Lo等人,2010,Sci Transl Med.期刊2(61):61ra91)对应于凋亡细胞产生的核小体。
肿瘤患者血清和血浆中循环cfDNA的量似乎明显高于健康对照组,尤其是晚期肿瘤患者比早期肿瘤患者更明显(参见Sozzi等人,2003,临床肿瘤学期刊21(21):3902–3908,Kim等人,2014,Ann Surg Treat Res.期刊86(3):136-142;和Shao等人,2015,Oncol Lett.期刊10(6):3478–3482)。癌症患者的循环cfDNA量的变异性高于多个健康个体,(参见Heitzer等人,2013,Int J Cancer.期刊133(2):346–356),循环cfDNA的数量受多种生理和病理条件的影响,包含促炎性疾病(参见Raptis和Menard,1980年,J Clin Invest期刊66(6):1391–1399,和Shapiro等人,1983,癌症期刊51(11):2116–2120)。
已知甲基化状态和其他表观遗传修饰与某些疾病(如癌症)的存在相关(参见Jones,2002,Oncogene期刊21:5358-5360)。并且已经确定特定的甲基化模式与特定的癌症状况有关(参见Paska和Hudler,2015年,生物化学医学期刊25(2):161-176)。Warton和Samimi已经证明,即使在无细胞DNA中也可以观察到甲基化模式(Warton和Samimi,2015,Front Mol Biosci.期刊2(13)doi:10.3389/fmolb.2015.00013)。
鉴于循环cfDNA以及其他形式的基因型数据作为诊断指标的前景,本领域需要评估此类数据的表观遗传模式的方法。
发明内容
本公开通过提供用于从一对象获得的多个生物样本中使用cfDNA来确定多个细胞来源部分(例如肿瘤部分)的多个系统和方法来解决背景中发现的缺点。甲基化数据与全基因组或靶向基因组的结合,测序数据提供了超越先前筛选方法的额外诊断能力。
在本公开中提供了用于解决上述发现与分析数据集有关的问题的技术解决方案(例如,计算系统、方法和非暂时性计算机可读存储介质)。
以下给出本发明的发明内容,以提供对本发明的一些方面的基本理解。本发明内容不是本发明的广泛概述。其并非旨在识别本发明的关键/关键要素或描绘本发明的范围。其唯一目的是以简化形式呈现本发明的一些概念,作为后面呈现的更详细描述的前奏。
A.通过利用核酸片段分数的转化对甲基化计数来估计至少一个细胞来源的细胞来源部分的实施例。本发明的一个方面提供了一种估计在一给定物种的一测试对象的一第一生物样本中的一第一细胞来源部分的方法,所述方法包含:在一计算机系统处,所述计算机系统具有一个或多个处理器和一存储器,所述存储器存储一个或多个程序以供所述一个或多个处理器执行以下步骤:在一第一时间段从所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态。所述方法进一步包含:对所述多个第一核酸片段中的每个相应核酸片段单独分配一第一分数,从而获得多个第一分数。本文中,每个相应第一分数表示对应核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性。再者,所述单独分配步骤包含:(i)将相应核酸片段的甲基化状态与第一标准甲基化状态向量集及与表示除了所述第一细胞来源之外的一来源的一第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述第一标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第一分类器。所述第一标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个第一参考对象中一对应参考对象的一第一相应组织样本或一第一相应无细胞核酸样本,其中所述第一相应组织样本或所述第一相应无细胞核酸样本对应于所述第一细胞来源。所述第二标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个第二参考对象中一对应参考对象的一第二相应组织样本或一第二相应无细胞核酸样本,其中所述第二相应组织样本或所述第二相应无细胞核酸样本对应于一第二细胞来源。在一些实施例中,所述第二细胞来源是与所述第一细胞来源不同的组织类型或器官类型。在一些实施例中,所述第二细胞来源与所述第一细胞来源具有相同的组织类型或器官类型,但所述第一细胞来源和所述第二细胞来源处于不同状态。例如,在一些实施例中,所述第一细胞来源是未患有癌症的多个结肠细胞,而所述第二细胞来源是患有癌症的多个结肠细胞。例如,在一些实施例中,所述第一细胞来源是具有I期癌症的多个结肠细胞,而所述第二细胞来源是具有II期癌症的多个结肠细胞。在一些实施例中,所述第一细胞来源是来自具有一特定癌症的一第一阶段的一对象的多个细胞,及所述第二细胞来源是来自具有一特定癌症的一第二阶段的一对象的多个细胞,其中所述第一阶段和所述第二阶段癌症是不同的。所述方法进一步包含:将所述多个第一分数转换为多个第一计数。所述多个第一计数中的每个计数是对于所述物种的一参考序列基因组中一第一预定甲基化位点集中的一甲基化位点。所述第一预定甲基化位点集与所述第一细胞来源相关联。所述方法进一步包含:通过将由所述多个第一计数表示的所述第一预定甲基化位点集中的每个相应甲基化位点的相应计数与一第一参考集中的相应甲基化位点的一对应参考分数进行比较,使用所述多个第一计数来估计所述第一生物样本中所述第一细胞来源部分的第一情况。所述第一参考集中的每个对应参考分数是通过确定从所述多个第一参考对象中一对应参考对象的组织样本或无细胞核酸样本获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得。
在一些实施例中,所述第一标准甲基化状态向量集中的每个标准甲基化状态向量表示所述多个第一参考对象中所述对应参考对象的基因组中的甲基化状态。
在一些实施例中,所述第一标准甲基化状态向量集中的每个标准甲基化状态向量表示所述参考对象的一基因组子集中的甲基化状态。在这样的实施例中,所述基因组子集的一甲基化状态代表所述第一细胞来源下的致病病理。
在一些实施例中,所述第一细胞来源是所述第一标准甲基化状态向量集中的一癌症类型及一标准甲基化状态向量衍生自从所述对应参考对象获得的所述癌症类型的一肿瘤样本。
在一些实施例中,所述第一细胞来源是一癌症类型。再者,所述第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从一对应参考对象的多个无细胞核酸。此外,所述对应参考对象的所述参考生物样本中的所述癌症类型的所述细胞来源部分为至少百分之二、至少百分之四、至少百分之六、至少百分之八、至少百分之十、至少十二百分之、至少百分之十四、至少百分之十六、至少百分之十八、至少百分之二十、至少百分之三十、至少百分之四十、至少百分之五十、至少百分之六十、至少百分之七十、至少百分之八十百分之或至少百分之九十。
在一些实施例中,所述第二细胞来源来自处于健康无癌症状态的一个或多个细胞。
在一些实施例中,所述第一细胞来源或所述第二细胞来源来自非癌性组织。在一些实施例中,第一细胞来源或所述第二细胞来源来自衍生自健康组织的多个细胞。在一些实施例中,所述第一细胞来源或所述第二细胞来源来自一健康组织,例如乳房、肺、前列腺、结肠直肠、肾、子宫、胰腺、食道、淋巴、卵巢、宫颈、表皮、甲状腺、膀胱、胃、或其组合。
在一些实施例中,所述第一细胞来源是实施例8中识别的任何来源。
在一些实施例中,所述第二细胞来源是实施例8中识别的任何来源。
在一些实施例中,所述方法进一步包含:在一第二时间段从所述测试对象的一第二生物样本中的多个第二无细胞核酸分子以电子形式获得多个第二核酸片段中每个核酸片段的一甲基化状态。在一些实施例中,所述方法接着包含:对所述多个第二核酸片段中的每个相应核酸片段单独分配一第二分数,从而获得多个第二分数。在一些实施例中,每个相应第二分数表示核酸片段是从源自与所述第一细胞来源相关联的一循环核酸样本的一无细胞核酸分子获得的一似然性。在一些实施例中,所述单独分配步骤包含:(i)将相应核酸片段的所述甲基化状态与所述第一标准甲基化状态向量集及与所述第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给所述第一分类器。在一些实施例中,所述方法继续进行将所述多个第二分数转换为多个第二计数。在一些实施例中,所述多个第二计数中的每个计数是对于所述物种的一参考序列基因组中所述第一预定甲基化位点集中的一甲基化位点。在一些实施例中,所述方法继续通过将由所述多个第二计数表示的所述第一预定甲基化位点集中的每个相应甲基化位点的相应计数与所述第一参考集中的相应甲基化位点的一对应参考分数进行比较,使用所述多个第二计数来估计所述测试对象中所述第二细胞来源部分的第二情况。在一些实施例中,所述第二时间段为在所述第一时间段之后的一个月到一年之间。在一些实施例中,所述第二时间段为在所述第一时间段之后的一天到一个月之间。
在一些实施例中,所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况和所述第一细胞来源部分的所述第二情况之间的一差异作为基础或部分基础,以确定所述测试对象中所述第一细胞来源的一侵袭性。
在一些实施例中,所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况和所述第一细胞来源部分的所述第二情况的一差异作为基础或部分基础,以确定与所述测试对象中所述第一细胞来源相关联的一疾病状况的一治疗方案。
在一些实施例中,所述第一细胞来源是一癌症类型,及所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况作为基础或部分基础来确定所述测试对象中所述癌症类型的一阶段。
在一些实施例中,所述第一细胞来源是多个淋巴细胞,及所述方法进一步包含:使用所述第一细胞来源部分作为基础或部分基础来评估所述测试对象的一癌症状况。
在一些实施例中,所述第一细胞来源是一癌症类型,所述方法进一步包含:使用所述第一细胞来源部分作为基础或部分基础来确定所述测试对象中所述第一细胞来源的一治疗方案。
在一些实施例中,所述第二标准甲基化状态向量集是所述物种的所述基因组的单个一致的甲基化状态向量,所述物种的所述基因组是由所述多个第二参考对象的所述组织样本或无细胞核酸样本中的多个核酸的一甲基化状态形成。在一些实施例中,所述第二标准甲基化状态向量集是所述物种的所述基因组的单个一致的甲基化状态向量,所述物种的所述基因组是由所述多个第二参考对象的所述组织样本或无细胞核酸样本中的多个核酸的一甲基化状态形成。
在一些实施例中,所述第一标准甲基化状态向量集包含所述多个第一参考对象中的每个相应参考对象的所述物种的所述基因组的一不一致的甲基化状态向量,所述不一致的甲基化状态向量由所述相应参考对象的所述组织样本或无细胞核酸样本中的多个核酸的一甲基化状态形成。在一些实施例中,所述第二标准甲基化状态向量集包含所述多个第二参考对象中的每个相应参考对象的所述物种的所述基因组的一不一致的甲基化状态向量,所述不一致的甲基化状态向量由所述相应参考对象的所述组织样本或无细胞核酸样本中的多个核酸的一甲基化状态形成。
在一些实施例中,所述多个第一参考对象包含至少十个参考对象,及所述多个第二参考对象包含至少十个参考对象。
在一些实施例中,所述多个第一参考对象包含至少一百个参考对象,及所述多个第二参考对象包含至少一百个参考对象。在一些实施例中,所述多个第一参考对象包含比所述多个第二参考对象更多或更少的参考对象。
在一些实施例中,所述第一分类器是基于一多项式逻辑回归算法。在替代的实施例中,所述第一分类器是基于一神经网络算法、一支持向量机算法、一朴素贝叶斯算法、一最近邻算法、一增强树算法、一随机森林算法、一卷积神经网络、一决策树算法、一混合模型或一隐马尔可夫模型。
如上文所讨论,在一些实施例中,所述单独分配进一步包含:对所述多个第一核酸片段中的每个相应核酸片段分配一第二分数,从而获得多个第二分数。所述多个第二分数中的每个相应第二分数是针对所述多个第一核酸片段中的一核酸片段。每个相应第二分数表示所述对应核酸片段是从源自一第三细胞来源的一无细胞核酸分子获得的一似然性。在这样的实施例中,上述的单独分配步骤进一步包含:(i)将相应核酸片段的一甲基化状态与至少一第三标准甲基化状态向量集及与所述第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述第三标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第二分类器。在这样的实施例中,所述第三标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个第三参考对象中一对应参考对象的一第三相应组织样本或一第三相应无细胞核酸样本,其中所述第三相应组织样本或所述第三相应无细胞核酸样本对应于所述第三细胞来源。在一些实施例中,上述的转换步骤进一步包含:将所述多个第二分数转换为多个第二计数。所述多个第二计数中的每个计数是对于所述物种的一参考序列基因组中一第二预定甲基化位点集中的一甲基化位点。再者,所述第二预定甲基化位点集与所述第三细胞来源相关联。在一些实施例中,所述方法继续进行通过将由所述多个第一计数表示的所述第二预定甲基化位点集中的每个相应甲基化位点的相应计数与一第二参考集中的相应甲基化位点的一对应参考分数进行比较,使用所述多个第二计数来估计所述第一生物样本中所述第二细胞来源部分。在这样的实施例中,其中所述第二参考集中的每个对应参考分数是通过确定从所述多个第三对应参考对象中一对应参考对象的第三相应组织样本或第三相应无细胞核酸样本获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得。在一些实施例中,上述的单独分配步骤方法针对所述第二分类器提供所述相应核酸片段的所述甲基化状态。再者,在一些实施例中,所述第一分类器和所述第二分类器相同。更进一步地,所述第一分类器至少部分地在所述第一标准甲基化状态向量集、所述第二标准甲基化状态向量集和所述第三标准甲基化状态向量集上训练。
在一些实施例中,所述第一分类器是不同于所述第二分类器,及所述第一分类器没有在所述第三标准甲基化状态向量集上训练。
在一些实施例中,所述第一预定甲基化位点集包含所述物种的基因组中的五十个甲基化位点、所述物种的基因组中的一百个甲基化位点或所述物种的基因组中的五百个甲基化位点。
在一些实施例中,所述将所述多个第一分数转换为所述多个第一计数步骤包含:对于所述第一预定甲基化位点集中的每个相应甲基化位点进行以下步骤:(a)确定所述多个第一核酸片段中的一第一数量的核酸片段,其(i)映射到所述相应甲基化位点,及(ii)具有满足一阈值的一第一分数,(b)确定所述多个核酸片段中核酸片段的一第二数量,其(i)映射到所述相应甲基化位点及(ii)具有满足或不满足一阈值的一第一分数,以及(c)将所述相应甲基化位点分配为所述第一数量和所述第二数量。在一些实施例中,所述第一分数为一似然性,及所述阈值为50%。在一些实施例中,所述第一数量的核酸片段中的每个相应核酸片段的一计数通过其对应第一分数向下加权。
在一些实施例中,所述第一预定甲基化位点集中每个相应甲基化位点的每个计数是所述多个第一核酸片段中对应甲基化位点的一观察甲基化频率。在一些实施例中,所述估计步骤进一步包含:使用所述第一参考集中每个相应甲基化位点的计数和每个相应甲基化位点的对应参考频率来构建一泊松模型或一负二项分布假设。此外,使用所述泊松模型或所述负二项分布假设用于在计算的第一细胞来源部分的一范围中来形成一累积密度函数。在一些实施例中,所述方法包含:将所述第一细胞来源部分的所述第一情况视为所述计算的第一细胞来源部分的所述范围中所述累积密度函数的一平均值。
在一些实施例中,所述第一预定甲基化位点集中每个相应甲基化位点的每个计数是所述多个第一核酸片段中对应甲基化位点的一观察甲基化频率。在一些实施例中,所述估计步骤进一步包含:使用所述第一参考集中对于每个相应甲基化位点的计数和所述甲基化位点的对应参考频率来构建一相应泊松模型或一相应负二项分布假设,从而构建多个泊松模型或多个负二项分布假设。在一些实施例中,所述估计步骤进一步包含:使用每个相应泊松模型或每个相应负二项分布假设,在计算的第一细胞来源部分的一范围中形成一对应累积密度函数。在一些实施例中,所述估计步骤进一步包含:将所述第一细胞来源部分的所述第一情况视为所述计算的第一细胞来源部分的所述范围中结合所述多个泊松模型或所述多个负二项分布假设中所述累积密度函数的平均值的一结合。在一些实施例中,所述计算的第一细胞来源部分的范围在0%和110%之间。
在一些实施例中,所述第一生物样本包含所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。
在一些实施例中,所述第一生物样本由以下的群组组成:所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。
在一些实施例中,所述第一细胞来源是一第一癌症的一共同主要起源位点的一个或多个细胞。在一些这样的实施例中,所述第一癌症为一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌或其组合。替代地,在一些这样的实施例中,所述第一癌症为:一乳腺癌的一阶段、一肺癌的一阶段、一前列腺癌的一阶段、一结直肠癌的一阶段、一肾癌的一阶段、一子宫癌的一阶段、一胰腺癌的一阶段、一食道癌的一阶段、一淋巴瘤的一阶段、一头颈癌的一阶段、一卵巢癌的一阶段、一肝胆癌的一阶段、一黑色素瘤的一阶段、一宫颈癌的一阶段、一多发性骨髓瘤的一阶段、一白血病的一阶段、一甲状腺癌的一阶段、一膀胱癌的一阶段或一胃癌的一阶段。
另一方面提供了一种计算机系统,所述计算机系统包含:一个或多个处理器和一存储器,所述存储器存储一个或多个程序以供所述一个或多个处理器执行。所述一个或多个程序包含多个指令,用于通过一方法来估计一给定物种的一测试对象中的一第一生物样本中的一第一细胞来源部分,所述方法包含步骤:(A)在一第一时间段从所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态。在所述方法中,对所述多个第一核酸片段中的每个相应核酸片段单独分配一第一分数,从而获得多个第一分数。每个相应第一分数表示对应核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性。所述单独分配步骤包含:(i)将相应核酸片段的甲基化状态与第一标准甲基化状态向量集及与表示除了所述第一细胞来源之外的一来源的一第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述第一标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第一分类器。所述第一标准甲基化状态向量集中的每个标准甲基化状态向量衍生自对应于所述第一细胞来源的多个第一参考对象中一对应参考对象的一组织样本或无细胞核酸样本。所述第二标准甲基化状态向量集中的每个标准甲基化状态向量衍生自对应于一第二细胞来源的多个第二参考对象中一对应参考对象的一组织样本或无细胞核酸样本。所述方法继续将所述多个第一分数转换为多个第一计数。所述多个第一计数中的每个计数是对于所述物种的一参考序列基因组中一第一预定甲基化位点集中的一甲基化位点。所述第一预定甲基化位点集与所述第一细胞来源相关联。所述方法继续通过将由所述多个第一计数表示的所述第一预定甲基化位点集中的每个相应甲基化位点的相应计数与一第一参考集中的相应甲基化位点的一对应参考分数进行比较,使用所述多个第一计数来估计所述第一生物样本中所述第一细胞来源部分的第一情况。所述第一参考集中的每个对应参考分数是通过确定从所述多个第一参考对象中一对应参考对象的组织样本或无细胞核酸样本获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得。在另一方面,一个或多个程序还包含多个指令,用于单独或组合地执行上文公开的任何方法。
本公开的又一方面提供了非暂时性计算机可读存储介质,存储一个或多个程序,所述一个或多个程序用于估计一给定物种的一测试对象的一第一生物样本中的一第一细胞来源部分。所述一个或多个程序被配置为由一计算机执行。再者,所述一个或多个程序包含多个指令,用于在一第一时间段从所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态。所述一个或多个程序进一步包含多个指令,用于对所述多个第一核酸片段中的每个相应核酸片段单独分配一第一分数,从而获得多个第一分数。每个相应第一分数表示对应核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性。所述单独分配步骤(B)包含:(i)将相应核酸片段的甲基化状态与第一标准甲基化状态向量集及与表示除了所述第一细胞来源之外的一来源的一第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述第一标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第一分类器。所述第一标准甲基化状态向量集中的每个标准甲基化状态向量衍生自对应于所述第一细胞来源的多个第一参考对象中一对应参考对象的一组织样本或无细胞核酸样本。所述第二标准甲基化状态向量集中的每个标准甲基化状态向量衍生自对应于一第二细胞来源的多个第二参考对象中一对应参考对象的一组织样本或无细胞核酸样本。所述一个或多个程序进一步包含多个指令,用于将所述多个第一分数转换为多个第一计数。所述多个第一计数中的每个计数是对于所述物种的一参考序列基因组中一第一预定甲基化位点集中的一甲基化位点。所述第一预定甲基化位点集与所述第一细胞来源相关联。所述一个或多个程序进一步包含多个指令,用于通过将由所述多个第一计数表示的所述第一预定甲基化位点集中的每个相应甲基化位点的相应计数与一第一参考集中的相应甲基化位点的一对应参考分数进行比较,使用所述多个第一计数来估计所述第一生物样本中所述第一细胞来源部分的第一情况,其中所述第一参考集中的每个对应参考分数是通过确定从所述多个第一对应参考对象中一对应参考对象的组织样本或无细胞核酸样本获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得。本公开的另一方面提供了非暂时性计算机可读存储介质,其中一个或多个程序进一步包含多个指令,用于单独或组合地执行以上公开的任何方法。
B.通过利用核酸片段分数的转化对甲基化计数来估计多个细胞来源的每个细胞来源的细胞来源部分的实施例。本公开的另一方面提供了一种对于多个细胞来源中的每个细胞来源估计一给定物种的一测试对象的一第一生物样本中的一相应细胞来源部分的方法,从而估计多个细胞来源部分,所述方法包含:在一些这样的实施例中,所述多个细胞来源包含:两个不同的细胞来源、三个不同的细胞来源、四个不同的细胞来源、五个不同的细胞来源或多于五个不同的细胞来源。根据本公开的这个方面,提供了一种方法包含:在一计算机系统处,所述计算机系统具有一个或多个处理器和一存储器,所述存储器存储一个或多个程序以供所述一个或多个处理器执行以下步骤:在一第一时间段从一测试对象的一第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态。在所述方法中,将多个分数单独分配给所述多个第一核酸片段中的每个相应核酸片段,从而获得多个第一分数集,其中每个分数集包含多个分数对应于可用参考细胞来源的数量。所述多个分数集中的每个相应分数集是针对所述多个第一核酸片段中的一对应核酸片段。所述多个分数集中的每个相应分数集中的每个相应分数表示从源自所述多个细胞来源中对应不同细胞来源的一无细胞核酸分子中获得的对应核酸片段的一似然性。所述单独分配步骤包含:(i)将所述相应核酸片段的一甲基化状态与多个标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述多个标准甲基化状态向量集上训练的一分类器,每个对应到一细胞来源。所述多个标准甲基化状态向量集的每个标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个参考对象中一对应参考对象的一组织样本或无细胞核酸样本。所述多个参考对象包含针对多个细胞来源中的每个相应细胞来源的至少一个代表性参考对象。在所述方法中,将所述多个分数集中的每个分数集转换为多个计数集。所述多个计数集中的每个相应计数集代表所述多个细胞来源中的一不同细胞来源。对于每个相应计数集,所述相应计数集中的每个计数是对于对应于由所述相应计数集表示的所述细胞来源的所述物种的一参考序列的基因组中的一对应预定甲基化位点集中的一甲基化位点。在所述方法中,使用所述多个计数集来估计所述测试对象中的所设多个细胞来源部分。对于所述多个计数集中的每个相应计数集,这种估计包含:将所述相应计数集中的所述预定甲基化位点集中每个相应甲基化位点的所述相应计数与一对应参考集中相应甲基化位点的一对应参考分数进行比较。所述对应参考集中的每个对应参考分数是通过确定从所述多个参考对象中一对应参考对象的一组织样本或无细胞核酸样本获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得,对应于由所述计数集表示的所述细胞来源。
在一些这样的实施例中,所述多个标准甲基化状态向量集的一第一标准甲基化状态向量集中的每个标准甲基化状态向量表示所述多个第一参考对象中所述对应参考对象的基因组中的甲基化状态。
在一些替代的实施例中,所述多个标准甲基化状态向量集的一第一标准甲基化状态向量集中的每个标准甲基化状态向量表示所述对应参考对象的基因组的一子集中的甲基化状态。所述基因组的所述子集的一甲基化状态代表所述多个细胞来源中所述第一细胞来源下的致病生理。
在一些实施例中,所述多个细胞来源中的每个细胞来源是多个癌症类型中的不同癌症类型,及所述多个标准甲基化状态向量集的一第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从所述对应参考对象获得的所述多个癌症类型的一癌症类型的一肿瘤样本。
在一些实施例中,所述多个细胞来源中的每个细胞来源是多个癌症类型中的不同癌症类型,以及所述多个标准甲基化状态向量集的一第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从一参考对象的一参考生物样本的多个无细胞核酸。在这样的实施例中,相对于所述多个癌症类型中的一第一癌症类型,对于所述相应的参考对象,所述参考生物样本中的一肿瘤部分是至少百分之二、至少百分之四、至少百分之六、至少百分之八,至少百分之十,至少百分之十二,至少百分之十四,至少百分之十六,至少百分之十八,至少百分之二十,至少百分之三十,至少百分之四十,至少百分之五十,至少百分之六十、至少百分之七十、至少百分之八十或至少百分之九十。
在一些实施例中,所述多个细胞来源中的一第一细胞来源是一癌症类型,及所述多个细胞来源中的一第二细胞来源是多个无癌细胞。
在一些实施例中,所述多个细胞来源中的一第一细胞来源是一癌症类型,及所述方法进一步包含:使用对于所述多个细胞来源部分中的所述第一细胞来源部分的一评估细胞来源部分作为基础或部分基础来确定所述测试对象中所述癌症类型的一阶段。
在一些实施例中,所述多个细胞来源的一第一细胞来源是多个淋巴细胞,及所述方法进一步包含:使用所述多个细胞来源部分中对于所述第一细胞来源部分的一评估细胞来源部分作为基础或部分基础来评估所述测试对象的一癌症状况。
在一些实施例中,所述多个细胞来源中的一第一细胞来源是一癌症类型,及所述方法进一步包含:使用对于所述多个细胞来源部分中的所述第一细胞来源部分的一评估细胞来源部分作为基础或部分基础来确定所述测试对象中对于所述癌症类型的一治疗方案。
在一些实施例中,所述单独分配步骤包含:将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述多个标准甲基化状态向量集上训练的所述分类器,及所述分类器是基于多项式逻辑回归算法。
在一些实施例中,所述单独分配步骤包含将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述多个标准甲基化状态向量集上训练的一分类器,所述分类器是基于一神经网络算法、一支持向量机算法、一朴素贝叶斯算法、一最近邻算法、一增强树算法、一随机森林算法、一卷积神经网络、一决策树算法、一混合模型或一隐马尔可夫模型。
在一些实施例中,一对应预定甲基化位点集包含所述物种的基因组中的五十个甲基化位点、所述物种的基因组中的一百个甲基化位点或所述物种的基因组中的五百个甲基化位点。
在一些实施例中,将所述多个评分集转化为所述多个计数集包含:对于一对应预定甲基化位点集中的每个相应甲基化位点,(a)确定所述多个第一核酸片段中的一第一数量的核酸片段,其(i)映射到所述相应甲基化位点,及(ii)具有满足一阈值的一第一分数,(b)确定所述多个核酸片段中核酸片段的一第二数量,其(i)映射到所述相应甲基化位点及(ii)具有满足或不满足一阈值的一第一分数,以及(c)将对于所述甲基化位点的相应计数分配为所述第一数量和所述第二数量。在一些实施例中,所述第一分数为一似然性,及所述阈值为0.5。在一些这样实施例中,所述第一数量的核酸片段中的每个相应核酸片段的一计数通过其对应第一分数向下加权。
在一些实施例中,所述第一生物样本包含所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。
在一些实施例中,所述第一生物样本由以下的群组组成:所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。
在一些实施例中,所述多个细胞来源中的一细胞来源为一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌或其组合。
在一些实施例中,所述多个细胞来源中的一细胞来源为:一乳腺癌的一阶段、一肺癌的一阶段、一前列腺癌的一阶段、一结直肠癌的一阶段、一肾癌的一阶段、一子宫癌的一阶段、一胰腺癌的一阶段、一食道癌的一阶段、一淋巴瘤的一阶段、一头颈癌的一阶段、一卵巢癌的一阶段、一肝胆癌的一阶段、一黑色素瘤的一阶段、一宫颈癌的一阶段、一多发性骨髓瘤的一阶段、一白血病的一阶段、一甲状腺癌的一阶段、一膀胱癌的一阶段或一胃癌的一阶段。
在一些实施例中,所述测试对象为人类,及每个参考对象为人类。
在一些实施例中,所述多个细胞来源中的一来源是实施例8中识别的任何来源。在一些实施例中,所述多个细胞来源中的每个细胞来源是实施例8中识别的任何来源。
本公开的另一方面提供了一种计算机系统,所述计算机系统包含:一个或多个处理器和一存储器,所述存储器存储一个或多个程序以供所述一个或多个处理器执行。所述一个或多个程序包含多个指令,所述多个指令通过一方法对于多个细胞来源中的每个细胞来源估计一给定物种的一测试对象的一第一生物样本中的一相应细胞来源部分的方法,从而估计多个细胞来源部分。所述方法包含:在一第一时间段从所述测试对象的所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态;所述方法进一步包含:将多个分数单独分配给所述多个第一核酸片段中的每个相应核酸片段,从而获得多个第一分数集,其中每个分数集包含多个分数对应于可用参考细胞来源的数量。所述多个分数集中的每个相应分数集是针对所述多个第一核酸片段中的一对应核酸片段。所述多个分数集中的每个相应分数集中的每个相应分数表示从源自所述多个细胞来源中对应不同细胞来源的一无细胞核酸分子中获得的对应核酸片段的一似然性。所述单独分配步骤包含:(i)将所述相应核酸片段的一甲基化状态与多个标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述多个标准甲基化状态向量集上训练的一分类器,每个对应到一细胞来源。所述多个标准甲基化状态向量集的每个标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个参考对象中一对应参考对象的一组织样本或无细胞核酸样本。所述多个参考对象包含针对多个细胞来源中的每个相应细胞来源的至少一个代表性参考对象。所述方法进一步包含:将所述多个分数集转换为多个计数集。所述多个计数集中的每个相应计数集表示所述多个细胞来源中的不同细胞来源,其中对于每个相应计数集,所述相应计数集中的每个计数是对于对应于由所述相应计数集表示的所述细胞来源的所述物种的一参考序列的基因组中的一对应预定甲基化位点集中的一甲基化位点。所述方法进一步包含:使用所述多个计数集来估计所述测试对象中的所设多个细胞来源部分。对于所述多个计数集中的每个相应计数集,此估计包含:将所述相应计数集中的所述预定甲基化位点集中每个相应甲基化位点的所述相应计数与一对应参考集中相应甲基化位点的一对应参考分数进行比较。所述对应参考集中的每个对应参考分数是通过确定从所述多个参考对象中一对应参考对象的一组织样本或无细胞核酸样本获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得,对应于由所述计数集表示的所述细胞来源。本公开的另一方面提供了一种计算系统包含以上公开的一个或多个程序,所述一个或多个程序进一步包含用于单独或组合地执行任何上述公开的方法的多个指令。
本公开的另一方面提供了一种对于多个细胞来源中的每个细胞来源估计一给定物种的一测试对象的一第一生物样本中的一相应细胞来源部分的非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质存储一个或多个程序,用于从而估计多个细胞来源部分。所述一个或多个程序被配置为由一计算机执行。再者,所述一个或多个程序包含多个指令,用于在一第一时间段从所述测试对象的一第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态。所述一个或多个程序进一步包含多个指令,用于将多个分数单独分配给所述多个第一核酸片段中的每个相应核酸片段,从而获得多个第一分数集,其中每个分数集包含多个分数对应于可用参考细胞来源的数量。所述多个分数集中的每个相应分数集是针对所述多个第一核酸片段中的一对应核酸片段。所述多个分数集中的每个相应分数集中的每个相应分数表示从源自所述多个细胞来源中对应不同细胞来源的一无细胞核酸分子中获得的对应核酸片段的一似然性。所述单独分配步骤包含:(i)将所述相应核酸片段的一甲基化状态与多个标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述多个标准甲基化状态向量集上训练的一分类器,每个对应到一细胞来源。所述多个标准甲基化状态向量集的每个标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个参考对象中一对应参考对象的一组织样本或无细胞核酸样本。所述多个参考对象包含针对多个细胞来源中的每个相应细胞来源的至少一个代表性参考对象。所述一个或多个程序进一步包含多个指令,用于将所述多个分数集转换为多个计数集。所述多个计数集中的每个相应计数集代表所述多个细胞来源中的一不同细胞来源。对于每个相应计数集,所述相应计数集中的每个计数是对于对应于由所述相应计数集表示的所述细胞来源的所述物种的一参考序列的基因组中的一对应预定甲基化位点集中的一甲基化位点。所述一个或多个程序进一步包含多个指令,用于使用所述多个计数集来估计所述测试对象中的所设多个细胞来源部分。对于所述多个计数集中的每个相应计数集,所述估计步骤(D)包含:将所述相应计数集中的所述预定甲基化位点集中每个相应甲基化位点的所述相应计数与一对应参考集中相应甲基化位点的一对应参考分数进行比较。所述对应参考集中的每个对应参考分数是通过确定从所述多个参考对象中一对应参考对象的一组织样本或无细胞核酸样本获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得,对应于由所述计数集表示的所述细胞来源。
在一些实施例中,一细胞来源是来自非癌性组织。在一些实施例中,一细胞来源是来自衍生自健康组织的多个细胞。在一些实施例中,一来源是来自一健康组织,例如乳房、肺、前列腺、结肠直肠、肾、子宫、胰腺、食道、淋巴、卵巢、宫颈、表皮、甲状腺、膀胱、胃、或其组合。
本公开的另一方面提供了非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质包含上文公开的一个或多个程序,其中所述一个或多个程序进一步包含用于单独或组合地执行任何上述公开的方法的多个指令。
C.训练分类器以区分第一细胞来源和第二细胞来源的实施例。本公开的另一方面提供了一种分类方法,所述分类方法包含:在一计算机系统处,所述计算机系统具有一个或多个处理器和一存储器,所述存储器存储一个或多个程序以供所述一个或多个处理器执行以下步骤:对于多个第一参考对象中的每个相应参考对象,其中所述多个第一参考对象中的每个参考对象具有一第一细胞来源,在一第一时间段从所述相应参考对象的一生物样本中以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态。所述一个或多个程序使用所述多个第一核酸片段中的每个核酸片段的甲基化状态来生成一对应甲基化状态向量,从而获得一第一标准甲基化状态向量集。所述一个或多个程序,对于多个第二参考对象中的每个相应参考对象,其中所述多个第二参考对象中的每个参考对象具有一第二细胞来源,从所述相应参考对象的一生物样本以电子形式获得多个第二核酸片段中每个核酸片段的一甲基化状态。所述一个或多个程序使用所述多个第二核酸片段中的每个核酸片段的甲基化状态来生成一对应甲基化状态向量,从而获得一第二标准甲基化状态向量集。所述一个或多个程序结合所述多个第一参考对象和所述多个第二参考对象中每个相应参考对象的一细胞来源,将所述第一标准甲基化状态向量集及所述第二标准甲基化状态向量集共同应用于一未经训练或部分训练的分类器,从而获得一经训练的分类器,所述经训练的分类器在所述第一细胞来源和所述第二细胞来源之间进行区别。
在一些实施例中,所述第一细胞来源为一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、或胃癌。
在一些实施例中,所述第二细胞来源是健康无癌症的多个细胞。
在一些实施例中,所述第一细胞来源或所述第二细胞来源来自非癌性组织。在一些实施例中,第一细胞来源或所述第二细胞来源来自衍生自健康组织的多个细胞。在一些实施例中,所述第一细胞来源或所述第二细胞来源来自一健康组织,例如乳房、肺、前列腺、结肠直肠、肾、子宫、胰腺、食道、淋巴、卵巢、宫颈、表皮、甲状腺、膀胱、胃、或其组合。
在一些实施例中,所述第一细胞来源是实施例8中识别的任何细胞来源。在一些实施例中,所述第二细胞来源是实施例8中识别的任何细胞来源。
在一些替代的实施例中,所述第二细胞来源不是所述第一细胞来源,及所述第二细胞来源为一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、或胃癌。
在一些实施例中,所述多个第一核酸片段的每个衍生自一对应第一参考对象的一组织样本或无细胞核酸样本。
在一些实施例中,所述多个第二核酸片段的每个衍生自一对应第二参考对象的一组织样本或无细胞核酸样本。
在一些实施例中,所述未经训练或部分训练的分类器是基于一神经网络算法、一支持向量机算法、一决策树算法、一无监督聚类算法、一监督聚类算法、一逻辑回归算法、一混合模型或一隐马尔可夫模型。在一些实施例中,所述未经训练或部分训练的分类器是基于一多项式分类器。
在一些实施例中,所述方法进一步包含:从不在所述多个第一参考对象或所述多个第二参考对象中的一测试对象的一测试生物样本中的多个无细胞核酸分子以电子形式获得多个测试核酸片段中的每个核酸片段的一甲基化状态。在这样的实施例中,所述方法进一步包含:对所述多个测试核酸片段中的每个相应核酸片段单独分配一第一分数,从而获得多个第一分数。每个相应第一分数表示对应核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性。所述单独分配步骤包含:向所述经训练的分类器提交所述相应测试核酸片段的所述甲基化状态。所述方法进一步包含:将所述多个第一分数转换为多个第一计数。所述多个第一计数中的每个计数是对于所述物种的一参考序列基因组中一第一预定甲基化位点集中的一甲基化位点。所述第一预定甲基化位点集与所述第一细胞来源相关联。所述方法进一步包含:通过将由所述多个第一计数表示的所述第一预定甲基化位点集中的每个相应甲基化位点的相应计数与一第一参考集中的相应甲基化位点的一对应参考分数进行比较,使用所述多个第一计数来估计所述第一生物样本中的一第一细胞来源部分。
本公开的另一方面提供了一种计算系统。所述计算机系统包含:一个或多个处理器和一存储器,所述存储器存储一个或多个程序以供所述一个或多个处理器执行。所述一个或多个程序包含多个指令,用于通过一方法分类。在所述方法中,对于多个第一参考对象中的每个相应参考对象,其中所述多个第一参考对象中的每个参考对象具有一第一细胞来源,从所述相应参考对象的一生物样本中以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态。使用所述多个第一核酸片段中的每个核酸片段的甲基化状态来生成一对应甲基化状态向量,从而获得一第一标准甲基化状态向量集。在所述方法中,对于多个第二参考对象中的每个相应参考对象,其中所述多个第二参考对象中的每个参考对象具有一第二细胞来源,从所述相应参考对象的一生物样本中以电子形式获得多个第二核酸片段中每个核酸片段的一甲基化状态。使用所述多个第二核酸片段中的每个核酸片段的甲基化状态来生成一对应甲基化状态向量,从而获得一第二标准甲基化状态向量集。在所述方法中,结合所述多个第一参考对象和所述多个第二参考对象中每个相应参考对象的一细胞来源,将所述第一标准甲基化状态向量集及所述第二标准甲基化状态向量集共同应用于一未经训练或部分训练的分类器,从而获得一经训练的分类器,所述经训练的分类器在所述第一细胞来源和所述第二细胞来源之间进行区别。本公开的另一方面提供了上文公开的计算系统,其中一个或多个程序还包含多个指令,用于单独或组合地执行上文公开的任何方法。
本公开的另一方面提供了一种非暂时性计算机可读存储介质,用于存储一个或多个程序用于分类。所述一个或多个程序被配置为由一计算机执行。所述一个或多个程序包含多个指令,对于多个第一参考对象中的每个相应参考对象,其中所述多个第一参考对象中的每个参考对象具有一第一细胞来源,在一第一时间段从所述相应参考对象的一生物样本中以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态。所述一个或多个程序包含多个指令,用于使用所述多个第一核酸片段中的每个核酸片段的甲基化状态来生成一对应甲基化状态向量,从而获得一第一标准甲基化状态向量集。所述一个或多个程序进一步包含多个指令,对于多个第二参考对象中的每个相应参考对象,其中所述多个第二参考对象中的每个参考对象具有一第二细胞来源,从所述相应参考对象的一生物样本中以电子形式获得多个第二核酸片段中每个核酸片段的一甲基化状态。所述一个或多个程序进一步包含多个指令,使用所述多个第二核酸片段中的每个核酸片段的甲基化状态来生成一对应甲基化状态向量,从而获得一第二标准甲基化状态向量集。所述一个或多个程序包含多个指令,用于结合所述多个第一参考对象和所述多个第二参考对象中每个相应参考对象的一细胞来源,将所述第一标准甲基化状态向量集及所述第二标准甲基化状态向量集共同应用于一未经训练或部分训练的分类器,从而获得一经训练的分类器,所述经训练的分类器在所述第一细胞来源和所述第二细胞来源之间进行区别。本公开的另一方面提供了上文公开的非暂时性计算机可读存储介质,其中一个或多个程序进一步包含多个指令,用于单独或组合地执行上文公开的任何方法。
A.通过不利用核酸片段分数的转化对甲基化计数来估计至少一个细胞来源的细胞来源部分的实施例。当所述细胞来源部分低于例如万分之一、五千分之一或五百分之一的水平时,上述公开的方法特别有用。在细胞来源部分较高的情况下,例如一百分之一或一百分之五,可以使用更粗粒化的方法(coarse-grained method)来估计所述细胞来源部分。在这样的方法中,针对细胞来源的来源对多个核酸片段进行评分,及此类评分直接用于确定细胞来源部分,而无需将此类核酸片段转化为多个甲基化分数集。根据这样的一个实施例提供了一种估计在一给定物种的一测试对象的一第一生物样本中的一第一细胞来源部分的方法,其中:在一计算机系统处,所述计算机系统具有一个或多个处理器和一存储器,所述存储器存储一个或多个程序以供所述一个或多个处理器执行以下步骤:在一第一时间段从所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态。在所述方法中,对所述多个第一核酸片段中的每个相应核酸片段单独分配一第一分数,从而获得多个第一分数。每个相应第一分数表示对应核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性。所述单独分配步骤包含:(i)将相应核酸片段的甲基化状态与第一标准甲基化状态向量集及与表示除了所述第一细胞来源之外的一来源的一第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述第一标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第一分类器。所述第一标准甲基化状态向量集中的每个标准甲基化状态向量衍生自对应于所述第一细胞来源的多个第一参考对象中一对应参考对象的一组织样本或无细胞核酸样本。所述第二标准甲基化状态向量集中的每个标准甲基化状态向量衍生自对应于一第二细胞来源的多个第二参考对象中一对应参考对象的一组织样本或无细胞核酸样本。在所述方法中,使用所述多个第一核酸片段中每个相应核酸片段的一第一分数,通过评估(i)具有所述第一分数满足一第一预定阈值的多个核酸片段的一数量对比于(ii)所述多个第一核酸片段中的核酸片段总数,来估计所述第一生物样本中所述第一细胞来源部分的一第一情况。
在一些这样的实施例中,所述第一标准甲基化状态向量集中的每个标准甲基化状态向量表示所述多个第一参考对象中所述对应参考对象的基因组中的甲基化状态。
在一些实施例中,所述第一标准甲基化状态向量集中的每个标准甲基化状态向量表示所述参考对象的一基因组子集中的甲基化状态。在这样的实施例中,所述基因组子集的一甲基化状态代表所述第一细胞来源下的致病病理。
在一些实施例中,所述第一细胞来源是所述第一标准甲基化状态向量集中的一癌症类型及一标准甲基化状态向量衍生自从所述对应参考对象获得的所述癌症类型的一肿瘤样本。
在一些实施例中,所述第一细胞来源是一癌症类型,所述第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从所述对应参考对象的一参考生物样本,及所述参考生物样本中的一肿瘤部分的多个无细胞核核酸,相对于所述第一细胞来源,对于所述相应的参考对象,所述参考生物样本中的一肿瘤部分是至少百分之二、至少百分之四、至少百分之六、至少百分之八,至少百分之十,至少百分之十二,至少百分之十四,至少百分之十六,至少百分之十八,至少百分之二十,至少百分之三十,至少百分之四十,至少百分之五十,至少百分之六十、至少百分之七十、至少百分之八十或至少百分之九十。
在一些实施例中,所述第二细胞来源是处于无癌症的一个或多个细胞类型。在一些实施例中,所述第一细胞来源是实施例8中识别的任何来源。在一些实施例中,所述第二细胞来源是实施例8中识别的任何来源。
在一些实施例中,所述第一细胞来源或所述第二细胞来源来自非癌性组织。在一些实施例中,第一细胞来源或所述第二细胞来源来自衍生自健康组织的多个细胞。在一些实施例中,所述第一细胞来源或所述第二细胞来源来自一健康组织,例如乳房、肺、前列腺、结肠直肠、肾、子宫、胰腺、食道、淋巴、卵巢、宫颈、表皮、甲状腺、膀胱、胃、或其组合。
在一些实施例中,所述方法进一步包含:在一第二时间段从所述测试对象的一第二生物样本中的多个第二无细胞核酸分子以电子形式获得多个第二核酸片段中每个核酸片段的一甲基化状态。所述方法进一步包含:对所述多个第二核酸片段中的每个相应核酸片段单独分配一第二分数,从而获得多个第二分数。每个相应第二分数表示核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性。所述单独分配步骤包含:(i)将相应核酸片段的所述甲基化状态与所述第一标准甲基化状态向量集及与所述第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给所述第一分类器。所述方法进一步包含:使用所述多个第二核酸片段中每个相应核酸片段的一第二分数,通过评估(i)具有所述第二分数满足一预定阈值的多个核酸片段的一数量对比于(ii)所述多个第二核酸片段中的核酸片段总数,来估计所述第二生物样本中所述第一细胞来源部分的一第二情况。
在一些实施例中,所述第二时间段为在所述第一时间段之后的一个月到一年之间。在一些实施例中,所述第二时间段为在所述第一时间段之后的一天到一个月之间。
在一些实施例中,所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况和所述第一细胞来源部分的所述第二情况之间的一差异作为基础或部分基础,以确定所述测试对象中与一疾病状况相关联的所述第一细胞来源的一侵袭性。
在一些实施例中,所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况和所述第一细胞来源部分的所述第二情况之间的一差异作为基础或部分基础,以确定与所述测试对象中所述第一细胞来源相关联的一疾病状况的一治疗方案。
在一些实施例中,所述第一细胞来源是一癌症类型,及所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况作为基础或部分基础来确定所述测试对象中所述癌症类型的一阶段。
在一些实施例中,所述第一细胞来源是多个淋巴细胞,及所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况作为基础或部分基础来评估所述测试对象的一癌症状况。
在一些实施例中,所述第一细胞来源是一癌症类型,所述方法进一步包含:使用所述第一细胞来源部分作为基础或部分基础来确定所述测试对象中所述癌症的一治疗方案。
在一些实施例中,所述第二标准甲基化状态向量集是所述物种的所述基因组的单个一致的甲基化状态向量,所述物种的所述基因组是由所述多个第二参考对象的所述组织样本或无细胞核酸样本中的多个核酸的一甲基化状态形成,及所述第二标准甲基化状态向量集是所述物种的所述基因组的单个一致的甲基化状态向量,所述物种的所述基因组是由所述多个第二参考对象的所述组织样本或无细胞核酸样本中的多个核酸的一甲基化状态形成。
在一些实施例中,所述第一标准甲基化状态向量集包含所述多个第一参考对象中的每个相应参考对象的所述物种的所述基因组的一不一致的甲基化状态向量,所述不一致的甲基化状态向量由所述相应参考对象的所述组织样本或无细胞核酸样本中的多个核酸的一甲基化状态形成,以及所述第二标准甲基化状态向量集包含所述多个第二参考对象中的每个相应参考对象的所述物种的所述基因组的一不一致的甲基化状态向量,所述不一致的甲基化状态向量由所述相应参考对象的所述组织样本或无细胞核酸样本中的多个核酸的一甲基化状态形成。
在一些实施例中,所述多个第一参考对象包含至少十个参考对象,以及所述多个第二参考对象包含除了所述多个第一参考对象之外的至少十个参考对象。在一些实施例中,所述多个第一参考对象包含至少一百个参考对象,以及所述多个第二参考对象包含除了所述多个第一参考对象之外的至少一百个参考对象。在一些实施例中,所述多个第一参考对象包含比所述多个第二参考对象更多或更少的参考对象。
在一些实施例中,所述单独分配步骤包含:向所述第一分类器提交所述相应核酸片段的所述甲基化状态,以及所述第一分类器是基于一多项式逻辑回归算法。在一些实施例中,所述单独分配步骤包含:向所述第一分类器提交所述相应核酸片段的所述甲基化状态,以及所述第一分类器是基于一神经网络算法、一支持向量机算法、一朴素贝叶斯算法、一最近邻算法、一增强树算法、一随机森林算法、一卷积神经网络、一决策树算法、一混合模型或一隐马尔可夫模型。
在一些实施例中,所述单独分配步骤进一步对所述多个第一核酸片段中的每个相应核酸片段分配一第二分数,从而获得多个第二分数,所述多个第二分数中的每个相应第二分数对应于所述多个第一核酸片段中的一核酸片段,其中每个相应第二分数表示所述对应核酸片段是从源自一第三细胞来源的一无细胞核酸分子获得的一似然性。所述单独分配步骤进一步包含:(i)将相应核酸片段的一甲基化状态与至少一第三标准甲基化状态向量集及与所述第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述第三标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第二分类器,所述第三标准甲基化状态向量集中的每个标准甲基化状态向量衍生自对应于所述第三细胞来源的多个第三参考对象中一对应参考对象的一组织样本或无细胞核酸样本。所述估计步骤进一步包含:使用所述多个第一核酸片段中每个相应核酸片段的一第二分数,通过评估(i)具有一第二分数满足一第二预定阈值的多个核酸片段的一数量对比于(ii)所述多个第一核酸片段中的核酸片段总数,来估计所述第一生物样本中一第二细胞来源部分。
在一些这样的实施例中,所述单独分配步骤相对所述第二分类器提供所述相应核酸片段的所述甲基化状态,所述第一分类器和所述第二分类器相同,及所述第一分类器至少部分地在所述第一标准甲基化状态向量集、所述第二标准甲基化状态向量集和所述第三标准甲基化状态向量集上训练。
在一些实施例中,所述第一分类器是不同于所述第二分类器,及所述第一分类器没有在所述第三标准甲基化状态向量集上训练。
在一些实施例中,所述第一生物样本包含所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。在一些实施例中,所述第一生物样本由以下的群组组成:所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。
在一些实施例中,所述第一细胞来源是一第一癌症的一共同主要起源位点的一个或多个细胞。在一些这样的实施例中,所述第一癌症为一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌或其组合。替代地,在一些这样的实施例中,所述第一癌症为:一乳腺癌的一阶段、一肺癌的一阶段、一前列腺癌的一阶段、一结直肠癌的一阶段、一肾癌的一阶段、一子宫癌的一阶段、一胰腺癌的一阶段、一食道癌的一阶段、一淋巴瘤的一阶段、一头颈癌的一阶段、一卵巢癌的一阶段、一肝胆癌的一阶段、一黑色素瘤的一阶段、一宫颈癌的一阶段、一多发性骨髓瘤的一阶段、一白血病的一阶段、一甲状腺癌的一阶段、一膀胱癌的一阶段或一胃癌的一阶段。
在一些实施例中,所述测试对象为人类,及所述多个第一参考对象和多个第二参考对象中的每个参考对象为人类。
本公开的另一方面提供了一种计算系统,包含一个或多个处理器和一存储器,存储将由所述一个或多个处理器执行的一个或多个程序,所述一个或多个程序包含多个指令,用于通过上文公开的多种方法中任何一种来估计一给定物种的一测试对象中的一第一生物样本中的一第一细胞来源部分。
本公开的又一方面提供了一非暂时性计算机可读存储介质,存储一个或多个程序,所述一个或多个程序用于估计一给定物种的一测试对象的一第一生物样本中的一第一细胞来源部分。所述一个或多个程序被配置为由一计算机执行。一个或多个程序包含用于执行以上公开的任何方法的指令。
所附权利要求范围内的系统、方法和装置的各种实施例均具有若干方面,其中没有一个单独负责本文描述的期望属性。在不限制所附权利要求的范围的情况下,本文描述了一些显着的特征。在考虑了此讨论之后,特别是在阅读了标题为“具体实施方式”的部分之后,将理解如何使用各种实施例的特征。
援引参照:
本说明书中提及的所有出版物、专利和专利申请均以引用的方式整体并入本文,其程度与每个单独的出版物、专利或专利申请被具体地和单独地表示以引用方式并入的程度相同。
附图说明
本文公开的实施方式在附图的附图中以示例而非限制的方式示出。贯类似的附图标记表示贯穿附图的多个视图的相应部分。
图1A和1B示出了根据本公开的一些实施例的计算装置的示例方框图。
图2A和2B共同示出了根据本公开的一些实施例的分类对象方法的示例流程图,其中虚线方框表示可选步骤。
图3图示了根据本公开的一些实施例通过癌症类型分开的对象的ctDNA部分的图示。
图4示出了根据本公开的一些实施例患有图3中所示的任何癌症的对象的ctDNA部分作为癌症分期的函数的图示。
图5图示了根据本公开的一些实施例的比较TCGA和WGBS参考集的图示。
图6图示了根据本公开的一些实施例的分类方法验证差异甲基化区域的模式。
图7示出了根据本公开的一些实施例制备用于测序的核酸样本的方法的流程图。
图8示出了根据本公开的一些实施例获得核酸片段的流程的示意图。
图9示出了根据本公开的一些实施例用于获得甲基化信息以用于筛查测试对象中的癌症状况的方法的示例流程图。
图10提供了根据本公开的一些实施例在一系列试验估计的cfDNA脱落率范围内的累积密度函数。
图11示出了根据本公开的一些实施例将多个相应核酸片段的甲基化状态相对于代表第一细胞来源的第一标准甲基化状态向量集和代表不同于所述第一细胞来源的来源的第二标准甲基化状态向量集进行比较。
图12示出了根据本公开的一个实施例将多个第一分数转化为多个第一计数,其中所述多个第一计数中的每个计数针是对物种的参考序列的基因组中的第一预定甲基化位点集中的甲基化位点,及所述第一预定甲基化位点集与所述第一细胞来源相关联。
具体实施方式
现在将详细参考实施例,其示例在附图中示出。在下文的详细描述中,阐述了许多具体细节以提供对本公开的透彻理解。然而,对于本领域普通技术人员来说明白易懂的是,可以在没有这些具体细节的情况下实践本公开。在其他情况下,没有详细描述众所周知的方法、程序、组件、电路和网络,以免不必要地混淆实施例的方面。
在此描述的实施方式提供了用于确定一对象的估计肿瘤部分的各种技术解决方案。多个核酸片段获取自一对象的一生物样本。所述生物样本包含无细胞核酸。因此,所述多个核酸片段是多个无细胞核酸。针对一预定义的甲基化位点集评估所述多个核酸片段的甲基化状态,并基于甲基化状态为每个核酸片段分配一分数。将所述多个甲基化状态分数转化为多个计数,将其与所述预定义的甲基化位点集中每个甲基化位点的一对应甲基化分数进行比较。所述多个对应甲基化分数是来自所述第一细胞来源中的一甲基化模式的分析。这种比较确定了所述对象中甲基化的一频率,然后将其用于估计关于所述第一细胞来源的肿瘤部分。
定义
如本文所用,术语“大约(about或approximately)”是指在由本领域普通技术人员确定的特定值的可接受误差范围内,这部分取决于所述值是如何测量或确定的,例如,测量系统的限制。例如,在一些实施例中,根据本领域的实践,“大约”是指在1个标准偏差内或超过1个标准偏差。在一些实施例中,“大约”是指在一给定值的±20%、±10%、±5%或±1%的一范围。在一些实施例中,术语“大约”是指在一个数量级内、一值的5倍以内或2倍以内。在本申请和权利要求中描述特定值的情况下,除非另有说明,否则应假定术语“大约”的含义在特定值的可接受误差范围内。术语“大约”可以具有本领域普通技术人员通常理解的含义。在一些实施例中,术语“大约”是指±10%。在一些实施例中,术语“大约”是指±5%。
如本文所用,术语“测定(assay)”是指用于确定一物质的一特性的技术,例如,一核酸、一蛋白质、一细胞、一组织或一器官。一测定(例如,一第一测定或一第二测定)可以包含用于确定一样本中核酸的拷贝数变异、一样本中核酸的甲基化状态、一样本中核酸的片段大小分布、一样本中核酸的突变状态,或一样本中核酸的片段化模式的技术。本领域普通技术人员已知的任何测定可用于检测本文提及的核酸的任何特性。核酸分子的特性可以包含序列、基因组同一性、拷贝数、一个或多个核苷酸位置的甲基化状态、核酸的大小、在一个或多个核苷酸位置的核酸中是否存在突变、以及核酸片段化模式(例如,核酸片段所在的(多个)核苷酸位置)。一测定或方法可以具有一特定的灵敏度和/或特异性,及它们作为诊断工具的相对有用性可以使用ROC-AUC统计来衡量。如本文所公开,一测序测定可以是一全基因组测序测定(例如,非甲基化或甲基化)或一靶向测序分析(例如,非甲基化或甲基化)。
如本文所用,术语“生物样本(biological sample)”、“患者样本(patientsample)”和“样本(sample)”可互换使用并且是指取自一对象的任何样本,其可反映与对象相关联的一生物状态。在一些实施例中,此类样本含有多个无细胞核酸,如无细胞DNA。在一些实施例中,此类样本包含除了多个无细胞核酸之外的核酸。所述多个生物样本的实施例包含但不限于所述对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。在一些实施例中,所述生物样本由以下的群组组成:所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。在这样的实施例中,所述生物样本限于所述对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液,及不包含所述对象的其他成分(例如,实体组织,等)。一生物样本可以包含衍生自活的或死的对象的任何组织或材料。一生物样本可以是一无细胞样本。一生物样本可以包含一核酸(例如,DNA或RNA)或其片段。一样本可以是液体样本或固体样本(例如,细胞或组织样本)。一生物样本可以是体液,例如血液、血浆、血清、尿液、阴道液、鞘膜积液(例如,睾丸积液)、阴道冲洗液、胸膜液、腹水、脑脊液、唾液、汗液、眼泪、痰、支气管肺泡灌洗液、乳头排出液、身体不同部位(例如,甲状腺、乳房)的抽吸液等。一生物样本可以是粪便样本。在各种实施例中,已扩增的无细胞DNA的一生物样本中的大部分DNA(例如,通过离心方案获得的血浆样本)可以是无细胞的(例如,大于50%、60%、70%、80%、90%、95%或99%的DNA可以是无细胞的)。可对一生物样本进行处理以物理破坏组织或细胞结构(例如,离心和/或细胞裂解),从而将细胞内成分释放到溶液中,所述溶液可进一步包含可用于制备样本以供分析的酶、缓冲液、盐、洗涤剂等。一生物样本可通过侵入性(例如,手术方式)或非侵入性(例如,抽血、拭子或收集排出的样本)从一对象处获得。
在一些实施例中,一生物样本衍生自一组织类型(例如单一器官,例如乳房、肺、前列腺、结肠直肠、肾、子宫、胰腺、食道、淋巴、卵巢、宫颈、表皮、甲状腺、膀胱、胃)。在一些实施例中,一生物样本衍生自一特定条件下的一组织类型(例如,一乳腺癌组织、一肺癌组织、一脂肪肝样本的组织等)。在一些实施例中,一生物样本衍生自两种或更多种组织类型(例如,来自两个或多个器官的组织的组合)。在一些实施例中,一生物样本衍生自一种或多种细胞类型(例如,来自单个器官或一组预定器官的细胞)。
如本文所公开,术语“核酸”和“核酸分子”可互换使用。所述多个术语是指任何组成形式的核酸,例如脱氧核糖核酸(DNA、例如,互补DNA(cDNA)、基因组DNA(gDNA)等)、核糖核酸(RNA、例如,信息RNA(mRNA)、短抑制RNA(siRNA)、核糖体RNA(rRNA)、转移RNA(tRNA)、微小RNA(microRNA)、胎儿或胎盘高度表达的RNA等)和/或DNA或RNA类似物(例如,含有碱基类似物、糖类似物和/或非天然主链等)、RNA/DNA杂交体和聚酰胺核酸(PNA),所有这些都可以是单链或双链形式。除非另有限制,否则一核酸可以包含已知的天然核苷酸类似物,其中一些可以以与天然存在的核苷酸类似的方式起作用。一核酸可以是用于进行本文的流程的任何形式(例如,线性、圆形、超螺旋、单链、双链等)。在一些实施例中,一核酸可以来自单个染色体或其片段(例如,一核酸样本可以来自从一个二倍体生物体获得的样本的一染色体)。在某些实施例中,核酸包含核小体、核小体片段或部分或核小体样结构。核酸有时包含蛋白质(例如,组蛋白、DNA结合蛋白等)。通过本文所述的方法分析的核酸有时基本上是分离的,并且基本上不与蛋白质或其他分子相关联。核酸还包含从单链(“正义(sense)”或“反义(antisense)”、“正(plus)”链或“负(minus)”链、“正向(forward)”阅读框(reading frame)或“反向(reverse)”阅读框)及双链多核苷酸合成、复制或扩增的RNA或DNA的衍生物、变体和类似物。。脱氧核糖核苷酸包含脱氧腺苷、脱氧胞苷、脱氧鸟苷和脱氧胸苷。对于RNA,碱基胞嘧啶被尿嘧啶取代,糖2'位置包含羟基部分。可以使用从一对象获得的核酸作为一模板来制备核酸。
如本文所用,术语“多个无细胞核酸(cell-free nucleic acids)”是指可在一对象的细胞外、体液(如血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、汗液、眼泪、胸膜液、心包液或腹膜液)中发现的核酸分子。无细胞核酸源自一种或多种健康细胞和/或一种或多种癌细胞。无细胞核酸可互换使用为循环核酸。所述无细胞核酸的实施例包含但不限于RNA、线粒体DNA或基因组DNA。如本文所用,术语“无细胞核酸(cell free nucleicacid)”、“无细胞DNA(cell free DNA)”和“cfDNA”可互换使用。如本文所用,术语“循环肿瘤DNA”或“ctDNA”是指源自肿瘤细胞或其他类型癌细胞的核酸片段,其可以作为生物过程的结果从个体身体释放到体液中(例如,血流),例如垂死细胞的凋亡或坏死,或由活的肿瘤细胞主动释放。所述多个无细胞核酸的实施例包含但不限于RNA、线粒体DNA或基因组DNA。
如本文所公开,术语“循环肿瘤DNA”或“ctDNA”是指源自异常组织的核酸片段,例如肿瘤或其他类型癌症的细胞,其可以作为生物过程的结果释放到一对象的血流中,例如垂死细胞的凋亡或坏死,或由活的肿瘤细胞主动释放。
如本文所公开的,术语“参考基因组(reference genome)”是指任何生物体或病毒的任何特定已知、测序或表征的基因组,无论是部分还是完整,其可用于参考来自一对象的已识别序列。用于人类对象以及许多其他生物体的示例性参考基因组在由国家生物技术信息中心(“NCBI”)或加利福尼亚大学圣克鲁兹分校(UCSC)主办的在线基因组浏览器中提供。“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。如本文所用,一参考序列或参考基因组通常是来自一个体或多个个体的聚集或部分聚集的基因组序列。在一些实施例中,一参考基因组是来自一个或多个人类个体的聚集或部分聚集的基因组序列。所述参考基因组可以被视为一物种的基因集的代表性示例。在一些实施例中,一参考基因组包含分配给多个染色体的多个序列。示例性人类参考基因组包含但不限于NCBI建构体(NCBIbuild)34(UCSC等效物(equivalent):hg16)、NCBI建构体35(UCSC等效物:hg17)、NCBI建构体36.1(UCSC等效物:hg18)、GRCh37(UCSC等效物:hg19)和GRCh38(UCSC等效物:hg38)。
如本文所公开,术语“参考基因组的区域”,“基因组区域”或“染色体区域”是指参考基因组的连续或不连续的任何部分。例如,它也可以被称为一箱(bin)、一分区、一基因组部分、一参考基因组的一部分、一染色体的一部分等。在一些实施例中,基因组部分基于基因组序列的特定长度。在一些实施例中,一种方法可以包含对多个基因组区域的多个映射核酸片段的分析。基因组区域的长度可以大致相同,也可以是不同的长度。在一些实施例中,基因组区域的长度大约相等。在一些实施例中,调整或加权不同长度的基因组区域。在一些实施例中,基因组区域为约10千碱基对(kb)至约500千碱基对、约20千碱基对至约400千碱基对、约30千碱基对至约300千碱基对、约40千碱基对至约200千碱基对、有时约50千碱基对至约100千碱基对。在一些实施例中,基因组区域约为100千碱基对至约200千碱基对。基因组区域并不局限于连续的序列。因此,基因组区域可以由连续及/或非连续序列组成。基因组区域不限于单一条染色体。在一些实施例中,基因组区域包含一条染色体的全部或部分或两个或多个染色体的全部或部分。在一些实施例中,基因组区域可以跨越一个、两个或更多个整条的染色体。另外,基因组区域可以跨越多条染色体的连接或不连接部分。
如本文所用,术语“片段(fragment)”可与“核酸片段”互换使用(例如,一DNA片段),及是指包含至少三个连续核苷酸的多核苷酸或多肽序列的一部分。在一生物样本中发现的无细胞核酸分子测序的上下文中,术语“片段”和“核酸片段”互换地指生物样本中发现的无细胞核酸分子或其表示。在这种情况下,测序数据(例如,来自全基因组测序的序列读数,靶向测序等)用于衍生这样的一核酸片段的全部或部分的一个或多个拷贝。如本文所公开,甲基化状态信息可以结合全基因组或靶向甲基化测序获得。这种序列读数实际上可以从原始核酸片段的多个PCR复制的测序中获得,因此“代表(represent)”或“支持(support)”所述核酸片段。可能有多个序列读数,每个序列读数代表或支持生物样本中的特定核酸片段(例如,多个PCR复制)。在一些实施例中,多个核酸片段可被视为多个无细胞核酸。在一些实施例中,来自多个PCR复制的多个序列读数可能具有误导性;例如,当需要确定一特定无细胞核酸分子的丰度水平(abundance level)时。在此类实施例中,仅使用一核酸片段的一拷贝来代表原始无细胞核酸分子(例如,通过在文库制备程序中附接到无细胞核酸分子的多个分子标识符去除多个重复)。在一些实施例中,甲基化测序数据可用于进一步区分这些核酸片段。例如,如果它们每个包含不同的甲基化模式,则共享相同或接近相同的多个序列的两个核酸片段仍可能对应于不同的原始无细胞核酸分子。如本文所公开,多个核酸片段是基于序列信息和嵌入其中的甲基化状态来定义。本领域技术人员将理解,无论初始测序测定是否针对整个基因组(例如,全基因组甲基化测序),或仅基因组的选定区域(例如,靶向甲基化测序)都可以进行片段识别和后续分析。
在一些实施例中,当相应片段序列彼此相差少于2个核苷酸、少于3个核苷酸、少于4个核苷酸、少于5个核苷酸、少于少于6个核苷酸、少于7个核苷酸、少于8个核苷酸、少于9个核苷酸、少于10个核苷酸、少于15个核苷酸、少于20个核苷酸、少于25个核苷酸、少于30核苷酸,少于35个核苷酸,少于40个核苷酸,少于45个核苷酸,或少于50个核苷酸,两个片段被认为共享几乎相同的核酸序列。在一些实施例中,当相应片段序列彼此相差少于总核苷酸的1%、少于总核苷酸的2%、少于总核苷酸的3%、少于总核苷酸的4%,或少于总核苷酸的5%时,两个片段被认为共享几乎相同的序列。
在一些实施方案中,来自多个相应(例如,第一或第二)核酸片段的一第一片段与一参考基因组中的一第一位置相对齐,及来自多个相应(例如,第一或第二)核酸片段的一第二片段与一参考基因组中的一第二位置相对齐。在一些实施例中,所述第一和第二位置对应于所述参考基因组中的不同区域。在一些实施例中,所述第一和第二位置是相同的位置(例如,所述第一和第二位置对应于所述参考基因组的相同区域)。在一些实施例中,所述第一和第二位置在所述参考基因组中通过至少1个残基、至少2个残基、至少3个残基、至少4个残基、至少5个残基、至少6个残基、至少7个残基、至少8个残基、至少9个残基、至少10个残基、至少11个残基、至少12个残基、至少13个残基、至少14个残基、至少15个残基、至少16个残基、至少17个残基、至少18个残基、至少19个残基、至少20个残基、至少30个残基、至少40个残基、至少50个残基、至少60个残基、通过至少70个残基、至少80个残基、至少90个残基或至少100个残基相重叠。在一些实施例中,所述第一位置和所述第二位置在所述参考基因组中重叠1到50个残基之间。在一些实施例中,所述第一和第二位置映射到所述参考基因组中的不同基因。在一些实施例中,所述第一和第二位置在所述参考基因组的不同染色体上。
如本文所用,术语“多个序列读数(sequence reads)”或“多个读数(reads)”是指通过本文所述或本领域已知的任何测序程序产生的核苷酸序列。可以从多个核酸片段的一端生成多个读数(“单端读数”),有时也可以从多个核酸的两端生成(例如,双端读数(paired-end reads、double-end reads))。在一些实施例中,多个序列读数(例如,单端或双端读数)可以从一靶向核酸片段的一条或两条链产生。所述序列读数的长度通常与特定的测序技术相关联。例如,高通量方法提供的序列读数大小从数十到数百个碱基对(bp)不等。在一些实施例中,所述多个序列读数是约15个碱基对至900个碱基对(例如,约20个碱基对、约25个碱基对、约30个碱基对、约35个碱基对、约40个碱基对、约45个碱基对、约50个碱基对、约55个碱基对、约60个碱基对、约65个碱基对、约70个碱基对、约75个碱基对、约80个碱基对、约85个碱基对、约90个碱基对、约95个碱基对、约100个碱基对、约110个碱基对、约120个碱基对、约130个碱基对、约140个碱基对、约150个碱基对、约200个碱基对、约250个碱基对、约300个碱基对、约350个碱基对、约400个碱基对、约450个碱基对或约500个碱基对)长的一平均、中值或平均长度的序列读数。在一些实施例中,所述多个序列读数是具有约1000个碱基对、2000个碱基对、5000个碱基对、10,000个碱基对或50,000个碱基对或更多个碱基对的一平均、中值或平均长度的序列读数。例如,纳米孔测序可以提供大小从数十到数百到数千个碱基对不等的序列读数。Illumina平行测序可以提供变化不大的序列读数,例如,大多数序列读数可以小于200个碱基对。一序列读数(或测序读数)可以指对应于一核酸分子(例如,一串核苷酸)的序列信息。例如,一序列读数可以从一核酸片段对应一串核苷酸(例如,约20至约150个),可对应于一核酸片段的一端或两端的一串核苷酸,或可对应于整个核酸片段的核苷酸。可以通过多种方式获得序列读数,例如,使用测序技术或使用探针,例如,在杂交阵列或捕获探针,或扩增技术中,例如聚合酶链反应(PCR)或使用单一引物的线性扩增或等温扩增。
如本文所公开,本文所用的术语“测序(sequencing)”、“序列测定(sequencedetermination)”等通常是指可用于确定多个生物大分子(例如核酸或蛋白质)的顺序的任何和所有生化程序。例如,测序数据可以包含一核酸分子(例如,DNA片段)中的全部或部分核苷酸碱基。
如本文所公开,术语“单核苷酸变体(single nucleotide variant)”或“SNV”是指在一核苷酸序列(例如,从一个体的序列读数)的一位置(例如,位点)处将一个核苷酸替换为不同的核苷酸。从一第一核苷碱基X到一第二核苷碱基Y的取代可以表示为“X>Y”。例如,从胞嘧啶到胸腺嘧啶的SNV可以表示为“C>T”。
如本文所用,术语“甲基化图谱(methylation profile)”(也称为甲基化状态(methylation status))可包含与一区域的DNA甲基化相关的信息。与DNA甲基化相关的信息可包含一CpG位点的一甲基化指数、一区域中多个CpG位点的一甲基化密度、一连续区域上多个CpG位点的分布、一区域内对于每个单独CpG位点的甲基化模式或水平,所述区域包含一个以上的CpG位点和非CpG甲基化。基因组的大部分的甲基化图谱可以被认为等同于甲基化组。哺乳动物基因组中的“DNA甲基化”可以指在在CpG二核苷酸中胞嘧啶杂环的第5位添加一个甲基(例如,以产生5-甲基胞嘧啶)。胞嘧啶的甲基化可以发生在其他序列背景下的胞嘧啶中,例如5'-CHG-3'和5'-CHH-3',其中H是腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶的甲基化也可以是5-羟甲基胞嘧啶的形式。DNA的甲基化可以包含非胞嘧啶核苷酸的甲基化,例如N6-甲基腺嘌呤。
如本文所用,“甲基化组(methylome)”可以是一基因组中多个位点或基因座的DNA甲基化量的一量度。甲基化组可以对应于一基因组的全部、一基因组的主要部分或一基因组的相对较小的(多个)部分。“肿瘤甲基化组”可以是一对象(例如,一人类)的一肿瘤的一甲基化组。可以使用肿瘤组织或血浆中的无细胞肿瘤DNA来确定一肿瘤甲基化组。肿瘤甲基化组可以是感兴趣的甲基化组的一个示例。感兴趣的甲基化组可以是可以贡献核酸的一器官的一甲基化组,例如,进入体液的DNA(例如,脑细胞、骨骼、肺、心脏、肌肉、肾脏的一甲基化组等)。所述器官可以是移植的器官。
如本文所用,对于每个基因组位点(例如,一CpG位点,DNA的一区域,在碱基沿着5'→3'方向的线性序列中一胞嘧啶核苷酸后跟一鸟嘌呤核苷酸),术语“甲基化指数(methylation index)”可以指显示甲基化的多个核酸片段占涵盖该位点的核酸片段总数的比例。一区域的“甲基化密度”可以是一区域内显示甲基化的位点的核酸片段数除以涵盖该区域位点的核酸片段总数。这些位点可以具有特定的特征(例如,这些位点可以是CpG位点)。一区域的“CpG甲基化密度”可以是显示CpG甲基化的核酸片段数除以涵盖该区域中CpG位点的核酸片段总数(例如,一特定的CpG位点、一CpG岛中的多个CpG位点或更大区域内的多个CpG位点)。例如,人类基因组中每个100-kb箱(bin)的甲基化密度可以从多个CpG位点处未转化的胞嘧啶(其可以对应于甲基化胞嘧啶)的总数来确定为映射到100-kb区域的核酸片段所覆盖的所有CpG位点的比例。在一些实施例中,该分析针对其他箱大小(例如,50-kb或1-Mb等)。在一些实施例中,一区域是整个基因组或一染色体或染一色体的一部分(例如,染色体臂)。当区域仅包括该CpG位点时,CpG位点的甲基化指数可以与该区域的甲基化密度相同。甲基化胞嘧啶的比例”可以指在该区域中显示甲基化(例如在亚硫酸氢盐转化后未转化)的胞嘧啶位点“C”的数目除以分析的胞嘧啶残基的总数目(即包括CpG背景之外的胞嘧啶)。甲基化指数、甲基化密度和甲基化胞嘧啶的比例是“甲基化水平”的示例。
如本文所用,术语“相对丰度”可以指具有特定特性(例如,指定长度,终止于一个或多个指定坐标/终止位置,或与基因组的特定区域相对齐,或具有特定甲基化状态)的核酸片段的第一数量与具有特定特性(例如,指定长度,终止于一个或多个指定坐标/终止位置,与基因组的特定区域相对齐,或具有特定甲基化状态)的核酸片段的第二数量的比率。在一个示例中,相对丰度可以指终止于第一集的基因组位置上的DNA片段的数目与终止于第二集的基因组位置上的DNA片段的数目的比率。在一些方面,“相对丰度”可以是一类分离值,其将终止于基因组位置的一个窗口内的无细胞DNA分子的量(一个值)与终止于基因组位置的另一窗口内的无细胞DNA分子的量(另一个值)相关联。两个窗口可以重叠,但可具有不同的大小。在其他实现方案中,两个窗口不能重叠。此外,在一些实施例中,窗口可以是一个核苷酸的宽度,并且因此相当于一个基因组位置。
如本文所用,术语“甲基化”指的是脱氧核糖核酸(DNA)的一种修饰,其中一胞嘧啶碱基的嘧啶环上的一氢原子被转化成一甲基,以形成5-甲基胞嘧啶。特别地,甲基化倾向于发生在胞嘧啶及鸟嘌呤的二核苷酸处,在本文中称为“CpG位点”。在其他示例中,甲基化可能发生在一胞嘧啶的非CpG位点的部分上,或是非胞嘧啶的其他核苷酸上;然而,这些情况很少发生。在本公开中,为了清楚起见,参考CpG位点讨论甲基化。异常的cfDNA甲基化可被辨识为高甲基化或低甲基化,这两者皆可表明癌症的状态。本领域众所周知,DNA甲基化异常(与健康的对照组相比)可引起不同的作用,其可能导致癌症。
在异常甲基化的cfDNA片段的识别中出现了各种挑战。首先,确定一对象的cfDNA异常甲基化仅与一对照组对象相比具有重要意义,因此,如果对照组的数量较小,则所述确定较小对照组的置信度会下降。此外,在一对照组对象中,甲基化状态可能会有所不同,这在确定一对象的cfDNA异常甲基化时可能难以解释。另一方面,一CpG位点处的胞嘧啶甲基化会影响后续CpG位点的甲基化。
本领域技术人员将理解,本文所述的原理同样适用于在非CpG背景下的甲基化检测,包含非胞嘧啶甲基化。此外,甲基化状态向量可以包含通常是甲基化已发生或未发生的位点的向量的元件(即使那些位点不是特定的CpG位点)。通过该取代,本文所述的其余方法相同,因此本文所述的发明概念适用于那些其他形式的甲基化。
如本文所公开,术语“对象(subject)”是指任何活的或非活的生物体,包含但不限于人类(例如,男性人类、女性人类、胎儿、怀孕女性、儿童等)、非人类动物、植物、细菌、真菌或原生生物。任何人类或非人类动物都可以作为对象,包含但不限于哺乳动物、爬行动物、鸟类、两栖动物、鱼类、有蹄类动物、反刍动物、牛科动物(例如,牛(cattle))、马科动物(例如,马)、羊(caprine和ovine)(例如,绵羊、山羊),猪(swine)(例如,猪(pig))、骆驼科(例如,骆驼、羊驼(llama、alpaca))、猴子、类人猿(例如,大猩猩、黑猩猩)、熊类(例如,熊)、家禽、狗、猫、老鼠(mouse、rat)、鱼、海豚、鲸鱼和鲨鱼。术语“对象”和“患者”在本文中可互换使用,是指已知患有或可能患有医学状况或病症(例如,一种癌症)的人类或非人类动物。在一些实施例中,对象是任何阶段的男性或女性(例如,男人、女人或儿童)。
从其获取样本或通过本文所述的任何方法或组合物进行治疗的对象可以是任何年龄,及可以是成人、婴儿或儿童。在某些情况下,所述对象,例如,患者是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99岁,或在其中的范围内(例如,约2至约20岁之间、约20至约40岁之间、或约40至约90岁之间)。特定类别的对象(例如,患者)可以受益于本公开的方法是40岁以上的对象(例如,患者)。
另一类别的特殊对象(例如,患者)可以从本公开的方法中受益的是儿科患者,他们可能处于慢性心脏症状的较高风险中。此外,一对象(例如,患者)从其取样本或通过本文所述的任何方法或组合进行治疗的患者可以是男性或女性。
此处使用的术语“归一化(normalize)”是指为了比较的目的将一个值或一组值变换到一个共同的参考系。例如,当诊断ctDNA水平与基线ctDNA水平“归一化”时,将诊断ctDNA水平与基线ctDNA水平进行比较,以便可以确定诊断ctDNA水平与基线ctDNA水平的差异量。
如本文所用,术语“癌症”或“肿瘤”是指异常的组织块,其中所述块的生长超过正常组织的生长并且与正常组织的生长不协调。根据以下特征,可以将癌症或肿瘤定义为“良性”或“恶性”:细胞分化程度,包含形态和功能、生长速度、局部浸润和转移。“良性”肿瘤可以很好地分化,具有比恶性肿瘤更慢的生长特征并且仍然局限于起源部位。此外,在某些情况下,良性肿瘤没有浸润、侵入或转移到远处部位的能力。“恶性”肿瘤可以是分化差的(间变性),具有快速生长特征,伴随着周围组织的逐渐浸润、侵袭和破坏。此外,恶性肿瘤可能有转移到远处部位的能力。
如本文所用,术语“癌症水平”是指癌症是否存在(例如,存在或不存在)、癌症的阶段、肿瘤的大小、是否存在转移、身体的总肿瘤负荷和/或癌症严重性的其他度量(例如,癌症复发)。癌症水平可以是数字或其他标记,例如符号、字母和颜色。所述水平可以为零。癌症水平还可以包含与突变或许多突变相关的癌前(premalignant或precancerous)病症(状态)。癌症水平可以以多种方式使用。例如,筛查可以检查以前不知道患有癌症的人是否患有癌症。评估可以调查已被诊断出患有癌症的人,以监测癌症随时间的进展、研究疗法的有效性或确定预后。在一个实施例中,预后可以表示为对象死于癌症的几率,或特定持续时间或时间后癌症进展的几率,或癌症转移的几率。检测可以包含“筛查(screening)”或可以包含检查某人具有癌症的示意特征(例如,症状或其他阳性测试)是否患有癌症。
术语“癌症负荷(cancer load)”、“肿瘤负荷(tumor load)”、“癌症负荷(cancerburden)”和“肿瘤负荷(tumor burden)”在本文中可互换使用以指测试样本中肿瘤衍生核酸的浓度或存在。因此,术语“癌症负荷”和“肿瘤负荷”是在生物样本中细胞来源部分(例如,肿瘤部分)的非限制性实施例。在一些实施例中,肿瘤部分是细胞来源部分的特定版本。
如本文所用,术语“组织”对应于作为功能单元组合在一起的一组细胞。在单个组织中可以发现不止一种类型的细胞。不同类型的组织可能由不同类型的细胞组成(例如,肝细胞、肺泡细胞或血细胞),但也可以对应于来自不同生物体的组织(母亲与胎儿)或健康细胞与肿瘤细胞。术语“组织”通常可以指在人体中发现的任何细胞组(例如,心脏组织、肺组织、肾组织、鼻咽组织、口咽组织)。在一些方面,术语“组织”或“组织类型”可用于指无细胞核酸源自的组织。在一实施例中,病毒核酸片段可衍生自血液组织。在另一个实施例中,病毒核酸片段可以衍生自肿瘤组织。
如本文所用,术语“未经训练的分类器”是指尚未在靶向数据集上训练过的分类器。例如,考虑下文讨论的第一标准甲基化状态向量集和第二标准甲基化状态向量集的情况。将相应标准甲基化状态向量集作为集体输入应用于未经训练的分类器,结合由第一标准甲基化状态向量集(下文称为“主训练数据集”)表示的每个相应参考对象的细胞来源在细胞来源上训练未经训练的分类器,从而获得经训练的分类器。此外,应当理解,术语“未经训练的分类器”不排除在未经训练的分类器的训练中使用转移学习技术的可能性。例如,Fernandes等人,2017年,“将部分可观察性的转移学习应用于宫颈癌筛查”,模式识别和图像分析期刊:第8次伊比利亚研讨会论文集,243-250,在此通过引用并入,提供了这种转移学习的非限制性示例。在使用转移学习的情况下,向上述未经训练的分类器提供了超出主训练数据集的额外数据。即,在转移学习实施例的非限制性示例中,未经训练的分类器接收(i)标准甲基化状态向量集和由标准甲基化状态向量集(“主训练数据集”)表示的每个参考对象的细胞来源标签,以及(ii)附加数据。通常,这些附加数据以从另一辅助训练数据集学习的系数(例如,回归系数)的形式存在。此外,虽然已经公开了单个辅助训练数据集的描述,但是应当理解,在本公开中,在训练未经训练的分类器时可以用来补充主训练数据集的辅助训练数据集的数量没有限制。例如,在一些实施例中,两个或更多个辅助训练数据集、三个或更多个辅助训练数据集、四个或更多个辅助训练数据集或五个或更多个辅助训练数据集用于通过转移学习来补充主训练数据集,其中每个这样的辅助训练数据集与主训练数据集不同。在这样的实施例中可以使用任何方式的转移学习。例如,考虑除了主训练数据集之外,还有第一辅助训练数据集和第二辅助训练数据集的情况。可使用转移学习技术(例如,上述的二维矩阵乘法)将从第一辅助训练数据集学习的系数(通过应用例如对第一辅助训练数据集的回归之类的分类器)应用于第二辅助训练数据集,这反过来可能导致训练的中间分类器,其系数随后应用于主训练数据集,并且这与主训练数据集本身一起应用于未经训练的分类器。或者,从第一辅助训练数据集学习的第一系数集(通过应用分类器,例如回归到第一辅助训练数据集)和从第二辅助训练数据集学习的第二系数集(通过应用分类器,例如回归到第二辅助训练数据集)可以分别应用于主训练数据集的单独实例(例如,通过单独的独立矩阵乘法)以及系数的这两种应用来分离主训练数据集的实例,结合主训练数据集本身(或主训练数据集的某种简化形式,例如从主训练集中学习的主成分或回归系数),然后可以应用于未经训练的分类器以训练未经训练的分类器。在任一示例中,使用从第一和第二辅助训练数据集衍生的关于细胞来源(例如,癌症类型等)的知识,结合标记为主训练数据集的细胞来源来训练未经训练的分类器。
术语“分类”可以指与样本的特定属性相关联的任何数字或其他字符。例如,“+”符号(或单词“正(positive)”)可以表示样本被归类为具有缺失或扩增。在另一个实施例中,术语“分类”是指对象和/或样本中肿瘤组织的量、对象和/或样本中肿瘤的大小、对象中肿瘤的阶段、对象和/或样本的肿瘤负荷,以及对象中肿瘤转移的存在。在一些实施例中,所述分类是二元的(例如,正或负)或具有更多分类级别(例如,从1到10或0到1的尺度)。在一些实施例中,术语“截止值”和“阈值”是指在操作中使用的预定数字。在一个实施例中,截止大小是指高于一大小被排除的片段。在一些实施例中,阈值是高于或低于特定分类的值。这些术语中的任何一个都可以在这些上下文中使用。
如本文所用,术语“癌症相关变化”或“癌症特异性变化”可以包含癌症衍生的突变(包含单核苷酸突变、核苷酸的缺失或插入、遗传或染色体区段的缺失、易位、反转)、基因的扩增、病毒相关序列(例如病毒附加体、病毒插入体、被感染到细胞中并随后被细胞释放的病毒DNA,以及循环或无细胞病毒DNA)、异常甲基化图谱或肿瘤特异性甲基化标记、异常无细胞核酸(例如,DNA)大小图谱、异常组蛋白修饰标记和其它后天修饰,以及是癌症相关或癌症特异性的无细胞DNA片段的末端的位置。
如本文所用,术语“对照”、“对照样本”、“参考”、“参考样本”、“正常”和“正常样本”描述来自没有特定病症或在其他方面健康的对象的样本。在一个实施例中,本文公开的方法可以对患有肿瘤的对象进行,其中参考样本是取自对象的健康组织的样本。参考样本可以从对象或从数据库中获得。参考可以是,例如,用于映射从对象测序样本获得的核酸片段的参考基因组。参考基因组可以指单倍体或二倍体基因组,来自生物样本和组成样本的核酸片段可以与该基因组进行对齐和比较。构成样本的一个实施例可以是从对象获得的白细胞的DNA。对于单倍体基因组,每个基因座只能有一个核苷酸。对于二倍体基因组,可以识别杂合位点;每个杂合基因座可以有两个等位基因,其中任何一个等位基因都可以与该基因座对齐匹配。
本文使用的术语仅用于描述特定情况,并不旨在进行限制。如本文所用,单数形式“一(a、an)”和“所述(the)”也旨在包含复数形式,除非上下文另有明确指示。此外,在详细描述和/或权利要求中使用术语“包含(including、includes)”、“具有(having、has、with)”或其变体,则此类术语旨在以类似于术语“包含(comprising)”的方式包含在内。
下面结合示例应用来描述几个方面以供说明。应当理解,本文阐述了许多具体细节、关系和方法以提供对本文描述的特征的全面理解。然而,相关领域的普通技术人员将容易地认识到,可以在没有一个或多个具体细节或通过其他方法的情况下实践这里描述的特征。本文描述的特征不受所说明的动作或事件的顺序的限制,因为一些动作可以以不同的顺序发生和/或与其他动作或事件同时发生。此外,并非所有示出的动作或事件都需要实施根据本文描述的特征的方法。
示例性系统实施例
现在结合图1描述示例性系统的细节。图1是示出根据一些实施方式的系统100的方框图。在一些实施方式中,装置100包含一个或多个处理单元CPU102(也称为处理器或处理核心)、一个或多个网络接口104、用户接口106、非持久性存储器111、持久性存储器112以及用于互连这些组件的一个或更多通信总线114。一个或多个通信总线114可选地包含互连和控制系统组件之间的通信的电路(有时称为芯片组)。非持久性存储器111通常包含高速随机存取存储器,例如DRAM、SRAM、DDR、RAM、ROM、EEPROM、闪存,而持久性存储器112通常包含CD-ROM、数字通用盘(DVD)或其他光存储、盒式磁带、磁带、磁盘存储器或其他磁存储装置、磁盘存储装置、光盘存储装置、闪存装置或其他非易失性固态存储装置。持久性存储器112可选地包含一个或多个存储装置102远离CPU。永久性存储器112和非持久性存储器112内的非易失性存储器装置包含非暂时性计算机可读存储介质。在一些实施方式中,非持久性存储器111或可选的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集,有时与持久性存储器112结合:
可选的操作系统116,包含处理各种基本系统服务和执行硬件相关任务的程序;
可选的网络通信模块(或指令)118,用于将系统100与其他装置或通信网络连接;
生物样本序列数据存储120,用于确定在时间126收集的生物样本中测试对象122的细胞来源部分136;
每个相应测试对象122的信息包含:(i)在时间126为相应对象收集的至少一个生物样本的可能细胞来源124,其中每个生物样本包含至少一个核酸片段128,并且其中每个核酸片段的信息包含(i)至少一个甲基化状态130,(ii)一分数132,和(iii)可选第一计数134;及
甲基化状态向量数据存储140,其包含一个或多个标准甲基化状态向量142,每个甲基化状态向量包含细胞来源143和多个甲基化位点144(例如,参考基因组中甲基化位点的基因组位置),每个甲基化位点具有对应甲基化状态146。
在一些实施方式中,一个或多个上述识别的部分被存储在一个或多个先前提到的存储装置中,并且对应于用于执行上述功能的指令集。上述识别的模块、数据或程序(例如,指令集)不需要作为单独的软件程序、流程、数据集或模块来实现,因此这些模块和数据的各种子集可以在各种实施方式中组合或以其他方式重新排列。在一些实施方式中,非持久性存储器111可选地存储上述模块和数据结构的子集。此外,在一些实施例中,存储器存储以上未描述的附加模块和数据结构。在一些实施例中,上述识别的部分中的一个或多个存储在计算机系统中,除了可视化系统100的计算机系统之外,所述计算机系统可由可视化系统100寻址,使得可视化系统100可在需要时检索所有或部分此类数据。
尽管图1描绘了“系统100”,但该图更多地旨在作为可能存在于计算机系统中的各种特征的功能描述,而不是作为本文描述的实施方式的结构示意图。在实践中,并且如本领域普通技术人员所认识到的,单独显示的项目可以组合,并且一些项目可以分开。此外,虽然图1描绘了非持久性存储器111中的某些数据和模块,但是这些数据和模块中的一些或全部可以在持久性存储器112中。
虽然已经参考图1公开了根据本公开的系统,但是现在参考图2详细说明根据本公开的方法。应当理解,任何公开的方法都可以利用2017年10月25日提交的美国专利申请案第15/793,830号和/或具有2017年10月24日的国际申请日国际专利申请案公开第PCT/US17/58099号中公开的任何测定或算法,其中每一个在此通过引用并入,以确定测试对象的癌症状况或对象患有癌症状况的可能性。例如,任何公开的方法都可以与2017年10月25日提交的美国专利申请案第15/793,830号和/或国际申请日为2017年10月24日提交的国际申请日国际专利申请案公开第PCT/US17/58099中公开的任何公开的方法或算法协同工作。
关于第一条件的测试对象确定估计的第一细胞来源部分。
方框202一种估计来自一给定物种的一测试对象的一第一生物样本中的一第一细胞来源部分的方法被提供。在一些实施例中,测试对象是人类对象。在一些实施例中,测试对象是哺乳动物。使用计算机系统100,在一第一时间段126从所述测试对象的所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段128的一甲基化状态130。每个核酸片段128的甲基化状态实际上是从每个核酸片段的可映射到参考基因组的序列部分推断出来的,如下文更详细讨论。在一些实施例中,如以下实施例2中所讨论获得核酸片段。
在一些实施例中,所述对象是任何活的或非活的生物体,包含但不限于人类(例如,男性人类、女性人类、胎儿、怀孕女性、儿童等)、非人类动物、植物、细菌、真菌或原生生物。在一些实施例中,所述对象是哺乳动物、爬行动物、鸟类、两栖动物、鱼类、有蹄类动物、反刍动物、牛科动物(例如,牛)、马科动物(例如,马)、羊(例如,绵羊、山羊),猪类(例如,猪)、骆驼科(例如,骆驼、羊驼)、猴子、类人猿(例如,大猩猩、黑猩猩)、熊类(例如,熊)、家禽、狗、猫、老鼠(mouse、rat)、鱼、海豚、鲸鱼和鲨鱼。在一些实施例中,对象是任何阶段的男性或女性(例如,男人、女人或儿童)。
在一些实施例中,所述生物样本包含:所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。在这样的实施例中,所述生物样本可以包含所述对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液,以及所述对象的其他成分(例如,实体组织等)。
在一些实施例中,所述生物样本由以下的群组组成:所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。在这样的实施例中,所述生物样本限于所述对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液,及不包含所述对象的其他成分(例如,实体组织,等)。
在一些实施例中,所述生物样本包含或由一种或多种特定细胞类型组成(例如,所述生物样本是衍生自一种或多种细胞类型)。在一些实施例中,所述一种或多种细胞类型包含健康的非癌性细胞和癌性细胞的组合。
此类生物样本含有无细胞核酸片段(例如,cfDNA片段)。在一些实施例中,所述生物样本被处理以提取无细胞核酸以准备测序分析。作为非限制性实施例,在一些实施例中,从一对象收集的一生物样本(例如,血液样本)在K2EDTA试管中提取无细胞核酸片段。在生物样本是血液的情况下,在采集后的两小时内通过生物样本的双旋转处理样本,首先在1000g下旋转10分钟,然后在2000g下旋转产生的血浆10分钟。然后将血浆以1毫升等分试样储存在–80℃。以这种方式,从生物样本制备适当量的血浆(例如,1-5毫升),用于无细胞核酸提取。在一些这样的实施例中,使用QIAamp循环核酸试剂盒(Qiagene公司)提取无细胞核酸并洗脱到DNA悬浮缓冲液(Sigma公司)中。在一些实施例中,纯化的无细胞核酸在使用前储存在-20℃下。参见例如,Swanton等人,2017年,“系统发育ctDNA分析描述早期肺癌的进化”,自然期刊,545(7655):446-451,通过引用并入。出于测序目的,可使用其他等效方法从生物方法制备无细胞核酸,且所有此类方法均在本公开的范围内。
在一些实施例中,从生物样本获得的无细胞核酸片段是本公开中定义的任何形式的核酸,或其组合。例如,在一些实施例中,从生物样本获得的无细胞核酸是RNA和DNA的混合物。
在一些实施例中,处理无细胞核酸片段以将未甲基化的胞嘧啶转化为尿嘧啶。在一个实施例中,所述方法使用DNA的亚硫酸氢盐处理,将未甲基化的胞嘧啶转化为尿嘧啶,而不转化甲基化的胞嘧啶。例如,市售的试剂盒,如EZ DNA MethylationTM–Gold,EZ DNAMethylationTM–Direct或EZ DNA MethylationTM–Lightning试剂盒(可从Zymo Research公司(加利福尼亚州欧文市)获得)用于亚硫酸氢盐转化。在另一个实施例中,未甲基化的胞嘧啶向尿嘧啶的转化是使用酶促反应完成的。例如,转化可以使用市售的试剂盒将未甲基化的胞嘧啶转化为尿嘧啶,例如APOBEC-Seq(NEBiolabs公司,伊普斯维奇市,马萨诸塞州)。
从转化的无细胞核酸片段制备测序文库。可选地,使用多种杂交探针富集测序文库的无细胞核酸片段或基因组区域,这些片段或基因组区域可提供细胞来源的信息。杂交探针是短寡核苷酸,可与特定的无细胞核酸片段或靶向区域杂交,并富集这些片段或区域用于后续测序和分析。在一些实施例中,杂交探针用于对一组提供细胞来源信息的特定CpG位点进行靶向、高深度分析。一旦制备,测序文库或其一部分被测序以获得多个核酸片段。
以此方式,在一些实施例中,从生物样本中回收了超过1000个核酸片段128。在一些实施例中,从生物样本中回收了超过5000个核酸片段128。在一些实施例中,从生物样本中回收了超过10,000个、100,000个、200,000个、300,000个、400,000个、500,000个、600,000个、700,000个、800,000个、900,000个、100万个、200万个、300万个、400万个、500万个、600万个、700万个、800万个、900万个、1000万个、1500万个或2000万个核酸片段128。在一些实施例中,从生物样本回收的多个核酸片段128对于对象的基因组的至少百分之二、至少百分之五、至少百分之十、至少百分之二十、至少百分之三十、至少百分之四十、至少百分之五十、至少百分之六十、至少百分之七十、至少百分之八十、至少百分之九十、至少百分之九十八、或者至少百分之九十九基于核酸测序提供1x或更高、2x或更高、5x或更高、10x或更高、或50x或更高的覆盖率。
可使用任何形式的测序从生物样本获得的无细胞核酸中获得多个核酸片段128,包含但不限于高通量测序系统,例如罗氏454平台(Roche 454 platform)、AppliedBiosystems SOLID平台、Helicos True单分子DNA测序技术、Affymetrix公司的杂交测序平台、Pacific Biosciences公司的单分子实时(SMRT)技术、454生命科学公司、Illumina/Solexa和Helicos Biosciences公司的合成测序平台、以及Applied Biosystems公司的连接测序平台。Life Technologies公司的ION TORRENT技术和纳米孔测序也可用于从生物样本中获得的无细胞核酸中获得多个核酸片段128。
在一些实施例中,合成测序和基于可逆终止子的测序(例如,Illumina公司的基因组分析仪;基因组分析仪II;HISEQ 2000;HISEQ 2500(Illumina公司,加利福尼亚州圣地亚哥市)用于从生物样本获得的无细胞核酸获得多个核酸片段128。在一些这样的实施例中,数百万个的无细胞核酸(例如,DNA)片段被并行测序。在此类测序技术的一个实施例中,使用的流动池(flow cell)包含一光学透明载玻片,所述载玻片有八个单独的泳道,其表面上结合了寡核苷酸锚(例如,接合引物)。流动池通常是能被构建以保留和/或可供试剂溶液有序通过结合分析物的固体支持物。在某些情况下,流动池通常是平面形状,光学透明,通常在毫米或亚毫米级,并且常具备多个通道或多个通路,在所述多个通道或通路中发生分析物/试剂的相互作用。在一些实施例中,无细胞核酸样本可包含有助于检测的信号或标签。在一些这样的实施例中,从生物样本获得的无细胞核酸获得的多个核酸片段128包含通过多种技术(例如流式细胞术、定量聚合酶链反应(qPCR)、凝胶电泳、基因芯片分析、微阵列、质谱、细胞荧光分析、荧光显微镜、共焦激光扫描显微镜、激光扫描细胞仪、亲和层析、手动分批模式分离、电场悬浮、测序及其组合)获得信号或标签的量化信息。
在一些实施例中,针对背景拷贝数校正核酸片段。例如,从在对象中重复的染色体或染色体部分产生的核酸片段针对该重复进行校正。这可以通过在运行此推断之前进行归一化来完成,也可以通过允许多个第一细胞来源部分的多于一个值来完成。允许多于一个第一细胞来源部分还能够评估测试对象内的异质性。因此,在一些实施例中,针对背景拷贝数校正每个核酸片段代表单个估计的第一细胞来源部分的独立观察的假设。
在一些实施例中,从生物样本的无细胞核酸样本获得的多个核酸片段128包含超过10个、100个、500个、1,000个、2,000个、5,000个、10,000个、100,000个、200,000个、300,000个、400,000个、500,000个、600,000个、700,000个、800,000个、900,000个、100万个、200万个、300万个、400万个、500万个、600万个、700万个、800万个、900万个、1000万个、1500万个或2000万个无细胞核酸的核酸片段。在一些实施例中,这些核酸片段中的每一个是无细胞核酸的不同部分。在一些实施例中,多个第一核酸片段中的一核酸片段128与多个第一核酸片段中的另一个核酸片段映射至参考基因组的相同重叠部分。
在一些实施例中,每个核酸片段代表不同的无细胞核酸片段。在这种情况下,由于1比1的关系,所述多个无细胞核酸片段的覆盖率被认为是1。
在一些实施例中,平均而言,多个核酸片段中的每个无细胞核酸片段由两个不同的序列读数表示。在这种情况下,由于多个序列读数和所述多个无细胞核酸片段之间的2比1关系,所述多个无细胞核酸片段的覆盖率被认为是2。换句话说,当覆盖率为2时,对于由多个核酸片段代表的每个相应无细胞核酸片段,将平均的会有两个不同的序列读数来自映射到相应无细胞核酸片段的核酸测序。
在一些实施例中,平均而言,多个核酸片段中的每个无细胞核酸片段由来自核酸测序的三个、四个、五个、六个、七个、八个、九个或十个不同的序列读数表示。在这种情况下,由于多个核酸片段中的核酸片段与序列读数之间的关系为3比1、4比1、5比1、6比1、7比1、8比1、9比1或10比1,因此无细胞核酸片段的覆盖率分别被视为3、4、5、6、7、7、8、8、9或10。。
在一些实施例中,平均而言,多个核酸片段中的每个无细胞核酸片段由来自核酸测序的20、25、30、35、40、45、50或55个不同的序列读数表示。在这种情况下,由于多个核酸片段中的核酸片段与序列读数之间存在为20比1、25比1、30比1、40比1、45比1、50比1或55比1的关系,因此无细胞核酸片段的覆盖率分别被认为是20、25、30、35、40、45、50或55。
在一些实施例中,每个核酸片段对应于(包含)一个相应甲基化位点。在一些这样的实施例中,每个核酸片段具有单个相应甲基化状态。在一些此类实施例中,每个核酸片段可具有多于一个的相应甲基化状态,但仅轮询单个相应甲基化状态,并且不评估剩余的甲基化位点。
在一些实施例中,每个核酸片段对应于(包含)一个或多个相应甲基化位点。在此类实施例中,每个核酸片段具有一个或多个甲基化状态,其中每个甲基化状态对应于一相应甲基化位点。在一些实施例中,每个核酸片段包含至少一个甲基化位点、至少两个甲基化位点、至少五个甲基化位点或至少十个甲基化位点。在一些实施例中,多个核酸片段中的每个核酸片段包含相同数目的甲基化位点。在一些实施例中,多个核酸片段中的每个相应核酸片段包含独立数量的甲基化位点,其可以与其他核酸片段中的甲基化位点数量相同或不同。在一些实施例中,来自多个核酸片段的至少一组核酸片段的核酸片段包含的甲基化位点数目不同于第二组核酸片段中的核酸片段中包含的甲基化位点数目。
反映在核酸片段序列中的多个核酸片段中的相应核酸片段的甲基化状态代表无细胞核酸片段的甲基化状态。
在一些实施例中,图2A方框202的第一细胞来源是第一癌症的共同最初原发部位。在一些实施例中,所述第一癌症为一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌或其组合。
在一些实施例中,所述第一细胞来源是某些癌症类型的肿瘤或其一部分。在一些实施例中,肿瘤是肾上腺皮质癌、儿童肾上腺皮质癌、AIDS相关癌症的肿瘤、卡波西肉瘤、与肛门癌相关的肿瘤、与阑尾癌相关的肿瘤、星形细胞瘤、儿童(脑癌)肿瘤、非典型畸胎瘤/横纹肌瘤、中枢神经系统(脑癌)肿瘤、皮肤基底细胞癌、与胆管癌相关的肿瘤、膀胱癌肿瘤、儿童膀胱癌肿瘤、骨癌(如尤文肉瘤、骨肉瘤和恶性纤维组织细胞瘤)组织、脑瘤、乳腺癌组织、儿童乳腺癌组织、儿童支气管肿瘤、伯基特淋巴瘤组织、类癌瘤(胃肠道)、儿童类癌瘤、不明原发癌、不明原发儿童癌、儿童心脏(cardiac、heart)肿瘤、中枢神经系统(例如,脑癌,如儿童非典型畸胎样瘤/横纹肌样瘤/)瘤、儿童生殖细胞肿瘤、宫颈癌组织、儿童宫颈癌组织、胆管癌组织、儿童脊索瘤组织、慢性骨髓增生性肿瘤、结直肠癌肿瘤、儿童结直肠癌肿瘤、儿童颅咽管瘤组织、导管癌原位(DCIS)、儿童胚胎肿瘤、子宫内膜癌(子宫癌)组织、儿童室管膜瘤组织、食管癌组织、儿童食管癌组织、嗅神经母细胞瘤(头颈癌)组织、儿童颅外生殖细胞肿瘤、性腺外胚芽细胞肿瘤、眼癌组织、眼内黑色素瘤、视网膜母细胞瘤、输卵管癌组织、胆囊癌组织、胃(gastric、stomach)癌组织、儿童胃(gastric、stomach)癌组织、胃肠道类癌瘤、胃肠道间质瘤(GIST)、儿童胃肠道间质瘤、生殖细胞肿瘤(如儿童中枢神经系统生殖细胞肿瘤、儿童颅外生殖细胞肿瘤、性腺外生殖细胞肿瘤、卵巢生殖细胞肿瘤或睾丸癌组织)、头颈癌组织、儿童心脏肿瘤、肝细胞癌(HCC)组织、胰岛细胞肿瘤(胰腺神经内分泌肿瘤)、肾或肾细胞癌(RCC)组织、喉癌组织、白血病、肝癌组织、肺癌(非小细胞和小细胞)组织、儿童肺癌组织、男性乳腺癌组织、骨恶性纤维组织细胞瘤和骨肉瘤、黑色素瘤、儿童黑色素瘤、眼内黑色素瘤、儿童眼内黑色素瘤、默克尔细胞癌、恶性间皮瘤、儿童间皮瘤、转移性癌组织、具有隐匿性原发灶的转移性鳞状颈癌组织、具有NUT基因改变的中线癌、口腔癌(头颈癌)组织、多发性内分泌肿瘤综合征组织、多发性骨髓瘤/浆细胞瘤、骨髓增生异常综合征组织、骨髓增生异常/骨髓增生性肿瘤、慢性骨髓增生性肿瘤、鼻腔和鼻窦癌组织、鼻咽癌(NPC)组织、神经母细胞瘤组织、非小细胞肺癌组织、口腔癌组织、唇和口腔腔癌和口咽癌组织、骨肉瘤和骨组织恶性纤维组织细胞瘤、卵巢癌组织、儿童卵巢癌组织、胰腺癌组织、儿童胰腺癌组织、乳头状瘤(儿童喉癌)组织、副神经节瘤组织、儿童副神经节瘤组织、鼻窦鼻腔癌组织、甲状旁腺癌组织、阴茎癌组织、咽癌组织、嗜铬细胞瘤组织、儿童嗜铬细胞瘤组织、垂体瘤、浆细胞肿瘤/多发性骨髓瘤、胸膜肺母细胞瘤、原发性中枢神经系统(CNS)淋巴瘤、原发性腹膜癌组织、前列腺癌组织、直肠癌组织、视网膜母细胞瘤、儿童横纹肌肉瘤、唾液腺癌组织、肉瘤(例如,儿童血管瘤、骨肉瘤、子宫肉瘤等)、Sézary综合征(淋巴瘤)组织、皮肤癌组织、儿童皮肤癌组织、小细胞肺癌组织、小肠癌组织、皮肤鳞状细胞癌、隐匿性原发性颈部鳞状癌、皮肤T细胞淋巴瘤、睾丸癌组织、儿童睾丸癌组织、喉癌(例如鼻咽癌、口咽癌、下咽癌)组织、胸腺瘤或胸腺癌、甲状腺癌组织、肾盂输尿管移行细胞癌组织、不明原发癌组织、输尿管或肾盂组织、移行细胞癌(肾(肾细胞)癌组织、尿道癌组织、子宫内膜癌组织、子宫肉瘤组织)、阴道癌组织、儿童阴道癌组织、血管瘤、外阴癌组织、肾母细胞瘤或其他儿童肾肿瘤。
在一些实施例中,图2A的方框202的第一细胞来源是第一癌症。在一些这样的实施例中,所述第一癌症为:一乳腺癌的一阶段、一肺癌的一阶段、一前列腺癌的一阶段、一结直肠癌的一阶段、一肾癌的一阶段、一子宫癌的一阶段、一胰腺癌的一阶段、一食道癌的一阶段、一淋巴瘤的一阶段、一头颈癌的一阶段、一卵巢癌的一阶段、一肝胆癌的一阶段、一黑色素瘤的一阶段、一宫颈癌的一阶段、一多发性骨髓瘤的一阶段、一白血病的一阶段、一甲状腺癌的一阶段、一膀胱癌的一阶段或一胃癌的一阶段。
在一些实施例中,图2A的方框202的第一细胞来源为:一乳腺癌的一预定阶段、一肺癌的一预定阶段、一前列腺癌的一预定阶段、一结直肠癌的一预定阶段、一肾癌的一预定阶段、一子宫癌的一预定阶段、一胰腺癌的一预定阶段、一食道癌的一预定阶段、一淋巴瘤的一预定阶段、一头颈癌的一预定阶段、一卵巢癌的一预定阶段、一肝胆癌的一预定阶段、一黑色素瘤的一预定阶段、一宫颈癌的一预定阶段、一多发性骨髓瘤的一预定阶段、一白血病的一预定阶段、一甲状腺癌的一预定阶段、一膀胱癌的一预定阶段或一胃癌的一预定阶段。
在一些实施例中,图2A的方框202的第一细胞来源是来自非癌性组织。在一些实施例中,所述第一细胞来源是来自衍生自健康组织的细胞。在一些实施例中,所述第一细胞来源是来自一健康组织,例如乳房、肺、前列腺、结肠直肠、肾、子宫、胰腺、食道、淋巴、卵巢、宫颈、表皮、甲状腺、膀胱、胃、或其组合。在一些实施例中,所述第一细胞来源是一混合健康来源,包含来自多个不同健康组织的健康细胞(例如,乳房、肺、前列腺、结肠直肠、肾、子宫、胰腺、食道、淋巴、卵巢、宫颈、表皮、甲状腺、膀胱、胃、或其组合)。
在一些实施例中,所述第一细胞来源是衍生自一种组织类型。在一些实施例中,所述第一细胞来源是衍生自两种或更多种组织类型。在一些实施例中,一组织类型包含一种或多种细胞类型(例如,健康的非癌性细胞和癌性细胞的组合)。在一些实施例中,一组织类型包含一种细胞类型(例如,癌细胞或健康的非癌细胞中的一种)。
在一些实施例中,所述第一细胞来源构成一种细胞类型、两种细胞类型、三种细胞类型、四种细胞类型、五种细胞类型、六种细胞类型、七种细胞类型、八种细胞类型、九种细胞类型、十种细胞类型,或多于十种的细胞类型。
在一些实施例中,所述第一细胞来源是肝细胞。在一些这样的实施例中,所述细胞来源是肝细胞、肝星状脂肪储存细胞(ITO细胞)、库普弗细胞、肝窦内皮细胞或其任何组合。
在一些实施例中,所述第一细胞来源是胃细胞。在一些这样的实施例中,所述第一细胞来源是壁细胞。
在一些实施例中,所述第一细胞来源是多种细胞类型的任何组合,前提是这些细胞类型起源于单一器官。在一些此类实施例中,所述单一器官是乳房、肺、前列腺、结肠/直肠、肾、子宫、胰腺、食道、血液、头/颈、卵巢、肝、宫颈、甲状腺、膀胱或胃。在一些实施例中,这个单一器官是健康的。在替代实施例中,所述单一器官患有起源于所述单一器官的癌症。在更进一步的替代实施例中,所述单一器官患有起源于所述单一器官以外的器官并转移到所述单一器官的癌症。
在一些实施例中,所述第一细胞来源是多种细胞类型的任何组合,前提是这些细胞类型起源于一预定器官组。在一些此类实施例中,所述预定器官组是该组中的任意两个器官:乳房、肺、前列腺、结肠/直肠、肾、子宫、胰腺、食道、血液、头/颈、卵巢、肝、宫颈、甲状腺、膀胱及胃。在一些实施例中,这预定器官组是健康的。在替代实施例中,这预定器官组患有起源于该预定器官组中的的所述多个器官中的一个的癌症。在更进一步的替代实施例中,所述预定器官组患有癌症,所述癌症起源于除所述预定器官组之外的一器官并转移到所述预定器官组。
在一些实施例中,所述第一细胞来源是多种细胞类型的任何组合,前提是这些细胞类型起源于预定的一组器官。在一些此类实施例中,所述预定器官组是该组中的任意三个器官:乳房、肺、前列腺、结肠/直肠、肾、子宫、胰腺、食道、血液、头/颈、卵巢、肝、宫颈、甲状腺、膀胱及胃。在一些实施例中,这预定器官组是健康的。在替代实施例中,这预定器官组患有起源于该预定器官组中的的所述多个器官中的一个的癌症。在更进一步的替代实施例中,所述预定器官组患有癌症,所述癌症起源于除所述预定器官组之外的一器官并转移到所述预定器官组。
在一些实施例中,所述第一细胞来源是多种细胞类型的任何组合,前提是这些细胞类型起源于预定的一组器官。在一些此类实施例中,所述预定器官组是该组中的任意四个器官、五个器官、六个器官、或七个器官:乳房、肺、前列腺、结肠/直肠、肾、子宫、胰腺、食道、血液、头/颈、卵巢、肝、宫颈、甲状腺、膀胱及胃。在一些实施例中,这预定器官组是健康的。在替代实施例中,这预定器官组患有起源于该预定器官组中的的所述多个器官中的一个的癌症。在更进一步的替代实施例中,所述预定器官组患有癌症,所述癌症起源于除所述预定器官组之外的一器官并转移到所述预定器官组。
在一些特定的实施例中,所述第一细胞来源是白细胞。在一些此类实施例中,所述第一细胞来源是嗜中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、淋巴细胞、B淋巴细胞、T淋巴细胞、细胞毒性T细胞、单核细胞或其任何组合。
在一些实施例中,使用一种或多种方法对核酸片段128的序列读数进行预处理,以校正偏差或错误,例如归一化、GC偏差的校正和/或由于PCR过度扩增引起的偏差的校正。
在一些实施例中,取自生物样本的核酸片段126的序列读数为针对来自对象基因组的至少三个甲基化位点、至少五个甲基化位点、至少十个甲基化位点、至少二十个甲基化位点、至少三十个甲基化位点、至少四十个甲基化位点、至少五十个甲基化位点、至少六十个甲基化位点、至少七十个甲基化位点、至少八十个甲基化位点、至少九十个甲基化位点、至少200个甲基化位点、至少300个甲基化位点、至少400个甲基化位点、至少500个甲基化位点或至少1000个甲基化位点提供1x或更高、2x或更高、5x或更高、10x或更高、或50x或更高的覆盖率。
在一些实施例中,所述对象是人类,及通过全基因组亚硫酸氢盐测序获得多个第一核酸片段128,其中在全基因组基础上评估转化的核酸分子的测序信息和甲基化状态之前,对核酸样本进行亚硫酸氢盐处理。在一些实施例中,全基因组亚硫酸氢盐测序测定寻找基因组中甲基化模式的变化。例如,参见实施例7。另参见2019年3月13日提交的发明名称为“异常片段检测和分类”的美国专利申请案公开第20190287652号,在此通过引用并入。在一些实施例中,酶促转化过程可用于在测序之前处理核酸,其可以以各种方式进行。Liu等人描述了无亚硫酸氢盐转化的一个实施例,其描述了一种无亚硫酸氢盐和碱基分辨率的测序方法,即TET辅助吡啶硼烷测序(TAPS),用于无损和直接检测5-甲基胞嘧啶和5-羟甲基胞嘧啶,而不影响未修饰的胞嘧啶。参见Liu等人,2019年,“在碱基分辨率下无亚硫酸氢盐直接检测5-甲基胞嘧啶和5-羟甲基胞嘧啶”,Nat Biotechnol.期刊37,第424-429页,其全部内容通过引用并入本文。在一些实施例中,无论具体的酶促转化方法如何,仅甲基化胞嘧啶被转化。
在一些实施例中,靶向测序是靶向DNA甲基化测序。靶向DNA甲基化测序可以通过多种方式进行。不同的酶处理和化学处理的组合可以转化甲基化胞嘧啶或非甲基化胞嘧啶。例如,在一些实施例中,靶向DNA甲基化测序检测多个核酸中的一个或多个5-甲基胞嘧啶(5mC)和/或5-羟甲基胞嘧啶(5hmC)。作为另一实施例,靶向DNA甲基化测序可包含将多个核酸中的一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶转化为相应的一个或多个尿嘧啶。作为另一个示例,在一些实施例中,靶向DNA甲基化测序可以包含将多个核酸中的一个或多个未甲基化胞嘧啶转化为对应的一个或多个尿嘧啶,并且DNA甲基化序列读出一个或多个尿嘧啶作为一个或多个对应的胸腺嘧啶。在一些实施例中,靶向DNA甲基化测序包含将多个核酸中的一个或多个甲基化胞嘧啶转化为一个或多个对应的尿嘧啶,并且DNA甲基化序列读出一个或多个5mC或5hmC作为一个或多个相应的胸腺嘧啶。
在靶向甲基化测序过程中,探针用于富集核酸样本。在一些实施例中,可以设计探针使其在甲基化CpG位点或未甲基化CpG位点中的胞嘧啶被转化(例如,在化学或酶促转化过程中)之后结合序列。在使用甲基化测序的实施例中,探针的序列可能不与对应的基因组序列互补,而是与转化的DNA片段的序列互补。
方框208。所述方法通过对所述多个第一核酸片段中的每个相应核酸片段128单独分配一第一分数132,从而获得多个第一分数来进行。在一些实施例中,每个相应第一分数表示源自第一细胞来源的对应核酸片段的一似然性。在一些实施例中,每个相应第一分数代表一个二元指示符(例如,正或负)表明对应的核酸片段是否从第一细胞来源获得。在一些实施例中,当第一分数超过一指示符预定义阈值时,二元指示符表示对应核酸片段是衍生自第一细胞来源。在一些实施例中,指示符预定义阈值是至少百分之五十、至少百分之六十、至少百分之七十五、至少百分之八十五、至少百分之九十、至少百分之九十五或至少百分之九十八。
在一些实施例中,所述单独分配步骤包含:(i)将相应核酸片段的一甲基化状态与一第一标准甲基化状态向量集及与一第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述第一标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第一分类器。图11示出了一个非限制性实施例,其中第一标准甲基化状态向量集衍生自患有乳腺癌的参考对象(图11中的142-1),及第二标准甲基化状态向量集衍生自健康的参考对象(图11中的142-2)。在图11中,通过将核酸片段128-1-1和128-1-2的甲基化状态针对乳腺癌142-1的标准甲基化状态向量集和针对代表健康组织142-2的标准甲基化状态向量集进行比较,为来自一测试对象的一生物样本的两个核酸片段128-1-1和128-1-2的甲基化状态分配分数。
在一些实施例中,所述单独分配步骤包含将相应核酸片段的甲基化状态相对于第一标准甲基化向量集进行比较。在这样的实施例中,不需要第二标准甲基化状态向量集。
从图11中可以看出,在核酸片段128-1-1的四个甲基化位点中,它们与乳腺癌142-1的标准甲基化状态向量集中发现的甲基化模式相匹配,而不是与代表健康组织142-2的标准甲基化状态向量集相匹配。因此,核酸片段128-1-1被分配第一分数132,所述第一分数132代表源自乳腺癌的核酸片段的强烈似然性。
从图11中进一步可以看出,在核酸片段128-1-2的三个甲基化位点中,它们与健康组织/细胞142-2的标准甲基化状态向量集中发现的甲基化模式相匹配,而不是与代表乳腺癌142-1的标准甲基化状态向量集相匹配。因此,核酸片段128-1-1被分配第一分数132,所述第一分数132代表源自乳腺癌的核酸片段的非常低的似然性。
图11示出了一些相关要点。首先,本申请利用对任何给定细胞类型(例如,特定癌症类型)的基因组特定区域的甲基化模式是非常稳定的观察,这意味着来自这种细胞类型的基因组的这种部分的循环核酸片段具有稳定的甲基化模式,这意味着这种区域中的甲基化位点始终以相同方式甲基化或未甲基化。因此,基因组的这种区域是用于辨别包含这种区域的核酸片段映射及具有相同标志性甲基化模式的信息,事实上,源于这种细胞来源。这可以在标准集142-1中看到,其中甲基化模式(名义上“X”表示甲基化,“-”表示未甲基化)在标准乳腺癌集中的每个相应甲基化(CpG)位点是相同的。这也可以在标准集142-2中看到,其中甲基化模式(名义上“X”表示甲基化,“-”表示未甲基化)在标准健康集的每个相应甲基化(CpG)位点是相同的。
当然,对于任何给定的细胞类型,即使在基因组的信息区域中,甲基化模式也可能存在差异。这可能是由于其他因素引起的,例如患者年龄、混杂的疾病状况和其他状况。因此,与图11所示的相反,在一些实施例中,标准集142中每个参考对象的甲基化模式可能不相同。
在一些实施例中,所获得的核酸片段128的第一分数132是第一细胞来源的二元分数,这意味着核酸片段128要么被认为源自第一细胞来源,要么不是。这在图11中示例说明。
然而,在一些实施例中,核酸片段128获得的第一分数132是第一细胞来源的似然性,这意味着核酸片段128被分配其源自第一细胞来源的似然性。在一些实施例中,这个似然性落入零(意味着它不是源自第一细胞来源)到1(意味着基于甲基化状态向量匹配,核酸片段源自第一细胞的概率是百分之一百)。非二元评分未在图11中示出,因为示出的核酸片段128-1-1和128-1-2均与一标准甲基化状态向量集的甲基化状态共有序列完全匹配。然而,本公开内容包含以下实施例:(i)标准甲基化状态向量集中的甲基化状态向量不相同和/或(ii)所述核酸片段与所述核酸片段所比较的任何标准甲基化状态向量集的甲基化状态向量不完全匹配。
图11中示出的另一点是核酸片段可以具有一个以上的甲基化状态。即,核酸片段可具有多个甲基化位点,每个具有一甲基化状态(例如,甲基化或未甲基化)。这有利地用于对核酸片段进行评分,因为很明显整个核酸片段必须源自相同的细胞来源。因此,具有一个以上的元素的核酸片段的甲基化状态向量用于对整个核酸片段进行评分,从而增加并同时利用核酸片段中一个以上甲基化位点的信息贡献,以提高核酸片段相对于细胞来源的分数的置信度。
关于图11公开的另一点是本公开不限于为单个细胞来源的核酸片段分配单个分数。实际上,在图11的情况下,为了记账的理由,可以为每个核酸片段分配第二分数,其中第一分数仍然代表核酸片段源自第一细胞来源(图11中的乳腺癌)的似然性,和第二分数代表核酸片段源自第二细胞来源(健康细胞)的似然性。在只考虑两个细胞来源的情况下,第二分数不是绝对必要的,因为它可以从第一分数中推断出来。然而,在存在多于两个标准核酸片段集并且分配的分数是概率的情况下,可能需要一个以上的分数。例如,考虑将每个核酸片段的甲基化状态与三个标准甲基化状态向量集进行比较的情况,从这种比较,确定核酸片段有70%的机会来自与第一标准甲基化状态向量集相关联的细胞来源,有20%的机会来自与第二标准甲基化状态向量集相关联的细胞来源,有10%的机会来自与第三标准甲基化状态向量集相关联的细胞来源。在这种情况下,可以为核酸片段分配70%的对应第一分数、20%的对应第二分数和10%的对应第三分数以反映这些似然性。因此,在一些实施例中,将相应核酸片段分配两个、三个、四个、五个、六个、七个、八个、九个或十个或更多个第一分数,其中每个这样的分数是一概率(或其他形式的度量),所述相应核酸片段源自多个细胞来源中的一对应细胞来源。
在一些实施例中,将相应核酸片段与除第一标准甲基化状态向量集之外的任何其他标准甲基化状态向量集(例如第二标准甲基化状态向量集)进行比较是可选的。
图11中示出的另一点是每个核酸片段被映射到一参考基因组,因此理解核酸片段将针对标准甲基化状态向量的哪个部分进行评分。在典型的实施例中,标准甲基化状态向量是跨越整个基因组,或至少基因组的关于甲基化状态提供信息的部分,对于由相应甲基化状态向量所处的标准甲基化状态向量集表示的细胞来源。因此,在典型的实施例中,分配给核酸片段的分数仅基于核酸片段中的全部或部分甲基化位点。在一些实施例中,分配给核酸片段的分数仅基于核酸片段中的所有甲基化位点。在一些实施例中,分配给核酸片段的分数仅基于核酸片段中的单个甲基化位点。
关于图11公开的另一点是,在一些实施例中,相应核酸片段的甲基化状态相对于第一标准甲基化状态向量集的比较将相应核酸片段的甲基化状态相对于相应核酸片段映射到的第一标准甲基化状态向量集的甲基化模式共有向量的部分进行比较。相应地,在一些实施例中,相应核酸片段的甲基化状态相对于第二标准甲基化状态向量集的比较将相应核酸片段的甲基化状态相对于相应核酸片段映射到的第二标准甲基化状态向量集的甲基化模式共有向量的部分进行比较。
在替代的实施例中,相应核酸片段的甲基化状态相对于第一标准甲基化状态向量集的比较将相应核酸片段的甲基化状态相对于相应核酸片段映射到的标准甲基化状态向量集中的每个甲基化状态向量的甲基化模式进行比较。相应地,在一些实施例中,相应核酸片段的甲基化状态相对于第二标准甲基化状态向量集的比较将相应核酸片段的甲基化状态相对于相应核酸片段映射到的第二标准甲基化状态向量集的每个甲基化状态向量的甲基化模式进行比较。
在一些实施例中,如图11所示,代替将相应核酸片段的甲基化状态相对于第一标准甲基化状态向量集和相对于代表不同于第一细胞来源的一来源的第二标准甲基化状态向量集进行比较,标签信息(细胞来源122)与第一和第二标准甲基化状态向量集中的每个甲基化状态向量一起用于训练第一分类器,并且测试对象的相应核酸片段的甲基化状态被应用于这个经训练的第一分类器被训练来确定核酸片段的细胞来源的分数。
在一些实施例中,所述第一标准甲基化状态向量集中的每个标准甲基化状态向量衍生自对应于所述第一细胞来源的多个第一参考对象中一对应参考对象的一组织样本或无细胞核酸样本。在一些实施例中,所述第一标准甲基化状态向量集中的每个标准甲基化状态向量表示所述多个第一参考对象中所述对应参考对象的基因组中的甲基化状态。
在一些实施例中,所述第一标准甲基化状态向量集中的一标准甲基化状态向量是衍生自所述对应参考对象的一肿瘤样本。
在一些实施例中,例如,如果相应参考对象的生物样本衍生自无细胞核酸,则有利的是无细胞核酸表现出可察觉的肿瘤(或细胞来源)部分。在一些实施例中,第一标准甲基化状态向量集中的标准甲基化状态向量衍生自对应参考对象的无细胞核酸,其中,相对于第一细胞来源,所述对应参考对象的肿瘤部分是至少百分之二、至少百分之五、至少百分之十、至少百分之十五、至少百分之二十、至少百分之二十五、至少百分之五十、至少百分之七十五、至少百分之九十、至少百分之九十五、或至少百分之九十八。
在一些实施例中,所述第一标准甲基化状态向量集中的每个标准甲基化状态向量表示所述对应参考对象的基因组的一子集的一甲基化状态,其中所述基因组的所述子集的所述甲基化状态表示所述第一细胞来源下的致病生理。
在一些实施例中,所述第二标准甲基化状态向量集中的每个标准甲基化状态向量衍生自对应于一第二细胞来源的多个第二参考对象中一对应参考对象的一组织样本或无细胞核酸样本。
在一些实施例中,所述第二标准甲基化状态向量集是所述物种的所述基因组的单个一致的甲基化状态向量,所述物种的所述基因组是由所述多个第二参考对象的所述组织样本或无细胞核酸样本中的多个核酸的一甲基化状态形成。在一些实施例中,所述第二标准甲基化状态向量集是所述物种的所述基因组的单个一致的甲基化状态向量,所述物种的所述基因组是由所述多个第二参考对象的所述组织样本或无细胞核酸样本中的多个核酸的一甲基化状态形成。
在一些实施例中,所述第一标准甲基化状态向量集包含所述多个第一参考对象中的每个相应参考对象的所述物种的所述基因组的一不一致的甲基化状态向量,所述不一致的甲基化状态向量由所述相应参考对象的所述组织样本或无细胞核酸样本中的多个核酸的一甲基化状态形成。所述第二标准甲基化状态向量集包含所述多个第二参考对象中的每个相应参考对象的所述物种的所述基因组的一不一致的甲基化状态向量,所述不一致的甲基化状态向量由所述相应参考对象的所述组织样本或所述无细胞核酸样本中的多个核酸的一甲基化状态形成。
在一些实施例中,所述第二细胞来源是健康的无癌症状态。在一些这样的实施例中,这种健康的无癌状态由来自健康对象获取的液体活检的无细胞核酸形成。在替代实施例中,这种健康的无癌状态是由来自健康对象的一个或多个器官获取的固体活检的核酸形成的。在一些这样的实施例中,所述一个或多个器官包含来自不同组织的任意数量的活检(例如,乳房、肺、前列腺、直肠、子宫、胰腺、食道、头/颈、卵巢、子宫颈、甲状腺、膀胱或其组合)。
在一些实施例中,所述第二细胞来源是一第二癌症的一共同主要起源位点。在一些实施例中,所述第二癌症为一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌或其组合。
在一些实施例中,图2A方框202的第一细胞来源是第一癌症的共同最初原发部位。在一些实施例中,所述第一癌症为一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌或其组合。在一些实施例中,所述第二细胞来源满足以下两个要求:(i)不是第一细胞来源的细胞;及(ii)是乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌或其组合。在一些替代的实施例中,所述第二细胞来源是来自不属于第一细胞来源的所有细胞。在一些替代的实施例中,所述第二细胞来源是来自不属于第一细胞来源的所有癌症细胞。在一些替代的实施例中,所述第二细胞来源是所有健康的细胞。
在一些实施例中,所述第一细胞来源是某些癌症类型的肿瘤或其一部分。在一些实施例中,肿瘤是肾上腺皮质癌、儿童肾上腺皮质癌、AIDS相关癌症的肿瘤、卡波西肉瘤、与肛门癌相关的肿瘤、与阑尾癌相关的肿瘤、星形细胞瘤、儿童(脑癌)肿瘤、非典型畸胎瘤/横纹肌瘤、中枢神经系统(脑癌)肿瘤、皮肤基底细胞癌、与胆管癌相关的肿瘤、膀胱癌肿瘤、儿童膀胱癌肿瘤、骨癌(如尤文肉瘤、骨肉瘤和恶性纤维组织细胞瘤)组织、脑瘤、乳腺癌组织、儿童乳腺癌组织、儿童支气管肿瘤、伯基特淋巴瘤组织、类癌瘤(胃肠道)、儿童类癌瘤、不明原发癌、不明原发儿童癌、儿童心脏(cardiac、heart)肿瘤、中枢神经系统(例如,脑癌,如儿童非典型畸胎样瘤/横纹肌样瘤/)瘤、儿童生殖细胞肿瘤、宫颈癌组织、儿童宫颈癌组织、胆管癌组织、儿童脊索瘤组织、慢性骨髓增生性肿瘤、结直肠癌肿瘤、儿童结直肠癌肿瘤、儿童颅咽管瘤组织、导管癌原位(DCIS)、儿童胚胎肿瘤、子宫内膜癌(子宫癌)组织、儿童室管膜瘤组织、食管癌组织、儿童食管癌组织、嗅神经母细胞瘤(头颈癌)组织、儿童颅外生殖细胞肿瘤、性腺外胚芽细胞肿瘤、眼癌组织、眼内黑色素瘤、视网膜母细胞瘤、输卵管癌组织、胆囊癌组织、胃(gastric、stomach)癌组织、儿童胃(gastric、stomach)癌组织、胃肠道类癌瘤、胃肠道间质瘤(GIST)、儿童胃肠道间质瘤、生殖细胞肿瘤(如儿童中枢神经系统生殖细胞肿瘤、儿童颅外生殖细胞肿瘤、性腺外生殖细胞肿瘤、卵巢生殖细胞肿瘤或睾丸癌组织)、头颈癌组织、儿童心脏肿瘤、肝细胞癌(HCC)组织、胰岛细胞肿瘤(胰腺神经内分泌肿瘤)、肾或肾细胞癌(RCC)组织、喉癌组织、白血病、肝癌组织、肺癌(非小细胞和小细胞)组织、儿童肺癌组织、男性乳腺癌组织、骨恶性纤维组织细胞瘤和骨肉瘤、黑色素瘤、儿童黑色素瘤、眼内黑色素瘤、儿童眼内黑色素瘤、默克尔细胞癌、恶性间皮瘤、儿童间皮瘤、转移性癌组织、具有隐匿性原发灶的转移性鳞状颈癌组织、具有NUT基因改变的中线癌、口腔癌(头颈癌)组织、多发性内分泌肿瘤综合征组织、多发性骨髓瘤/浆细胞瘤、骨髓增生异常综合征组织、骨髓增生异常/骨髓增生性肿瘤、慢性骨髓增生性肿瘤、鼻腔和鼻窦癌组织、鼻咽癌(NPC)组织、神经母细胞瘤组织、非小细胞肺癌组织、口腔癌组织、唇和口腔腔癌和口咽癌组织、骨肉瘤和骨组织恶性纤维组织细胞瘤、卵巢癌组织、儿童卵巢癌组织、胰腺癌组织、儿童胰腺癌组织、乳头状瘤(儿童喉癌)组织、副神经节瘤组织、儿童副神经节瘤组织、鼻窦鼻腔癌组织、甲状旁腺癌组织、阴茎癌组织、咽癌组织、嗜铬细胞瘤组织、儿童嗜铬细胞瘤组织、垂体瘤、浆细胞肿瘤/多发性骨髓瘤、胸膜肺母细胞瘤、原发性中枢神经系统(CNS)淋巴瘤、原发性腹膜癌组织、前列腺癌组织、直肠癌组织、视网膜母细胞瘤、儿童横纹肌肉瘤、唾液腺癌组织、肉瘤(例如,儿童血管瘤、骨肉瘤、子宫肉瘤等)、Sézary综合征(淋巴瘤)组织、皮肤癌组织、儿童皮肤癌组织、小细胞肺癌组织、小肠癌组织、皮肤鳞状细胞癌、隐匿性原发性颈部鳞状癌、皮肤T细胞淋巴瘤、睾丸癌组织、儿童睾丸癌组织、喉癌(例如鼻咽癌、口咽癌、下咽癌)组织、胸腺瘤或胸腺癌、甲状腺癌组织、肾盂输尿管移行细胞癌组织、不明原发癌组织、输尿管或肾盂组织、移行细胞癌(肾(肾细胞)癌组织、尿道癌组织、子宫内膜癌组织、子宫肉瘤组织)、阴道癌组织、儿童阴道癌组织、血管瘤、外阴癌组织、肾母细胞瘤或其他儿童肾肿瘤。在一些这样的实施例中,所述第二细胞来源满足以下两个条件:(i)不是第一细胞来源;及(ii)是某种癌症类型的肿瘤或其一部分,其中所述肿瘤是肾上腺皮质癌、儿童肾上腺皮质癌、AIDS相关癌症的肿瘤、卡波西肉瘤、与肛门癌相关的肿瘤、与阑尾癌相关的肿瘤、星形细胞瘤、儿童(脑癌)肿瘤、非典型畸胎瘤/横纹肌瘤、中枢神经系统(脑癌)肿瘤、皮肤基底细胞癌、与胆管癌相关的肿瘤、膀胱癌肿瘤、儿童膀胱癌肿瘤、骨癌(如尤文肉瘤、骨肉瘤和恶性纤维组织细胞瘤)组织、脑瘤、乳腺癌组织、儿童乳腺癌组织、儿童支气管肿瘤、伯基特淋巴瘤组织、类癌瘤(胃肠道)、儿童类癌瘤、不明原发癌、不明原发儿童癌、儿童心脏(cardiac、heart)肿瘤、中枢神经系统(例如,脑癌,如儿童非典型畸胎样瘤/横纹肌样瘤/)瘤、儿童生殖细胞肿瘤、宫颈癌组织、儿童宫颈癌组织、胆管癌组织、儿童脊索瘤组织、慢性骨髓增生性肿瘤、结直肠癌肿瘤、儿童结直肠癌肿瘤、儿童颅咽管瘤组织、导管癌原位(DCIS)、儿童胚胎肿瘤、子宫内膜癌(子宫癌)组织、儿童室管膜瘤组织、食管癌组织、儿童食管癌组织、嗅神经母细胞瘤(头颈癌)组织、儿童颅外生殖细胞肿瘤、性腺外胚芽细胞肿瘤、眼癌组织、眼内黑色素瘤、视网膜母细胞瘤、输卵管癌组织、胆囊癌组织、胃(gastric、stomach)癌组织、儿童胃(gastric、stomach)癌组织、胃肠道类癌瘤、胃肠道间质瘤(GIST)、儿童胃肠道间质瘤、生殖细胞肿瘤(如儿童中枢神经系统生殖细胞肿瘤、儿童颅外生殖细胞肿瘤、性腺外生殖细胞肿瘤、卵巢生殖细胞肿瘤或睾丸癌组织)、头颈癌组织、儿童心脏肿瘤、肝细胞癌(HCC)组织、胰岛细胞肿瘤(胰腺神经内分泌肿瘤)、肾或肾细胞癌(RCC)组织、喉癌组织、白血病、肝癌组织、肺癌(非小细胞和小细胞)组织、儿童肺癌组织、男性乳腺癌组织、骨恶性纤维组织细胞瘤和骨肉瘤、黑色素瘤、儿童黑色素瘤、眼内黑色素瘤、儿童眼内黑色素瘤、默克尔细胞癌、恶性间皮瘤、儿童间皮瘤、转移性癌组织、具有隐匿性原发灶的转移性鳞状颈癌组织、具有NUT基因改变的中线癌、口腔癌(头颈癌)组织、多发性内分泌肿瘤综合征组织、多发性骨髓瘤/浆细胞瘤、骨髓增生异常综合征组织、骨髓增生异常/骨髓增生性肿瘤、慢性骨髓增生性肿瘤、鼻腔和鼻窦癌组织、鼻咽癌(NPC)组织、神经母细胞瘤组织、非小细胞肺癌组织、口腔癌组织、唇和口腔腔癌和口咽癌组织、骨肉瘤和骨组织恶性纤维组织细胞瘤、卵巢癌组织、儿童卵巢癌组织、胰腺癌组织、儿童胰腺癌组织、乳头状瘤(儿童喉癌)组织、副神经节瘤组织、儿童副神经节瘤组织、鼻窦鼻腔癌组织、甲状旁腺癌组织、阴茎癌组织、咽癌组织、嗜铬细胞瘤组织、儿童嗜铬细胞瘤组织、垂体瘤、浆细胞肿瘤/多发性骨髓瘤、胸膜肺母细胞瘤、原发性中枢神经系统(CNS)淋巴瘤、原发性腹膜癌组织、前列腺癌组织、直肠癌组织、视网膜母细胞瘤、儿童横纹肌肉瘤、唾液腺癌组织、肉瘤(例如,儿童血管瘤、骨肉瘤、子宫肉瘤等)、Sézary综合征(淋巴瘤)组织、皮肤癌组织、儿童皮肤癌组织、小细胞肺癌组织、小肠癌组织、皮肤鳞状细胞癌、隐匿性原发性颈部鳞状癌、皮肤T细胞淋巴瘤、睾丸癌组织、儿童睾丸癌组织、喉癌(例如鼻咽癌、口咽癌、下咽癌)组织、胸腺瘤或胸腺癌、甲状腺癌组织、肾盂输尿管移行细胞癌组织、不明原发癌组织、输尿管或肾盂组织、移行细胞癌(肾(肾细胞)癌组织、尿道癌组织、子宫内膜癌组织、子宫肉瘤组织)、阴道癌组织、儿童阴道癌组织、血管瘤、外阴癌组织、肾母细胞瘤或其他儿童肾肿瘤。在一些替代实施例中,所述第二细胞来源是不对应于第一细胞来源的所有肿瘤类型的细胞。在一些替代的实施例中,所述第二细胞来源是所有健康的细胞。
在一些实施例中,图2A的方框202的第一细胞来源是第一癌症。在一些这样的实施例中,所述第一癌症为:一乳腺癌的一阶段、一肺癌的一阶段、一前列腺癌的一阶段、一结直肠癌的一阶段、一肾癌的一阶段、一子宫癌的一阶段、一胰腺癌的一阶段、一食道癌的一阶段、一淋巴瘤的一阶段、一头颈癌的一阶段、一卵巢癌的一阶段、一肝胆癌的一阶段、一黑色素瘤的一阶段、一宫颈癌的一阶段、一多发性骨髓瘤的一阶段、一白血病的一阶段、一甲状腺癌的一阶段、一膀胱癌的一阶段或一胃癌的一阶段。在一些实施例中,第二细胞来源是与第一细胞来源相关联的癌症不同的癌症。例如,在一些实施例中,所述第一细胞来源是对应于乳腺癌的细胞,而所述第二细胞来源是对应于胃癌的细胞。在一些替代实施例中,所述第二细胞来源对应于除与所述第一细胞来源相关的癌症之外的所有癌症。例如,在一些实施例中,所述第一细胞来源是对应于乳腺癌的细胞,而所述第二细胞来源是对应于所有其他形式的癌症的细胞。在一些替代的实施例中,所述第二细胞来源是所有健康的细胞。
在一些实施例中,图2A的方框202的第一细胞来源为:一乳腺癌的一预定阶段、一肺癌的一预定阶段、一前列腺癌的一预定阶段、一结直肠癌的一预定阶段、一肾癌的一预定阶段、一子宫癌的一预定阶段、一胰腺癌的一预定阶段、一食道癌的一预定阶段、一淋巴瘤的一预定阶段、一头颈癌的一预定阶段、一卵巢癌的一预定阶段、一肝胆癌的一预定阶段、一黑色素瘤的一预定阶段、一宫颈癌的一预定阶段、一多发性骨髓瘤的一预定阶段、一白血病的一预定阶段、一甲状腺癌的一预定阶段、一膀胱癌的一预定阶段或一胃癌的一预定阶段。在一些实施例中,所述第二细胞来源是与所述第一细胞来源相关的相同癌症的不同阶段。例如,在一些实施例中,所述第一细胞来源是对应于II期的乳腺癌的细胞,而所述第二细胞来源是对应于III期的乳腺癌的细胞。在一些替代实施例中,所述第二细胞来源是与所述第一细胞来源相关联的相同癌症的多个阶段,而不是与所述第一细胞来源相关联的特定癌症阶段。例如,在一些实施例中,所述第一细胞来源是对应于I期的乳腺癌的细胞,而所述第二细胞来源是对应于II、III和IV期的乳腺癌的细胞。在一些实施例中,所述第二细胞来源是与所述第一细胞来源相关联的不同癌症的一阶段。例如,在一些实施例中,所述第一细胞来源是对应于II期的乳腺癌的细胞,而所述第二细胞来源是对应于II期的胃癌的细胞。在一些替代的实施例中,所述第二细胞来源是所有健康的细胞。
在一些实施例中,所述第一细胞来源是衍生自第一单一组织类型。在一些这样的实施例中,所述第二细胞来源是衍生自除了第一细胞类型之外的第二单一组织类型。在替代实施例中,所述第二细胞来源是衍生自除了第一细胞类型之外的所有组织类型。
在一些实施例中,所述第一细胞来源是衍生自两种或更多种组织类型。在一些这样的实施例中,所述第二细胞来源是衍生自除了第一细胞类型的那些之外的二个或更多的组织类型。在替代实施例中,所述第二细胞来源是衍生自除了第一细胞类型的那些之外的所有组织类型。
在一些实施例中,所述第一细胞来源构成一种细胞类型、两种细胞类型、三种细胞类型、四种细胞类型、五种细胞类型、六种细胞类型、七种细胞类型、八种细胞类型、九种细胞类型、十种细胞类型,或多于十种的细胞类型。在一些这样实施例中,所述第二细胞来源是衍生自除了所述第一细胞类型的那些之外的一种细胞类型、两种细胞类型、三种细胞类型、四种细胞类型、五种细胞类型、六种细胞类型、七种细胞类型、八种细胞类型、九种细胞类型、十种细胞类型,或多于十种的细胞类型。
在一些实施例中,所述第一细胞来源是一个或多个类型的人类细胞。在一些这样的实施例中,所述第一细胞来源是适应性NK细胞、脂肪细胞、肺泡细胞、阿尔茨海默II型星形胶质细胞、无长突细胞、成釉细胞、星形胶质细胞、B细胞、嗜碱性粒细胞、嗜碱性粒细胞活化细胞、嗜碱性细胞、巨大锥体细胞、双层细胞、卜歇细胞、心肌细胞、CD4+T细胞、成牙骨质细胞、小脑颗粒细胞、胆管细胞、胆囊细胞、嗜铬细胞、雪茄细胞、棒状细胞、促肾上腺皮质激素细胞、细胞毒性T细胞、树突细胞、肠嗜铬细胞、肠嗜铬样细胞、嗜酸性粒细胞、肾小球外系膜细胞、柴捆细胞、脂肪垫细胞、胃主细胞、杯状细胞、促性腺细胞、肝星状细胞、肝细胞、超节段中性粒细胞、肾小球内系膜细胞、肾小球旁细胞、角质形成细胞、肾近端小管刷状缘细胞、库普弗细胞、泌乳细胞、间质细胞、巨噬细胞、黄斑致密细胞、肥大细胞、巨核细胞、黑色素细胞、微皱细胞、单核细胞、自然杀伤细胞、自然杀伤T细胞、闪光细胞、中性粒细胞、成骨细胞、破骨细胞、骨细胞、嗜酸细胞(甲状旁腺)、潘氏细胞、滤泡旁细胞、伞细胞、甲状旁腺主细胞、壁细胞、小细胞神经分泌细胞、栓细胞、周细胞、管周肌样细胞、血小板、足细胞、调节性T细胞、网织红细胞、视网膜双极细胞视网膜水平细胞、视网膜神经节细胞、视网膜前体细胞、前哨细胞、支持细胞、体细胞营养细胞、促生长细胞、星状细胞、支持细胞、T细胞、T辅助细胞、端粒细胞、腱细胞、促甲状腺细胞、移行性B细胞、毛细胞(人类)、簇状细胞、单极刷状细胞、白细胞、卵圆球状细胞或其任何组合。在一些此类实施例中,所述第一细胞来源的此类细胞是健康的。在替代实施例中,所述第一细胞来源的此类细胞患有癌症。在一些这样的实施例中,所述第二细胞来源是衍生自除了第一细胞类型之外的一细胞类型。在替代实施例中,所述第二细胞来源是衍生自除了第一细胞类型的那些之外的所有细胞类型。
在一些实施例中,所述第一细胞来源是多种细胞类型的任何组合,前提是这些细胞类型起源于一第一单一器官类型。在一些此类实施例中,所述第一单一器官类型是乳房、肺、前列腺、结肠/直肠、肾、子宫、胰腺、食道、血液、头/颈、卵巢、肝、宫颈、甲状腺、膀胱或胃。在一些这样实施例中,所述第二细胞来源是多种细胞类型的任何组合,前提是这些细胞类型起源于除了所述第一单一器官类型之外的一第二单一器官类型。在一些此类实施例中,所述第二单一器官类型是乳房、肺、前列腺、结肠/直肠、肾、子宫、胰腺、食道、血液、头/颈、卵巢、肝、宫颈、甲状腺、膀胱或胃。在一些这样的实施例中,所述第二细胞来源是多种细胞类型的任何组合,前提是这些细胞类型起源于除了所述第一单一器官类型之外的任何器官类型。在一些这样的实施例中,所述第一细胞类型的细胞是健康的,及所述第二细胞类型的至少一些细胞是癌性的。在替代实施例中,所述第一细胞类型的至少一些是癌性的,及第二细胞类型的细胞是健康的。
在一些实施例中,多个第一参考对象(其多个甲基化模式填充第一标准甲基化状态向量集)包含至少十个参考对象,及多个第二参考对象(其多个甲基化模式填充第二标准甲基化状态向量集)包含至少十个参考对象。在一些实施例中,所述多个第一参考对象包含至少一百个参考对象,及所述多个第二参考对象包含至少一百个参考对象。在一些实施例中,所述多个第一参考对象包含比所述多个第二参考对象更多或更少的参考对象。在一些实施例中,多个第一参考对象包含至少10个参考对象、至少25个参考对象、至少50个参考对象、至少75个参考对象、至少100个参考对象、至少200个参考对象或至少500个参考对象。
在一些实施例中,第一分类器,如上文所述,在一些实施例中用作将相应核酸片段的甲基化状态相对于第一和第二标准甲基化状态向量集进行比较的替代方案,第一分类器是基于多项式逻辑回归算法参见例如,Agresti,分类数据分析简介,1996,John Wiley&Sons公司,纽约,第8章;及Hastie等人,2001,统计学习的要素,Springer-Verlag,纽约,每个都在此引入作为参考。
在一些实施例中,所述第一分类器是基于一神经网络算法。参见Vincent等人,2010,“堆叠去噪自编码器:在具有局部去噪标准的深度网络中学习有用的表示”,J MachLearn Res.期刊11,第3371-3408页;Larochelle等人,2009年,“探索训练深度神经网络的策略”,J Mach Learn Res.期刊10,第1-40页;及Hassoun,1995年,人工神经网络基础,麻省理工学院,在此通过引用并入本文。另见于2019年5月31日提交的发明名称为“C卷积神经网络系统和数据分类方法”的美国专利申请案第16/428,575号,其公开了卷积神经网络可以用于根据本公开对甲基化模式进行分类,在此通过引用并入。
在一些实施例中,所述第一分类器是支持向量机算法。支持向量机(SVM)被描述在Cristianini和Shawe-Taylor,2000年,“支持向量机介绍”,剑桥大学出版社,剑桥;Boser等人,1992年,“最佳边缘分类器的训练算法”,在第五届ACM计算学习理论年度研讨会论文集,ACM出版社,宾夕法尼亚州匹兹堡,第142-152页;Vapnik,1998,统计学习理论,Wiley出版社,纽约;Mount,2001,生物信息学:序列和基因组分析,冷泉港实验室出版社,纽约州冷泉港;Duda,模式分类,第二版,2001,John Wiley&Sons公司,259页、262-265页;及Hastie,2001年,统计学习的要素,Springer公司,纽约;和Furey等人,2000,生物信息学16,906-914,每一个在此通过引用整体并入。
在一些实施例中,所述第一分类器是朴素贝叶斯算法,例如Rosen等人开发的工具处理宏基因组读取(参见,生物信息学27(1):127-129,2011年)。在一些实施例中,所述分类器是最近邻算法,例如Kamvar等人描述的非参数方法,2015,Front Genetics期刊6:208doi:10.3389/fgene.2015.00208).在一些实施例中,所述分类器是混合模型,例如在McLachlan等人,2002,生物信息学18(3):413-422。在一些实施例中,特别是包含时间分量的那些实施例,所述分类器是隐马尔可夫模型,例如由Schliep等人描述的,2003,生物信息学19(1):i255-i263。
在一些实施例中,所述第一分类器是最近邻算法,例如Kamvar等人描述的非参数方法,Front Genetics期刊6:208doi:10.3389/fgene.2015.00208,2015).在一些实施例中,所述第一分类器是混合模型,例如在McLachlan等人,生物信息学18(3):413-422,2002。在一些实施例中,特别是包含时间分量的那些实施例,所述第一分类器是隐马尔可夫模型,例如由Schliep等人描述的,生物信息学19(1):i255-i263,2003。
方框220。所述方法继续将所述多个第一分数转换为多个第一计数。在一些实施例中,所述多个第一计数中的每个计数是对于所述物种的一参考序列基因组中一第一预定甲基化位点集中的一甲基化位点。在一些实施例中,所述第一预定甲基化位点集与所述第一细胞来源相关联。
在一些实施例中,所述第一预定甲基化位点集包含给定物种的基因组的子集。在一些实施例中,所述第一预定甲基化位点集包含物种的基因组中的五十个甲基化位点。在一些实施例中,所述第一预定甲基化位点集包含所述物种的所述基因组中的一百个甲基化位点。在一些实施例中,所述第一预定甲基化位点集包含所述物种的所述基因组中的五百个甲基化位点。在一些实施例中,第一预定甲基化位点集包含至少5个甲基化位点、至少10个甲基化位点、至少15个甲基化位点、至少20个甲基化位点、至少25个甲基化位点、至少50个甲基化位点、至少100个甲基化位点、至少200个甲基化位点、至少500个甲基化位点、至少1,000个甲基化位点、至少5,000个甲基化位点、至少10,000个甲基化位点或至少20,000个甲基化位点。
在一些实施例中,所述将所述多个第一分数转换为所述多个第一计数步骤进一步包含:对于所述第一预定甲基化位点集中的每个相应甲基化位点进行以下步骤:(a)确定所述多个第一核酸片段中的一第一数量的核酸片段,其(i)映射到所述相应甲基化位点,及(ii)具有满足一阈值的一第一分数,(b)确定所述多个核酸片段中核酸片段的一第二数量,其(i)映射到所述相应甲基化位点及(ii)具有满足或不满足一阈值的一第一分数,以及(c)将所述相应甲基化位点分配为所述第一数量和所述第二数量。
图12示出。在图12中,所述第一细胞来源的第一预定甲基化位点集中的甲基化位点中的一个是CpG 1102-2,并且有五个核酸片段映射到此甲基化位点,128-1-1、128-1-2、128-1-3、128-1-4和128-1-5。在示例中,核酸片段分数132的阈值为百分之五十。在映射到CpG 1102-2的五个核酸片段128中,四个核酸片段具有核酸片段评分132满足百分之五十的阈值。因此第一数量是4。接着,确定(i)所述多个核酸片段中映射到相应甲基化位点的核酸片段,以及(ii)所述多个核酸片段中的核酸片段具有满足或未满足所述阈值的一第一分数(核酸片段分数132)的一第二数量。在这种情况下,有五个核酸片段映射到甲基化位点CpG1102-2并且具有满足或不满足阈值的第一分数(核酸片段分数132):128-1-1、128-1-2、128-1-3、128-1-4和128-1-5。因此,第二数量是5。根据图12的实施例,CpG 1102-2被分配了一计数134,其是第一数量和第二数量的商4/5或0.80。此值0.80意味着生物样本中映射到CpG 1102-2的无细胞核酸片段的80%被甲基化,20%未甲基化。
在图12中,所述第一细胞来源的第一预定甲基化位点集中的另一个甲基化位点是CpG 1102-1,并且有三个核酸片段映射到此甲基化位点,128-1-1、128-1-3和128-1-4。在示例中,核酸片段分数132的阈值保持百分之五十。在映射到CpG 1102-1的三个核酸片段128中,两个核酸片段具有核酸片段评分132满足百分之五十的阈值。因此,CpG 1102-1的第一数量是2。接着,确定(i)所述多个核酸片段中映射到相应甲基化位点1102-1的核酸片段,以及(ii)所述多个核酸片段中的核酸片段具有满足或未满足所述阈值的一第一分数(核酸片段分数132)的一第二数量。在这种情况下,有三个核酸片段映射到甲基化位点CpG 1102-1并且具有满足或不满足阈值的第一分数(核酸片段分数132):128-1-1,128-1-3,及128-1-4。因此,CpG 1102-1的第二数量是3。根据图12的实施例,CpG 1102-1被分配了一计数134,它是第一数量和第二数量的商2/6或0.67。此值0.67意味着生物样本中映射到CpG 1102-1的无细胞核酸片段的67%被甲基化,其余未被甲基化。
在一些实施例中,如图12所示,多个计数中的每个计数对应于相应的商。
在一些实施例中,根据图12所示,第一分数为一似然性并且阈值为0.5。在替代实施例中,阈值为至少0.2、至少0.3、至少0.4、至少0.5、至少0.6、至少0.7、至少0.8、至少0.9或至少0.95。
在一些实施例中,所述第一分数(表示细胞来源的核酸片段分数)指定其他数学值。例如,在一些实施例中,所述第一分数为一百分比,及所述阈值为50%。在替代实施例中,阈值为至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%或至少95%。
在一些实施例中,核酸片段调用中的错误或不确定性(例如,由核酸片段分数132所表示)通过不确定性对计数进行下加权来传播到计数中(例如,在一些实施例中,每个核酸片段的计数乘以分数值)。参见例如,Bevington和Robinson,“物理科学的数据减少和误差分析”,第二版,1992年,McGraw-Hill公司,波士顿,马萨诸塞州,第41-50页,在此引入作为参考,用于公开确定因变量误差的示例性方法(例如,甲基化位点计数134),其是一个或多个测量变量的函数(例如,核酸片段得分为132,对于那些有助于特定甲基化位点计数的核酸片段)。
方框226。所述方法继续通过将由所述多个第一计数134表示的所述第一预定甲基化位点集中的每个相应甲基化位点144的相应计数134与一第一参考集中的相应甲基化位点的一对应参考分数进行比较,使用所述多个第一计数来估计所述第一生物样本中所述第一细胞来源部分的第一情况。所述第一参考集中的每个对应参考分数是通过确定从(与所述第一细胞来源相关联的)所述多个第一参考对象中多个对应参考对象的多个组织样本或多个无细胞核酸样本获得的多个核酸片段中的对应甲基化位点处的一对应甲基化位点处的甲基化状态的一出现频率来获得,其与对应甲基化位点处的第一细胞来源所要求的甲基化状态一致。
在一些实施例中,测试对象的生物样本中的单个估计的所述第一细胞来源部分是从如上所述的测试对象的生物样本中的第一预定甲基化位点集中的每个甲基化位点的相应甲基化位点的相应计数134来确定。例如,考虑单个甲基化位点的情况。因此,从测试对象的生物样本(例如,血液)中的此甲基化位点的支持,对于此甲基化位点以甲基化计数134的形式,与多个第一参考对象中的相同甲基化位点的参考频率进行比较。假设此单个甲基化位点的唯一甲基化来源来自第一细胞来源。因此,根据此假设,单个估计的第一细胞来源部分被计算为测试对象中单个甲基化位点处甲基化的支持146(此甲基化位点的计数134)与参考集中相同的甲基化位点的甲基化的参考频率的比率。例如,如果测试对象的生物样本中甲基化位点的计数134为0.03,及多个第一参考对象中相同甲基化位点的参考频率(甲基化)为0.10,则单个估计的第一细胞来源部分是(.03)/(0.10)或0.3。在许多情况下,即使参考对象在第一预定甲基化位点集中的相对甲基化位点也没有观察到异常甲基化的频率,因为一些肿瘤组织不是同质性的。
进一步考虑第一预定甲基化位点集由两个甲基化位点组成的情况。即,第一预定甲基化位点集由第一甲基化位点和第二甲基化位点组成的情况。将来自测试对象的生物样本的第一甲基化位点的计数134(例如,血液)与第一细胞来源的多个第一参考对象中相同甲基化位点的甲基化参考频率进行比较。同样,将来自测试对象的生物样本的第一预定甲基化位点集中的第二甲基化位点的计数134与从多个第一参考对象获得的核酸片段中相同甲基化位点的参考频率进行比较。假设在测试对象的无细胞核酸中的第一和第二甲基化位点处发生的异常甲基化的唯一来源来自第一细胞来源。因此,根据此假设,将第一甲基化位点的计数134(如上文公开的计算)与多个参考对象的甲基化位点的参考频率计算为第一甲基化位点的比率。例如,如果测试对象的生物样本中第一甲基化位点的计数134为0.03,及多个第一参考对象中第一甲基化位点的参考频率为0.10,则第一甲基化位点的比率为(.03)/(0.10)或0.3。此外,将测试对象的生物样本的核酸片段中第二甲基化位点的计数134(如上文所述计算)与来自多个第一参考对象的核酸片段中第二甲基化位点的参考频率计算为第二甲基化位点的比率。例如,如果在测试对象中第二甲基化位点的计数134是5/85(意味着在测试对象中包含第二甲基化位点的基因座的85个核酸片段中,有5个包含与第一细胞来源相关联的异常甲基化状态),及从多个第一参考对象获得的核酸片段中,第二甲基化位点的甲基化参考频率为0.12,第二甲基化位点的比率为(5/85)/(0.12)或0.49。
在一些实施例中,以这种方式评估一个以上的甲基化位点,并且为每个这样的甲基化位点计算来自测试对象的生物样本中每个甲基化位点的观察计数134与从多个第一参考对象获得的核酸片段中相同甲基化位点的频率之间的比率。例如,在一些实施例中,以这种方式评估两个以上的甲基化位点。在这样的实施例中,上述示例在某种意义上扩展:为每个这样的甲基化位点计算来自测试对象的生物样本中每个甲基化位点的观察计数134与从多个第一参考对象的核酸片段中相同甲基化位点(表示第一细胞来源的异常甲基化)的频率之间的比率。实际上,在一些实施例中,以这种方式比较了2个至200个甲基化位点。换句话说,在一些实施例中,在这样的实施例中,第一预定甲基化位点集由2个至200个甲基化位点组成。在一些实施例中,第一预定甲基化位点集由超过25个、50个、100个、200个、300个、400个、500个、1000个、2000个或5000个甲基化位点组成,每个甲基化位点如上文所述进行比较。
以这样的方式,一数量的甲基化位点k(第一预定甲基化位点集)使用多个第一参考对象进行评估,其中k是一正整数(例如,2、3、多于20、多于100、多于200等)。这可以表示为k长度向量f1=(f11,f12,…,f1k)对于第一组预定甲基化位点集中的每个甲基化位点的变异频率(支持甲基化位点a1i处异常甲基化(表示第一细胞来源)的核酸片段的数量超过映射到对应于甲基化位点a1i的基因组位置的核酸片段d1i总数),其中,在多个第一参考对象的核酸片段上f1的每个分量f1i的值在0到1之间。因此f1=(f11,f12,…,f1k)形成一参考集。
此外,来自测试对象的生物样本中每个甲基化位点的计数134,以上述方式从包含来自测试对象的无细胞核酸分子的生物样本中扫描通过向量f1表示的k核酸片段重叠的核酸片段。对于在甲基化位置k的每个相应甲基化位置i,确定核酸片段(d2i)总数映射到对应于甲基化位点i的基因组位置(例如,覆盖甲基化位点i)和与此位点i的变异甲基化模式(a2i)匹配的这些核酸片段140的数量。测量值d2i和a2i是非负整数值,以计数134的形式取a2i与d2i的商f2i,其方式如上所述,并结合图2A的方框208。来自测试对象的第一预定甲基化位点集中的甲基化位点的相应计数134可表示为第一预定甲基化位点集中每个甲基化位点的相应计数134的k长度向量f2=(f21,f22,…,f2k)。
目标是从第一预定甲基化位点集中每个甲基化位点的观察频率(支持146)确定对象的单个估计的第一细胞来源部分。换句话说,目标是使用从第一细胞来源(例如,肿瘤)到测试对象的生物样本贡献的突变甲基化状态的部分来确定单个估计的第一细胞来源部分。向量f1总结了多个第一参考对象中来自第一细胞来源的第一预定甲基化位点集中测量的异常甲基化核酸片段计数。向量和f2总结了来自测试对象的生物样本中第一预定甲基化位点集的计数134,从中可以推断出潜在的第一细胞来源部分。在一些实施例中,其甲基化状态与第一细胞来源不明确关联的甲基化位点被排除在分析之外。换句话说,他们被排除在所考虑的k甲基化位点之外。
在一些实施例中,假设来自第一细胞来源的核酸片段126是根据泊松过程产生的。对于k中的每个甲基化位点i,观察到a2i支持核酸片段计数(表示第一细胞来源在甲基化位点i具有异常甲基化的核酸片段),并且预计f11乘以d21支持核酸片段计数。例如,对于甲基化位点1,考虑以下情况:a21是100和d21是1000,意味着,在与基因组位置对应的甲基化位点1重叠的测试对象的含有无细胞核酸的生物样本中测得的1000个核酸片段128中,有100个核酸片段128支持甲基化位点的异常甲基化状态。进一步假设,从多个第一参考对象中,确定了此甲基化位点的异常甲基化频率(f11)是0.25。因此,预计有f11(0.25)乘以d21(1000)或250次读取计数。
因此,我们可以估计数据的累积分布函数,条件是t(突变核酸片段从第一细胞来源贡献到含有无细胞核酸的生物样本的比率),D(t)估计使用泊松模型对应于第5、第50(中值)和第95百分位数的单个估计的第一细胞来源部分。在测试对象的无细胞DNA生物样本中观察到的是a2i,支持所考量的k甲基化位点中相应甲基化位点i的核酸片段。此外,可将支持k甲基化位点中的相应甲基化位点i的预期来自第一细胞来源的序列核酸片段的数量计算为第一细胞来源(跨越参考对象的多个第一序列)中的相应甲基化位点i的第一细胞来源f1i的变异频率乘以d1i(在第一细胞来源中观察到的覆盖甲基化位点i映射到基因组位置的序列核酸片段的数量),假设100%的脱落率(意味着对含有无细胞核酸的生物样本(例如血液样本)的唯一贡献来源)是来自第一细胞来源。所以,从这个t,可以被认为是将(i)在甲基化位点i处支持异常甲基化状态的核酸片段的预期数量(基于对第一细胞来源片段f1i的分析)转换为(ii)来自测试对象(a2i)的生物样本中的在甲基化位点i支持异常甲基化状态的实际观察到的核酸片段数量的部分可以被计算,并将其引入泊松模型,且这可用于估计累积密度函数(概率分布),所述累积密度函数为t的每个试验值提供估计(其中,在一些实施例中,t从0%到110%之间的任何位置取样)。例如,如果观测值a2i等于期望值,那么t将是100%。作为另一个实施例,如果观测值a2i等于预期值的110%,则t将是110%。作为又一个实施例,如果观测值a2i等于预期值的50%,则t将是50%。因此,参考图10,对于每个相应试验值t,从0到110%,t的相应试验值的似然性使用累积密度函数(1008)计算。由此,并参考图10,基于t的似然性分布,t的中值(t的最可能值)在t(1002)的0%到110%的值的范围内,基于t的似然性分布,t的第5百分位值(t的最低值,t的下限)在t(1004)的0%到110%的范围内,以及基于t的似然性分布,t的第95百分位(t的最高值,t的上限)值在t(1006)的0%到110%的范围内,可以被计算。在图10中,实线1010代表密度函数而线1008代表累积分布函数。在一些实施例中,累积分布函数用于计算t的百分比值。第95百分位值意味着支持超过t的第95百分位值的k的等位基因位置重叠的序列核酸片段的总数中,观察到的序列核酸片段部分是极端的比率,并且预期在95%的时间内,t的值小于t的第95百分位值(图10中约为28%)。
其他边界,例如第2百分位数和第98百分位可以被使用。
上文的讨论涉及到t如何由单个甲基化位点的甲基化状态计算。然而,如本文所讨论的,在更常见的实施例中,对多个甲基化位点进行采样,因此每个甲基化位点产生独立的似然性(t的概率)值范围(例如,0%到100%)t。因此每个甲基化位点在考虑t的值的范围(例如,0到100%)上产生独立的似然性(t的概率)。因此,累积密度函数基于变量1的观察值和预期值,在t的给定试验值下为t提供第一概率,基于变量2的观察值和预期值,在t的给定试验值下为t提供第二概率,依此类推。为了得出t的给定试验值下t的累积似然性,多个组分概率(基于甲基化位点1的观察和预期异常甲基化状态值,t的给定试验值下t的第一概率,基于甲基化状态2的观察和预期异常甲基化状态值,t的给定试验值下t的第二概率,以此类推)中的每一个被结合,并用于计算累积分布函数。换句话说,图10的累积分布函数1008可以使用来自任意数量的甲基化位点的数据基于它们是对相同基础的单个估计的第一细胞来源部分的独立观察的假设来绘制。在一些实施例中,当概率在对数空间中表示时,通过将k甲基化位点集中的每个相应甲基化位点为t的给定试验值提供的概率相加它们来组合,以达到t的试验值的计算概率(估计的细胞来源部分)。在一些实施例中,当概率以自然标度表示时,通过将k甲基化位点集中的每个相应甲基化位点为t的给定试验值提供的概率相乘它们来组合,以达到t的试验值的计算概率。
在一些实施例中,针对每个甲基化位点k单独计算t的试验范围内t的似然性的泊松模型,从而计算多个泊松模型,每个甲基化位点一个泊松模型。然后,对于采样的t的每个试验值将多个泊松模型组合(例如,在对数空间上加总或如果是在自然标度上相乘),以便获得的t的试验值的似然性。因此,线1008中的每个点都在k甲基化位点上聚合,其中k是正整数(例如,2个或更多、20个或更多、1000个或更多)。通过这种方式,对肿瘤部分的最简洁的解释是估计所提供的第一细胞来源部分。
在一些实施例中,将估计的第一细胞来源部分作为从使用累积密度函数采样的t的值的范围内t的似然度分布中获取t的中值。
重要的是,此框架能够在k甲基化位点上的测试生物样本中观察到零支持核酸片段的情况下,对估计的第一细胞来源部分估计置信区间。
因此,第一细胞来源部分的估计条件是根据(i)含有来自测试对象的无细胞核酸的生物样本,及(ii)从多个第一参考对象中的每个对应参考对象的相应第一组织样本或相应第一无细胞核酸样本获得的核酸片段之间对于甲基化位点集的读数信息,其中所述相应第一组织样本或所述相应第一无细胞核酸样本对应于第一细胞来源。因此,在此实施例中,仅使用在测试对象和多个第一参考对象中均表示的那些甲基化位点来计算单个估计的第一细胞来源部分。在一些实施例中,第一细胞来源是肿瘤并且估计的第一细胞来源部分因此是估计的循环肿瘤DNA(ctDNA)部分。
在替代实施例中,假设负二项分布假设而不是泊松分布,以便计算图10的累积分布函数1008。
在一些实施例中,测试对象的生物样本中的单个预期第一细胞来源部分介于0.5x10-4和1.5x10-4之间,及第一细胞来源是黑色素瘤。在一些实施例中,测试对象的生物样本中的单个预期第一细胞来源部分介于0.5x10-3和1x10-2之间,及第一细胞来源是肾癌、子宫癌、甲状腺癌、前列腺癌、乳腺癌、膀胱癌、胃癌、宫颈癌或其组合。在一些实施例中,测试对象的生物样本中的单个预期第一细胞来源部分介于1x10-2和0.8之间,及第一细胞来源部分是肺癌、食道癌、头颈癌、结直肠癌、肛门直肠癌、卵巢癌、肝胆癌、胰腺癌或淋巴瘤。关于使用负二项分布假设和泊松分布来计算累积分布函数的更多讨论在于2019年4月16日提交的发明名称为“用于确定无细胞核酸中肿瘤部分的系统和方法”的国际专利申请案第PCT/US2019/027756号中公开,在此通过引用并入。
在一些实施例中,单个泊松模型或负二项分布假设是基于第一参考集中的所有甲基化位点构建(例如,基于观察到的所有甲基化位点组合的甲基化状态频率)。
在一些实施例中,所述第一预定甲基化位点集中每个相应甲基化位点的每个计数是所述多个第一核酸片段中对应甲基化位点的一观察甲基化频率。在一些实施例中,所述估计步骤进一步包含:使用所述第一参考集中每个相应甲基化位点的计数和每个相应甲基化位点的对应参考频率来构建一泊松模型或一负二项分布假设。
在一些实施例中,使用所述泊松模型或所述负二项分布假设用于在计算的第一细胞来源部分的一范围中来形成一累积密度函数。在一些实施例中,所述方法继续通过将所述第一细胞来源部分的所述第一情况视为所述计算的第一细胞来源部分的所述范围中所述累积密度函数的一平均值。
在一些实施例中,对于第一参考集中的每个甲基化位点构建相应泊松模型或负二项分布假设。
在一些实施例中,所述第一预定甲基化位点集中每个相应甲基化位点的每个计数是所述多个第一核酸片段中对应甲基化位点的一观察甲基化频率。在这样的实施例中,所述估计步骤进一步包含:使用所述第一参考集中对于每个相应甲基化位点的计数和所述甲基化位点的对应参考频率来构建一相应泊松模型或一相应负二项分布假设,从而构建多个泊松模型或多个负二项分布假设。在一些实施例中,使用每个相应泊松模型或每个相应负二项分布假设,在计算的第一细胞来源部分的一范围中形成一对应累积密度函数。
在一些实施例中,所述方法继续通过将所述第一细胞来源部分的所述第一情况视为所述计算的第一细胞来源部分的所述范围中结合所述多个泊松模型或所述多个负二项分布假设中所述累积密度函数的平均值的一结合。在一些实施例中,所述计算的第一细胞来源部分的范围在0%和110%之间。在一些实施例中,计算的细胞来源部分为至少0.5%、至少1%、至少2%、至少3%、至少5%、至少7%、至少10%、至少12%、至少15%、至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少100%或至少110%。
在一些实施例中,估计的第一细胞来源部分用作确定对应于测试对象中第一细胞来源的癌症阶段的基础或部分基础。在一些实施例中,第一细胞来源部分用作确定与测试对象中第一细胞来源相关联的疾病(例如,癌症)的治疗方案的基础或部分基础。在一些实施例中,第一细胞来源部分用作治疗监测的基础。
在一些实施例中,给定第一细胞来源部分,可以确定某些治疗方案无效或将无效。例如,如果细胞毒性T细胞功能失调并发生凋亡,检查点免疫疗法将无效。例如,当确定多个核酸片段源自血液中的细胞毒性T细胞时,就表明了这种情况。在一些实施例中,估计的第一细胞来源部分有助于监测最小残留疾病量。
估计第一细胞来源部分的其他方法。
在一些实施例中,当物种的参考序列的基因组中的第一预定甲基化位点集中的每个甲基化位点的异常甲基化状态的观测频率(支持)满足第一阈值时,通过将对象体视为具有与第一细胞来源相关联的第一条件来对所述对象进行分类。在一些实施例中,基于对物种的参考序列的基因组中第一预定甲基化位点集中甲基化位点中的异常甲基化状态的参考频率的量化来确定第一阈值。在一些实施例中,例如,通过物种的参考序列的基因组中第一预定甲基化位点集中相应甲基化位点的(异常甲基化的)参考频率,对物种的参考序列的基因组中第一预定甲基化位点集中每个甲基化位点的观察频率进行归一化,以实现测试对象的估计第一细胞来源部分。例如,在一些实施例中,将物种的参考序列的基因组中第一预定甲基化位点集中每个甲基化位点的观察频率除以多个第一参考对象的对应甲基化位点的(异常甲基化状态的)参考频率,以便实现测试对象的第一细胞来源部分。以这种方式,第一阈值通过多个第一参考对象的物种的参考序列的基因组中的第一预定甲基化位点集中的每个甲基化位点的异常甲基化状态的频率来确定。
在一段时间内评估第一细胞来源部分。
在一些实施例中,所述方法进一步包含:在多个时间点(例如,一时期)中的每个时间点使用第一细胞来源部分的估计来确定对象中第一细胞来源的状态或进展(例如,攻击性)。
在一些实施例中,所述方法包含:在一第二时间段从所述测试对象的一第二生物样本中的多个第二无细胞核酸分子以电子形式获得多个第二核酸片段中每个核酸片段的一甲基化状态。
在一些实施例中,相对于第一时间段,针对测量无细胞核酸在数小时量级(例如,以衡量从对象中去除异常组织的手术成功率)、周/月(例如,以监测对象治疗的成功)、或数年(例如,以监测对象的疾病缓解)上的变化的能力来校准第二时间段。因此,在一些实施例中,相对于第一时间段,第二时间段是多个月的时间段,并且多个时间点中的每个时间点是多个月的时间段中的不同时间点。在一些这样的实施例中,所述多个月的时间段少于四个月。在一些实施例中,相对于第一时间段,第二时间段是多个年的时间段,并且多个时间点中的每个时间点是多个年的时间段中的不同时间点。在一些这样的实施例中,所述多个年的时间段在两年至十年之间。在一些实施例中,相对于第一时间段,第二时间段是多个小时的时间段,并且多个时间点中的每个时间点是多个小时的时间段中的不同时间点。在一些这样的实施例中,所述多个小时的时间段在一小时到六小时之间。
在一些实施例中,所述第二时间段为在所述第一时间段之后的一个月到一年之间。在一些实施例中,所述第二时间段为在所述第一时间段之后的一天到一周之间。在一些实施例中,所述第二时间段为在所述第一时间段之后的一小时到一天之间。在一些实施例中,所述第二时间段为在所述第一时间段之后的一年到五年之间。
所述方法继续通过对所述多个第二核酸片段中的每个相应核酸片段单独分配一第二分数,从而获得多个第二分数。在一些实施例中,每个相应第二分数表示核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性。
在一些实施例中,所述单独分配步骤包含:(i)将相应核酸片段的所述甲基化状态与所述第一标准甲基化状态向量集及与所述第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给所述第一分类器。
在一些实施例中,所述方法继续通过将所述多个第二分数转换为多个第二计数。在一些实施例中,所述多个第二计数中的每个计数是对于所述物种的一参考序列基因组中所述第一预定甲基化位点集中的一甲基化位点。
在一些实施例中,所述方法继续通过将由所述多个第二计数表示的所述第一预定甲基化位点集中的每个相应甲基化位点的相应计数与所述第一参考集中的相应甲基化位点的一对应参考分数进行比较,使用所述多个第二计数来估计所述第二生物样本中所述第二细胞来源部分的第二情况。
在一些实施例中,所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况和第二情况之间的一差异作为基础或部分基础,以确定所述测试对象中所述第一细胞来源的一侵袭性。在一些实施例中,所述方法进一步包含:使用甲基化特征、单核苷酸变体、体细胞拷贝数改变、易位或其他基因组特征结合第一细胞来源部分的第一和第二情况之间的差异作为基础或部分基础来确定第一细胞来源的侵袭性(例如,癌症的一阶段,癌细胞转移的加速)。
在一些实施例中,所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况和第二情况之间的一差异作为基础或部分基础,以确定所述测试对象中所述第一细胞来源的一治疗方案(一种治疗方案,集中或主要集中于表明第一细胞来源的存在的癌症状态)。在一些实施例中,所述方法进一步包含:使用甲基化特征、单核苷酸变体、体细胞拷贝数改变、易位或其他基因组特征结合第一细胞来源部分的第一和第二情况之间的差异作为基础或部分基础来确定所述测试对象的一治疗方案。
在一些这样的实施例中,所述方法进一步包含:当观察到所述对象的第一细胞来源部分的相应情况随时间改变一阈值数量时,改变所述对象的一诊断。例如,在一些实施例中,在一时期中的每个时间点的第一细胞来源部分是0和1之间的一数字,及当所述第一细胞来源部分在所述时期间改变一预定的数量时,所述对象的诊断被改变。在一个示例中,当第一细胞来源部分在所述时期间(例如,第一细胞来源部分的第一情况计算的第一个时间点和第一细胞来源部分的第二情况计算第二时间点之间的时间段)增加超过2%、超过3%、超过4%、超过5%、超过10%或超过20%时,所述对象的诊断被降级,表明所述对象具有比最初诊断出(与第一细胞来源相关联)的疾病状况更具侵袭性的形式和/或疾病状况的更后期阶段。在另一个示例中,当第一细胞来源部分在所述时期间减少超过2%、超过3%、超过4%、超过5%、超过10%或超过20%时,所述对象的诊断被升级,表明所述对象具有比最初诊断出与第一细胞来源相关联的疾病状况更低侵袭性的形式和/或疾病状况的更早期阶段。
在一些实施例中,所述方法进一步包含:当观察到相应第一细胞来源部分在一时期内改变一阈值数量时,改变所述对象的一预后。例如,在一些实施例中,在一时期中的每个时间点的第一细胞来源部分是0和1之间的一数字,及当所述第一细胞来源部分在所述时期间改变一预定的数量时,所述对象的预后被改变。在一个示例中,当第一细胞来源部分在所述时期间增加超过2%、超过3%、超过4%、超过5%、超过10%或超过20%时,所述对象的预后被降级,表明所述对象从与第一细胞来源相关联的疾病状态中恢复的似然性降低。在一个示例中,当第一细胞来源部分在所述时期间降低超过2%、超过3%、超过4%、超过5%、超过10%或超过20%时,所述对象的预后被升级,表明所述对象从与第一细胞来源相关联的疾病状态中恢复的似然性改善。
在一些实施例中,所述方法进一步包含:当观察到相应第一细胞来源部分在一时期内改变一阈值数量时,改变所述对象的一治疗。例如,在一个示例中,当第一细胞来源部分在所述时期间增加超过2%、超过3%、超过4%、超过5%、超过10%或超过20%时,所述对象的预后被降级,所述对象的治疗方案改为更积极的治疗。在一个示例中,当第一细胞来源部分在所述时期间降低超过2%、超过3%、超过4%、超过5%、超过10%或超过20%时,所述对象的预后被升级,所述对象的治疗方案改为较不积极的治疗。
在一些实施例中,所述第二生物样本包含:所述对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。也就是说,所述第二生物样本是所述对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液及/或腹膜液的混合,及所述对象的一种或多种其他成分。
在一些实施例中,所述第二生物样本由以下的群组组成:所述对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液及/或腹膜液。也就是说,所述第二生物样本包含:所述对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液,而不是所述对象的其他成分。。
定义分类器。本公开的另一方面提供了一种分类方法,其在一计算机系统处执行,所述计算机系统具有一个或多个处理器和一存储器,所述存储器存储一个或多个程序以供所述一个或多个处理器执行以下步骤:所述方法通过获得多个第一参考对象中的每个相应参考对象的信息来进行。多个第一参考对象中的每个参考对象具有第一细胞来源。
所述方法通过以电子形式获得多个第一核酸片段中的每个核酸片段的甲基化状态来进行,及使用所述多个第一核酸片段中的每个核酸片段的甲基化状态来生成一对应甲基化状态向量,从而获得一第一标准甲基化状态向量集。
所述方法继续通过对于多个第二参考对象中的每个相应参考对象,其中所述多个第二参考对象中的每个参考对象具有一第二细胞来源来获得信息。
所述方法通过以电子形式获得多个第二核酸片段中的每个核酸片段的甲基化状态来进行,及使用所述多个第二核酸片段中的每个核酸片段的甲基化状态来生成一第二甲基化状态向量,从而获得一第二标准甲基化状态向量集。
所述方法继续通过将第一和第二标准甲基化向量集结合每个相应参考对象的细胞来源一起应用到未训练或部分训练的分类器,从而获得一经训练的分类器。
在一些实施例中,所述第一细胞来源是来自一癌症的一细胞,所述癌症是以下及何种的一种:一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌或其组合。
在一些实施例中,所述分类器确定一测试对象是否具有一第一细胞来源或是否健康。在一些实施例中,所述第二细胞来源来自处于健康无癌症状态的一个或多个细胞。在一些实施例中,所述分类器确定一测试对象是否具有一第一细胞来源或是否具有一第二细胞来源。
在一些实施例中,所述测试对象的估计细胞来源(例如,肿瘤)部分用作分类器的一附加特征。
在一些实施例中,所述第二细胞来源不同于所述第一细胞来源,且所述第二细胞来源来自以下一种或多种细胞:一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌或其组合。
在一些实施例中,所述多个第一核酸片段的每个衍生自一对应第一参考对象的一组织样本或无细胞核酸样本。在一些实施例中,所述多个第二核酸片段的每个衍生自一对应第二参考对象的一组织样本或无细胞核酸样本。
在一些实施例中,所述分类器是基于一神经网络算法、一支持向量机算法、一决策树算法、一无监督聚类算法、一监督聚类算法、一逻辑回归算法、一混合模型或一隐马尔可夫模型。在一些实施例中,经训练的分类器是多项式分类器。
在一些实施例中,所述分类器利用发明名称为“用于选择、管理和分析高维数据的方法和系统”美国专利申请案公开第62/642,461号中描述的B评分分类器,申请号为第62/642,461号,其通过引用并入。
在一些实施例中,分所述类器利用在2018年3月13日提交的发明名称为“甲基化片段异常检测”的美国专利申请案第62/642,480号中描述的M评分分类器,通过引用并入本文。
在一些实施例中,所述分类器是一神经网络或一卷积神经网络。参见Vincent等人,2010,“堆叠去噪自编码器:在具有局部去噪标准的深度网络中学习有用的表示”,JMach Learn Res.期刊11,第3371-3408页;Larochelle等人,2009年,“探索训练深度神经网络的策略”,J Mach Learn Res.期刊10,第1-40页;及Hassoun,1995年,人工神经网络基础,麻省理工学院,在此通过引用并入本文。另见于2018年6月1日提交的发明名称为“C卷积神经网络系统和数据分类方法”的美国专利申请案第62/679,746号,其公开了卷积神经网络可以用于根据本公开对甲基化模式进行分类,在此通过引用并入。
在一些实施例中,分类器是支持向量机(SVM)。支持向量机(SVM)被描述在Cristianini和Shawe-Taylor,2000年,“支持向量机介绍”,剑桥大学出版社,剑桥;Boser等人,1992年,“最佳边缘分类器的训练算法”,在第五届ACM计算学习理论年度研讨会论文集,ACM出版社,宾夕法尼亚州匹兹堡,第142-152页;Vapnik,1998,统计学习理论,Wiley出版社,纽约;Mount,2001,生物信息学:序列和基因组分析,冷泉港实验室出版社,纽约州冷泉港;Duda,模式分类,第二版,2001,John Wiley&Sons公司,259页、262-265页;及Hastie,2001年,统计学习的要素,Springer公司,纽约;和Furey等人,2000,生物信息学16,906-914,每一个在此通过引用整体并入。当用于分类时,多个SVM利用与距离标记数据最大距离的一超平面将一给定二进制标记数据集分开。对于不可能进行线性分离的情况,SVM可以与“内核”技术结合工作,其自动实现到特征空间的非线性映射。通过SVM在特征空间中找到的超平面对应于输入空间中的非线性决策边界。
在一些实施例中,所述分类器是一决策树。决策树一般描述于Duda,2001,模式分类,John Wiley&Sons公司,纽约,395-396页,通过引用并入。基于树的方法将特征空间划分为一组矩形,然后在每个矩形中拟合一个模型(如常量)。在一些实施例中,所述决策树是随机森林回归。可以使用的一种特定算法是分类和回归树(CART)。其他具体的决策树算法包含但不限于ID3、C4.5、MART和随机森林。CART、ID3和C4.5描述于Duda,2001,模式分类,JohnWiley&Sons公司,纽约,396-408页和411-412页,通过引用并入。CART、MART和C4.5描述于Hastie等人,2001,统计学习的要素,Springer-Verlag公司,纽约,第9章,其全部内容通过引用并入本文。随机森林描述于Breiman,1999,“随机森林-随机特征”,Technical Report期刊567,统计系,加州大学伯克利分校,1999年9月,其全部内容通过引用并入本文。
在一些实施例中,所述分类器是无监督聚类模型。在一些实施例中,所述分类器是监督聚类模型。聚类描述于Duda和Hart,模式分类与场景分析,1973,John Wiley&Sons公司,纽约(以下称为“Duda 1973”)的第211-256页,其全部内容通过引用并入本文。如Duda1973的第6.7节所述,聚类问题被描述为在数据集中寻找自然分组的问题中的一种。为了识别自然分组,需要解决两个问题。首先,确定一种测量两个样本之间相似度(similarity)(或相似度(dissimilarity))的方法。此度量(例如,相似性度量)用于确保一个群集中的样本比其他群集中的样本彼此更相似。其次,确定使用相似性度量将数据划分为群集(clusters)的机制。Duda 1973的6.7节中讨论了相似性度量(Similarity measures),其中指出开始聚类研究的一种方法是定义距离函数并计算训练集中所有样本对之间的距离矩阵。如果距离是相似性的良好度量,则同一聚类中参考实体之间的距离将明显小于不同聚类中参考实体之间的距离。然而,如Duda 1973的第215页所述,聚类不需要使用距离度量。例如,非度量相似度函数s(x,x')可用于比较两个向量x及x'。通常,s(x,x')是一个对称函数,当x及x'某种程度上“相似”时,其值很大。在Duda 1973的第218页上提供了非度量相似度函数s(x,x')的示例。一旦选择了用于测量数据集中的点之间的“相似性”或“不相似性”的方法,聚类就需要标准函数来测量数据的任何分区的聚类质量。极端化准则函数的数据集分区用于对数据进行聚类。参见Duda 1973年第217页。准则函数在Duda 1973的6.8节中进行了讨论。最近,Duda等人,在已经出版的模式分类(Pattern Classification),第二版,John Wiley&Sons公司,纽约,第537-563页详细描述了群集。有关聚类技术的更多信息,可参见Kaufman及Rousseeuw,1990年,在数据中查找组:聚类分析入门,Wiley公司,纽约;Everitt,1993年,聚类分析(第3版),纽约州威利市;和Backer,1995年,聚类分析中的计算机辅助推理,Prentice Hall公司,新泽西州上鞍河市,在此通过引用并入本文。可以在本公开中使用的特定示例性聚类技术包括但不限于分层聚类(使用最近邻算法(nearest-neighbor algorithm)、最远邻算法(farthest-neighbor algorithm)、平均链接算法(average linkage algorithm)、质心算法(centroid algorithm)或平方和算法(sum-of-squares algorithm)的聚集聚类(agglomerative clustering))、k均值聚类、模糊k均值聚类算法及Jarvis-Patrick聚类。在一些实施例中,聚类包含无监督聚类,其中没有强加在训练集聚类时应该形成什么聚类的先入之见。
在一些实施例中,所述分类器是回归模型,例如多类别logit模型描述于Agresti,分类数据分析简介,1996,John Wiley&Sons公司,纽约,第8章,其全部内容通过引用并入本文。在一些实施例中,所述分类器利用Hastie等人公开的回归模型,2001年,统计学习的要素,纽约施普林格出版社。
在一些实施例中,所述分类器是朴素贝叶斯算法,例如Rosen等人开发的工具以处理宏基因组读数(参见,生物信息学期刊27(1):127–129,2011年)。在一些实施例中,所述分类器是最近邻算法,例如Kamvar等人描述的非参数方法,Front Genetics期刊6:208doi:10.3389/fgene.2015.00208,2015年)。在一些实施例中,所述分类器是混合模型,例如描述于McLachlan等人,生物信息学期刊18(3):413-422,2002。在一些实施例中,特别是包含时间分量的那些实施例,所述分类器是隐马尔可夫模型,例如描述于Schliep等人,2003年,生物信息学期刊19(1):i255-i263。
另外的实施例
确定测试对象相对于第三细胞来源的估计部分。在一些实施例中,所述方法在第二细胞来源是一第二癌症类型或一第二癌症阶段的情况下分析测试对象的核酸片段。
在一些实施例中,所述单独分配进一步包含:对所述多个第一核酸片段中的每个相应核酸片段分配一第二分数,从而获得多个第二分数。所述多个第二分数中的每个相应第二分数是针对所述多个第一核酸片段中的一核酸片段。在一些实施例中,每个相应第二分数表示核酸片段是从源自与一第三细胞来源相关联的一循环肿瘤核酸样本的一无细胞核酸分子获得的一似然性。
在一些实施例中,所述单独分配步骤将相应核酸片段的一甲基化状态与一第三标准甲基化状态向量集及与一第二标准甲基化状态向量集进行比较,或至少部分地在所述第三标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第二分类器。所述第三标准甲基化状态向量集中的每个标准甲基化状态向量衍生自对应于所述第三细胞来源的多个第三参考对象中一对应参考对象的一组织样本或无细胞核酸样本。
在一些实施例中,所述转换步骤进一步包含:将所述多个第二分数转换为多个第二计数。所述多个第二计数中的每个计数是对于所述物种的一参考序列基因组中一第二预定甲基化位点集中的一甲基化位点。所述第二预定甲基化位点集与所述第三细胞来源相关联。
在一些实施例中,所述方法进一步包含:使用多个第二计数在测试对象中相对于所述第二细胞来源估计第二细胞来源或肿瘤部分。所述方法通过将所述相应计数集中通过所述多个第二计数代表的所述第二预定甲基化位点集中每个相应甲基化位点的一第二参考集中相应甲基化位点的一对应参考分数进行比较来进行。所述第二参考集中的每个对应参考分数是通过确定从所述多个第三参考对象中一对应参考对象的组织样本或无细胞核酸获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得。
在一些实施例中,所述单独分配步骤针对所述第二分类器比较所述相应核酸片段的所述甲基化状态。在一些实施例中,所述第一分类器和所述第二分类器相同,及所述第一分类器至少部分地在所述第一标准甲基化状态向量集、所述第二标准甲基化状态向量集和所述第三标准甲基化状态向量集上训练。
在一些实施例中,所述第一分类器是不同于所述第二分类器,及所述第一分类器没有在所述第三标准甲基化状态向量集上训练。
确定测试对象相对于细胞来源的估计细胞部分。本公开的另一方面提供了一种相对于一给定物种的一测试对象中的多个细胞来源中的每个细胞来源来估计细胞来源(例如,肿瘤)部分的方法。所述方法包含:在一第一时间段,从所述测试对象的所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态。
在一些实施例中,所述方法通过对所述多个第一核酸片段中的每个相应核酸片段单独分配多个分数,从而获得多个第一分数集。在一些实施例中,每个集包含多个分数,每个分数对应于多个细胞来源中的一细胞来源。在一些实施例中,所述多个第一分数集中的每个相应分数集用于多个第一核酸片段中的一对应核酸片段。在一些实施例中,所述多个分数集中的每个相应分数集中的每个相应分数表示从源自所述多个细胞来源中与一循环肿瘤核酸相关联的一对应不同细胞来源的一无细胞核酸分子中获得的对应核酸片段的一似然性。在一些实施例中,所述单独分配步骤将所述相应核酸片段的所述甲基化状态与多个标准甲基化状态向量集进行比较,或至少部分地在所述多个标准甲基化状态向量集上训练的一分类器。在一些实施例中,所述多个标准甲基化状态向量集的每个标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个参考对象中一对应参考对象的一组织样本或无细胞核酸样本。在一些实施例中,所述多个参考对象包含针对多个细胞来源中的每个相应细胞来源的至少一个代表性参考对象。
在一些实施例中,所述方法继续通过将所述多个分数集转换为多个计数集,其中所述多个计数集中的每个相应计数集表示所述多个细胞来源中的一不同细胞来源。在一些实施例中,对于每个相应计数集,所述相应计数集中的每个计数是对于对应于由所述相应计数集表示的所述细胞来源的所述物种的一参考序列的基因组中的一对应预定甲基化位点集中的一甲基化位点。
在一些实施例中,所述方法继续通过在所述测试对象中使用所述多个计数集来估计多个细胞来源部分,所述多个细胞来源部分中的每个相应细胞来源部分是相对于所述多个细胞来源中的一对应细胞来源。在一些实施例中,所述估计步骤包含:对于所述多个计数集中的每个相应计数集,将对应于所述计数集的所述预定甲基化位点集中每个相应甲基化位点的所述相应计数与一对应参考集中相应甲基化位点的一对应参考分数进行比较。在一些实施例中,所述对应参考集中的每个对应参考分数是通过确定从所述多个参考对象中一对应参考对象的一组织样本或无细胞核酸获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得,对应于由所述计数集表示的所述细胞来源。
在一些实施例中,所述第一癌症类型可以与所述第二癌症类型相同。替代地,所述第一癌症类型可以不同于所述第二癌症类型。在一些实施例中,所述第一癌症类型和所述第二癌症类型每个分别选自以下组成的群组:乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、及胃癌。
实施例1-癌症分期的ctDNA部分中值的增加。
参考在图4中,多个对象按癌症分期I期、II期、III期和IV期进行分组,而不论患有的癌症类型。在图4中,x轴表示每个对象的癌症分期,而y轴表示每个对象观察到的ctDNA部分。用于计算每个对象的cfDNA部分的方法包含从一群组中来自每个对象的生物样本以电子形式获得多个第一核酸片段128,其中所述生物样本包含无细胞核酸分子。
图4提供了在具有表明潜在癌症的多个无细胞核酸片段的多个对象中,cfDNA部分如何随癌症分期而不论癌症类型而变化的一分析。因此,图4示出由于通过临床分期(1期到4期)确定的疾病更严重,在cfDNA中发现了更多肿瘤部分(更大的cfDNA部分)的数据。虽然图4示出了虽然这是CCGA群组的一般情况(有关CCGA队列的详细信息,参见实施例6),但此趋势存在违规(异常值)。图4中的此类异常值具有暗示性,并且可以通过临床错误分类得到最好的解释。因此,图4显示了潜在疾病的一基本组成部分,即cfDNA中一般预期的肿瘤部分比率。图4还显示,4期具有一些个体的脱落率非常低,这表明4期中有不同的子状态。
图4示出了脱落率(cfDNA部分)可用作建立有意义和信息丰富的阈值的基础。
实施例2-获得多个核酸片段。
图7是根据一个实施例用于制备用于测序的核酸样本的方法700的流程图。方法700包含但不限于以下步骤。例如,方法700的任何步骤可以包含用于质量控制或本领域技术人员已知的其他实验室测定程序的定量子步骤。
在方框702中,从一对象中提取一核酸样本(DNA或RNA)。所述样本可以是人类基因组的任何子集,包含全基因组。所述样本可以从已知患有或怀疑患有癌症的对象中提取。所述样本可以包含血液、血浆、血清、尿液、粪便、唾液、其他类型的体液或其任何组合。在一些实施例中,抽取血液样本的方法(例如,注射器或手指针)可能比获得组织活检(可能需要手术)的程序侵入性更小。提取的样本可以包含cfDNA和/或ctDNA。对于健康个体,人体可能会自然清除cfDNA和其他细胞碎片。如果对象患有癌症或疾病,提取的样本中的ctDNA可能以可检测的水平存在以进行诊断。
方框704中,测序文库被制备。在文库制备过程中,独特的分子标识符(UMI)被添加到核酸分子(例如,DNA分子)通过适配器连接。UMI是短核酸序列(例如,4-10个碱基对),在适配器连接期间添加到DNA片段的末端。在一些实施例中,UMI是用作独特标签的简并碱基对,其可用于识别源自特定DNA片段的序列读数。在适配器连接后的PCR扩增过程中,UMI与连接的DNA片段一起复制。这提供了一种在下游分析中识别来自同一原始片段的序列读数的方法。
在方框706中,从文库中富集靶向DNA序列。在富集过程中,杂交探针(在本文中也称为“探针”)用于靶向并下拉提供有关癌症(或疾病)存在与否、癌症状态或癌症分类的信息的核酸片段(例如,癌症类别或起源组织)。对于给定的工作流程,可以将探针设计为与靶向(互补)DNA链退火(或杂交)。靶向链可能是“正”链(例如,所述链转录成mRNA,随后翻译成蛋白质)或互补的“负”链。探针的长度范围可为10s、100s或1000s碱基对。在一个实施例中,基于甲基化位点组设计探针。在一个实施例中,基于一组靶向基因设计探针以分析基因组的特定突变或靶向区域(例如,人类或其他生物体)被怀疑与某些癌症或其他类型的疾病相对应。此外,探针可以覆盖靶向区域的多个重叠部分。在方框708中,这些探针用于产生核酸样本的序列读数。
图8是根据一个实施例从核酸样本获得序列读数的过程的图示。图8描绘了来自生物样本的核酸区段800的一个实施例。在此,核酸区段800可以是单链核酸区段,例如单链。在一些实施例中,核酸区段800是双链cfDNA区段。图示的实施例描述了可以被不同探针靶向的核酸区段的三个区域805A、805B和805C。具体地,三个区域805A、805B和805C中的每一个都包含核酸区段800上的重叠位置。示例重叠位置在图8中被描绘为胞嘧啶(“C”)核苷酸碱基802。胞嘧啶核苷酸碱基802位于区域805A的第一边缘附近、区域805B的中心以及区域805C的第二边缘附近。
在一些实施例中,基于基因组(例如,人类或其他生物体)或甲基化位点组设计一个或多个(或全部)探针以分析基因组的特定突变或靶向区域被怀疑与某些癌症或其他类型的疾病相对应。通过使用靶向基因组或甲基化位点组而不是对基因组的所有表达基因进行测序(也称为“全外显子组测序”),方法800可用于增加靶向区域的测序深度,其中深度是指样本中给定靶向序列已被测序的次数的计数。增加测序深度减少了所需的核酸样本输入量。
使用一种或多种探针的核酸样本800的杂交导致对靶向序列870的理解。如图8所示,靶向序列870是杂交探针靶向的区域805的核苷酸碱基序列。靶向序列870也可称为杂交核酸片段。例如,靶向序列870A对应于第一杂交探针靶向的区域805A,靶向序列870B对应于第二杂交探针靶向的区域805B,并且靶向序列870C对应于第三杂交探针靶向的区域805C。鉴于胞嘧啶核苷酸碱基802位于杂交探针靶向的每个区域805A-C内的不同位置,每个靶向序列870包含对应于靶向序列870上特定位置处的胞嘧啶核苷酸碱基802的核苷酸碱基。
在杂交步骤之后,杂交的核酸片段被捕获并且也可以使用PCR进行扩增。例如,靶向序列870可以被富集以获得可以随后测序的富集序列880。在一些实施例中,每个富集序列880从靶向序列870复制。分别从靶向序列870A和870C扩增的富集序列880A和880C还包含位于每个序列读数880A或880C边缘附近的胸腺嘧啶核苷酸碱基。如下文所用,突变的核苷酸碱基(例如,胸腺嘧啶核苷酸碱基)在富集序列880中,所述序列相对于参考等位基因(例如,胞嘧啶核苷酸碱基802)被认为是替代等位基因。此外,从靶向序列870B扩增的每个富集序列880B包含位于每个富集序列880B附近或中心的胞嘧啶核苷酸碱基。
在方框708中,从富集的DNA序列(例如,富集序列880)产生多个序列读数,如图8所示。测序数据可以通过本领域已知的方法从富集的DNA序列中获得。例如,方法800可以包含下一代测序(NGS)技术,包含合成技术(Illumina公司)、焦磷酸测序(454Life Sciences公司)、离子半导体技术(Ion Torrent测序)、单分子实时测序(Pacific Biosciences公司)、连接测序(SOLiD测序)、纳米孔测序(Oxford Nanopore Technologies公司)或双端测序。在一些实施例中,使用具有可逆染料终止子的合成测序进行大规模平行测序。
在一些实施例中,可以使用本领域已知的方法将序列读数与参考基因组对齐以确定对齐位置信息。对齐位置信息可以表示对应于给定序列读数的起始核苷酸碱基和终止核苷酸碱基的参考基因组中区域的起始位置和终止位置。对齐位置信息还可以包含序列读数长度,可以从开始位置和结束位置来确定。参考基因组中的区域可以与基因或基因区段相关联。
在各种实施例中,序列读数由表示为R1和R2的读数对组成。例如,第一读数R1可以从核酸片段的第一端开始测序,而第二读数R2可以从核酸片段的第二端开始测序。因此,核苷酸碱基对的第一读数R1和第二读数R2可以与参考基因组的核苷酸碱基一致地对齐(例如,以相反的方向)。衍生自读数对R1和R2的对齐位置信息可以包含参考基因组中对应于第一读数的端部的起始位置(例如,R1)和参考基因组中对应于第二读数的端部的结束位置(例如,R2)。换句话说,参考基因组中的开始位置和结束位置代表参考基因组内核酸片段对应的可能位置。可以生成并输出具有SAM(序列对齐映射)格式或BAM(二进制)格式的输出文件,用于进一步分析,例如甲基化状态确定。
实施例3-检测癌症作为cfDNA部分的函数的能力。
本文所述的A分数分类器是基于非同义突变的靶向测序分析的肿瘤突变负荷的分类器。例如,一分类分数(例如,“A分数”)可以使用对肿瘤突变负荷数据的逻辑回归来计算,其中每个个体的肿瘤突变负荷估计是从靶向cfDNA测定中获得的。在一些实施例中,肿瘤突变负荷可以估计为每个个体的变体总数,其是:在cfDNA中称为候选变体,通过噪声建模和联合调用,和/或在在与变体重叠的任何基因注释中发现为非同义。可以将训练集的肿瘤突变负荷数输入到惩罚逻辑回归分类器中,以确定使用交叉验证达到95%特异性的截止值。例如,可以在R.Chaudhary等人中找到有关A分数的其他详细信息,2017年,Journal ofClinical Oncology期刊,35(5),suppl.e14529,预印本在线出版物,其全部内容通过引用并入本文。
B分数分类器在美国专利申请案公开第62/642,461号中进行了描述,提交为第62/642,461号,在此通过引用将其并入。根据B分数方法,针对低变异性区域分析来自多个健康对象的参考群组中的健康对象的核酸样本的第一核酸片段集。因此,来自每个健康对象的核酸样本的第一核酸片段集中的每个核酸片段与参考基因组中的区域相对齐。由此,选择来自训练组中对象的核酸样本的核酸片段的核酸片段训练集。训练集中的每个核酸片段与从参考集中识别的参考基因组中低变异性区域中的一区域进行比对齐。训练集包含来自健康对象的核酸样本的核酸片段以及来自已知患有癌症的患病对象的核酸样本的核酸片段。来自训练组的核酸样本的类型与来自健康对象的参考组的核酸样本的类型是相同或相似。由此确定,使用衍生自训练集的核酸片段的量,反映来自健康对象的核酸样本的核酸片段与训练组内来自患病对象的核酸样本的核酸片段之间的差异的一个或多个参数。然后,一种与核酸样本相关联的核酸片段测试集,包含接收来自关于癌症状态未知的测试对象的cfNA片段,及基于一个或多个参数确定所述测试对象患有癌症的似然性。
M分数分类器在2018年3月13日提交的发明名称为“甲基化片段异常检测”的美国专利申请案第62/642,480号中有所描述,其通过引用并入本文。
实施例4-全基因组亚硫酸氢盐测序多类癌症类型分类器的精确度作为cfDNA部分的函数。
图8详细示出了使用全基因组亚硫酸氢盐测序(WGBS)对CCGA对象群组(以下实施例6)进行测序的多类分类器的精确度,涵盖图3中识别的不同癌症的频谱,作为ctDNA分数的函数。有关WGBS的详细信息,参见,例如实施例7。此外参见,2018年3月13日提交的发明名称为“甲基化片段异常检测”的美国专利申请案第62/642,480号,在此通过引用并入。如图8所示,所述群组被分为八个不同的cfDNA部分箱,及提供每个这样的箱的WGBS分类器的精度(定义为将给定对象的正确癌症放入前两个癌症类别概率的能力),以及每个这样的箱中的群组中的对象的数量。图8表明为了使用WGBS多类癌症类型分类器实现正确的分配,需要阈值ctDNA分数水平。
实施例5-cfDNA部分与肿瘤大小呈正相关。
图10示出了使用实施例6中描述的CCGA群组在癌症的所有阶段中肿瘤大小与cfDNA部分的正相关。由于在许多情况下肿瘤大小与癌症侵袭性呈正相关,因此实施例5为根据本公开、包含结合图2公开的方法、以下公开的额外实施例、以及本公开的权利要求使用cfDNA部分对多个对象进行分类提供了额外的支持。
实施例6-无细胞基因组图谱研究(CCGA)群组。
来自CCGA[NCT02889978]的对象用于本公开的实施例中。CCGA是一项前瞻性、多中心、观察性的基于cfDNA的早期癌症检测研究,已在140多个地点招募了超过15,000名人口统计平衡的参与者。
这个实施例着眼于CCGA的子研究之一。从新诊断的未接受治疗的癌症对象(C,病例)和为诊断为癌症的参与者(非癌症[NC],对照)中收集血液,如登记时所定义。这项预先计划的子研究包含878个病例、580个对照组和169个测定对照组(n=1627),涉及20种肿瘤类型和所有临床阶段。
所有样本均由以下人员分析:(1)配对的cfDNA和白细胞(WBC)靶向测序(60,000倍,507个基因组);联合调用者删除了WBC衍生的体细胞变异和残留的技术噪音;(2)配对cfDNA和WBC全基因组测序(WGS;35倍);一种新颖的机器学习算法生成与癌症相关的信号分数;联合分析识别共同事件;(3)cfDNA全基因组亚硫酸氢盐测序(WGBS;34倍);使用异常甲基化的片段生成归一化分数。在靶向测定中,非肿瘤WBC匹配的cfDNA体细胞变异(SNVs/indels)占NC中所有变异的76%,占C中所有变异的65%。与体细胞嵌合体一致(例如,克隆造血),WBC匹配的变异随着年龄的增长而增加;一些是以前没有报道过的非标准功能丧失突变。去除WBC变异后,标准的驱动体细胞变异对C具有高度特异性(例如,在EGFR和PIK3CA中,0个NC具有变异,而C的变异分别为11和30)。类似地,在用WGS检测到的具有多个体细胞拷贝数改变(SCNAs)的8个NC中,有四个来自WBC。CCGA的WGBS数据揭示了信息丰富的高片段和低片段水平CpG(1:2比例);其中的一个子集用于计算甲基化分数。在所有检测中<1%的NC参与者中观察到一致的“类癌”信号(代表潜在的未确诊癌症)。在NC与I-III期与IV期(非同义,每Mb的SNVs/indels[平均值±标准差]NC:1.01±0.86,I-III期:2.43±3.98;IV期:6.45±6.79;WGS分数NC:0.00±0.08,I-III期:0.27±0.98;IV期:1.95±2.33;甲基化评分NC:0±0.50;I-III期:1.02±1.77;IV期:3.94±1.70)。这些数据证明了对侵袭性癌症实现>99%特异性的可行性,并支持cfDNA检测在早期癌症检测中的前景。
实施例7-甲基化状态向量的生成。
图9是描述根据本公开的实施例对cfDNA片段进行测序以获得甲基化状态向量的过程900的流程图。
参考步骤902,从生物样本中获得cfDNA片段(例如,如上文结合图2所讨论的那样)。参考步骤920,处理cfDNA片段以将未甲基化的胞嘧啶转化为尿嘧啶。在一个实施例中,DNA经受亚硫酸氢盐处理,其将cfDNA片段的未甲基化胞嘧啶转化为尿嘧啶而不转化甲基化胞嘧啶。在一些实施例中,例如,市售的试剂盒,如EZ DNA MethylationTM–Gold,EZ DNAMethylationTM–Direct或EZ DNA MethylationTM–Lightning试剂盒(可从Zymo Research公司(加利福尼亚州欧文市)获得)用于亚硫酸氢盐转化。在其他实施例中,未甲基化的胞嘧啶向尿嘧啶的转化是使用酶促反应完成的。例如,转化可以使用市售的试剂盒将未甲基化的胞嘧啶转化为尿嘧啶,例如APOBEC-Seq(NEBiolabs公司,伊普斯维奇市,马萨诸塞州)。在一些实施例中,甲基化胞嘧啶也可通过酶促转化转化为尿嘧啶。
从转化的cfDNA片段,测序文库被制备(步骤930)。在一些实施例中,使用多个杂交探针富集935测序文库的cfDNA片段或基因组区域,其为癌症状态提供信息;例如,在靶向甲基化测序分析中。杂交探针是短寡核苷酸,能够与特定的cfDNA片段或靶向区域杂交,并富集这些片段或区域以进行后续测序和分析。杂交探针可用于对研究人员感兴趣的一组特定CpG位点进行有针对性的、高深度的分析。一旦制备,测序文库或其一部分可以被测序以获得多个核酸片段。核酸片段可以是计算机可读的数字格式,用于通过计算机软件进行处理和解释。
从片段中,基于多个核酸片段与一参考基因组的对齐来确定每个CpG位点的位置和甲基化状态(950)。每个片段的甲基化状态向量指定了例如参考基因组中片段的位置(例如,如通过每个片段中第一CpG位点的位置或其他类似度量指定),片段中CpG位点的数量和片段中每个CpG位点的甲基化状态的信息(960)。
实施例8–示例细胞来源。
在一些实施例中,本公开的任何实施例的细胞来源是一第一癌症的共同最初原发部位。在一些实施例中,所述第一癌症为一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌或其组合。
在一些实施例中,本公开的任何实施例的细胞来源是某些癌症类型的肿瘤或其部分。在一些实施例中,肿瘤是肾上腺皮质癌、儿童肾上腺皮质癌、AIDS相关癌症的肿瘤、卡波西肉瘤、与肛门癌相关的肿瘤、与阑尾癌相关的肿瘤、星形细胞瘤、儿童(脑癌)肿瘤、非典型畸胎瘤/横纹肌瘤、中枢神经系统(脑癌)肿瘤、皮肤基底细胞癌、与胆管癌相关的肿瘤、膀胱癌肿瘤、儿童膀胱癌肿瘤、骨癌(如尤文肉瘤、骨肉瘤和恶性纤维组织细胞瘤)组织、脑瘤、乳腺癌组织、儿童乳腺癌组织、儿童支气管肿瘤、伯基特淋巴瘤组织、类癌瘤(胃肠道)、儿童类癌瘤、不明原发癌、不明原发儿童癌、儿童心脏(cardiac、heart)肿瘤、中枢神经系统(例如,脑癌,如儿童非典型畸胎样瘤/横纹肌样瘤/)瘤、儿童生殖细胞肿瘤、宫颈癌组织、儿童宫颈癌组织、胆管癌组织、儿童脊索瘤组织、慢性骨髓增生性肿瘤、结直肠癌肿瘤、儿童结直肠癌肿瘤、儿童颅咽管瘤组织、导管癌原位(DCIS)、儿童胚胎肿瘤、子宫内膜癌(子宫癌)组织、儿童室管膜瘤组织、食管癌组织、儿童食管癌组织、嗅神经母细胞瘤(头颈癌)组织、儿童颅外生殖细胞肿瘤、性腺外胚芽细胞肿瘤、眼癌组织、眼内黑色素瘤、视网膜母细胞瘤、输卵管癌组织、胆囊癌组织、胃(gastric、stomach)癌组织、儿童胃(gastric、stomach)癌组织、胃肠道类癌瘤、胃肠道间质瘤(GIST)、儿童胃肠道间质瘤、生殖细胞肿瘤(如儿童中枢神经系统生殖细胞肿瘤、儿童颅外生殖细胞肿瘤、性腺外生殖细胞肿瘤、卵巢生殖细胞肿瘤或睾丸癌组织)、头颈癌组织、儿童心脏肿瘤、肝细胞癌(HCC)组织、胰岛细胞肿瘤(胰腺神经内分泌肿瘤)、肾或肾细胞癌(RCC)组织、喉癌组织、白血病、肝癌组织、肺癌(非小细胞和小细胞)组织、儿童肺癌组织、男性乳腺癌组织、骨恶性纤维组织细胞瘤和骨肉瘤、黑色素瘤、儿童黑色素瘤、眼内黑色素瘤、儿童眼内黑色素瘤、默克尔细胞癌、恶性间皮瘤、儿童间皮瘤、转移性癌组织、具有隐匿性原发灶的转移性鳞状颈癌组织、具有NUT基因改变的中线癌、口腔癌(头颈癌)组织、多发性内分泌肿瘤综合征组织、多发性骨髓瘤/浆细胞瘤、骨髓增生异常综合征组织、骨髓增生异常/骨髓增生性肿瘤、慢性骨髓增生性肿瘤、鼻腔和鼻窦癌组织、鼻咽癌(NPC)组织、神经母细胞瘤组织、非小细胞肺癌组织、口腔癌组织、唇和口腔腔癌和口咽癌组织、骨肉瘤和骨组织恶性纤维组织细胞瘤、卵巢癌组织、儿童卵巢癌组织、胰腺癌组织、儿童胰腺癌组织、乳头状瘤(儿童喉癌)组织、副神经节瘤组织、儿童副神经节瘤组织、鼻窦鼻腔癌组织、甲状旁腺癌组织、阴茎癌组织、咽癌组织、嗜铬细胞瘤组织、儿童嗜铬细胞瘤组织、垂体瘤、浆细胞肿瘤/多发性骨髓瘤、胸膜肺母细胞瘤、原发性中枢神经系统(CNS)淋巴瘤、原发性腹膜癌组织、前列腺癌组织、直肠癌组织、视网膜母细胞瘤、儿童横纹肌肉瘤、唾液腺癌组织、肉瘤(例如,儿童血管瘤、骨肉瘤、子宫肉瘤等)、Sézary综合征(淋巴瘤)组织、皮肤癌组织、儿童皮肤癌组织、小细胞肺癌组织、小肠癌组织、皮肤鳞状细胞癌、隐匿性原发性颈部鳞状癌、皮肤T细胞淋巴瘤、睾丸癌组织、儿童睾丸癌组织、喉癌(例如鼻咽癌、口咽癌、下咽癌)组织、胸腺瘤或胸腺癌、甲状腺癌组织、肾盂输尿管移行细胞癌组织、不明原发癌组织、输尿管或肾盂组织、移行细胞癌(肾(肾细胞)癌组织、尿道癌组织、子宫内膜癌组织、子宫肉瘤组织)、阴道癌组织、儿童阴道癌组织、血管瘤、外阴癌组织、肾母细胞瘤或其他儿童肾肿瘤。
在一些实施例中,本公开的任何实施例的细胞来源是一第一癌症。在一些这样的实施例中,所述第一癌症为:一乳腺癌的一阶段、一肺癌的一阶段、一前列腺癌的一阶段、一结直肠癌的一阶段、一肾癌的一阶段、一子宫癌的一阶段、一胰腺癌的一阶段、一食道癌的一阶段、一淋巴瘤的一阶段、一头颈癌的一阶段、一卵巢癌的一阶段、一肝胆癌的一阶段、一黑色素瘤的一阶段、一宫颈癌的一阶段、一多发性骨髓瘤的一阶段、一白血病的一阶段、一甲状腺癌的一阶段、一膀胱癌的一阶段或一胃癌的一阶段。
在一些实施例中,本公开任何实施例的一细胞来源为:一乳腺癌的一预定阶段、一肺癌的一预定阶段、一前列腺癌的一预定阶段、一结直肠癌的一预定阶段、一肾癌的一预定阶段、一子宫癌的一预定阶段、一胰腺癌的一预定阶段、一食道癌的一预定阶段、一淋巴瘤的一预定阶段、一头颈癌的一预定阶段、一卵巢癌的一预定阶段、一肝胆癌的一预定阶段、一黑色素瘤的一预定阶段、一宫颈癌的一预定阶段、一多发性骨髓瘤的一预定阶段、一白血病的一预定阶段、一甲状腺癌的一预定阶段、一膀胱癌的一预定阶段或一胃癌的一预定阶段。
在一些实施例中,本公开的任何实施例的细胞来源是来自非癌性组织。
在一些实施例中,本公开的任何实施例的细胞来源是来自衍生自健康组织的多个细胞。在一些实施例中,本公开的任何实施例的一细胞来源是来自一健康组织,例如乳房、肺、前列腺、结肠直肠、肾、子宫、胰腺、食道、淋巴、卵巢、宫颈、表皮、甲状腺、膀胱、胃、或其组合。
在一些实施例中,本公开的任何实施例的细胞来源是衍生自一组织类型。在一些实施例中,本公开的任何实施例的细胞来源是衍生自两种或更多种组织类型。在一些实施例中,一组织类型包含一种或多种细胞类型(例如,健康的非癌性细胞和癌性细胞的组合)。在一些实施例中,一组织类型包含一种细胞类型(例如,癌细胞或健康的非癌细胞中的一种)。
在一些实施例中,本公开的任何实施例的一细胞来源构成一种细胞类型、两种细胞类型、三种细胞类型、四种细胞类型、五种细胞类型、六种细胞类型、七种细胞类型、八种细胞类型、九种细胞类型、十种细胞类型,或多于十种的细胞类型。
在一些实施例中,本公开的任何实施例的细胞来源是肝细胞。在一些这样的实施例中,所述细胞来源是肝细胞、肝星状脂肪储存细胞(ITO细胞)、库普弗细胞、肝窦内皮细胞或其任何组合。
在一些实施例中,本公开的任何实施例的细胞来源是胃细胞。在一些这样的实施例中,所述第一细胞来源是壁细胞。
在一些实施例中,本公开的任何实施例的细胞来源是一种或多种类型的人类细胞。在一些这样的实施例中,所述细胞来源是适应性NK细胞、脂肪细胞、肺泡细胞、阿尔茨海默II型星形胶质细胞、无长突细胞、成釉细胞、星形胶质细胞、B细胞、嗜碱性粒细胞、嗜碱性粒细胞活化细胞、嗜碱性细胞、巨大锥体细胞、双层细胞、卜歇细胞、心肌细胞、CD4+T细胞、成牙骨质细胞、小脑颗粒细胞、胆管细胞、胆囊细胞、嗜铬细胞、雪茄细胞、棒状细胞、促肾上腺皮质激素细胞、细胞毒性T细胞、树突细胞、肠嗜铬细胞、肠嗜铬样细胞、嗜酸性粒细胞、肾小球外系膜细胞、柴捆细胞、脂肪垫细胞、胃主细胞、杯状细胞、促性腺细胞、肝星状细胞、肝细胞、超节段中性粒细胞、肾小球内系膜细胞、肾小球旁细胞、角质形成细胞、肾近端小管刷状缘细胞、库普弗细胞、泌乳细胞、间质细胞、巨噬细胞、黄斑致密细胞、肥大细胞、巨核细胞、黑色素细胞、微皱细胞、单核细胞、自然杀伤细胞、自然杀伤T细胞、闪光细胞、中性粒细胞、成骨细胞、破骨细胞、骨细胞、嗜酸细胞(甲状旁腺)、潘氏细胞、滤泡旁细胞、伞细胞、甲状旁腺主细胞、壁细胞、小细胞神经分泌细胞、栓细胞、周细胞、管周肌样细胞、血小板、足细胞、调节性T细胞、网织红细胞、视网膜双极细胞视网膜水平细胞、视网膜神经节细胞、视网膜前体细胞、前哨细胞、支持细胞、体细胞营养细胞、促生长细胞、星状细胞、支持细胞、T细胞、T辅助细胞、端粒细胞、腱细胞、促甲状腺细胞、移行性B细胞、毛细胞(人类)、簇状细胞、单极刷状细胞、白细胞、卵圆球状细胞或其任何组合。在一些此类实施例中,所述第一细胞来源的此类细胞是健康的。在替代实施例中,所述第一细胞来源的此类细胞患有癌症。
在一些实施例中,本公开的任何实施例的一细胞来源是多种细胞类型的任何组合,前提是这些细胞类型起源于单一器官。在一些此类实施例中,所述单一器官是乳房、肺、前列腺、结肠/直肠、肾、子宫、胰腺、食道、血液、头/颈、卵巢、肝、宫颈、甲状腺、膀胱或胃。在一些实施例中,这个单一器官是健康的。在替代实施例中,所述单一器官患有起源于所述单一器官的癌症。在更进一步的替代实施例中,所述单一器官患有起源于所述单一器官以外的器官并转移到所述单一器官的癌症。
在一些实施例中,本公开的任何实施例的一细胞来源是多种细胞类型的任何组合,前提是这些细胞类型起源于一预定器官组。在一些此类实施例中,所述预定器官组是该组中的任意两个器官:乳房、肺、前列腺、结肠/直肠、肾、子宫、胰腺、食道、血液、头/颈、卵巢、肝、宫颈、甲状腺、膀胱及胃。在一些实施例中,这预定器官组是健康的。在替代实施例中,这预定器官组患有起源于该预定器官组中的的所述多个器官中的一个的癌症。在更进一步的替代实施例中,所述预定器官组患有癌症,所述癌症起源于除所述预定器官组之外的一器官并转移到所述预定器官组。
在一些实施例中,本公开的任何实施例的一细胞来源是多种细胞类型的任何组合,前提是这些细胞类型起源于一预定器官组。在一些此类实施例中,所述预定器官组是该组中的任意三个器官:乳房、肺、前列腺、结肠/直肠、肾、子宫、胰腺、食道、血液、头/颈、卵巢、肝、宫颈、甲状腺、膀胱及胃。在一些实施例中,这预定器官组是健康的。在替代实施例中,这预定器官组患有起源于该预定器官组中的的所述多个器官中的一个的癌症。在更进一步的替代实施例中,所述预定器官组患有癌症,所述癌症起源于除所述预定器官组之外的一器官并转移到所述预定器官组。
在一些实施例中,本公开的任何实施例的一细胞来源是多种细胞类型的任何组合,前提是这些细胞类型起源于一预定器官组。在一些此类实施例中,所述预定器官组是该组中的任意四个器官、五个器官、六个器官、或七个器官:乳房、肺、前列腺、结肠/直肠、肾、子宫、胰腺、食道、血液、头/颈、卵巢、肝、宫颈、甲状腺、膀胱及胃。在一些实施例中,这预定器官组是健康的。在替代实施例中,这预定器官组患有起源于该预定器官组中的的所述多个器官中的一个的癌症。在更进一步的替代实施例中,所述预定器官组患有癌症,所述癌症起源于除所述预定器官组之外的一器官并转移到所述预定器官组。
在一些具体实施例中,本公开的任何实施例的细胞来源是白细胞。在一些此类实施例中,所述细胞来源是嗜中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、淋巴细胞、B淋巴细胞、T淋巴细胞、细胞毒性T细胞、单核细胞或其任何组合。
结论
可以为本文描述为单个实施例的组件、操作或结构提供多个实施例。最后,各种组件、操作和数据存储之间的边界在某种程度上是任意的,并且在特定说明性配置的上下文中说明了特定操作。功能的其他分配是预想的并且可能落入实施的范围内。一般而言,在示例配置中作为单独组件呈现的结构和功能可以实现为组合结构或组件。类似地,作为单个组件呈现的结构和功能可以作为单独的组件来实现。这些和其他变化、修改、添加和改进都属于实施方式的范围。
还应理解的是,虽然术语第一、第二等在本文中可用于描述各种元件,但这些元件不应受这些术语的限制。这些术语仅用于将一元件与另一元件区分开来。例如,在不脱离本公开的范围的情况下,第一对象可以被称为第二对象,并且类似地,第二对象可以被称为第一对象。第一对象和第二对象都是对象,但它们不是同一对象。
本公开中使用的术语仅用于描述特定实施例的目的,并不旨在限制本发明。如在本发明的描述和所附权利要求中使用的,单数形式“一(a、an)”和“所述(the)”也旨在包含复数形式,除非上下文另有明确指示。还应理解的是,本文所用的术语“和/或”是指并涵盖一个或多个相关联的所列项目的任何和所有可能的组合。将进一步理解,术语“包含(comprises和/或comprising)”,当在本说明书中使用时,指定所述特征、整数、步骤、操作、元件和/或组件的存在,但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或其群组。
如本文所用,取决于上下文,术语“如果”可被解释为意指“当...时”或“在...上”或“响应于确定”或“响应于检测”。类似地,短语“如果确定”或“如果检测到[特定的条件或事件]”可以解释为“在....确定”或“响应于确定”或“在检测到(特定的条件或事件)”或“响应检测(特定条件或事件)”,具体取决于上下文。
前面的描述包含体现说明性的实施方式的示例系统、方法、技术、指令序列和计算机器程序产品。出于解释的目的,阐述了许多具体细节以提供对本发明主题的各种实施方式的理解。然而,对于本领域技术人员明白易懂的是,可以在没有这些具体细节的情况下实践本发明主题的实施方式。一般来说,众所周知的指令实施例、协议、结构和技术没有详细显示。
出于解释的目的,已经参考具体实施方式描述了上面的描述。然而,以上说明性讨论并非旨在详尽无遗或将实施方式限制为所公开的精确形式。鉴于上述教导,许多修改和变化是可能的。选择和描述这些实施方式是为了最好地解释原理及其实际应用,从而使本领域的其他技术人员能够最好地利用这些实施方式和具有适合预期的特定用途的各种修改的各种实施方式。

Claims (136)

1.一种一种估计来自一给定物种的一测试对象的一第一生物样本中的一第一细胞来源部分的方法,其特征在于,所述方法包含:
在一计算机系统处,所述计算机系统具有一个或多个处理器和一存储器,所述存储器存储一个或多个程序以供所述一个或多个处理器执行以下步骤:
(A)在一第一时间段从所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态;
(B)对所述多个第一核酸片段中的每个相应核酸片段单独分配一第一分数,从而获得多个第一分数,其中:
每个相应第一分数表示对应核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性,
所述单独分配步骤(B)包含:(i)将相应核酸片段的一甲基化状态与一第一标准甲基化状态向量集及与一第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述第一标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第一分类器,
所述第一标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个第一参考对象中一对应参考对象的一第一相应组织样本或一第一相应无细胞核酸样本,其中所述第一相应组织样本或所述第一相应无细胞核酸样本对应于所述第一细胞来源,
所述第二标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个第二参考对象中一对应参考对象的一第二相应组织样本或一第二相应无细胞核酸样本,其中所述第二相应组织样本或所述第二相应无细胞核酸样本对应于一第二细胞来源,其中所述第二细胞来源不是所述第一细胞来源;
(C)将所述多个第一分数转换为多个第一计数,其中:
所述多个第一计数中的每个计数是对于所述物种的一参考序列基因组中一第一预定甲基化位点集中的一甲基化位点,及
所述第一预定甲基化位点集与所述第一细胞来源相关联;以及
(D)通过将由所述多个第一计数表示的所述第一预定甲基化位点集中的每个相应甲基化位点的相应计数与一第一参考集中的相应甲基化位点的一对应参考分数进行比较,使用所述多个第一计数来估计所述第一生物样本中所述第一细胞来源部分的第一情况,其中所述第一参考集中的每个对应参考分数是通过确定从所述多个第一参考对象中每个对应参考对象的第一相应组织样本或第一相应无细胞核酸样本获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得。
2.如权利要求1所述的方法,其特征在于,所述第一标准甲基化状态向量集中的每个标准甲基化状态向量表示所述多个第一参考对象中所述对应参考对象的基因组中的甲基化状态。
3.如权利要求1所述的方法,其特征在于,所述第一标准甲基化状态向量集中的每个标准甲基化状态向量表示所述对应参考对象的基因组的一子集的一甲基化状态,其中所述基因组的所述子集的所述甲基化状态表示所述第一细胞来源下的致病生理。
4.如权利要求1-3任一项所述的方法,其特征在于,
所述第一细胞来源是一癌症类型,及
所述第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从所述对应参考对象获得的所述癌症类型的一肿瘤样本。
5.如权利要求1-3任一项所述的方法,其特征在于,
所述第一细胞来源是一癌症类型,
所述第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从所述对应参考对象的一参考生物样本的多个无细胞核酸,及
所述对应参考对象的所述参考生物样本中所述癌症类型的细胞来源部分至少为2%。
6.如权利要求1-3任一项所述的方法,其特征在于,
所述第一细胞来源是一癌症类型,
所述第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从所述对应参考对象的一参考生物样本的多个无细胞核酸,及
所述对应参考对象的所述参考生物样本中所述癌症类型的细胞来源部分至少为10%。
7.如权利要求1-3任一项所述的方法,其特征在于,
所述第一细胞来源是一癌症类型,
所述第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从所述对应参考对象的一参考生物样本的多个无细胞核酸,及
所述对应参考对象的所述参考生物样本中所述癌症类型的细胞来源部分至少为20%。
8.如权利要求1-7任一项所述的方法,其特征在于,所述第二细胞来源是一种或多种无癌症的细胞类型。
9.如权利要求1-8任一项所述的方法,其特征在于,所述方法进一步包含步骤:
(E)在一第二时间段从所述测试对象的一第二生物样本中的多个第二无细胞核酸分子以电子形式获得多个第二核酸片段中每个核酸片段的一甲基化状态;
(F)对所述多个第二核酸片段中的每个相应核酸片段单独分配一第二分数,从而获得多个第二分数,其中:
每个相应第二分数表示核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性,
所述单独分配步骤(F)包含:(i)将相应核酸片段的所述甲基化状态与所述第一标准甲基化状态向量集及与所述第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给所述第一分类器,
(G)将所述多个第二分数转换为多个第二计数,其中:
所述多个第二计数中的每个相应计数是对于所述物种的所述参考序列基因组中所述第二预定甲基化位点集中的一甲基化位点,及
(H)通过将由所述多个第二计数表示的所述第一预定甲基化位点集中的每个相应甲基化位点的相应计数与所述第一参考集中的相应甲基化位点的一对应参考分数进行比较,使用所述多个第二计数来估计所述第二生物样本中所述第二细胞来源部分的第二情况。
10.如权利要求9所述的方法,其特征在于,所述第二时间段为在所述第一时间段之后的一个月到一年之间。
11.如权利要求9或10所述的方法,其特征在于,所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况和所述第一细胞来源部分的所述第二情况之间的一差异作为基础或部分基础,以确定与所述测试对象中所述第一细胞来源相关联的一疾病状况的一侵袭性。
12.如权利要求9或10所述的方法,其特征在于,所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况和所述第一细胞来源部分的所述第二情况之间的一差异作为基础或部分基础,以确定与所述测试对象中所述第一细胞来源相关联的一疾病状况的一治疗方案。
13.如权利要求1-10任一项所述的方法,其特征在于,所述第一细胞来源是一癌症类型,及所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况作为基础或部分基础来确定所述测试对象中所述癌症类型的一阶段。
14.如权利要求1所述的方法,其特征在于,所述第一细胞来源是多个淋巴细胞,及所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况作为基础或部分基础来评估所述测试对象的一癌症状况。
15.如权利要求1-10任一项所述的方法,其特征在于,所述第一细胞来源是一癌症类型,所述方法进一步包含:使用所述第一细胞来源部分作为基础或部分基础来确定所述测试对象中癌症的一治疗方案。
16.如权利要求1-15任一项所述的方法,其特征在于,
第一标准甲基化状态向量集是所述物种的基因组的单个一致的甲基化状态向量,所述物种的所述基因组由所述多个第一参考对象的所述第一相应组织样本或相应无细胞核酸样本中的多个核酸的一甲基化状态形成,及
所述第二标准甲基化状态向量集是所述物种的所述基因组的单个一致的甲基化状态向量,所述物种的所述基因组是由所述多个第二参考对象的所述第二相应组织样本或第二无细胞核酸样本中的多个核酸的一甲基化状态形成。
17.如权利要求1-15任一项所述的方法,其特征在于,
所述第一标准甲基化状态向量集包含所述多个第一参考对象中的每个相应参考对象的所述物种的所述基因组的一不一致的甲基化状态向量,所述不一致的甲基化状态向量由所述相应参考对象的所述第一相应组织样本或第一相应无细胞核酸样本中的多个核酸的一甲基化状态形成,以及
所述第二标准甲基化状态向量集包含所述多个第二参考对象中的每个相应参考对象的所述物种的所述基因组的一不一致的甲基化状态向量,所述不一致的甲基化状态向量由所述相应参考对象的所述第二相应组织样本或第二相应无细胞核酸样本中的多个核酸的一甲基化状态形成。
18.如权利要求1-17任一项所述的方法,其特征在于,
所述多个第一参考对象包含至少十个参考对象,以及
所述多个第二参考对象包含除了所述多个第一参考对象之外的至少十个参考对象。
19.如权利要求1-17任一项所述的方法,其特征在于,
所述多个第一参考对象包含至少一百个参考对象,以及
所述多个第二参考对象包含除了所述多个第一参考对象之外的至少一百个参考对象。
20.如权利要求1-17任一项所述的方法,其特征在于,所述多个第一参考对象包含比所述多个第二参考对象更多或更少的参考对象。
21.如权利要求1-20任一项所述的方法,其特征在于,
所述单独分配步骤(B)包含:向所述第一分类器提交所述相应核酸片段的所述甲基化状态,以及
所述第一分类器是基于一多项式逻辑回归算法。
22.如权利要求1-20任一项所述的方法,其特征在于,
所述单独分配步骤(B)包含:向所述第一分类器提交所述相应核酸片段的所述甲基化状态,以及
所述第一分类器是基于一神经网络算法、一支持向量机算法、一朴素贝叶斯算法、一最近邻算法、一增强树算法、一随机森林算法、一卷积神经网络、一决策树算法、一混合模型或一隐马尔可夫模型。
23.如权利要求1-8任一项所述的方法,其特征在于,
所述单独分配步骤(B)进一步对所述多个第一核酸片段中的每个相应核酸片段分配一第二分数,从而获得多个第二分数,所述多个第二分数中的每个相应第二分数对应于所述多个第一核酸片段中的一核酸片段,其中:
每个相应第二分数表示对应核酸片段是从源自一第三细胞来源的一无细胞核酸分子获得的一似然性,
所述单独分配步骤(B)进一步包含:(i)将相应核酸片段的一甲基化状态与至少一第三标准甲基化状态向量集及与所述第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述第三标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第二分类器,
所述第三标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个第三参考对象中一对应参考对象的一第三相应组织样本或一第三相应无细胞核酸样本,其中所述第三相应组织样本或所述第三相应无细胞核酸样本对应于所述第三细胞来源,
所述转换步骤(C)进一步包含:将所述多个第二分数转换为多个第二计数,其中:
所述多个第二计数中的每个计数是对于所述物种的一参考序列基因组中一第二预定甲基化位点集中的一甲基化位点,及
所述第二预定甲基化位点集与所述第三细胞来源相关联;以及
所述估计步骤(D)进一步包含:通过将由所述多个第一计数表示的所述第二预定甲基化位点集中的每个相应甲基化位点的相应计数与一第二参考集中的相应甲基化位点的一对应参考分数进行比较,使用所述多个第二计数来估计所述第一生物样本中所述第二细胞来源部分,其中所述第二参考集中的每个对应参考分数是通过确定从所述多个第三对应参考对象中一对应参考对象的第三相应组织样本或第三相应无细胞核酸样本获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得。
24.如权利要求23所述的方法,其特征在于,
所述单独分配步骤针对所述第二分类器提供所述相应核酸片段的所述甲基化状态,
所述第一分类器和所述第二分类器相同,及
所述第一分类器至少部分地在所述第一标准甲基化状态向量集、所述第二标准甲基化状态向量集和所述第三标准甲基化状态向量集上训练。
25.如权利要求23所述的方法,其特征在于,所述第一分类器是不同于所述第二分类器,及所述第一分类器没有在所述第三标准甲基化状态向量集上训练。
26.如权利要求1-25任一项所述的方法,其特征在于,所述第一预定甲基化位点集包含所述物种的所述基因组中的五十个甲基化位点。
27.如权利要求1-25任一项所述的方法,其特征在于,所述第一预定甲基化位点集包含所述物种的所述基因组中的一百个甲基化位点。
28.如权利要求1-27任一项所述的方法,其特征在于,所述第一预定甲基化位点集包含所述物种的所述基因组中的五百个甲基化位点。
29.如权利要求1-28任一项所述的方法,其特征在于,所述将所述多个第一分数转换为所述多个第一计数步骤(C)包含:对于所述第一预定甲基化位点集中的每个相应甲基化位点进行以下步骤:
(a)确定(i)所述多个第一核酸片段中映射到相应甲基化位点的核酸片段,以及(ii)所述多个第一核酸片段中的核酸片段具有满足一阈值的一第一分数的一第一数量;
(b)确定(i)所述多个核酸片段中映射到相应甲基化位点的核酸片段,以及(ii)所述多个核酸片段中的核酸片段具有满足或未满足所述阈值的一第一分数的一第二数量;以及
(c)将所述相应甲基化位点的分数分配为所述第一数量和所述第二数量的商。
30.如权利要求29所述的方法,其特征在于,所述第一分数为一似然性,及所述阈值为0.5。
31.如权利要求29所述的方法,其特征在于,所述第一数量的核酸片段中的每个相应核酸片段的一计数通过其对应第一分数向下加权。
32.如权利要求1-31任一项所述的方法,其特征在于,所述第一预定甲基化位点集中每个相应甲基化位点的每个计数是所述多个第一核酸片段中对应甲基化位点的一观察甲基化频率,及所述估计步骤(D)包含:
使用所述第一参考集中每个相应甲基化位点的计数和每个相应甲基化位点的对应参考频率来构建一泊松模型或一负二项分布假设;
使用所述泊松模型或所述负二项分布假设,在计算的第一细胞来源部分的一范围中形成一累积密度函数;及
将所述第一细胞来源部分的所述第一情况视为所述计算的第一细胞来源部分的所述范围中所述累积密度函数的一平均值。
33.如权利要求1-31任一项所述的方法,其特征在于,所述第一预定甲基化位点集中每个相应甲基化位点的每个计数是所述多个第一核酸片段中对应甲基化位点的一观察甲基化频率,及所述估计步骤(D)包含:
使用所述第一参考集中对于每个相应甲基化位点的计数和所述甲基化位点的对应参考频率来构建一相应泊松模型或一相应负二项分布假设,从而构建多个泊松模型或多个负二项分布假设;
使用每个相应泊松模型或每个相应负二项分布假设,在计算的第一细胞来源部分的一范围中形成一对应累积密度函数;及
将所述第一细胞来源部分的所述第一情况视为所述计算的第一细胞来源部分的所述范围中结合所述多个泊松模型或所述多个负二项分布假设中所述累积密度函数的平均值。
34.如权利要求32或33所述的方法,其特征在于,所述计算的第一细胞来源部分的范围在0%和110%之间。
35.如权利要求1-34任一项所述的方法,其特征在于,所述第一细胞来源是(i)一第一癌症类型的多个细胞,(ii)所述第一癌症类型的一第一阶段的所述第一癌症类型的多个细胞,(iii)单个细胞类型的多个细胞,(iv)单个组织类型的多个细胞,(v)源自一第一器官类型的多个细胞,其中所述第一器官类型患有源自所述第一器官类型的一癌症,(vi)源自所述第一器官类型的多个细胞,其中所述第一器官类型患有源自一第二器官类型的一癌症,(vii)多个健康细胞,或(viii)多个白细胞。
36.如权利要求1-35任一项所述的方法,其特征在于,所述第一生物样本包含所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。
37.如权利要求1-36任一项所述的方法,其特征在于,所述第一生物样本由以下的群组组成:所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。
38.如权利要求1-34任一项所述的方法,其特征在于,所述第一细胞来源为一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌或其组合。
39.如权利要求1-34任一项所述的方法,其特征在于,所述第一细胞来源为以下的多个细胞:一乳腺癌的单一阶段、一肺癌的单一阶段、一前列腺癌的单一阶段、一结直肠癌的单一阶段、一肾癌的单一阶段、一子宫癌的单一阶段、一胰腺癌的单一阶段、一食道癌的单一阶段、一淋巴瘤的单一阶段、一头颈癌的单一阶段、一卵巢癌的单一阶段、一肝胆癌的单一阶段、一黑色素瘤的单一阶段、一宫颈癌的单一阶段、一多发性骨髓瘤的单一阶段、一白血病的单一阶段、一甲状腺癌的单一阶段、一膀胱癌的单一阶段或一胃癌的单一阶段。
40.如权利要求1-39任一项所述的方法,其特征在于,所述测试对象为人类,及每个参考对象为人类。
41.一种计算系统,其特征在于,所述计算系统包含:
一个或多个处理器;
一存储器,存储将由所述一个或多个处理器执行的一个或多个程序,所述一个或多个程序包含多个指令,用于通过一方法来估计一给定物种的一测试对象中的一第一生物样本中的一第一细胞来源部分,所述方法包含步骤:
(A)在一第一时间段从所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态;
(B)对所述多个第一核酸片段中的每个相应核酸片段单独分配一第一分数,从而获得多个第一分数,其中:
每个相应第一分数表示对应核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性,
所述单独分配步骤(B)包含:(i)将相应核酸片段的甲基化状态与第一标准甲基化状态向量集及与表示除了所述第一细胞来源之外的一来源的一第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述第一标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第一分类器,
所述第一标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个第一参考对象中一对应参考对象的一第一相应组织样本或一第一相应无细胞核酸样本,其中所述第一相应组织样本或所述第一相应无细胞核酸样本对应于所述第一细胞来源,
所述第二标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个第二参考对象中一对应参考对象的一第二相应组织样本或一第二相应无细胞核酸样本,其中所述第二相应组织样本或所述第二相应无细胞核酸样本对应于一第二细胞来源;
(C)将所述多个第一分数转换为多个第一计数,其中:
所述多个第一计数中的每个计数是对于所述物种的一参考序列基因组中一第一预定甲基化位点集中的一甲基化位点,及
所述第一预定甲基化位点集与所述第一细胞来源相关联;以及
(D)通过将由所述多个第一计数表示的所述第一预定甲基化位点集中的每个相应甲基化位点的相应计数与一第一参考集中的相应甲基化位点的一对应参考分数进行比较,使用所述多个第一计数来估计所述第一生物样本中所述第一细胞来源部分的第一情况,其中所述第一参考集中的每个对应参考分数是通过确定从所述多个第一对应参考对象中一对应参考对象的第一相应组织样本或第一相应无细胞核酸样本获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得。
42.如权利要求41所述的计算系统,其特征在于,所述一个或多个程序进一步包含用于执行如权利要求2-40及121-124中的任何一种方法的多个指令。
43.一种非暂时性计算机可读存储介质,其特征在于,所述非暂时性计算机可读存储介质存储一个或多个程序用于估计一给定物种的一测试对象的一第一生物样本中的一第一细胞来源部分,所述一个或多个程序被配置为由一计算机执行,其中所述一个或多个程序包含多个指令以用于:
(A)在一第一时间段从所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态;
(B)对所述多个第一核酸片段中的每个相应核酸片段单独分配一第一分数,从而获得多个第一分数,其中:
每个相应第一分数表示对应核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性,
所述单独分配步骤(B)包含:(i)将相应核酸片段的甲基化状态与第一标准甲基化状态向量集及与表示除了所述第一细胞来源之外的一来源的一第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述第一标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第一分类器,
所述第一标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个第一参考对象中一对应参考对象的一第一相应组织样本或一第一相应无细胞核酸样本,其中所述第一相应组织样本或所述第一相应无细胞核酸样本对应于所述第一细胞来源,
所述第二标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个第二参考对象中一对应参考对象的一第二相应组织样本或一第一相应无细胞核酸样本,其中所述第二相应组织样本或所述第二相应无细胞核酸样本对应于一第二细胞来源;
(C)将所述多个第一分数转换为多个第一计数,其中:
所述多个第一计数中的每个计数是对于所述物种的一参考序列基因组中一第一预定甲基化位点集中的一甲基化位点,及
所述第一预定甲基化位点集与所述第一细胞来源相关联;以及
(D)通过将由所述多个第一计数表示的所述第一预定甲基化位点集中的每个相应甲基化位点的相应计数与一第一参考集中的相应甲基化位点的一对应参考分数进行比较,使用所述多个第一计数来估计所述第一生物样本中所述第一细胞来源部分的第一情况,其中所述第一参考集中的每个对应参考分数是通过确定从所述多个第一对应参考对象中一对应参考对象的第一相应组织样本或第一相应无细胞核酸样本获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得。
44.如权利要求43所述的非暂时性计算机可读存储介质,其特征在于,所述一个或多个程序进一步包含用于执行如权利要求2-40及121-124中的任何一种方法的多个指令。
45.一种对于多个细胞来源中的每个细胞来源估计一给定物种的一测试对象的一第一生物样本中的一相应细胞来源部分的方法,从而估计多个细胞来源部分,其特征在于,所述方法包含:
在一计算机系统处,所述计算机系统具有一个或多个处理器和一存储器,所述存储器存储一个或多个程序以供所述一个或多个处理器执行以下步骤:
(A)在一第一时间段从所述测试对象的所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态;
(B)将多个相应分数单独分配给所述多个第一核酸片段中的每个相应核酸片段,从而获得多个第一分数集,所述多个分数集中的每个相应分数集用于所述多个第一核酸片段中的一对应核酸片段,及包含所述多个相应分数,其中:
所述多个分数集中的每个相应分数集中的每个相应分数表示从源自所述多个细胞来源中对应不同细胞来源的一无细胞核酸分子中获得的对应核酸片段的一似然性,
所述单独分配步骤(B)包含:(i)将所述相应核酸片段的一甲基化状态与多个标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述多个标准甲基化状态向量集上训练的一分类器,
所述多个标准甲基化状态向量集中的每个标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个参考对象中一对应参考对象的一相应组织样本或一相应无细胞核酸样本,其中所述多个参考对象包含用于所述多个细胞来源中的每个相应细胞来源的至少一个代表性参考对象;
(C)将所述多个分数集转换为多个计数集,其中所述多个计数集中的每个相应计数集表示所述多个细胞来源中的一不同细胞来源,其中对于每个相应计数集:
所述相应计数集中的每个计数是对于对应于由所述相应计数集表示的所述细胞来源的所述物种的一参考序列的基因组中的一对应预定甲基化位点集中的一甲基化位点;及
(D)使用所述多个计数集估计所述测试对象中的所述多个细胞来源部分,所述估计步骤(D)包含:对于所述多个计数集中的每个相应计数集:
将所述相应计数集中所述预定甲基化位点集中每个相应甲基化位点的相应计数与一对应参考集中相应甲基化位点的一对应参考分数进行比较,其中所述对应参考集中的每个对应参考分数是通过确定从所述多个参考对象中一对应参考对象的一相应组织样本或一相应无细胞核酸样本获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得,其中所述相应组织样本或所述相应无细胞核酸样本对应于由所述计数集表示的所述细胞来源。
46.如权利要求45所述的方法,其特征在于,所述多个标准甲基化状态向量集的一第一标准甲基化状态向量集中的每个标准甲基化状态向量表示所述多个第一参考对象中所述对应参考对象的基因组中的甲基化状态。
47.如权利要求45所述的方法,其特征在于,所述多个标准甲基化状态向量集的一第一标准甲基化状态向量集中的每个标准甲基化状态向量表示所述对应参考对象的基因组的一子集的一甲基化状态,其中所述基因组的所述子集的所述甲基化状态表示所述多个细胞来源的一第一细胞来源下的致病生理。
48.如权利要求45-47任一项所述的方法,其特征在于,
所述多个细胞来源中的每个细胞来源是多个癌症类型中的一不同癌症类型,及
所述多个标准甲基化状态向量集的一第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从所述对应参考对象获得的所述多个癌症类型的一癌症类型的一肿瘤样本。
49.如权利要求45-47任一项所述的方法,其特征在于,
所述多个细胞来源中的每个细胞来源是多个癌症类型中的一不同癌症类型,
所述多个标准甲基化状态向量集的一第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从一参考对象的一参考生物样本的多个无细胞核酸,及
相对于所述多个癌症类型中的一第一癌症类型,对于所述对应参考对象,所述参考生物样本中的一肿瘤部分至少为2%。
50.如权利要求45-47任一项所述的方法,其特征在于,
所述多个细胞来源中的每个细胞来源是多个癌症类型中的一不同癌症类型,
所述多个标准甲基化状态向量集的一第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从一参考对象的一参考生物样本的多个无细胞核酸,及
相对于所述多个癌症类型中的一第一癌症类型,对于所述对应参考对象,所述参考生物样本中的一肿瘤部分至少为10%。
51.如权利要求45-47任一项所述的方法,其特征在于,
所述多个细胞来源中的每个细胞来源是多个癌症类型中的一不同癌症类型,
所述多个标准甲基化状态向量集的一第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从一参考对象的一参考生物样本的多个无细胞核酸,及
相对于所述多个癌症类型中的一第一癌症类型,对于所述对应参考对象,所述参考生物样本中的一肿瘤部分至少为20%。
52.如权利要求45所述的方法,其特征在于,所述多个细胞来源中的一第一细胞来源是一癌症类型,及所述多个细胞来源中的一第二细胞来源是多个无癌细胞。
53.如权利要求45所述的方法,其特征在于,所述多个细胞来源中的一第一细胞来源是一癌症类型,及所述方法进一步包含:使用对于所述多个细胞来源部分中的所述第一细胞来源部分的一评估细胞来源部分作为基础或部分基础来确定所述测试对象中所述癌症类型的一阶段。
54.如权利要求45所述的方法,其特征在于,所述多个细胞来源的一第一细胞来源是多个淋巴细胞,及所述方法进一步包含:使用所述多个细胞来源部分中对于所述第一细胞来源部分的一评估细胞来源部分作为基础或部分基础来评估所述测试对象的一癌症状况。
55.如权利要求45所述的方法,其特征在于,所述多个细胞来源中的一第一细胞来源是一癌症类型,及所述方法进一步包含:使用对于所述多个细胞来源部分中的所述第一细胞来源部分的一评估细胞来源部分作为基础或部分基础来确定所述测试对象中对于所述癌症类型的一治疗方案。
56.如权利要求45-55任一项所述的方法,其特征在于,
所述单独分配步骤(B)包含:将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述多个标准甲基化状态向量集上训练的所述分类器,及
所述分类器是基于一多项式逻辑回归算法。
57.如权利要求45-55任一项所述的方法,其特征在于,
所述单独分配步骤(B)包含:将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述多个标准甲基化状态向量集上训练的所述分类器,及
所述分类器是基于一神经网络算法、一支持向量机算法、一朴素贝叶斯算法、一最近邻算法、一增强树算法、一随机森林算法、一卷积神经网络、一决策树算法、一混合模型或一隐马尔可夫模型。
58.如权利要求45-57任一项所述的方法,其特征在于,一对应预定甲基化位点集包含所述物种的所述基因组中的五十个甲基化位点。
59.如权利要求45-57任一项所述的方法,其特征在于,一对应预定甲基化位点集包含所述物种的所述基因组中的一百个甲基化位点。
60.如权利要求45-57任一项所述的方法,其特征在于,一对应预定甲基化位点集包含所述物种的所述基因组中的五百个甲基化位点。
61.如权利要求45-60任一项所述的方法,其特征在于,所述将所述多个分数集转换为所述多个计数集步骤(C)包含:对于一对应预定甲基化位点集中的每个相应甲基化位点进行以下步骤:
(a)确定(i)所述多个第一核酸片段中映射到相应甲基化位点的核酸片段,以及(ii)所述多个第一核酸片段中的核酸片段具有满足一阈值的一第一分数的一第一数量;
(b)确定(i)所述多个核酸片段中映射到相应甲基化位点的核酸片段,以及(ii)所述多个核酸片段中的核酸片段具有满足或未满足所述阈值的一第一分数的一第二数量;以及
(c)将对于所述甲基化位点的相应计数分配为所述第一数量和所述第二数量的商。
62.如权利要求61所述的方法,其特征在于,所述第一分数为一似然性,及所述阈值为0.5。
63.如权利要求61所述的方法,其特征在于,所述第一数量的核酸片段中的每个相应核酸片段的一计数通过其对应第一分数向下加权。
64.如权利要求45-63任一项所述的方法,其特征在于,所述第一生物样本包含所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。
65.如权利要求45-63任一项所述的方法,其特征在于,所述第一生物样本由以下的群组组成:所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。
66.如权利要求45所述的方法,其特征在于,所述多个细胞来源中的一细胞来源为一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌或其组合。
67.如权利要求45所述的方法,其特征在于,所述多个细胞来源中的一细胞来源为:一乳腺癌的一阶段、一肺癌的一阶段、一前列腺癌的一阶段、一结直肠癌的一阶段、一肾癌的一阶段、一子宫癌的一阶段、一胰腺癌的一阶段、一食道癌的一阶段、一淋巴瘤的一阶段、一头颈癌的一阶段、一卵巢癌的一阶段、一肝胆癌的一阶段、一黑色素瘤的一阶段、一宫颈癌的一阶段、一多发性骨髓瘤的一阶段、一白血病的一阶段、一甲状腺癌的一阶段、一膀胱癌的一阶段或一胃癌的一阶段。
68.如权利要求45-67任一项所述的方法,其特征在于,所述测试对象为人类,及每个参考对象为人类。
69.一种计算系统,其特征在于,所述计算系统包含:
一个或多个处理器;
一存储器,存储将由所述一个或多个处理器执行的一个或多个程序,所述一个或多个程序包含多个指令,所述多个指令用于通过一方法来估计对于多个细胞来源中每个细胞来源在一给定物种的一测试对象的一第一生物样本中的一相应细胞来源部分,所述方法包含步骤:
(A)在一第一时间段从所述测试对象的所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态;
(B)将多个相应分数单独分配给所述多个第一核酸片段中的每个相应核酸片段,从而获得多个第一分数集,所述多个分数集中的每个相应分数集用于所述多个第一核酸片段中的一对应核酸片段,及包含所述多个相应分数,其中:
所述多个分数集中的每个相应分数集中的每个相应分数表示从源自所述多个细胞来源中对应不同细胞来源的一无细胞核酸分子中获得的对应核酸片段的一似然性,
所述单独分配步骤(B)包含:(i)将所述相应核酸片段的一甲基化状态与多个标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述多个标准甲基化状态向量集上训练的一分类器,
所述多个标准甲基化状态向量集中的每个标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个参考对象中一对应参考对象的一组织样本或无细胞核酸样本,其中所述多个参考对象包含用于所述多个细胞来源中的每个相应细胞来源的至少一个代表性参考对象;
(C)将所述多个分数集转换为多个计数集,其中所述多个计数集中的每个相应计数集表示所述多个细胞来源中的一不同细胞来源,其中对于每个相应计数集:
所述相应计数集中的每个计数是对于对应于由所述相应计数集表示的所述细胞来源的所述物种的一参考序列的基因组中的一对应预定甲基化位点集中的一甲基化位点;及
(D)使用所述多个计数集估计所述测试对象中的所述多个细胞来源部分,所述估计步骤(D)包含:对于所述多个计数集中的每个相应计数集:
将所述相应计数集的所述预定甲基化位点集中的每个相应甲基化位点的所述相应计数与一对应参考集中相应甲基化位点的一对应参考分数进行比较,其中所述对应参考集中的每个对应参考分数是通过确定从所述多个参考对象中一对应参考对象的一相应组织样本或一相应无细胞核酸样本获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得,其中所述相应组织样本或所述相应无细胞核酸对应于由所述计数集表示的所述细胞来源。
70.如权利要求69所述的计算系统,其特征在于,所述一个或多个程序进一步包含用于执行如权利要求46-68及125-128中的任何一种方法的多个指令。
71.一种非暂时性计算机可读存储介质,其特征在于,所述非暂时性计算机可读存储介质存储一个或多个程序用于估计对于多个细胞来源中每个细胞来源在一给定物种的一测试对象的一第一生物样本中的一相应细胞来源部分,所述一个或多个程序被配置为由一计算机执行,其中所述一个或多个程序包含多个指令以用于:
(A)在一第一时间段从所述测试对象的所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态;
(B)将多个相应分数单独分配给所述多个第一核酸片段中的每个相应核酸片段,从而获得多个第一分数集,所述多个分数集中的每个相应分数集用于所述多个第一核酸片段中的一对应核酸片段,及包含所述多个相应分数,其中:
所述多个分数集中的每个相应分数集中的每个相应分数表示从源自所述多个细胞来源中对应不同细胞来源的一无细胞核酸分子中获得的对应核酸片段的一似然性,
所述单独分配步骤(B)包含:(i)将所述相应核酸片段的一甲基化状态与多个标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述多个标准甲基化状态向量集上训练的一分类器,
所述多个标准甲基化状态向量集中的每个标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个参考对象中一对应参考对象的一组织样本或一无细胞核酸样本,其中所述多个参考对象包含用于所述多个细胞来源中的每个相应细胞来源的至少一个代表性参考对象;
(C)将所述多个分数集转换为多个计数集,其中所述多个计数集中的每个相应计数集表示所述多个细胞来源中的一不同细胞来源,其中对于每个相应计数集:
所述相应计数集中的每个计数是对于对应于由所述相应计数集表示的所述细胞来源的所述物种的一参考序列的基因组中的一对应预定甲基化位点集中的一甲基化位点;及
(D)使用所述多个计数集估计所述测试对象中的所述多个细胞来源部分,所述估计步骤(D)包含:对于所述多个计数集中的每个相应计数集:
将所述相应计数集的所述预定甲基化位点集中的每个相应甲基化位点的所述相应计数与一对应参考集中相应甲基化位点的一对应参考分数进行比较,其中所述对应参考集中的每个对应参考分数是通过确定从所述多个参考对象中一对应参考对象的一相应组织样本或一相应无细胞核酸样本获得的多个核酸片段中的对应甲基化位点的一甲基化频率来获得,其中所述相应组织样本或所述相应无细胞核酸样本对应于由所述计数集表示的所述细胞来源。
72.如权利要求71所述的非暂时性计算机可读存储介质,其特征在于,所述一个或多个程序进一步包含用于执行如权利要求46-68及125-128中的任何一种方法的多个指令。
73.一种分类方法,其特征在于,所述分类方法包含:
在一计算机系统处,所述计算机系统具有一个或多个处理器和一存储器,所述存储器存储一个或多个程序以供所述一个或多个处理器执行以下步骤:
(A)对于多个第一参考对象中的每个相应参考对象,其中所述多个第一参考对象中的每个参考对象具有一第一细胞来源:
在一第一时间段从所述相应参考对象的一生物样本中以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态;及
使用所述多个第一核酸片段中的每个核酸片段的甲基化状态来生成一对应甲基化状态向量,从而获得一第一标准甲基化状态向量集;
(B)对于多个第二参考对象中的每个相应参考对象,其中所述多个第二参考对象中的每个参考对象具有一第二细胞来源:
从所述相应参考对象的一生物样本以电子形式获得多个第二核酸片段中每个核酸片段的一甲基化状态;及
使用所述多个第二核酸片段中的每个核酸片段的甲基化状态来生成一对应甲基化状态向量,从而获得一第二标准甲基化状态向量集;以及
(C)结合所述多个第一参考对象和所述多个第二参考对象中每个相应参考对象的一细胞来源,将所述第一标准甲基化状态向量集及所述第二标准甲基化状态向量集共同应用于一未经训练或部分训练的分类器,从而获得一经训练的分类器,所述经训练的分类器在所述第一细胞来源和所述第二细胞来源之间进行区别。
74.如权利要求73所述的方法,其特征在于,所述第一细胞来源为一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、或胃癌。
75.如权利要求73或74所述的方法,其特征在于,所述第二细胞来源是多个健康无癌症细胞。
76.如权利要求73或74所述的方法,其特征在于,所述第二细胞来源不是所述第一细胞来源,及所述第二细胞来源为一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、或胃癌。
77.如权利要求73-76任一项所述的方法,其特征在于,所述多个第一核酸片段的每个衍生自一对应第一参考对象的一组织样本或一无细胞核酸样本。
78.如权利要求73-77任一项所述的方法,其特征在于,所述多个第二核酸片段的每个衍生自一对应第二参考对象的一组织样本或一无细胞核酸样本。
79.如权利要求73-78任一项所述的方法,其特征在于,所述未经训练或部分训练的分类器是基于一神经网络算法、一支持向量机算法、一决策树算法、一无监督聚类算法、一监督聚类算法、一逻辑回归算法、一混合模型或一隐马尔可夫模型。
80.如权利要求73-78任一项所述的方法,其特征在于,所述未经训练或部分训练的分类器是基于一多项式分类器。
81.如权利要求73-80任一项所述的方法,其特征在于,所述方法进一步包含步骤:
(D)从不在所述多个第一参考对象或所述多个第二参考对象中的一测试对象的一测试生物样本中的多个无细胞核酸分子以电子形式获得多个测试核酸片段中的每个核酸片段的一甲基化状态;
(E)将所述多个测试核酸片段中的每个相应核酸片段单独分配一第一分数,从而获得多个第一分数,其中:
每个相应第一分数表示对应核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性,
所述单独分配步骤(E)包含:向所述经训练的分类器提交所述相应测试核酸片段的所述甲基化状态,
(F)将所述多个第一分数转换为多个第一计数,其中:
所述多个第一计数中的每个计数是对于所述物种的一参考序列基因组中一第一预定甲基化位点集中的一甲基化位点,及
所述第一预定甲基化位点集与所述第一细胞来源相关联;以及
(G)通过将由所述多个第一计数表示的所述第一预定甲基化位点集中的每个相应甲基化位点的相应计数与一第一参考集中的相应甲基化位点的一对应参考分数进行比较,使用所述多个第一计数来估计所述第一生物样本中的一第一细胞来源部分。
82.一种计算系统,其特征在于,所述计算系统包含:
一个或多个处理器;
一存储器,存储将由所述一个或多个处理器执行的一个或多个程序,所述一个或多个程序包含多个指令,用于通过一方法来分类,所述方法包含步骤:
(A)对于多个第一参考对象中的每个相应参考对象,其中所述多个第一参考对象中的每个参考对象具有一第一细胞来源:
在一第一时间段从所述相应参考对象的一生物样本中以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态;及
使用所述多个第一核酸片段中的每个核酸片段的甲基化状态来生成一对应甲基化状态向量,从而获得一第一标准甲基化状态向量集;
(B)对于多个第二参考对象中的每个相应参考对象,其中所述多个第二参考对象中的每个参考对象具有一第二细胞来源:
从所述相应参考对象的一生物样本以电子形式获得多个第二核酸片段中每个核酸片段的一甲基化状态;及
使用所述多个第二核酸片段中的每个核酸片段的甲基化状态来生成一对应甲基化状态向量,从而获得一第二标准甲基化状态向量集;以及
(C)结合所述多个第一参考对象和所述多个第二参考对象中每个相应参考对象的一细胞来源,将所述第一标准甲基化状态向量集及所述第二标准甲基化状态向量集共同应用于一未经训练或部分训练的分类器,从而获得一经训练的分类器,所述经训练的分类器在所述第一细胞来源和所述第二细胞来源之间进行区别。
83.如权利要求82所述的计算系统,其特征在于,所述一个或多个程序进一步包含用于执行如权利要求74-81及129-133中的任何一种方法的多个指令。
84.一种非暂时性计算机可读存储介质,其特征在于,所述非暂时性计算机可读存储介质存储一个或多个程序用于分类,所述一个或多个程序被配置为由一计算机执行,其中所述一个或多个程序包含多个指令以用于:
(A)对于多个第一参考对象中的每个相应参考对象,其中所述多个第一参考对象中的每个参考对象具有一第一细胞来源:
在一第一时间段从所述相应参考对象的一生物样本中以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态;及
使用所述多个第一核酸片段中的每个核酸片段的甲基化状态来生成一对应甲基化状态向量,从而获得一第一标准甲基化状态向量集;
(B)对于多个第二参考对象中的每个相应参考对象,其中所述多个第二参考对象中的每个参考对象具有一第二细胞来源:
从所述相应参考对象的一生物样本以电子形式获得多个第二核酸片段中每个核酸片段的一甲基化状态;及
使用所述多个第二核酸片段中的每个核酸片段的甲基化状态来生成一对应甲基化状态向量,从而获得一第二标准甲基化状态向量集;以及
(C)结合所述多个第一参考对象和所述多个第二参考对象中每个相应参考对象的一细胞来源,将所述第一标准甲基化状态向量集及所述第二标准甲基化状态向量集共同应用于一未经训练或部分训练的分类器,从而获得一经训练的分类器,所述经训练的分类器在所述第一细胞来源和所述第二细胞来源之间进行区别。
85.如权利要求84所述的非暂时性计算机可读存储介质,其特征在于,所述一个或多个程序进一步包含用于执行如权利要求74-81及129-133中的任何一种方法的多个指令。
86.一种估计在一给定物种的一测试对象的一第一生物样本中的一第一细胞来源部分的方法,其特征在于,所述方法包含:
在一计算机系统处,所述计算机系统具有一个或多个处理器和一存储器,所述存储器存储一个或多个程序以供所述一个或多个处理器执行以下步骤:
(A)在一第一时间段从所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态;
(B)对所述多个第一核酸片段中的每个相应核酸片段单独分配一第一分数,从而获得多个第一分数,其中:
每个相应第一分数表示对应核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性,
所述单独分配步骤(B)包含:(i)将相应核酸片段的甲基化状态与第一标准甲基化状态向量集及与表示除了所述第一细胞来源之外的一来源的一第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述第一标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第一分类器,
所述第一标准甲基化状态向量集中的每个标准甲基化状态向量衍生自对应于所述第一细胞来源的多个第一参考对象中一对应参考对象的一组织样本或一无细胞核酸样本,
所述第二标准甲基化状态向量集中的每个标准甲基化状态向量衍生自对应于一第二细胞来源的多个第二参考对象中一对应参考对象的一组织样本或一无细胞核酸样本;以及
(C)使用所述多个第一核酸片段中每个相应核酸片段的一第一分数,通过评估(i)具有所述第一分数满足一第一预定阈值的多个核酸片段的一数量对比于(ii)所述多个第一核酸片段中的核酸片段总数,来估计所述第一生物样本中所述第一细胞来源部分的一第一情况。
87.如权利要求86所述的方法,其特征在于,所述第一标准甲基化状态向量集中的每个标准甲基化状态向量表示所述多个第一参考对象中所述对应参考对象的基因组中的甲基化状态。
88.如权利要求86所述的方法,其特征在于,所述第一标准甲基化状态向量集中的每个标准甲基化状态向量表示所述对应参考对象的基因组的一子集的一甲基化状态,其中所述基因组的所述子集的所述甲基化状态表示所述第一细胞来源下的致病生理。
89.如权利要求86-88任一项所述的方法,其特征在于,
所述第一细胞来源是一癌症类型,及
所述第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从所述对应参考对象获得的所述癌症类型的一肿瘤样本。
90.如权利要求86-88任一项所述的方法,其特征在于,
所述第一细胞来源是一癌症类型,
所述第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从所述对应参考对象的一参考生物样本的多个无细胞核酸,及
相对于所述第一细胞来源,对于所述对应参考对象,所述参考生物样本中的一肿瘤部分至少为2%。
91.如权利要求86-88任一项所述的方法,其特征在于,
所述第一细胞来源是一癌症类型,
所述第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从所述对应参考对象的一参考生物样本的多个无细胞核酸,及
相对于所述第一细胞来源,对于所述对应参考对象,所述参考生物样本中的一肿瘤部分至少为10%。
92.如权利要求86-88任一项所述的方法,其特征在于,
所述第一细胞来源是一癌症类型,
所述第一标准甲基化状态向量集中的一标准甲基化状态向量衍生自从所述对应参考对象的一参考生物样本的多个无细胞核酸,及
相对于所述第一细胞来源,对于所述对应参考对象,所述参考生物样本中的一肿瘤部分至少为20%。
93.如权利要求86-82任一项所述的方法,其特征在于,所述第二细胞来源是一种或多种无癌症的细胞类型。
94.如权利要求86-93任一项所述的方法,其特征在于,所述方法进一步包含步骤:
(D)在一第二时间段从所述测试对象的一第二生物样本中的多个第二无细胞核酸分子以电子形式获得多个第二核酸片段中每个核酸片段的一甲基化状态;
(E)对所述多个第二核酸片段中的每个相应核酸片段单独分配一第二分数,从而获得多个第二分数,其中:
每个相应第二分数表示核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性,
所述单独分配步骤(E)包含:(i)将相应核酸片段的所述甲基化状态与所述第一标准甲基化状态向量集及与所述第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给所述第一分类器,以及
(F)使用所述多个第二核酸片段中每个相应核酸片段的一第二分数,通过评估(i)具有所述第二分数满足一预定阈值的多个核酸片段的一数量对比于(ii)所述多个第二核酸片段中的核酸片段总数,来估计所述第二生物样本中所述第一细胞来源部分的一第二情况。
95.如权利要求94所述的方法,其特征在于,所述第二时间段为在所述第一时间段之后的一个月到一年之间。
96.如权利要求94或95所述的方法,其特征在于,所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况和所述第一细胞来源部分的所述第二情况之间的一差异作为基础或部分基础,以确定与所述测试对象中所述第一细胞来源相关联的一疾病状况的一侵袭性。
97.如权利要求94或95所述的方法,其特征在于,所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况和所述第一细胞来源部分的所述第二情况之间的一差异作为基础或部分基础,以确定与所述测试对象中所述第一细胞来源相关联的一疾病状况的一治疗方案。
98.如权利要求86-97任一项所述的方法,其特征在于,所述第一细胞来源是一癌症类型,及所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况作为基础或部分基础来确定所述测试对象中所述癌症类型的一阶段。
99.如权利要求86所述的方法,其特征在于,所述第一细胞来源是多个淋巴细胞,及所述方法进一步包含:使用所述第一细胞来源部分的所述第一情况作为基础或部分基础来评估所述测试对象的一癌症状况。
100.如权利要求86-99任一项所述的方法,其特征在于,所述第一细胞来源是一癌症类型,所述方法进一步包含:使用所述第一细胞来源部分作为基础或部分基础来确定所述测试对象中癌症的一治疗方案。
101.如权利要求86-100任一项所述的方法,其特征在于,
第一标准甲基化状态向量集是所述物种的基因组的单个一致的甲基化状态向量,所述物种的所述基因组由所述多个第一参考对象的所述组织样本或无细胞核酸样本中的多个核酸的一甲基化状态形成,及
所述第二标准甲基化状态向量集是所述物种的所述基因组的单个一致的甲基化状态向量,所述物种的所述基因组是由所述多个第二参考对象的所述组织样本或所述无细胞核酸样本中的多个核酸的一甲基化状态形成。
102.如权利要求86-100任一项所述的方法,其特征在于,
所述第一标准甲基化状态向量集包含所述多个第一参考对象中的每个相应参考对象的所述物种的所述基因组的一不一致的甲基化状态向量,所述不一致的甲基化状态向量由所述相应参考对象的所述组织样本或所述无细胞核酸样本中的多个核酸的一甲基化状态形成,以及
所述第二标准甲基化状态向量集包含所述多个第二参考对象中的每个相应参考对象的所述物种的所述基因组的一不一致的甲基化状态向量,所述不一致的甲基化状态向量由所述相应参考对象的所述组织样本或所述无细胞核酸样本中的多个核酸的一甲基化状态形成。
103.如权利要求86-102任一项所述的方法,其特征在于,
所述多个第一参考对象包含至少十个参考对象,以及
所述多个第二参考对象包含除了所述多个第一参考对象之外的至少十个参考对象。
104.如权利要求86-102任一项所述的方法,其特征在于,
所述多个第一参考对象包含至少一百个参考对象,以及
所述多个第二参考对象包含除了所述多个第一参考对象之外的至少一百个参考对象。
105.如权利要求86-104任一项所述的方法,其特征在于,所述多个第一参考对象包含比所述多个第二参考对象更多或更少的参考对象。
106.如权利要求86-105任一项所述的方法,其特征在于,
所述单独分配步骤(B)包含:向所述第一分类器提交所述相应核酸片段的所述甲基化状态,以及
所述第一分类器是基于一多项式逻辑回归算法。
107.如权利要求86-105任一项所述的方法,其特征在于,
所述单独分配步骤(B)包含:向所述第一分类器提交所述相应核酸片段的所述甲基化状态,以及
所述第一分类器是基于一神经网络算法、一支持向量机算法、一朴素贝叶斯算法、一最近邻算法、一增强树算法、一随机森林算法、一卷积神经网络、一决策树算法、一混合模型或一隐马尔可夫模型。
108.如权利要求86-107任一项所述的方法,其特征在于,
所述单独分配步骤(B)进一步对所述多个第一核酸片段中的每个相应核酸片段分配一第二分数,从而获得多个第二分数,所述多个第二分数中的每个相应第二分数对应于所述多个第一核酸片段中的一核酸片段,其中:
每个相应第二分数表示对应核酸片段是从源自一第三细胞来源的一无细胞核酸分子获得的一似然性,
所述单独分配步骤(B)进一步包含:(i)将相应核酸片段的一甲基化状态与至少一第三标准甲基化状态向量集及与所述第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述第三标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第二分类器,
所述第三标准甲基化状态向量集中的每个标准甲基化状态向量衍生自对应于所述第三细胞来源的多个第三参考对象中一对应参考对象的一组织样本或一无细胞核酸样本;以及
所述估计步骤(C)进一步包含:使用所述多个第一核酸片段中每个相应核酸片段的一第二分数,通过评估(i)具有一第二分数满足一第二预定阈值的多个核酸片段的一数量对比于(ii)所述多个第一核酸片段中的核酸片段总数,来估计所述第一生物样本中一第二细胞来源部分。
109.如权利要求108所述的方法,其特征在于,
所述单独分配步骤针对所述第二分类器提供所述相应核酸片段的所述甲基化状态,
所述第一分类器和所述第二分类器相同,及
所述第一分类器至少部分地在所述第一标准甲基化状态向量集、所述第二标准甲基化状态向量集和所述第三标准甲基化状态向量集上训练。
110.如权利要求108所述的方法,其特征在于,所述第一分类器是不同于所述第二分类器,及所述第一分类器没有在所述第三标准甲基化状态向量集上训练。
111.如权利要求86-110任一项所述的方法,其特征在于,所述第一生物样本包含所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。
112.如权利要求86-110任一项所述的方法,其特征在于,所述第一生物样本由以下的群组组成:所述测试对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。
113.如权利要求86-112任一项所述的方法,其特征在于,所述第一细胞来源是一第一癌症的一共同主要起源位点的一个或多个细胞。
114.如权利要求113所述的方法,其特征在于,所述第一癌症为一第一癌症类型的多个细胞,其中所述第一癌症类型为乳腺癌、肺癌、前列腺癌、结直肠癌、肾癌、子宫癌、胰腺癌、食道癌、淋巴瘤、头颈癌、卵巢癌、肝胆癌、黑色素瘤、宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌或其组合。
115.如权利要求113所述的方法,其特征在于,所述第一癌症为:一乳腺癌的一阶段、一肺癌的一阶段、一前列腺癌的一阶段、一结直肠癌的一阶段、一肾癌的一阶段、一子宫癌的一阶段、一胰腺癌的一阶段、一食道癌的一阶段、一淋巴瘤的一阶段、一头颈癌的一阶段、一卵巢癌的一阶段、一肝胆癌的一阶段、一黑色素瘤的一阶段、一宫颈癌的一阶段、一多发性骨髓瘤的一阶段、一白血病的一阶段、一甲状腺癌的一阶段、一膀胱癌的一阶段或一胃癌的一阶段。
116.如权利要求86-114任一项所述的方法,其特征在于,所述测试对象为人类,及所述多个第一参考对象和多个第二参考对象中的每个参考对象为人类。
117.一种计算系统,其特征在于,所述计算系统包含:
一个或多个处理器;
一存储器,存储将由所述一个或多个处理器执行的一个或多个程序,所述一个或多个程序包含多个指令,用于通过一方法来估计一给定物种的一测试对象中的一第一生物样本中的一第一细胞来源部分,所述方法包含步骤:
(A)在一第一时间段从所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态;
(B)对所述多个第一核酸片段中的每个相应核酸片段单独分配一第一分数,从而获得多个第一分数,其中:
每个相应第一分数表示对应核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性,
所述单独分配步骤(B)包含:(i)将相应核酸片段的甲基化状态与第一标准甲基化状态向量集及与表示除了所述第一细胞来源之外的一来源的一第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述第一标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第一分类器,
所述第一标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个第一参考对象中一对应参考对象的一第一相应组织样本或一第一相应无细胞核酸样本,其中所述第一相应组织样本或所述第一相应无细胞核酸样本对应于所述第一细胞来源,
所述第二标准甲基化状态向量集中的每个标准甲基化状态向量衍生自多个第二参考对象中一对应参考对象的一第二相应组织样本或一第二相应无细胞核酸样本,其中所述第二相应组织样本或所述第二相应无细胞核酸样本对应于一第二细胞来源;以及
(C)使用所述多个第一核酸片段中每个相应核酸片段的一第一分数,通过评估(i)具有所述第一分数满足一第一预定阈值的多个核酸片段的一数量对比于(ii)所述多个第一核酸片段中的核酸片段总数,来估计所述第一生物样本中所述第一细胞来源部分的一第一情况。
118.如权利要求117所述的计算系统,其特征在于,所述一个或多个程序进一步包含用于执行如权利要求87-116及134-137中的任何一种方法的多个指令。
119.一种非暂时性计算机可读存储介质,其特征在于,所述非暂时性计算机可读存储介质存储一个或多个程序用于估计一给定物种的一测试对象的一第一生物样本中的一第一细胞来源部分,所述一个或多个程序被配置为由一计算机执行,其中所述一个或多个程序包含多个指令以用于:
(A)在一第一时间段从所述第一生物样本中的多个第一无细胞核酸分子以电子形式获得多个第一核酸片段中每个核酸片段的一甲基化状态;
(B)对所述多个第一核酸片段中的每个相应核酸片段单独分配一第一分数,从而获得多个第一分数,其中:
每个相应第一分数表示对应核酸片段是从源自所述第一细胞来源的一无细胞核酸分子获得的一似然性,
所述单独分配步骤(B)包含:(i)将相应核酸片段的甲基化状态与第一标准甲基化状态向量集及与表示除了所述第一细胞来源之外的一来源的一第二标准甲基化状态向量集进行比较,或(ii)将所述相应核酸片段的所述甲基化状态提交给至少部分地在所述第一标准甲基化状态向量集和第二标准甲基化状态向量集上训练的一第一分类器,
所述第一标准甲基化状态向量集中的每个标准甲基化状态向量衍生自对应于所述第一细胞来源的多个第一参考对象中一对应参考对象的一相应第一组织样本或一相应第一无细胞核酸样本,
所述第二标准甲基化状态向量集中的每个标准甲基化状态向量衍生自对应于一第二细胞来源的多个第二参考对象中一对应参考对象的一相应第二组织样本或一相应第二无细胞核酸样本;以及
(C)使用所述多个第一核酸片段中每个相应核酸片段的一第一分数,通过评估(i)具有所述第一分数满足一第一预定阈值的多个核酸片段的一数量对比于(ii)所述多个第一核酸片段中的核酸片段总数,来估计所述第一生物样本中所述第一细胞来源部分的一第一情况。
120.如权利要求113所述的非暂时性计算机可读存储介质,其特征在于,所述一个或多个程序进一步包含用于执行如权利要求87-116及134-137中的任何一种方法的多个指令。
121.如权利要求1-40任一项所述的方法,其特征在于,所述多个第一核酸片段中的一第一核酸片段与一参考基因组中的一第一位置相对齐,及所述多个第一核酸片段中的一第二核酸片段与所述参考基因组中的一第二位置相对齐。
122.如权利要求121所述的方法,其特征在于,所述第一位置和所述第二位置对应于所述参考基因组的不同区域。
123.如权利要求121所述的方法,其特征在于,所述第一位置和所述第二位置对应于所述参考基因组的相同区域。
124.如权利要求121所述的方法,其特征在于,所述第一位置和所述第二位置在所述参考基因组中重叠1到50个残基之间。
125.如权利要求45-68任一项所述的方法,其特征在于,所述多个第一核酸片段中的一第一核酸片段与一参考基因组中的一第一位置相对齐,及所述多个第一核酸片段中的一第二核酸片段与所述参考基因组中的一第二位置相对齐。
126.如权利要求125所述的方法,其特征在于,所述第一位置和所述第二位置对应于所述参考基因组的不同区域。
127.如权利要求125所述的方法,其特征在于,所述第一位置和所述第二位置对应于所述参考基因组的相同区域。
128.如权利要求125所述的方法,其特征在于,所述第一位置和所述第二位置在所述参考基因组中重叠1到50个残基之间。
129.如权利要求73-81任一项所述的方法,其特征在于,所述多个第一核酸片段中的一第一核酸片段与一参考基因组中的一第一位置相对齐,及所述多个第一核酸片段中的一第二核酸片段与所述参考基因组中的一第二位置相对齐。
130.如权利要求129所述的方法,其特征在于,所述第一位置和所述第二位置对应于所述参考基因组的不同区域。
131.如权利要求129所述的方法,其特征在于,所述第一位置和所述第二位置对应于所述参考基因组的相同区域。
132.如权利要求129所述的方法,其特征在于,所述第一位置和所述第二位置在所述参考基因组中重叠1到50个残基之间。
133.如权利要求86-116任一项所述的方法,其特征在于,所述多个第一核酸片段中的一第一核酸片段与一参考基因组中的一第一位置相对齐,及所述多个第一核酸片段中的一第二核酸片段与所述参考基因组中的一第二位置相对齐。
134.如权利要求134所述的方法,其特征在于,所述第一位置和所述第二位置对应于所述参考基因组的不同区域。
135.如权利要求134所述的方法,其特征在于,所述第一位置和所述第二位置对应于所述参考基因组的相同区域。
136.如权利要求134所述的方法,其特征在于,所述第一位置和所述第二位置在所述参考基因组中重叠1到50个残基之间。
CN201980092387.9A 2018-12-18 2019-12-18 使用甲基化信息估计细胞来源部分的系统和方法 Pending CN113661542A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862781549P 2018-12-18 2018-12-18
US62/781,549 2018-12-18
PCT/US2019/067293 WO2020132148A1 (en) 2018-12-18 2019-12-18 Systems and methods for estimating cell source fractions using methylation information

Publications (1)

Publication Number Publication Date
CN113661542A true CN113661542A (zh) 2021-11-16

Family

ID=71101866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980092387.9A Pending CN113661542A (zh) 2018-12-18 2019-12-18 使用甲基化信息估计细胞来源部分的系统和方法

Country Status (6)

Country Link
US (1) US20200385813A1 (zh)
EP (1) EP3899957A4 (zh)
CN (1) CN113661542A (zh)
AU (1) AU2019401636A1 (zh)
CA (1) CA3121926A1 (zh)
WO (1) WO2020132148A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2021227920A1 (en) 2020-02-28 2022-09-08 Grail, Llc Systems and methods for calling variants using methylation sequencing data
AU2021228737A1 (en) 2020-02-28 2022-09-22 Grail, LLC. Identifying methylation patterns that discriminate or indicate a cancer condition
EP4115427A1 (en) 2020-03-04 2023-01-11 Grail, LLC Systems and methods for cancer condition determination using autoencoders
WO2022171606A2 (en) 2021-02-09 2022-08-18 F. Hoffmann-La Roche Ag Methods for base-level detection of methylation in nucleic acids
IL310649A (en) 2021-08-05 2024-04-01 Grail Llc Emergence of a somatic variant together with abnormal methylated segments
US20230279498A1 (en) * 2021-11-24 2023-09-07 Centre For Novostics Limited Molecular analyses using long cell-free dna molecules for disease classification
WO2023225004A1 (en) * 2022-05-16 2023-11-23 Bioscreening & Diagnostics Llc Prediction of alzheimer's disease
WO2023242075A1 (en) 2022-06-14 2023-12-21 F. Hoffmann-La Roche Ag Detection of epigenetic cytosine modification

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012177792A2 (en) * 2011-06-24 2012-12-27 Sequenom, Inc. Methods and processes for non-invasive assessment of a genetic variation
US20160017419A1 (en) * 2014-07-18 2016-01-21 The Chinese University Of Hong Kong Methylation pattern analysis of tissues in a dna mixture
US20170121767A1 (en) * 2014-04-14 2017-05-04 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Method and kit for determining the tissue or cell origin of dna
WO2017212428A1 (en) * 2016-06-07 2017-12-14 The Regents Of The University Of California Cell-free dna methylation patterns for disease and condition analysis
CN108138233A (zh) * 2015-07-20 2018-06-08 香港中文大学 Dna混合物中组织的单倍型的甲基化模式分析
CN108474040A (zh) * 2015-10-09 2018-08-31 夸登特健康公司 使用无细胞dna的基于群体的治疗推荐

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3455760A4 (en) * 2016-05-09 2020-03-18 Human Longevity, Inc. METHODS FOR DETERMINING A RISK FOR GENOMIC HEALTH

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012177792A2 (en) * 2011-06-24 2012-12-27 Sequenom, Inc. Methods and processes for non-invasive assessment of a genetic variation
US20170121767A1 (en) * 2014-04-14 2017-05-04 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Method and kit for determining the tissue or cell origin of dna
US20160017419A1 (en) * 2014-07-18 2016-01-21 The Chinese University Of Hong Kong Methylation pattern analysis of tissues in a dna mixture
CN106795562A (zh) * 2014-07-18 2017-05-31 香港中文大学 Dna混合物中的组织甲基化模式分析
CN108138233A (zh) * 2015-07-20 2018-06-08 香港中文大学 Dna混合物中组织的单倍型的甲基化模式分析
CN108474040A (zh) * 2015-10-09 2018-08-31 夸登特健康公司 使用无细胞dna的基于群体的治疗推荐
WO2017212428A1 (en) * 2016-06-07 2017-12-14 The Regents Of The University Of California Cell-free dna methylation patterns for disease and condition analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
尼玛达瓦;李宏;周德良;杨小希;: "核小体结合模体的理论预测和检验", 内蒙古大学学报(自然科学版), no. 05 *

Also Published As

Publication number Publication date
WO2020132148A1 (en) 2020-06-25
EP3899957A4 (en) 2022-08-31
WO2020132148A9 (en) 2021-09-23
EP3899957A1 (en) 2021-10-27
US20200385813A1 (en) 2020-12-10
CA3121926A1 (en) 2020-06-25
AU2019401636A1 (en) 2021-06-17

Similar Documents

Publication Publication Date Title
CN113661542A (zh) 使用甲基化信息估计细胞来源部分的系统和方法
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
EP3801623A1 (en) Convolutional neural network systems and methods for data classification
US20210104297A1 (en) Systems and methods for determining tumor fraction in cell-free nucleic acid
US20210065842A1 (en) Systems and methods for determining tumor fraction
US11869661B2 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
CN111742059A (zh) 用于靶向测序的模型
US20210285042A1 (en) Systems and methods for calling variants using methylation sequencing data
US20210102262A1 (en) Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
JP2023514851A (ja) 癌の病態を判別または示すメチル化パターンの同定
US20210295948A1 (en) Systems and methods for estimating cell source fractions using methylation information
US12073920B2 (en) Dynamically selecting sequencing subregions for cancer classification
US20240309461A1 (en) Sample barcode in multiplex sample sequencing
JPWO2021127565A5 (zh)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Menlo Park, California, USA

Applicant after: GRAIL, Inc.

Address before: Menlo Park, California, USA

Applicant before: SDG OPS Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20220418

Address after: Menlo Park, California, USA

Applicant after: SDG OPS Ltd.

Address before: Menlo Park, California, USA

Applicant before: GRAIL, Inc.

TA01 Transfer of patent application right
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40063244

Country of ref document: HK