CN113337604A - 循环核酸肿瘤标志物的鉴别和用途 - Google Patents

循环核酸肿瘤标志物的鉴别和用途 Download PDF

Info

Publication number
CN113337604A
CN113337604A CN202110494880.2A CN202110494880A CN113337604A CN 113337604 A CN113337604 A CN 113337604A CN 202110494880 A CN202110494880 A CN 202110494880A CN 113337604 A CN113337604 A CN 113337604A
Authority
CN
China
Prior art keywords
regions
genomic
genomic regions
region
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110494880.2A
Other languages
English (en)
Inventor
M·迪恩
A·A·阿利扎德
A·M·纽曼
S·V·布拉特曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leland Stanford Junior University
Original Assignee
Leland Stanford Junior University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=51580891&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN113337604(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Leland Stanford Junior University filed Critical Leland Stanford Junior University
Publication of CN113337604A publication Critical patent/CN113337604A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Medical Informatics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

提供一些方法用于制备突变的基因组区域的选择子,并用于采用选择子集合来分析在无细胞核酸样品中的基因变异。所述方法可用于测量受试者血液样品中来源于肿瘤的核酸,并因此用于监控受试者疾病的进展,所述方法也可用于癌症筛查、癌症诊断、癌症预测和癌症疗法设计。

Description

循环核酸肿瘤标志物的鉴别和用途
本申请是与母案发明名称相同的分案申请,母案的中国申请号是201480028360.0,国际申请号是PCT/US2014/025020,申请日是2014 年3月12日。
政府支持声明
本发明是国防部授予的资助号为W81XWH-12-1-0285的政府 资助项目。政府对该发明享有某些权利。
背景技术
肿瘤不断地将DNA流入到循环中,在那里可以轻易地获得 (Stroun et al.(1987)EurJCancer Clin Oncol 23:707-712)。分析此类源 于癌症的无细胞DNA(cfDNA)具有使检测和监控癌症发生革命性变 化的潜力。对实体瘤而言,非侵害性的获取恶性DNA尤其具有吸引 力,实体瘤不能不用侵害性的方法进行反复取样。对非小细胞肺癌 (NSCLC)而言,之前使用基于PCR的测试检测血浆DNA中的基因复 发点,例如KRAS或EGFR的突变(Taniguchiet al.(2011)Clin.Cancer Res.17:7808-7815;Gautschi et al.(2007)CancerLett.254:265-273; Kuang et al.(2009)Clin.Cancer Res.15:2630-2636;Rosell etal.(2009) N.Engl.J.Med.361:958-967),但是绝大多数患者缺乏这些基因的突 变。
其他研究建议通过全基因组测序(WGS)接着再进行cfDNA断 点qPCR,鉴别特定患者肿瘤中的染色体重排(Leary et al.(2010)Sci. Transl.Med.2:20ra14;McBride etal.(2010)Genes Chrom.Cancer 49:1062-1069)。尽管灵敏,此类方法需要优化每位患者的分子测试, 限制了其广泛地应用于临床。最近,有几个团队报道了用基于扩增子 的深度测序方法可检测最多6个反复突变基因的cfDNA突变(Forshew et al.(2012)Sci.Transl.Med.4:136ra168;Narayan et al.(2012)Cancer Res.72:3492-3498;Kindeet al.(2011)Proc.Natl Acad.Sci.USA 108:9530-9535)。虽然很有效,但是这些方法受限于可测的突变的数 量(Rachlin et al.(2005)BMC Genomics 6:102)和不能检测基因组融合 体。
PCT国际专利申请公布No.2011/103236描述了用“配对”库在 癌症患者中鉴别个体化肿瘤标志物的方法。这些方法受限于监控体细 胞染色体重排,然而,必须对每位患者进行个体化测试,因此,限制 了其应用并且增加了其成本。
美国专利申请公布No.2010/0041048A1描述了用“辐射 (BEAMing)”技术(Beads,Emulsion,Amplification,and Magnetics)对结 直肠癌患者进行肿瘤特异性无细胞DNA的定量。尽管该技术具有高 灵敏度和特异性,但是该方法是针对单一突变,因此仅可将任一特定 的测试应用于患者子集和/或需要针对特定患者进行优化。美国专利 申请公布No.2012/0183967A1描述了鉴别和对基因变异进行定量的 另外方法,包括用“辐射”技术分析DNA群体中的次要变体。
美国专利申请公布No.2012/0214678A1描述了检测胎儿核酸 及确定在母体样品中循环的无细胞胎儿核酸分数的方法和组合物。虽 然灵敏,这些方法对出现在母体和胎儿核酸之间的多态性进行分析, 而不是对产生于肿瘤细胞中的体细胞突变的多态性进行分析。另外, 这些检测母体血液循环中的胎儿核酸的方法比检测癌症患者血液循 环中肿瘤核酸的方法需要少得多的灵敏度,因为胎儿核酸的量比肿瘤 核酸的量要多得多。
美国专利申请公布Nos.2012/0237928A1及2013/0034546描述 了测定包含核酸混合物的受试样品中的有关序列的拷贝数变化的方 法。虽然极可能应用于癌症的分析,这些方法涉及测定核酸中重大结 构变化例如易位、缺失和扩增,而不是单一的核苷酸变化。
美国专利申请公布No.2012/0264121A1描述了估测基因组分 数,例如胎儿分数,多态性如小基数变化或插入物缺失的方法。然而, 这些方法不使用已优化的多态性文库,例如,包含反复突变的基因组 区域的库。
美国专利申请公布No.2013/0024127A1描述了用计算机计算 混合样品中主要来源和次要来源中无细胞核酸百分比贡献的方法。然 而,这些方法在鉴别或将已优化的多态性文库用于分析上不具有任何 优势。
PCT国际公布号WO 2010/141955 A2描述了通过分析从患者那 里获得的样品的基因嵌板及确定该嵌板中的基因突变状态来检测癌 症的方法。这些方法依靠相对小数量的已知癌症基因,然而,它们并 不根据检测相关突变的有效性提供任何基因排序。另外,这些方法不 能检测大多数实际癌症患者血浆样品中突变的存在。
因此,有对新的并且改进的检测及监控癌症患者中肿瘤相关 核酸方法的需求。
发明内容
本发明提供了用于循环肿瘤DNA(ctDNA)例如,存在于个体血 液中的、来源于肿瘤细胞DNA序列的高灵敏度分析的组合物和方法, 包括生物信息学分析方法。本发明的这些方法可称作深度测序的癌症 个体化概况分析(CAPP-Seq)。特别相关的肿瘤有实体瘤,包括但不限 于癌、肉瘤、神经胶质瘤、淋巴瘤、黑素瘤等,尽管不排除血液癌, 例如白血病。
本发明的方法将优化的库制备方法与多相生物信息学方法相 结合,以设计DNA低聚核苷酸“选择子”群体,这些低聚核苷酸相应于 目标癌症的反复突变区域。DNA低聚核苷酸选择子群体,它可称为 选择子集合,包含用于多个基因组区域的探针,并且设计使得在多个 基因组区域中的至少一种突变存在于大部分具有特定癌症的受试者 中,并且在优选的实施方案中,大部分具有特定癌症的受试者中存在 多个突变。
在本发明的某些实施方案中,提供了用于鉴别适合于具体肿 瘤类型的选择子集合的方法。还提供了选择子集合的低聚核苷酸组合 物,这些组合物可以依附于固体底物提供,标记用于亲和性筛选等; 及包含此类选择子集合的试剂盒。包括但不限于,适用于非小细胞肺 癌(NSCLC)分析的选择子集合。此类试剂盒可包含用于CAPP-Seq数 据生物信息学分析的可执行指令。
在其他实施方案中,本发明提供了在诊断和监控个体患者癌 症中使用选择子集合的方法。在此类实施方案中,选择子集合用于富 集相应于最可能含有肿瘤特异性体细胞突变的基因组区域的ctDNA, 例如通过杂交筛选。然后将“所筛选的”ctDNA扩增并测序,以确定在 具体肿瘤中那些所筛选的基因组区域发生突变。最初将个体的种系 DNA序列和/或个体肿瘤活检样品任选进行比较。这些体细胞突变提 供了区别ctDNA和种系DNA的方法,因此提供了关于个体中肿瘤细胞 的存在和数量的有用信息。
在某些实施方案中,在一个或多个时间点,任选与治疗方案 结合,测定了个体血液中或血液衍生物样品中的ctDNA含量。ctDNA 的存在与肿瘤负荷有关,可用于监控对疗法的响应,监控残余的疾病, 监控转移的存在,监控总的肿瘤负荷等等。虽然没要求,对某些方法 而言,CAPP-Seq可与肿瘤影像学方法,例如PET/CT扫描等联合进行。
在其他实施方案中,CAPP-Seq用于癌症筛查和无活检肿瘤基 因型分型,其中患者ctDNA样品不用对照活检样品进行分析。在某些 此类实施方案中,其中CAPP-Seq鉴别ctDNA样品中临床上可操作的 靶标突变,这些方法包括提供适合于该靶标的疗法。此类突变包括但 不限于,涉及致癌基因、受体酪氨酸激酶等的重排和其他突变。可操 作的靶标可包括,例如ALK,ROS1,RET,EGFR,KRAS等。
CAPP-Seq方法可包括数据分析步骤,它可以作为计算机可执 行的指令程序提供,并通过计算机中组装的软件元件进行。此类方法 包括用于鉴别目标癌症的选择子集合的设计。提供用于当循环肿瘤DNA可在背景之上检测时确定并定量的其他生物信息学方法,例如 使用将信息内容和突变类型整合到检测索引中的方法。
本文公开了一种通过检测个体体细胞突变在无细胞核酸 (cfNA)样品中确定肿瘤核酸(tNA)存在的方法。该方法可包含(a)获得 cfNA样品;(b)筛选序列相应于目标癌症多个突变区域的cfNA;(c)对 所筛选的cfNA进行测序;(d)确定体细胞突变的存在,其中体细胞突 变的存在可以指示个体中存在肿瘤细胞;及(e)为个体提供肿瘤细胞存 在的评估。
无细胞核酸可以是无细胞DNA(cfDNA)。无细胞核酸可以是无 细胞RNA(cfRNA)。无细胞核酸可以是无细胞DNA(cfDNA)和无细胞 RNA(cfRNA)的混合物。肿瘤核酸可以是源于肿瘤细胞的核酸。肿瘤 核酸可以是肿瘤衍生的DNA(tDNA)。肿瘤核酸可以是循环肿瘤DNA(ctDNA)。肿瘤核酸可以是肿瘤衍生的RNA(tRNA)。肿瘤核酸可以是 循环肿瘤RNA(ctRNA)。肿瘤核酸可以是肿瘤衍生的DNA和肿瘤衍生 的RNA的混合物。肿瘤核酸可以是ctDNA和ctRNA的混合物。
筛选cfNA可包含(i)将无细胞核酸样品与多个含有特定结合元 件的选择子集合探针杂交;(ii)将杂交的核酸与补充的特定结合元件 结合;及(iii)洗掉未结合的DNA。
cfNA样品可与来源于个体的已知的肿瘤DNA序列比较。
cfNA样品可以重新进行存在体细胞突变的分析。
体细胞突变可包括单一核苷酸变化、插入、缺失、拷贝数目 变化及重排。
多个突变区域可包含至少5,10,15,20,25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100,125,150,175或200个不同的基因 组区域。多个突变区域可包含至少500个不同的基因组区域。多个突 变基因组区域可包含总共100-500kb序列。
对目标癌症而言,患者群体中至少60%,65%,70%,72%,75%, 77%,80%,82%,85%,87%,90%,92%,95%,97%,或99%的个体可存 在至少一种体细胞突变。
目标癌症可以是白血病。目标癌症可以是实体瘤。癌症可以 是恶性肿瘤。恶性肿瘤可以是腺癌或鳞状细胞癌。恶性肿瘤可以是非 小细胞肺癌。
个体可以是事先未诊断出癌症。个体可以是正在进行癌症治 疗。
在一段时间内可以获得个体的两个或更多个样品并比较残余 疾病或肿瘤负荷。
所述方法可进一步包含按照肿瘤细胞存在的分析结果治疗个 体。所述方法可进一步包含根据体细胞突变的检测结果治疗个体。
确定体细胞突变的存在可包含:(i)将cfDNA片段整合到所有 体细胞SNVs中;(ii)进行位置特异性背景调节;及(iii)通过跨越选择子 的背景等位基因的Monte Carlo取样,来评价统计学意义,其中步骤 (i)–(iii)作为计算机可执行的指令程序体现,并通过装载在计算机中的 软件元件来进行。
所述方法可进一步包含通过比较特定cfDNA样品中的其丰度 分数与组中的其丰度分数来分析插入和/或缺失。所述方法可进一步 包含将丰度分数组合到单一Z-分数中。
所述方法可进一步包含整合不同的突变类型以评估肿瘤负荷 量的重要性。
确定体细胞突变的存在可以通过下述方法鉴别基因组融合事 件和断点:该方法包括:(i)鉴别不一致的读数;(ii)检测碱基对分辨率 断点;及(iii)电子验证候选融合体,其中步骤(i)-(iii)作为计算机可执 行的指令程序体现,并通过装载在计算机中的软件元件来进行。
确定体细胞突变的存在可包含下述步骤:(i)从单一cfDNA样品 中获取等位基因频率并筛选高质量数据;(ii)测试特定的输入cfDNA 等位基因是否可与相应的成对种系等位基因明显不同;(iii)通过二项 分布法组装cfDNA背景等位基因频率数据库;(iv)测试特定的输入等 位基因在相同的位置上是否与cfDNA背景明显不同,并筛选具有预定 阈值的平均背景频率的那些,及(v)通过离群分析从剩余背景噪音中 辨别出肿瘤衍生的SNVs,其中步骤(i)-(v)可作为计算机可执行的指 令程序体现,并通过装载在计算机中的软件元件来进行。
选择子集合探针可包含相应于突变的基因组区域的序列,该 区域的鉴别方法包括,从可能在特定癌症中发生突变的一组基因组区 域中辨别出多个基因组区域。
鉴别多个基因组区域可包含对多个基因组区域中的每个基因 组区域而言,将基因组区域排序以使所有患有在该基因组区域中具有 至少一种突变的、特定癌症的受试者的数量最大化。
鉴别多个基因组区域可包含:(i)筛选已知在目标癌症中是驱动 子的基因以形成已知的驱动子池;(ii)从具有最高复发指数(RI)的已知 驱动子中筛选外显子,与步骤(a)相比,能鉴别出至少一位新患者;并 且不断重复直到无更多的外显子符合这些标准;(iii)在相关数据库中, 用RI≥30及SNVs覆盖≥3的患者,鉴别已知驱动子的剩余外显子,在 仅有1SNV的患者中产生最大的减少;并且不断重复直到无更多的外 显子符合这些标准;(iv)用RI≥20重复步骤(b);(v)加入之前预测庇护 驱动子突变的其他基因的所有外显子;及(vi)对已知复发重排而言, 加入在融合事件中最经常涉及的内含子及侧面外显子,其中步骤 (i)-(vi)作为计算机可执行的指令程序体现,并通过装载在计算机中的 软件元件来进行。
目标癌症中的多个突变区域可选自表2中描述的区域。
权利要求27所述的方法,其中多个突变区域可包含表2中所述 至少5,10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95, 或100个区域。
本文进一步公开了包含选择子集合探针的组合物。所述组合 物可包含一组长度至少约25个核苷酸的选择子集合探针,包含具体的 结合元件,及包含选自表2中所述至少100个区域的序列。
该组选择子探针可包含含表2的至少300个区域的序列的低聚 核苷酸。该组选择子探针可包含含表2的至少500个区域的序列的低聚 核苷酸。
本文进一步公开了无细胞DNA(cfDNA)群体。所述cfDNA群体 可以是富集群体。所述cfDNA的富集群体可通过杂交筛选制备。杂交 筛选可包含使用一种或多种选择子集合探针。所述选择子集合探针可 附在固体的或半固体的支持物上。该支持物可包含阵列。所述支持物 可包含珠。所述珠可以是涂覆的珠。所述珠可以是链酶亲和素珠。所 述固体支持物可包含平整表面。所述固体支持物可包含载片。所述固 体支持物可包含载玻片。
本文进一步公开了检测、诊断、预测或治疗筛选患有疾病或 病症的受试者的方法。该方法可包含:(a)获得受试者无细胞DNA (cfDNA)样品的序列信息;及(b)用从(a)获得的序列信息检测样品中无 细胞非种系DNA(cfNG-DNA),其中所述方法能够检测可少于2%总 cfDNA的cfNG-DNA百分比。
所述方法能够检测可少于1.5%总cfDNA的ctDNA百分比。所述 方法能够检测可少于1%总cfDNA的ctDNA百分比。所述方法能够检 测可少于0.5%总cfDNA的ctDNA百分比。所述方法能够检测可少于 0.1%总cfDNA的ctDNA百分比。所述方法能够检测可少于0.01%总cfDNA的ctDNA百分比。所述方法能够检测可少于0.001%总cfDNA的 ctDNA百分比。所述方法能够检测可少于0.0001%总cfDNA的ctDNA 百分比。
样品可以是血浆或血清样品(汗液、呼吸、眼泪、唾液、尿、 大便、羊水)。所述样品可以是脑脊液样品。在某些情况中,所述样 品不是帕氏涂片(Pap smear)液样品。在某些情况中,所述样品不是 囊肿液样品。在某些情况中,所述样品不是胰液样品。
所述序列信息可包含与至少10,20,30,40,100,200,或300个 基因组区域相关的信息。所述基因组区域可包含基因、外显子区域、 内含子区域、未翻译区域、未编码区域或其组合。所述基因组区域可 包含外显子区域、内含子区域及未翻译区域中的两个或更多个。所述 基因组区域可包含至少一个外显子区域和至少一个内含子区域。至少5%的所述基因组区域可包含内含子区域。至少约20%的所述基因组 区域可包含外显子区域。
所述基因组区域可包含少于1.5兆碱基(Mb)的基因组。所述基 因组区域可包含少于1Mb的基因组。所述基因组区域可包含少于500 千碱基(kb)的基因组。所述基因组区域可包含少于50,75,100或350kb 的基因组。所述基因组区域可包含100kb-300kb之间的基因组。
所述序列信息可包含属于1,2,3,4,5,6,7,8,9,10,15,20或更 多个包含多个基因组区域的选择子集合的基因组区域的信息。所述序 列信息可包含属于25,30,40,50,60,70,80,90,100或更多个包含多个 基因组区域的选择子集合的基因组区域的信息。所述序列信息可包含 属于多个基因组区域的信息。
所述多个基因组区域可基于包含基因组区域的选择子集合, 所述基因组区域包含癌症受试者群体的一个或多个受试者中存在的 一种或多种突变。至少约5%,10%,15%,20%,25%,30%,35%,40%, 45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,或95%的多个 基因组区域可基于包含基因组区域的选择子集合,该基因组区域包含癌症受试者群体的一个或多个受试者中存在的一种或多种突变。
所述选择子集合的基因组区域的全部大小可包含少于1.5兆碱 基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或150kb 的基因组。所述选择子集合的基因组区域的全部大小可以是100kb -300kb之间的基因组。
所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30, 40,50,60,70,80,90,100或更多个选自表2的基因组区域。所述选择子 集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30,40,50,60,70,80, 90,100或更多个选自表6的基因组区域。所述选择子集合可包含1,2,3, 4,5,6,7,8,9,10,15,20,25,30,40,50,60,70,80,90,100或更多个选 自表7的基因组区域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10, 15,20,25,30,40,50,60,70,80,90,100或更多个选自表8的基因组区 域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30,40, 50,60,70,80,90,100或更多个选自表9的基因组区域。所述选择子集 合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30,40,50,60,70,80,90, 100或更多个选自表10的基因组区域。所述选择子集合可包含1,2,3,4, 5,6,7,8,9,10,15,20,25,30,40,50,60,70,80,90,100或更多个选自 表11的基因组区域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10, 15,20,25,30,40,50,60,70,80,90,100或更多个选自表12的基因组区 域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30,40, 50,60,70,80,90,100或更多个选自表13的基因组区域。所述选择子集 合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30,40,50,60,70,80,90, 100或更多个选自表14的基因组区域。所述选择子集合可包含1,2,3,4, 5,6,7,8,9,10,15,20,25,30,40,50,60,70,80,90,100或更多个选自 表15的基因组区域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10, 15,20,25,30,40,50,60,70,80,90,100或更多个选自表16的基因组区 域。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30,40, 50,60,70,80,90,100或更多个选自表17的基因组区域。所述选择子集 合可包含1,2,3,4,5,6,7,8,9,10,15,20,25,30,40,50,60,70,80,90, 100或更多个选自表18的基因组区域。在某些情况中,所述受试者不 患有胰腺癌。
获得无细胞DNA样品的序列信息可包含进行大规模的平行测 序。大规模的平行测序可在cfDNA样品中的cfDNA基因组子集中进 行。所述基因组子集可包含少于1.5兆碱基(Mb),1Mb,500千碱基(kb), 350kb,300kb,250kb,200kb,或150kb的基因组。所述基因组的子集 可包含100kb-300kb之间的基因组。
获得无细胞DNA样品的序列信息可包含使用单分子进行条形 编码。使用单分子进行条形编码可包括将含有不同序列的条形码与 cfDNA样品中的核酸连接。
所述序列信息可包含属于衔接子的序列信息。所述序列信息 可包含属于分子条形码的序列信息。所述序列信息可包含属于样品索 引的序列信息。
所述方法可包含从受试者的两个或更多个样品中获得无细胞 DNA样品的测序信息。所述方法可包含从两个或更多个不同受试者 中获得无细胞DNA样品的测序信息。所述两个或更多个样品可以是 相同类型的样品。所述两个或更多个样品可以是两个不同类型的样 品。所述两个或更多个样品可以从处于相同时间点的受试者获得。所 述两个或更多个样品可以从处于两个或更多个时间点的受试者获得。 两个或更多个不同受试者的样品可以编入索引并在测序之前合并在 一起。
使用序列信息可包含检测一种或多种突变。所述一种或多种 突变可包含受试者基因组的所选区域中的一个或多个SNVs、插入/缺 失、融合、断点、结构变体、串联重复的可变数、超变区、小卫星、 二核苷酸重复、三核苷酸重复、四核苷酸重复、样品序列重复、拷贝数变体或其组合。使用序列信息可包含检测受试者基因组的所选区域 中的SNVs、插入/缺失、拷贝数变体及重排中的一种或多种。使用序 列信息可包含检测受试者基因组的所选区域中的SNVs、插入/缺失、 拷贝数变体及重排中的两种或更多种。使用序列信息可包含检测受试 者基因组的所选区域中的至少一个SNV、插入/缺失、拷贝数变体及 重排。
在某些情况中,检测一种或多种突变不涉及进行数字PCR (dPCR)。
检测一种或多种突变可包含将运算法则应用于序列信息以确 定选择子集合中一个或多个基因组区域的量。所述选择子集合可包含 多个基因组区域,该基因组区域包含存在于癌症受试者群体中的一个 或多个癌症受试者中的一种或多种突变。所述选择子集合可包含多个 基因组区域,该基因组区域包含存在于癌症受试者群体中的至少约 60%癌症受试者中的一种或多种突变。
所述cfNG-DNA可源自于受试者中的肿瘤。所述方法可进一步 包括基于检测cfNG-DNA来检测受试者中的癌症。所述方法可进一步 包括基于检测cfNG-DNA来诊断受试者中的癌症。诊断癌症的灵敏度 可为至少约50%,52%,55%,57%,60%,62%,65%,67%,70%,72%, 75%,77%,80%,82%,85%,87%,89%,90%,91%,92%,93%,94%, 95%,96%,97%,或99%。诊断癌症的特异性可为至少约50%,52%, 55%,57%,60%,62%,65%,67%,70%,72%,75%,77%,80%,82%, 85%,87%,89%,90%,91%,92%,93%,94%,95%,96%,97%,或99%。 所述方法可进一步包括基于检测cfNG-DNA来预测受试者中的癌症。 预测癌症的灵敏度可为至少约50%,52%,55%,57%,60%,62%,65%, 67%,70%,72%,75%,77%,80%,82%,85%,87%,89%,90%,91%, 92%,93%,94%,95%,96%,97%,或99%。预测癌症的特异性可为至少 约50%,52%,55%,57%,60%,62%,65%,67%,70%,72%,75%,77%, 80%,82%,85%,87%,89%,90%,91%,92%,93%,94%,95%,96%, 97%,或99%。所述方法可进一步包括基于检测cfNG-DNA来确定受试 者的治疗方案。所述方法可进一步包括基于检测cfNG-DNA给予受试 者抗癌疗法。
所述cfNG-DNA可源自于受试者中的胎儿。所述方法可进一步 包括基于检测cfNG-DNA来诊断胎儿中的疾病或病症。诊断胎儿中的 疾病或病症的灵敏度可为至少约50%,52%,55%,57%,60%,62%, 65%,67%,70%,72%,75%,77%,80%,82%,85%,87%,89%,90%, 91%,92%,93%,94%,95%,96%,97%,或99%。诊断胎儿中的疾病或 病症的特异性可为至少约50%,52%,55%,57%,60%,62%,65%,67%, 70%,72%,75%,77%,80%,82%,85%,87%,89%,90%,91%,92%, 93%,94%,95%,96%,97%,或99%。
所述cfNG-DNA可源自于受试者中的移植器官、细胞或组织。 所述方法可进一步包括基于检测cfNG-DNA来诊断受试者中的器官 移植排斥。诊断器官移植排斥的灵敏度可为至少约50%,52%,55%, 57%,60%,62%,65%,67%,70%,72%,75%,77%,80%,82%,85%, 87%,89%,90%,91%,92%,93%,94%,95%,96%,97%或99%。诊断器 官移植排斥的特异性可为至少约50%,52%,55%,57%,60%,62%, 65%,67%,70%,72%,75%,77%,80%,82%,85%,87%,89%,90%, 91%,92%,93%,94%,95%,96%,97%,或99%。所述方法可进一步包 括基于检测cfNG-DNA来预测受试者中的器官移植排斥风险。预测器 官移植排斥风险的灵敏度可为至少约50%,52%,55%,57%,60%,62%, 65%,67%,70%,72%,75%,77%,80%,82%,85%,87%,89%,90%, 91%,92%,93%,94%,95%,96%,97%,或99%。预测器官移植排斥风 险的特异性可为至少约50%,52%,55%,57%,60%,62%,65%,67%, 70%,72%,75%,77%,80%,82%,85%,87%,89%,90%,91%,92%, 93%,94%,95%,96%,97%,或99%。所述方法可进一步包括基于检测 cfNG-DNA为受试者确定免疫抑制疗法。所述方法可进一步包括基于 检测cfNG-DNA给予受试者免疫抑制治疗。
本文进一步公开了诊断癌症的方法。所述方法可包括(a)获得 采自于受试者样品的无细胞基因组DNA的序列信息,其中所述序列 信息可源自于至少80%受癌症折磨的受试者群体的突变区域;及(b) 基于所述序列信息诊断受试者中的癌症,所述癌症选自肺癌、乳腺癌、 结直肠癌和前列腺癌,其中所述方法的灵敏度为至少80%。
所述突变区域可包括总范围少于1.5Mb的基因组。所述突变 区域可包括总范围少于1Mb的基因组。所述突变区域可包括总范围少 于500kb的基因组。所述突变区域可包括总范围少于350kb的基因组。 所述突变区域可包括总范围少于300kb的基因组。所述突变区域可包 括总范围少于250kb的基因组。所述突变区域可包括总范围少于200 kb的基因组。所述突变区域可包括总范围少于150kb的基因组。所述 突变区域可包括总范围少于100kb的基因组。所述突变区域可包括总 范围少于50kb的基因组。所述突变区域可包括总范围少于40kb的基因 组。所述突变区域可包括总范围少于30kb的基因组。所述突变区域可 包括总范围少于20kb的基因组。所述突变区域可包括总范围少于10kb 的基因组。
所述突变区域可包括总范围在100kb-300kb之间的基因组。 所述突变区域可包括总范围在5kb-200kb之间的基因组。所述突变区 域可包括总范围在5kb-150kb之间的基因组。所述突变区域可包括总 范围在5kb-100kb之间的基因组。所述突变区域可包括总范围在5kb -75kb之间的基因组。所述突变区域可包括总范围在1kb-50kb之间 的基因组。
所述序列信息可源自于2个或更多个区域。所述序列信息可源 自于3个或更多个区域。所述序列信息可源自于4个或更多个区域。所 述序列信息可源自于5个或更多个区域。所述序列信息可源自于6个或 更多个区域。所述序列信息可源自于7个或更多个区域。所述序列信 息可源自于8个或更多个区域。所述序列信息可源自于9个或更多个区 域。所述序列信息可源自于10个或更多个区域。所述序列信息可源自 于20个或更多个区域。所述序列信息可源自于30个或更多个区域。所 述序列信息可源自于40个或更多个区域。所述序列信息可源自于50 个或更多个区域。所述序列信息可源自于60个或更多个区域。所述序列信息可源自于70个或更多个区域。所述序列信息可源自于80个或更 多个区域。所述序列信息可源自于90个或更多个区域。所述序列信息 可源自于100个或更多个区域。
所述受癌症折磨的受试者群体可以是来自于一个或多个数据 库的受试者。所述一个或多个数据库可包含癌症基因组图集(Cancer Genome Atlas)(TCGA)。
所述序列信息可包含属于至少一种突变的信息,该突变可存 在于至少约60%受癌症折磨的受试者群体中。所述序列信息可包含属 于至少一种突变的信息,该突变可存在于至少约70%受癌症折磨的受 试者群体中。所述序列信息可包含属于至少一种突变的信息,该突变 可存在于至少约80%受癌症折磨的受试者群体中。所述序列信息可包 含属于至少一种突变的信息,该突变可存在于至少约90%受癌症折磨 的受试者群体中。所述序列信息可包含属于至少一种突变的信息,该 突变可存在于至少约95%受癌症折磨的受试者群体中。所述序列信息 可包含属于至少一种突变的信息,该突变可存在于至少约99%受癌症 折磨的受试者群体中。
所述序列信息可源自于至少65%受癌症折磨的受试者群体中 可能突变的区域。所述序列信息可源自于至少70%受癌症折磨的受试 者群体中可能突变的区域。所述序列信息可源自于至少75%受癌症折 磨的受试者群体中可能突变的区域。所述序列信息可源自于至少80% 受癌症折磨的受试者群体中可能突变的区域。所述序列信息可源自于 至少85%受癌症折磨的受试者群体中可能突变的区域。所述序列信息 可源自于至少90%受癌症折磨的受试者群体中可能突变的区域。所述 序列信息可源自于至少95%受癌症折磨的受试者群体中可能突变的 区域。所述序列信息可源自于至少99%受癌症折磨的受试者群体中可 能突变的区域。
获得所述序列信息可包括测序非编码区域。所述非编码区域 可包含一种或多种lncRNA,snoRNA,siRNA,miRNA,piRNA,tiRNA, PASR,TASR,aTASR,TSSa-RNA,snRNA,RE-RNA,uaRNA, x-ncRNA,hY RNA,usRNA,snaR,vtRNA,T-UCRs,假基因, GRC-RNAs,aRNAs,PALRs,PROMPTs,LSINCTs,或其组合。
或者,或另外,获得所述序列信息可包括测序蛋白质编码区 域。所述蛋白质编码区域可包含一种或多种外显子、内含子、未翻译 区域,或其组合。
在某些情况中,至少所述区域之一不包含KRAS或EGFR。在 某些情况中,至少所述区域中的两个不包含KRAS和EGFR。在某些 情况中,至少所述区域之一不包含KRAS,EGFR,p53,PIK3CA,BRAF, EZH2,或BRCA1。在某些情况中,至少所述区域中的两个不包含 KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某些情况 中,至少所述区域中的三个不包含KRAS,EGFR,p53,PIK3CA,BRAF, EZH2,或BRCA1。在某些情况中,至少所述区域中的四个不包含 KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。
所述方法可进一步包括基于测序信息检测该区域的突变。可 基于检测突变诊断癌症。检测至少3种突变可提示有癌症。检测三个 或更多个区域中的一种或多种突变可提示有癌症。
乳腺癌可以是BRCA1癌症。
所述方法的灵敏度可为至少85%,87%,90%,91%,92%,93%, 94%,95%,96%,97%,98%,或99%。
所述方法的特异性可为至少50%,52%,55%,57%,60%,62%, 65%,67%,70%,72%,75%,77%,80%,82%,85%,87%,90%,91%, 92%,93%,94%,95%,96%,97%,98%,或99%。
所述方法可进一步包括提供包含癌症诊断的计算机形成的报 告。
本文进一步公开了确定有需要的受试者中病症或疾病的预测 的方法。所述方法可包括(a)获得源自于受试者样品的无细胞基因组 DNA序列信息,其中所述序列信息可来自至少80%受病症折磨的受试 者群体的突变区域;及(b)基于该序列信息确定受试者病症或疾病的 预测。
所述突变区域可包含总范围少于1.5Mb的基因组。所述突变区 域可包含总范围少于1Mb的基因组。所述突变区域可包含总范围少于 500kb的基因组。所述突变区域可包含总范围少于350kb的基因组。 所述突变区域可包含总范围少于300kb的基因组。所述突变区域可包 含总范围少于250kb的基因组。所述突变区域可包含总范围少于200 kb的基因组。所述突变区域可包含总范围少于150kb的基因组。所述 突变区域可包含总范围少于100kb的基因组。所述突变区域可包含总 范围少于50kb的基因组。所述突变区域可包含总范围少于40kb的基 因组。所述突变区域可包含总范围少于30kb的基因组。所述突变区 域可包含总范围少于20kb的基因组。所述突变区域可包含总范围少 于10kb的基因组。
所述突变区域可包含总范围在100kb-300kb之间的基因组。 所述突变区域可包含总范围在5kb-200kb之间的基因组。所述突变区 域可包含总范围在5kb-150kb之间的基因组。所述突变区域可包含总 范围在5kb-100kb之间的基因组。所述突变区域可包含总范围在5kb -75kb之间的基因组。所述突变区域可包含总范围在1kb-50kb之间 的基因组。
所述序列信息可源自于2个或更多个区域。所述序列信息可源 自于3个或更多个区域。所述序列信息可源自于4个或更多个区域。所 述序列信息可源自于5个或更多个区域。所述序列信息可源自于6个或 更多个区域。所述序列信息可源自于7个或更多个区域。所述序列信 息可源自于8个或更多个区域。所述序列信息可源自于9个或更多个区 域。所述序列信息可源自于10个或更多个区域。所述序列信息可源自 于20个或更多个区域。所述序列信息可源自于30个或更多个区域。所 述序列信息可源自于40个或更多个区域。所述序列信息可源自于50 个或更多个区域。所述序列信息可源自于60个或更多个区域。所述序列信息可源自于70个或更多个区域。所述序列信息可源自于80个或更 多个区域。所述序列信息可源自于90个或更多个区域。所述序列信息 可源自于100个或更多个区域。
所述受癌症折磨的受试者群体可以是来自一个或多个数据库 的受试者。所述一个或多个数据库可包含癌症基因组图集(TCGA)。
所述序列信息可源自于至少65%受癌症折磨的受试者群体中 可能突变的区域。所述序列信息可源自于至少70%受癌症折磨的受试 者群体中可能突变的区域。所述序列信息可源自于至少75%受癌症折 磨的受试者群体中可能突变的区域。所述序列信息可源自于至少80% 受癌症折磨的受试者群体中可能突变的区域。所述序列信息可源自于 至少85%受癌症折磨的受试者群体中可能突变的区域。所述序列信息 可源自于至少90%受癌症折磨的受试者群体中可能突变的区域。所述 序列信息可源自于至少95%受癌症折磨的受试者群体中可能突变的 区域。所述序列信息可源自于至少99%受癌症折磨的受试者群体中可 能突变的区域。
获得所述序列信息可包括测序非编码区域。所述非编码区域 可包含一个或多个lncRNA,snoRNA,siRNA,miRNA,piRNA,tiRNA, PASR,TASR,aTASR,TSSa-RNA,snRNA,RE-RNA,uaRNA, x-ncRNA,hY RNA,usRNA,snaR,vtRNA,T-UCRs,假基因, GRC-RNAs,aRNAs,PALRs,PROMPTs,LSINCTs,或其组合。
或者,或另外,获得所述序列信息可包括测序蛋白质编码区 域。所述蛋白质编码区域可包含一个或多个外显子、内含子、未翻译 区域,或其组合。
在某些情况中,至少所述区域之一不包含KRAS或EGFR。在 某些情况中,至少所述区域中的两个不包含KRAS和EGFR。在某些 情况中,至少所述区域之一不包含KRAS,EGFR,p53,PIK3CA,BRAF, EZH2,或BRCA1。在某些情况中,至少所述区域中的两个不包含 KRAS,EGFR,p53,PIK3CA,BRAF,EZH2或BRCA1。在某些情况中, 至少所述区域中的三个不包含KRAS,EGFR,p53,PIK3CA,BRAF, EZH2或BRCA1。在某些情况中,至少所述区域中的四个不包含KRAS, EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。
所述方法可进一步包括基于测序信息检测所述区域的突变。 预测病症或疾病可基于检测突变。检测至少3种突变可提示病症或疾 病的结果。检测三个或更多个区域中的一种或多种突变可提示病症或 疾病的结果。
所述病症可以是癌症。所述癌症可以是实体瘤。所述实体瘤 可以是非小细胞肺癌(NSCLC)。所述癌症可以是乳腺癌。所述乳腺癌 可以是BRCA1癌症。所述癌症可以是肺癌、结直肠癌、前列腺癌、 卵巢癌、食道癌、乳腺癌、淋巴瘤或白血病。
所述方法的灵敏度可为至少50%,52%,55%,57%,60%,62%, 65%,67%,70%,72%,75%,77%,80%,82%,85%,87%,90%,91%, 92%,93%,94%,95%,96%,97%,98%,或99%。
所述方法的特异性可为至少50%,52%,55%,57%,60%,62%, 65%,67%,70%,72%,75%,77%,80%,82%,85%,87%,90%,91%, 92%,93%,94%,95%,96%,97%,98%,或99%。
所述方法可进一步包含提供包括病症预测的由计算机形成的 报告。
本文进一步公开了为受癌症折磨或易于患癌症的受试者诊 断、预测或确定治疗方案的方法。所述方法可包括(a)获得受试者无细 胞DNA样品中的基因组DNA选择区域的序列信息;(b)利用该序列信 息确定所述选择区域中一种或多种突变的存在或者不存在,其中至少 70%受癌症折磨的受试者群体在所述区域具有突变;及(c)基于一种或 多种突变的存在或者不存在,提供该受试者的诊断、预测或治疗方案 报告。
所述选择区域可包含总范围少于1.5Mb的基因组。所述选择区 域可包含总范围少于1Mb的基因组。所述选择区域可包含总范围少于 500kb的基因组。所述选择区域可包含总范围少于350kb的基因组。 所述选择区域可包含总范围少于300kb的基因组。所述选择区域可包 含总范围少于250kb的基因组。所述选择区域可包含总范围少于200 kb的基因组。所述选择区域可包含总范围少于150kb的基因组。所述 选择区域可包含总范围少于100kb的基因组。所述选择区域可包含总 范围少于50kb的基因组。所述选择区域可包含总范围少于40kb的基 因组。所述选择区域可包含总范围少于30kb的基因组。所述选择区 域可包含总范围少于20kb的基因组。所述选择区域可包含总范围少 于10kb的基因组。
所述选择区域可包含总范围在100kb-300kb之间的基因组。所 述选择区域可包含总范围在5kb-200kb之间的基因组。所述选择区域 可包含总范围在5kb-150kb之间的基因组。所述选择区域可包含总范 围在5kb-100kb之间的基因组。所述选择区域可包含总范围在5kb-75 kb之间的基因组。所述选择区域可包含总范围在1kb-50kb之间的基 因组。
所述序列信息可源自于2个或更多个区域。所述序列信息可源 自于3个或更多个区域。所述序列信息可源自于4个或更多个区域。所 述序列信息可源自于5个或更多个区域。所述序列信息可源自于6个或 更多个区域。所述序列信息可源自于7个或更多个区域。所述序列信 息可源自于8个或更多个区域。所述序列信息可源自于9个或更多个区 域。所述序列信息可源自于10个或更多个区域。所述序列信息可源自 于20个或更多个区域。所述序列信息可源自于30个或更多个区域。所 述序列信息可源自于40个或更多个区域。所述序列信息可源自于50 个或更多个区域。所述序列信息可源自于60个或更多个区域。所述序列信息可源自于70个或更多个区域。所述序列信息可源自于80个或更 多个区域。所述序列信息可源自于90个或更多个区域。所述序列信息 可源自于100个或更多个区域。
所述受癌症折磨的受试者群体可以是来自一个或多个数据库 的受试者。所述一个或多个数据库可包括癌症基因组图集(TCGA)。
所述序列信息可源自于至少65%受癌症折磨的受试者群体中 可能突变的区域。所述序列信息可源自于至少70%受癌症折磨的受试 者群体中可能突变的区域。所述序列信息可源自于至少75%受癌症折 磨的受试者群体中可能突变的区域。所述序列信息可源自于至少80% 受癌症折磨的受试者群体中可能突变的区域。所述序列信息可源自于 至少85%受癌症折磨的受试者群体中可能突变的区域。所述序列信息 可源自于至少90%受癌症折磨的受试者群体中可能突变的区域。所述 序列信息可源自于至少95%受癌症折磨的受试者群体中可能突变的 区域。所述序列信息可源自于至少99%受癌症折磨的受试者群体中可 能突变的区域。
获得序列信息可包括测序非编码区域。所述非编码区域可包 含一个或多个lncRNA,snoRNA,siRNA,miRNA,piRNA,tiRNA, PASR,TASR,aTASR,TSSa-RNA,snRNA,RE-RNA,uaRNA, x-ncRNA,hY RNA,usRNA,snaR,vtRNA,T-UCRs,假基因, GRC-RNAs,aRNAs,PALRs,PROMPTs,LSINCTs或其组合。
或者,或另外,获得所述序列信息可包括测序蛋白质编码区 域。所述蛋白质编码区域可包含一个或多个外显子、内含子、未翻译 区域或其组合。
在某些情况中,至少所述区域之一不包含KRAS或EGFR。在 某些情况中,至少所述区域中的两个不包含KRAS和EGFR。在某些 情况中,至少所述区域之一不包含KRAS,EGFR,p53,PIK3CA,BRAF, EZH2,或BRCA1。在某些情况中,至少所述区域中的两个不包含 KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某些情况 中,至少所述区域中的三个不包含KRAS,EGFR,p53,PIK3CA,BRAF, EZH2,或BRCA1。在某些情况中,至少所述区域中的四个不包含 KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。
检测至少3种突变可提示癌症的结果。检测至少4种突变可提 示癌症的结果。检测至少5种突变可提示癌症的结果。检测至少6种突 变可提示癌症的结果。
检测三个或更多个区域中的一种或多种突变可提示癌症的 结果。检测四个或更多个区域中的一种或多种突变可提示癌症的结 果。检测五个或更多个区域中的一种或多种突变可提示癌症的结果。 检测六个或更多个区域中的一种或多种突变可提示癌症的结果。
所述癌症可以是非小细胞肺癌(NSCLC)。所述癌症可以是乳 腺癌。所述乳腺癌可以是BRCA1癌症。所述癌症可以是肺癌、结直 肠癌、前列腺癌、卵巢癌、食道癌、乳腺癌、淋巴瘤或白血病。
所述诊断或预测癌症的方法的灵敏度可为至少50%,52%, 55%,57%,60%,62%,65%,67%,70%,72%,75%,77%,80%,82%, 85%,87%,90%,91%,92%,93%,94%,95%,96%,97%,98%,或 99%。所述诊断或预测癌症的方法的特异性可为至少50%,52%,55%, 57%,60%,62%,65%,67%,70%,72%,75%,77%,80%,82%,85%,87%,90%,91%,92%,93%,94%,95%,96%,97%,98%,或99%。
本发明可进一步包括给予受试者治疗药物。本发明可进一步 包括修改治疗方案。修改治疗方案可包括停止治疗方案。修改治疗方 案可包括增加治疗方案的剂量或频次。修改治疗方案可包括减少治疗 方案的剂量或频次。修改治疗方案可包括启动治疗方案。
本文进一步公开了为治疗有需要的受试者病症而确定治疗 区域的方法。所述方法可包括(a)获得来源于受试者样品的无细胞基因 组DNA的序列信息,其中所述序列信息可源自于至少80%受病症折磨 的受试者群体的突变区域;及(b)基于所述序列信息为受试者的病症 确定治疗方案。
所述突变区域可包含总范围少于1.5Mb的基因组。所述突变 区域可包含总范围少于1Mb的基因组。所述突变区域可包含总范围少 于500kb的基因组。所述突变区域可包含总范围少于350kb的基因组。 所述突变区域可包含总范围少于300kb的基因组。所述突变区域可包 含总范围少于250kb的基因组。所述突变区域可包含总范围少于200 kb的基因组。所述突变区域可包含总范围少于150kb的基因组。所述 突变区域可包含总范围少于100kb的基因组。所述突变区域可包含总 范围少于50kb的基因组。所述突变区域可包含总范围少于40kb的基 因组。所述突变区域可包含总范围少于30kb的基因组。所述突变区 域可包含总范围少于20kb的基因组。所述突变区域可包含总范围少 于10kb的基因组。
所述突变区域可包含总范围在100kb-300kb之间的基因组。 所述突变区域可包含总范围在5kb-200kb之间的基因组。所述突变区 域可包含总范围在5kb-150kb之间的基因组。所述突变区域可包含总 范围在5kb-100kb之间的基因组。所述突变区域可包含总范围在5 kb-75kb之间的基因组。所述突变区域可包含总范围在1kb-50kb之间 的基因组。
所述序列信息可源自于2个或更多个区域。所述序列信息可 源自于3个或更多个区域。所述序列信息可源自于4个或更多个区域。 所述序列信息可源自于5个或更多个区域。所述序列信息可源自于6 个或更多个区域。所述序列信息可源自于7个或更多个区域。所述序 列信息可源自于8个或更多个区域。所述序列信息可源自于9个或更多 个区域。所述序列信息可源自于10个或更多个区域。所述序列信息可 源自于20个或更多个区域。所述序列信息可源自于30个或更多个区 域。所述序列信息可源自于40个或更多个区域。所述序列信息可源自 于50个或更多个区域。所述序列信息可源自于60个或更多个区域。所 述序列信息可源自于70个或更多个区域。所述序列信息可源自于80 个或更多个区域。所述序列信息可源自于90个或更多个区域。所述序 列信息可源自于100个或更多个区域。
所述受癌症折磨的受试者群体可以是来自一个或多个数据 库的受试者。所述一个或多个数据库可包括癌症基因组图集(TCGA)。
所述序列信息可包含属于可存在于至少约60%受癌症折磨的 受试者群体的至少一种突变的信息。所述序列信息可包含属于可存在 于至少约70%受癌症折磨的受试者群体的至少一种突变的信息。所述 序列信息可包含属于可存在于至少约80%受癌症折磨的受试者群体 的至少一种突变的信息。所述序列信息可包含属于可存在于至少约 90%受癌症折磨的受试者群体的至少一种突变的信息。所述序列信息 可包含属于可存在于至少约95%受癌症折磨的受试者群体的至少一 种突变的信息。所述序列信息可包含属于可存在于至少约99%受癌症 折磨的受试者群体的至少一种突变的信息。
所述序列信息可源自于至少65%受癌症折磨的受试者群体中 可能突变的区域。所述序列信息可源自于至少70%受癌症折磨的受试 者群体中可能突变的区域。所述序列信息可源自于至少75%受癌症折 磨的受试者群体中可能突变的区域。所述序列信息可源自于至少80% 受癌症折磨的受试者群体中可能突变的区域。所述序列信息可源自于 至少85%受癌症折磨的受试者群体中可能突变的区域。所述序列信息 可源自于至少90%受癌症折磨的受试者群体中可能突变的区域。所述 序列信息可源自于至少95%受癌症折磨的受试者群体中可能突变的 区域。所述序列信息可源自于至少99%受癌症折磨的受试者群体中可 能突变的区域。
获得序列信息可包括测序非编码区域。所述非编码区域可包 含一个或多个lncRNA,snoRNA,siRNA,miRNA,piRNA,tiRNA, PASR,TASR,aTASR,TSSa-RNA,snRNA,RE-RNA,uaRNA, x-ncRNA,hY RNA,usRNA,snaR,vtRNA,T-UCRs,假基因, GRC-RNAs,aRNAs,PALRs,PROMPTs,LSINCTs,,或其组合。
或者,或另外,获得所述序列信息可包括测序蛋白质编码区 域。所述蛋白质编码区域可包含一个或多个外显子、内含子、未翻译 区域或其组合。
在某些情况中,至少所述区域之一不包含KRAS或EGFR。在 某些情况中,至少所述区域中的两个不包含KRAS和EGFR。在某些 情况中,至少所述区域之一不包含KRAS,EGFR,p53,PIK3CA,BRAF, EZH2,或BRCA1。在某些情况中,至少所述区域中的两个不包含 KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某些情况 中,至少所述区域中的三个不包含KRAS,EGFR,p53,PIK3CA,BRAF, EZH2,或BRCA1。在某些情况中,至少所述区域中的四个不包含 KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。
所述方法可进一步包括基于测序信息检测所述区域的突变。 确定治疗方案可基于所述突变的检测。
所述病症可以是癌症。所述癌症可以是实体瘤。所述实体瘤 可以是非小细胞肺癌(NSCLC)。所述癌症可以是乳腺癌。所述乳腺癌 可以是BRCA1癌症。所述癌症可以是肺癌、结直肠癌、前列腺癌、 卵巢癌、食道癌、乳腺癌、淋巴瘤或白血病。
本文进一步公开了评估有需要的受试者中肿瘤负荷的方法。 所述方法可包括(a)获得来源于受试者样品的无细胞核酸的序列信息; (b)用计算机可读的介质测定样品中循环肿瘤DNA(ctDNA)的量;(c) 基于所述ctDNA的量评估肿瘤负荷;及(d)向该受试者或该受试者的代 表报告肿瘤负荷。
测定ctDNA的量可包括测定ctDNA的绝对量。测定ctDNA的 量可包括测定ctDNA的相对量。测定ctDNA的量可通过计数属于该 ctDNA的序列读数来进行。测定ctDNA的量可通过定量PCR进行。测 定ctDNA的量可通过数字PCR进行。测定ctDNA的量可包括计数该 ctDNA的测序读数。
测定ctDNA的量可通过该ctDNA的分子条形编码进行。 ctDNA的分子条形编码可包括将衔接子连接到该ctDNA的一个或多 个末端。所述衔接子可包含多个低聚核苷酸。所述衔接子可包含一个 或多个脱氧核糖核苷酸。所述衔接子可包含核糖核苷酸。所述衔接子可以是单链的。所述衔接子可以是双链的。所述衔接子可包含双链和 单链部分。例如,所述衔接子可以是Y-型衔接子。所述衔接子可以是 线形衔接子。所述衔接子可以是环形衔接子。所述衔接子可包含分子 条形码、样品索引、引物序列、接头序列或其组合。分子条形码可与 样品索引相邻。分子条形码可与引物序列相邻。样品索引可与引物序 列相邻。接头序列可将分子条形码与样品索引连接。接头序列可将分 子条形码与引物序列连接。接头序列可将样品索引与引物序列连接。
所述衔接子可包含分子条形码。所述分子条形码可包含随机 序列。所述分子条形码可包含预定序列。两个或更多个衔接子可包含 两个或更多个不同的分子条形码。所述分子条形码可优化以使二聚作 用最小化。所述分子条形码可优化以能够鉴别,即使具有扩增或测序 错误。例如,第一个分子条形码的扩增可能引入单个碱基错误。所述 第一个分子条形码可包含大于不同于其他分子条形码的单一碱基。因 此,所述具有单一碱基错误的第一个分子条形码可能仍然作为第一个 分子条形码被识别。所述分子条形码可包含至少2,3,4,5,6,7,8,9,10 或更多个核苷酸。所述分子条形码可包含至少3个核苷酸。所述分子 条形码可包含至少4个核苷酸。所述分子条形码可包含少于20,19,18, 17,16,或15个核苷酸。所述分子条形码可包含少于10个核苷酸。所 述分子条形码可包含少于8个核苷酸。所述分子条形码可包含少于6 个核苷酸。所述分子条形码可包含2-15个核苷酸。所述分子条形码可包含2-12个核苷酸。所述分子条形码可包含3-10个核苷酸。所述分子 条形码可包含3-8个核苷酸。所述分子条形码可包含4-8个核苷酸。所 述分子条形码可包含4-6个核苷酸。
所述衔接子可包含样品索引。所述样品索引可包含随机序 列。所述样品索引可包含预定序列。两组或多组衔接子可包含两个或 更多个不同的样品索引。一组衔接子中的衔接子可包含相同的样品索 引。所述样品索引可优化以使二聚作用最小化。所述样品索引可优化 以能够鉴别,即使具有扩增或测序错误。例如,第一个样品索引的扩 增可能引入单个碱基错误。所述第一个样品索引可包含大于不同于其 他样品索引的单一碱基。因此,所述具有单一碱基错误的第一个样品 索引可能仍然作为第一个分子条形码被识别。所述样品索引可包含至 少2,3,4,5,6,7,8,9,10或更多个核苷酸。所述样品索引可包含至少3 个核苷酸。所述样品索引可包含至少4个核苷酸。所述样品索引可包 含少于20,19,18,17,16,或15个核苷酸。所述样品索引可包含少于10 个核苷酸。所述样品索引可包含少于8个核苷酸。所述样品索引可包 含少于6个核苷酸。所述样品索引可包含2-15个核苷酸。所述样品索 引可包含2-12个核苷酸。所述样品索引可包含3-10个核苷酸。所述样 品索引可包含3-8个核苷酸。所述样品索引可包含4-8个核苷酸。所述 样品索引可包含4-6个核苷酸。
所述衔接子可包含引物序列。所述引物序列可以是PCR引物 序列。所述引物序列可以是测序引物。
所述衔接子可与样品中的核酸的一个末端连接。所述核酸可 以是DNA。所述DNA可以是无细胞DNA(cfDNA)。所述DNA可以是 循环肿瘤DNA(ctDNA)。所述核酸可以是RNA。衔接子可与所述核酸 的两端连接。衔接子可与单链核酸的一端或多端连接。衔接子可与双 链核酸的一端或多端连接。
衔接子可通过连接反应与核酸连接。连接反应可以是平端连 接反应。连接反应可以是粘性末端连接反应。衔接子可通过引物延长 与核酸连接。衔接子可通过反转录与核酸连接。衔接子可通过杂交与 核酸连接。衔接子可包含至少与核酸部分互补的序列。或者,在某些 情况中,衔接子不包含与核酸互补的序列。
所述序列信息可包含与一个或多个基因组区域相关的信息。 所述序列信息可包含与至少2,3,4,5,6,7,8,9,10,20,30,40,100,200, 300个基因组区域相关的信息。所述基因组区域可包含基因、外显子 区域、内含子区域、未翻译区域、非编码区域或其组合。
所述基因组区域可包含外显子区域、内含子区域及未翻译区 域中的两个或更多个。所述基因组区域可包含至少一个外显子区域及 至少一个内含子区域。至少1%,2%,3%,4%,5%,6%,7%,8%,9%, 10%,15%,20%,或25%的基因组区域可包含内含子区域。至少1%, 2%,3%,4%,5%,6%,7%,8%,9%,10%,15%,20%,或25%的基因组 区域可包含未翻译区域。至少约10%,15%,20%,25%,30%,35%,40%, 45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,或95%的基因 组区域可包含外显子区域。至少少于约97%,95%,93%,90%,87%, 85%,83%,80%,75%,70%,65%,60%,55%,50%的基因组区域可包含 外显子区域。
所述基因组区域可包含少于1.5兆碱基(Mb)的基因组。所述基 因组区域可包含少于1Mb的基因组。
所述基因组区域可包含少于500千碱基(kb)的基因组。
所述基因组区域可包含少于350kb的基因组。所述基因组区 域可包含少于300kb的基因组。所述基因组区域可包含少于250kb的 基因组。所述基因组区域可包含少于200kb的基因组。所述基因组区 域可包含少于150kb的基因组。所述基因组区域可包含少于100kb的 基因组。所述基因组区域可包含少于50kb的基因组。所述基因组区 域可包含少于40kb,30kb,20kb,或10kb的基因组。
所述基因组区域可包含在100kb-300kb之间的基因组。所述 基因组区域可包含在100kb-200kb之间的基因组。所述基因组区域可 包含在10kb-300kb之间的基因组。所述基因组区域可包含在10 kb-300kb之间的基因组。所述基因组区域可包含在10kb-200kb之间的基因组。所述基因组区域可包含在10kb-150kb之间的基因组。所述 基因组区域可包含在10kb-100kb之间的基因组。所述基因组区域可包 含在10kb-75kb之间的基因组。所述基因组区域可包含在5kb-70kb之 间的基因组。所述基因组区域可包含在1kb-50kb之间的基因组。
所述序列信息可包含属于包含多个基因组区域的选择子集 合的1,2,3,4,5,6,7,8,9,10,15,20或更多个基因组区域的信息。所述 序列信息可包含属于包含多个基因组区域的选择子集合的25,30,40, 50,60,70,80,90,100或更多个基因组区域的信息。
所述序列信息可包含属于多个基因组区域的信息。
所述多个基因组区域可基于包含基因组区域的选择子集合, 该基因组区域包含存在于癌症受试者群体的一个或多个受试者中的 一种或多种突变。至少约5%,10%,15%,20%,25%,30%,35%,40%, 45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,或95%的多个 基因组区域可基于包含基因组区域的选择子集合,该基因组区域包含存在于癌症受试者群体的一个或多个受试者中的一种或多种突变。
所述选择子集合基因组区域的总范围可包含少于1.5兆碱基 (Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或150kb的 基因组。所述选择子集合基因组区域的总范围可以是在100kb-300kb 的基因组。
所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25, 30,40,50,60,70,80,90,100或更多个来自表2的基因组区域。
获得序列信息可包括进行大规模的平行测序。大规模的平行 测序可在样品的无细胞核酸基因组子集中进行。
所述基因组子集可包含少于1.5兆碱基(Mb),1Mb,500千碱基 (kb),350kb,300kb,250kb,200kb,150kb,100kb,75kb,50kb,40kb, 30kb,20kb,10kb,或5kb的基因组。所述基因组子集可包含在100 kb-300kb之间的基因组。所述基因组子集可包含在100kb-200kb之间的基因组。所述基因组子集可包含在10kb-300kb之间的基因组。所 述基因组子集可包含在10kb-200kb之间的基因组。所述基因组子集 可包含在10kb-100kb之间的基因组。所述基因组子集可包含在5 kb-100kb之间的基因组。所述基因组子集可包含在5kb-70kb之间的 基因组。所述基因组子集可包含在1kb-50kb之间的基因组。
所述方法可包括从受试者的两个或更多个样品中获得无细 胞DNA样品的测序信息。所述方法可包括从两个或更多个受试者的 两个或更多个样品中获得无细胞DNA样品的测序信息。所述两个或 更多个样品可以是相同类型的样品。所述两个或更多个样品可以是两 种不同类型的样品。所述两个或更多个样品可以在相同时间点获得。 所述两个或更多个样品可以在两个或更多个时间点获得。
测定ctDNA的量可包括检测一种或多种突变。测定ctDNA的 量可包括检测两种或更多种不同类型的突变。突变的类型包括,但不 限于在受试者基因组的选定区域中的SNVs、插入/缺失、融合、断点、 结构变体、串联重复序列的可变数、超变区、小卫星、二核苷酸重复、 三核苷酸重复、四核苷酸重复、样品序列重复,或其组合。测定ctDNA 的量可包括检测受试者基因组的选定区域中的SNVs、插入/缺失、拷 贝数变体,及重排中的一种或多种。测定ctDNA的量可包括检测受试 者基因组的选定区域中的SNVs、插入/缺失、拷贝数变体及重排中的 两种或更多种。测定ctDNA的量可包括检测受试者基因组的选定区域 中的至少一个SNV、插入/缺失、拷贝数变体及重排。
在某些情况中,测定ctDNA的量包括进行数字PCR(dPCR)。 测定ctDNA的量可包括将运算法则应用于所述序列信息中以测定选 择子集合中一个或多个基因组区域的量。
所述选择子集合可包含多个基因组区域,该区域包含存在于 癌症受试者群体的一个或多个癌症受试者中的一种或多种突变。所述 选择子集合可包含多个基因组区域,该区域包含存在于癌症受试者群 体的一个或多个癌症受试者中的两种或更多种不同类型的突变。所述 选择子集合可包含多个基因组区域,该区域包含存在于癌症受试者群 体的至少约60%癌症受试者中的一种或多种突变。
所述受试者的代表可以是健康护理提供者。所述健康护理提 供者可以是护士、医生、医疗技师或医院工作人员。所述受试者的代 表可以是该受试者的家庭成员。所述受试者的代表可以是该受试者的 法定监护人。
本文进一步公开了确定受试者体内癌症疾病状态的方法。所 述方法可包括(a)获得受试者样品中的循环肿瘤DNA(ctDNA)的量; (b)获得受试者肿瘤的体积;及(c)基于ctDNA的量与肿瘤体积的比率确 定受试者癌症的疾病状态。高ctDNA-体积比可提示影像学上隐藏的 疾病。低ctDNA-体积比可提示非恶性状态。
所述方法可进一步包括基于ctDNA的量与肿瘤体积的比率修 改癌症的诊断或预测。所述方法可包括基于ctDNA的量与肿瘤体积的 比率诊断癌症所处的阶段。修改诊断可包括基于ctDNA的量与肿瘤体 积的比率改变癌症所处的阶段。例如,受试者可能诊断出患有III期癌 症。然而,低ctDNA量-肿瘤体积比可导致将癌症的诊断调整到I期或 II期癌症。修改癌症的预测可包括改变癌症预测的结果或状态。例如, 医生可能基于肿瘤的体积预测受试者体内的癌症处于减轻状态。然 而,高ctDNA量-肿瘤体积比可产生癌症复发的预测。
获得肿瘤体积可包括获得肿瘤的影像。获得肿瘤体积可包括 获得肿瘤的CT扫描。
获得ctDNA量可包括PCR。获得ctDNA量可包括数字PCR。 获得ctDNA量可包括定量PCR。
获得ctDNA量可包括获得ctDNA的测序信息。所述测序信息 可包括与基于选择子集合的一个或多个基因组区域相关的信息。
获得ctDNA量可包括ctDNA与阵列的杂交。所述阵列可包括 多个基于选择子集合的一个或多个基因组区域的选择性杂交的探针。 所述选择子集合可包括来自表2的一个或多个基因组区域。所述选择 子集合可包括包含一种或多种突变的一个或多个基因组区域,其中所 述一种或多种突变可存在于患癌症受试者群体中。所述选择子集合可 包括包含多种突变的多个基因组区域,其中所述多种突变可存在于至 少60%的患癌症受试者群体中。
本文进一步公开了检测有需要的受试者I期癌症的方法。所述 方法可包括(a)对源自于样品的无细胞DNA进行测序,其中所述待测 序的无细胞DNA可基于包含多个基因组区域的选择子集合;(b)用计 算机可读媒介物测定无细胞DNA的量;及(c)基于无细胞DNA的量检 测样品的I期癌症。
测定无细胞DNA的量可包括测定无细胞DNA的绝对量。无细 胞DNA的量可通过计数属于该无细胞DNA的测序读数测定。无细胞 DNA的量可通过定量PCR测定。
测定无细胞DNA(cfDNA)的量可通过cfDNA的分子条形编码 进行。cfDNA的分子条形编码可包括将衔接子与cfDNA的一个或多个 末端连接。所述衔接子可包含多个低聚核苷酸。所述衔接子可包含一 个或多个脱氧核糖核苷酸。所述衔接子可包含核糖核苷酸。所述衔接 子可以是单链的。所述衔接子可以是双链的。所述衔接子可包含双链 和单链部分。例如,所述衔接子可以是Y-型衔接子。所述衔接子可以 是线形衔接子。所述衔接子可以是环形衔接子。所述衔接子可包含分 子条形码、样品索引、引物序列、接头序列或其组合。分子条形码可 与样品索引相邻。分子条形码可与引物序列相邻。样品索引可与引物 序列相邻。接头序列可将分子条形码与样品索引连接。接头序列可将 分子条形码与引物序列连接。接头序列可将样品索引与引物序列连 接。
所述衔接子可包含分子条形码。所述分子条形码可包含随机 序列。所述分子条形码可包含预定序列。两个或更多个衔接子可包含 两个或更多个不同的分子条形码。所述分子条形码可优化以使二聚作 用最小化。所述分子条形码可优化以能够鉴别,即使具有扩增或测序 错误。例如,第一个分子条形码的扩增可能引入单个碱基错误。所述 第一个分子条形码可包含大于不同于其他分子条形码的单一碱基。因 此,所述具有单一碱基错误的第一个分子条形码可能仍然作为第一个 分子条形码被识别。所述分子条形码可包含至少2,3,4,5,6,7,8,9,10 或更多个核苷酸。所述分子条形码可包含至少3个核苷酸。所述分子 条形码可包含至少4个核苷酸。所述分子条形码可包含少于20,19,18, 17,16,或15个核苷酸。所述分子条形码可包含少于10个核苷酸。所 述分子条形码可包含少于8个核苷酸。所述分子条形码可包含少于6 个核苷酸。所述分子条形码可包含2-15个核苷酸。所述分子条形码可包含2-12个核苷酸。所述分子条形码可包含3-10个核苷酸。所述分子 条形码可包含3-8个核苷酸。所述分子条形码可包含4-8个核苷酸。所 述分子条形码可包含4-6个核苷酸。
所述衔接子可包含样品索引。所述样品索引可包含随机序 列。所述样品索引可包含预定序列。两组或多组衔接子可包含两个或 更多个不同的样品索引。一组衔接子中的衔接子可包含相同的样品索 引。所述样品索引可优化以使二聚作用最小化。所述样品索引可优化 以能够鉴别,即使具有扩增或测序错误。例如,第一个样品索引的扩 增可能引入单个碱基错误。所述第一个样品索引可包含大于不同于其 他样品索引的单一碱基。因此,所述具有单一碱基错误的第一个样品 索引可能仍然作为第一个分子条形码被识别。所述样品索引可包含至 少2,3,4,5,6,7,8,9,10或更多个核苷酸。所述样品索引可包含至少3 个核苷酸。所述样品索引可包含至少4个核苷酸。所述样品索引可包 含少于20,19,18,17,16,或15个核苷酸。所述样品索引可包含少于10 个核苷酸。所述样品索引可包含少于8个核苷酸。所述样品索引可包 含少于6个核苷酸。所述样品索引可包含2-15个核苷酸。所述样品索 引可包含2-12个核苷酸。所述样品索引可包含3-10个核苷酸。所述样 品索引可包含3-8个核苷酸。所述样品索引可包含4-8个核苷酸。所述 样品索引可包含4-6个核苷酸。
所述衔接子可包含引物序列。所述引物序列可以是PCR引物 序列。所述引物序列可以是测序引物。
衔接子可与cfDNA的一个末端连接。衔接子可与cfDNA的两 端连接。衔接子可与单链cfDNA的一端或多端连接。衔接子可与双链 cfDNA的一端或多端连接。
衔接子可通过连接反应与cfDNA连接。连接反应可以是平端 连接反应。连接反应可以是粘性末端连接反应。衔接子可通过引物延 长与cfDNA连接。衔接子可通过反转录与cfDNA连接。衔接子可通过 杂交与cfDNA连接。衔接子可包含至少与cfDNA部分互补的序列。或 者,在某些情况中,衔接子不包含与cfDNA互补的序列。
测序可包括大规模平行测序。测序可包括鸟枪法测序。
所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25, 30,35,40,45,50,55,60,65,70,75,80,85,90,95,或100个或更多个 来自表2的基因组区域。
所述选择子集合中的至少20%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%或更多的基因组 区域可基于表2的基因组区域。
所述多个基因组区域可包含存在于至少60%,62%,65%,67%, 70%,72%,75%,77%,80%,82%,85%,87%,90%,92%,95%,97%或 99%或更多患癌症的受试者群体中的一种或多种突变。
所述选择子集合的多个基因组区域的总范围可包含少于1.5 兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或 150kb的基因组。所述选择子集合的多个基因组区域的总范围可包含 少于100kb,90kb,80kb,70kb,60kb,50kb,40kb,30kb,20kb,10kb, 5kb,或1kb的基因组。
所述选择子集合的多个基因组区域的总范围可以是100 kb-300kb之间的基因组。所述选择子集合的多个基因组区域的总范围 可以是100kb-200kb之间的基因组。所述选择子集合的多个基因组区 域的总范围可以是10kb-300kb之间的基因组。所述选择子集合的多 个基因组区域的总范围可以是10kb-200kb之间的基因组。所述选择 子集合的多个基因组区域的总范围可以是10kb-100kb之间的基因 组。所述选择子集合的多个基因组区域的总范围可以是5kb-100kb之 间的基因组。所述选择子集合的多个基因组区域的总范围可以是5 kb-75kb之间的基因组。所述选择子集合的多个基因组区域的总范围 可以是5kb-50kb之间的基因组。
所述检测I期癌症的方法的灵敏度可至少为60%,65%,70%, 75%,77%,80%,82%,85%,87%,90%,92%,95%,97%,或99%或更 高。所述检测I期癌症的方法的灵敏度可至少为60%。所述检测I期癌 症的方法的灵敏度可至少为70%。所述检测I期癌症的方法的灵敏度 可至少为80%。所述检测I期癌症的方法的灵敏度可至少为90%。所述 检测I期癌症的方法的灵敏度可至少为95%。
所述检测I期癌症的方法的特异性可至少为60%,65%,70%, 75%,77%,80%,82%,85%,87%,90%,92%,95%,97%,或99%或更 高。所述检测I期癌症的方法的特异性可至少为60%。所述检测I期癌 症的方法的特异性可至少为70%。所述检测I期癌症的方法的特异性 可至少为80%。所述检测I期癌症的方法的特异性可至少为90%。所述 检测I期癌症的方法的特异性可至少为95%。
所述方法可检测至少50%,52%,55%,57%,60%,62%,65%, 70%,72%,75%,77%,80%,82%,85%,87%,90%,92%,95%,97%或更 多的I期癌症。所述方法可检测至少50%或更多的I期癌症。所述方法 可检测至少60%或更多的I期癌症。所述方法可检测至少70%或更多的 I期癌症。所述方法可检测至少75%或更多的I期癌症。
本文进一步公开了检测II期癌症的方法。所述方法可包括(a) 对源自于样品的无细胞DNA进行测序,其中所述待测序的无细胞 DNA可基于包含多个基因组区域的选择子集合;(b)用计算机可读媒 介物测定无细胞DNA的量;及(c)基于无细胞DNA的量检测样品的II期癌症。
测定无细胞DNA的量可包括测定无细胞DNA的绝对量。无细 胞DNA的量可通过计数属于该无细胞DNA的测序读数测定。无细胞 DNA的量可通过定量PCR测定。
测定无细胞DNA(cfDNA)的量可通过cfDNA的分子条形编码 进行。cfDNA的分子条形编码可包括将衔接子与cfDNA的一个或多个 末端连接。所述衔接子可包含多个低聚核苷酸。所述衔接子可包含一 个或多个脱氧核糖核苷酸。所述衔接子可包含核糖核苷酸。所述衔接 子可以是单链的。所述衔接子可以是双链的。所述衔接子可包含双链 和单链部分。例如,所述衔接子可以是Y-型衔接子。所述衔接子可以 是线形衔接子。所述衔接子可以是环形衔接子。所述衔接子可包含分 子条形码、样品索引、引物序列、接头序列或其组合。分子条形码可 与样品索引相邻。分子条形码可与引物序列相邻。样品索引可与引物 序列相邻。接头序列可将分子条形码与样品索引连接。接头序列可将 分子条形码与引物序列连接。接头序列可将样品索引与引物序列连 接。
所述衔接子可包含分子条形码。所述分子条形码可包含随机 序列。所述分子条形码可包含预定序列。两个或更多个衔接子可包含 两个或更多个不同的分子条形码。所述分子条形码可优化以使二聚作 用最小化。所述分子条形码可优化以能够鉴别,即使具有扩增或测序 错误。例如,第一个分子条形码的扩增可能引入单个碱基错误。所述 第一个分子条形码可包含大于不同于其他分子条形码的单一碱基。因 此,所述具有单一碱基错误的第一个分子条形码可能仍然作为第一个 分子条形码被识别。所述分子条形码可包含至少2,3,4,5,6,7,8,9,10 或更多个核苷酸。所述分子条形码可包含至少3个核苷酸。所述分子 条形码可包含至少4个核苷酸。所述分子条形码可包含少于20,19,18, 17,16,或15个核苷酸。所述分子条形码可包含少于10个核苷酸。所 述分子条形码可包含少于8个核苷酸。所述分子条形码可包含少于6 个核苷酸。所述分子条形码可包含2-15个核苷酸。所述分子条形码可包含2-12个核苷酸。所述分子条形码可包含3-10个核苷酸。所述分子 条形码可包含3-8个核苷酸。所述分子条形码可包含4-8个核苷酸。所 述分子条形码可包含4-6个核苷酸。
所述衔接子可包含样品索引。所述样品索引可包含随机序 列。所述样品索引可包含预定序列。两组或多组衔接子可包含两个或 更多个不同的样品索引。一组衔接子中的衔接子可包含相同的样品索 引。所述样品索引可优化以使二聚作用最小化。所述样品索引可优化 以能够鉴别,即使具有扩增或测序错误。例如,第一个样品索引的扩 增可能引入单个碱基错误。所述第一个样品索引可包含大于不同于其 他样品索引的单一碱基。因此,所述具有单一碱基错误的第一个样品 索引可能仍然作为第一个分子条形码被识别。所述样品索引可包含至 少2,3,4,5,6,7,8,9,10或更多个核苷酸。所述样品索引可包含至少3 个核苷酸。所述样品索引可包含至少4个核苷酸。所述样品索引可包 含少于20,19,18,17,16,或15个核苷酸。所述样品索引可包含少于10 个核苷酸。所述样品索引可包含少于8个核苷酸。所述样品索引可包 含少于6个核苷酸。所述样品索引可包含2-15个核苷酸。所述样品索 引可包含2-12个核苷酸。所述样品索引可包含3-10个核苷酸。所述样 品索引可包含3-8个核苷酸。所述样品索引可包含4-8个核苷酸。所述 样品索引可包含4-6个核苷酸。
所述衔接子可包含引物序列。所述引物序列可以是PCR引物 序列。所述引物序列可以是测序引物。
衔接子可与cfDNA的一个末端连接。衔接子可与cfDNA的两 端连接。衔接子可与单链cfDNA的一端或多端连接。衔接子可与双链 cfDNA的一端或多端连接。
衔接子可通过连接反应与cfDNA连接。连接反应可以是平端 连接反应。连接反应可以是粘性末端连接反应。衔接子可通过引物延 长与cfDNA连接。衔接子可通过反转录与cfDNA连接。衔接子可通过 杂交与cfDNA连接。衔接子可包含至少与cfDNA部分互补的序列。或 者,在某些情况中,衔接子不包含与cfDNA互补的序列。
测序可包括大规模平行测序。测序可包括鸟枪法测序。
所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25, 30,35,40,45,50,55,60,65,70,75,80,85,90,95,或100个或更多个 来自表2的基因组区域。
所述选择子集合中的至少20%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%或更多的基因组 区域可基于表2的基因组区域。
所述多个基因组区域可包含存在于至少60%,62%,65%,67%, 70%,72%,75%,77%,80%,82%,85%,87%,90%,92%,95%,97%或 99%或更多患癌症的受试者群体中的一种或多种突变。
所述选择子集合的多个基因组区域的总范围可包含少于1.5 兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或 150kb的基因组。所述选择子集合的多个基因组区域的总范围可包含 少于100kb,90kb,80kb,70kb,60kb,50kb,40kb,30kb,20kb,10kb, 5kb,或1kb的基因组。
所述选择子集合的多个基因组区域的总范围可以是100 kb-300kb之间的基因组。所述选择子集合的多个基因组区域的总范围 可以是100kb-200kb之间的基因组。所述选择子集合的多个基因组区 域的总范围可以是10kb-300kb之间的基因组。所述选择子集合的多 个基因组区域的总范围可以是10kb-200kb之间的基因组。所述选择 子集合的多个基因组区域的总范围可以是10kb-100kb之间的基因 组。所述选择子集合的多个基因组区域的总范围可以是5kb-100kb之 间的基因组。所述选择子集合的多个基因组区域的总范围可以是5 kb-75kb之间的基因组。所述选择子集合的多个基因组区域的总范围 可以是5kb-50kb之间的基因组。
所述检测II期癌症的方法的灵敏度可至少为60%,65%,70%, 75%,77%,80%,82%,85%,87%,90%,92%,95%,97%,或99%或更 高。所述检测II期癌症的方法的灵敏度可至少为60%。所述检测II期 癌症的方法的灵敏度可至少为70%。所述检测II期癌症的方法的灵敏 度可至少为80%。所述检测II期癌症的方法的灵敏度可至少为90%。 所述检测II期癌症的方法的灵敏度可至少为95%。
所述检测II期癌症的方法的特异性可至少为60%,65%,70%, 75%,77%,80%,82%,85%,87%,90%,92%,95%,97%,或99%或更 高。所述检测II期癌症的方法的特异性可至少为60%。所述检测II期 癌症的方法的特异性可至少为70%。所述检测II期癌症的方法的特异 性可至少为80%。所述检测II期癌症的方法的特异性可至少为90%。 所述检测II期癌症的方法的特异性可至少为95%。
所述方法可检测至少50%,52%,55%,57%,60%,62%,65%, 70%,72%,75%,77%,80%,82%,85%,87%,90%,92%,95%,97%或更 多的II期癌症。所述方法可检测至少50%或更多的II期癌症。所述方 法可检测至少60%或更多的II期癌症。所述方法可检测至少70%或更 多的II期癌症。所述方法可检测至少75%或更多的II期癌症。所述方 法可检测至少80%或更多的II期癌症。所述方法可检测至少85%或更 多的II期癌症。所述方法可检测至少90%或更多的II期癌症。
本文进一步公开了检测有需要的受试者III期癌症的方法。所 述方法可包括(a)对源自于样品的无细胞DNA进行测序,其中所述待 测序的无细胞DNA可基于包含多个基因组区域的选择子集合;(b)用 计算机可读媒介物测定无细胞DNA的量;及(c)基于无细胞DNA的量 检测样品的III期癌症。
测定无细胞DNA的量可包括测定无细胞DNA的绝对量。无细 胞DNA的量可通过计数属于该无细胞DNA的测序读数测定。无细胞 DNA的量可通过定量PCR测定。
测定无细胞DNA(cfDNA)的量可通过cfDNA的分子条形编码 进行。cfDNA的分子条形编码可包括将衔接子与cfDNA的一个或多个 末端连接。所述衔接子可包含多个低聚核苷酸。所述衔接子可包含一 个或多个脱氧核糖核苷酸。所述衔接子可包含核糖核苷酸。所述衔接 子可以是单链的。所述衔接子可以是双链的。所述衔接子可包含双链 和单链部分。例如,所述衔接子可以是Y-型衔接子。所述衔接子可以 是线形衔接子。所述衔接子可以是环形衔接子。所述衔接子可包含分 子条形码、样品索引、引物序列、接头序列或其组合。分子条形码可 与样品索引相邻。分子条形码可与引物序列相邻。样品索引可与引物 序列相邻。接头序列可将分子条形码与样品索引连接。接头序列可将 分子条形码与引物序列连接。接头序列可将样品索引与引物序列连 接。
所述衔接子可包含分子条形码。所述分子条形码可包含随机 序列。所述分子条形码可包含预定序列。两个或更多个衔接子可包含 两个或更多个不同的分子条形码。所述分子条形码可优化以使二聚作 用最小化。所述分子条形码可优化以能够鉴别,即使具有扩增或测序 错误。例如,第一个分子条形码的扩增可能引入单个碱基错误。所述 第一个分子条形码可包含大于不同于其他分子条形码的单一碱基。因 此,所述具有单一碱基错误的第一个分子条形码可能仍然作为第一个 分子条形码被识别。所述分子条形码可包含至少2,3,4,5,6,7,8,9,10 或更多个核苷酸。所述分子条形码可包含至少3个核苷酸。所述分子 条形码可包含至少4个核苷酸。所述分子条形码可包含少于20,19,18, 17,16,或15个核苷酸。所述分子条形码可包含少于10个核苷酸。所 述分子条形码可包含少于8个核苷酸。所述分子条形码可包含少于6 个核苷酸。所述分子条形码可包含2-15个核苷酸。所述分子条形码可包含2-12个核苷酸。所述分子条形码可包含3-10个核苷酸。所述分子 条形码可包含3-8个核苷酸。所述分子条形码可包含4-8个核苷酸。所 述分子条形码可包含4-6个核苷酸。
所述衔接子可包含样品索引。所述样品索引可包含随机序 列。所述样品索引可包含预定序列。两组或多组衔接子可包含两个或 更多个不同的样品索引。一组衔接子中的衔接子可包含相同的样品索 引。所述样品索引可优化以使二聚作用最小化。所述样品索引可优化 以能够鉴别,即使具有扩增或测序错误。例如,第一个样品索引的扩 增可能引入单个碱基错误。所述第一个样品索引可包含大于不同于其 他样品索引的单一碱基。因此,所述具有单一碱基错误的第一个样品 索引可能仍然作为第一个分子条形码被识别。所述样品索引可包含至 少2,3,4,5,6,7,8,9,10或更多个核苷酸。所述样品索引可包含至少3 个核苷酸。所述样品索引可包含至少4个核苷酸。所述样品索引可包 含少于20,19,18,17,16,或15个核苷酸。所述样品索引可包含少于10 个核苷酸。所述样品索引可包含少于8个核苷酸。所述样品索引可包 含少于6个核苷酸。所述样品索引可包含2-15个核苷酸。所述样品索 引可包含2-12个核苷酸。所述样品索引可包含3-10个核苷酸。所述样 品索引可包含3-8个核苷酸。所述样品索引可包含4-8个核苷酸。所述 样品索引可包含4-6个核苷酸。
所述衔接子可包含引物序列。所述引物序列可以是PCR引物 序列。所述引物序列可以是测序引物。
衔接子可与cfDNA的一个末端连接。衔接子可与cfDNA的两 端连接。衔接子可与单链cfDNA的一端或多端连接。衔接子可与双链 cfDNA的一端或多端连接。
衔接子可通过连接反应与cfDNA连接。连接反应可以是平端 连接反应。连接反应可以是粘性末端连接反应。衔接子可通过引物延 长与cfDNA连接。衔接子可通过反转录与cfDNA连接。衔接子可通过 杂交与cfDNA连接。衔接子可包含至少与cfDNA部分互补的序列。或 者,在某些情况中,衔接子不包含与cfDNA互补的序列。
测序可包括大规模平行测序。测序可包括鸟枪法测序。
所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25, 30,35,40,45,50,55,60,65,70,75,80,85,90,95,或100个或更多个 来自表2的基因组区域。
所述选择子集合中的至少20%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%或更多的基因组 区域可基于表2的基因组区域。
所述多个基因组区域可包含存在于至少60%,62%,65%,67%, 70%,72%,75%,77%,80%,82%,85%,87%,90%,92%,95%,97%或 99%或更多患癌症的受试者群体中的一种或多种突变。
所述选择子集合的多个基因组区域的总范围可包含少于1.5 兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或 150kb的基因组。所述选择子集合的多个基因组区域的总范围可包含 少于100kb,90kb,80kb,70kb,60kb,50kb,40kb,30kb,20kb,10kb, 5kb,或1kb的基因组。
所述选择子集合的多个基因组区域的总范围可以是100 kb-300kb之间的基因组。所述选择子集合的多个基因组区域的总范围 可以是100kb-200kb之间的基因组。所述选择子集合的多个基因组区 域的总范围可以是10kb-300kb之间的基因组。所述选择子集合的多 个基因组区域的总范围可以是10kb-200kb之间的基因组。所述选择 子集合的多个基因组区域的总范围可以是10kb-100kb之间的基因 组。所述选择子集合的多个基因组区域的总范围可以是5kb-100kb之 间的基因组。所述选择子集合的多个基因组区域的总范围可以是5 kb-75kb之间的基因组。所述选择子集合的多个基因组区域的总范围 可以是5kb-50kb之间的基因组。
所述检测III期癌症的方法的灵敏度可至少为60%,65%,70%, 75%,77%,80%,82%,85%,87%,90%,92%,95%,97%,或99%或更 高。所述检测III期癌症的方法的灵敏度可至少为60%。所述检测III 期癌症的方法的灵敏度可至少为70%。所述检测III期癌症的方法的灵 敏度可至少为80%。所述检测III期癌症的方法的灵敏度可至少为90%。所述检测III期癌症的方法的灵敏度可至少为95%。
所述检测III期癌症的方法的特异性可至少为60%,65%,70%, 75%,77%,80%,82%,85%,87%,90%,92%,95%,97%,或99%或更 高。所述检测III期癌症的方法的特异性可至少为60%。所述检测III 期癌症的方法的特异性可至少为70%。所述检测III期癌症的方法的特 异性可至少为80%。所述检测III期癌症的方法的特异性可至少为90%。所述检测III期癌症的方法的特异性可至少为95%。
所述方法可检测至少50%,52%,55%,57%,60%,62%,65%, 70%,72%,75%,77%,80%,82%,85%,87%,90%,92%,95%,97%或更 多的III期癌症。所述方法可检测至少50%或更多的III期癌症。所述方 法可检测至少60%或更多的III期癌症。所述方法可检测至少70%或更 多的III期癌症。所述方法可检测至少75%或更多的III期癌症。所述方法可检测至少80%或更多的III期癌症。所述方法可检测至少85%或更 多的III期癌症。所述方法可检测至少90%或更多的III期癌症。
本文进一步公开了检测有需要的受试者IV期癌症的方法。所 述方法可包括(a)对源自于样品的无细胞DNA进行测序,其中所述待 测序的无细胞DNA可基于包含多个基因组区域的选择子集合;(b)用 计算机可读媒介物测定无细胞DNA的量;及(c)基于无细胞DNA的量 检测样品的IV期癌症。
测定无细胞DNA的量可包括测定无细胞DNA的绝对量。无细 胞DNA的量可通过计数属于该无细胞DNA的测序读数测定。无细胞 DNA的量可通过定量PCR测定。
测定无细胞DNA(cfDNA)的量可通过cfDNA的分子条形编码 进行。cfDNA的分子条形编码可包括将衔接子与cfDNA的一个或多个 末端连接。所述衔接子可包含多个低聚核苷酸。所述衔接子可包含一 个或多个脱氧核糖核苷酸。所述衔接子可包含核糖核苷酸。所述衔接 子可以是单链的。所述衔接子可以是双链的。所述衔接子可包含双链 和单链部分。例如,所述衔接子可以是Y-型衔接子。所述衔接子可以 是线形衔接子。所述衔接子可以是环形衔接子。所述衔接子可包含分 子条形码、样品索引、引物序列、接头序列或其组合。分子条形码可 与样品索引相邻。分子条形码可与引物序列相邻。样品索引可与引物 序列相邻。接头序列可将分子条形码与样品索引连接。接头序列可将 分子条形码与引物序列连接。接头序列可将样品索引与引物序列连 接。
所述衔接子可包含分子条形码。所述分子条形码可包含随机 序列。所述分子条形码可包含预定序列。两个或更多个衔接子可包含 两个或更多个不同的分子条形码。所述分子条形码可优化以使二聚作 用最小化。所述分子条形码可优化以能够鉴别,即使具有扩增或测序 错误。例如,第一个分子条形码的扩增可能引入单个碱基错误。所述 第一个分子条形码可包含大于不同于其他分子条形码的单一碱基。因 此,所述具有单一碱基错误的第一个分子条形码可能仍然作为第一个 分子条形码被识别。所述分子条形码可包含至少2,3,4,5,6,7,8,9,10 或更多个核苷酸。所述分子条形码可包含至少3个核苷酸。所述分子 条形码可包含至少4个核苷酸。所述分子条形码可包含少于20,19,18, 17,16,或15个核苷酸。所述分子条形码可包含少于10个核苷酸。所 述分子条形码可包含少于8个核苷酸。所述分子条形码可包含少于6 个核苷酸。所述分子条形码可包含2-15个核苷酸。所述分子条形码可包含2-12个核苷酸。所述分子条形码可包含3-10个核苷酸。所述分子 条形码可包含3-8个核苷酸。所述分子条形码可包含4-8个核苷酸。所 述分子条形码可包含4-6个核苷酸。
所述衔接子可包含样品索引。所述样品索引可包含随机序 列。所述样品索引可包含预定序列。两组或多组衔接子可包含两个或 更多个不同的样品索引。一组衔接子中的衔接子可包含相同的样品索 引。所述样品索引可优化以使二聚作用最小化。所述样品索引可优化 以能够鉴别,即使具有扩增或测序错误。例如,第一个样品索引的扩 增可能引入单个碱基错误。所述第一个样品索引可包含大于不同于其 他样品索引的单一碱基。因此,所述具有单一碱基错误的第一个样品 索引可能仍然作为第一个分子条形码被识别。所述样品索引可包含至 少2,3,4,5,6,7,8,9,10或更多个核苷酸。所述样品索引可包含至少3 个核苷酸。所述样品索引可包含至少4个核苷酸。所述样品索引可包 含少于20,19,18,17,16,或15个核苷酸。所述样品索引可包含少于10 个核苷酸。所述样品索引可包含少于8个核苷酸。所述样品索引可包 含少于6个核苷酸。所述样品索引可包含2-15个核苷酸。所述样品索 引可包含2-12个核苷酸。所述样品索引可包含3-10个核苷酸。所述样 品索引可包含3-8个核苷酸。所述样品索引可包含4-8个核苷酸。所述 样品索引可包含4-6个核苷酸。
所述衔接子可包含引物序列。所述引物序列可以是PCR引物 序列。所述引物序列可以是测序引物。
衔接子可与cfDNA的一个末端连接。衔接子可与cfDNA的两 端连接。衔接子可与单链cfDNA的一端或多端连接。衔接子可与双链 cfDNA的一端或多端连接。
衔接子可通过连接反应与cfDNA连接。连接反应可以是平端 连接反应。连接反应可以是粘性末端连接反应。衔接子可通过引物延 长与cfDNA连接。衔接子可通过反转录与cfDNA连接。衔接子可通过 杂交与cfDNA连接。衔接子可包含至少与cfDNA部分互补的序列。或 者,在某些情况中,衔接子不包含与cfDNA互补的序列。
测序可包括大规模平行测序。测序可包括鸟枪法测序。
所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15,20,25, 30,35,40,45,50,55,60,65,70,75,80,85,90,95,或100个或更多个 来自表2的基因组区域。
所述选择子集合中的至少20%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%或更多的基因组 区域可基于表2的基因组区域。
所述多个基因组区域可包含存在于至少60%,62%,65%,67%, 70%,72%,75%,77%,80%,82%,85%,87%,90%,92%,95%,97%或 99%或更多患癌症的受试者群体中的一种或多种突变。
所述选择子集合的多个基因组区域的总范围可包含少于1.5 兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或 150kb的基因组。所述选择子集合的多个基因组区域的总范围可包含 少于100kb,90kb,80kb,70kb,60kb,50kb,40kb,30kb,20kb,10kb, 5kb,或1kb的基因组。
所述选择子集合的多个基因组区域的总范围可以是100 kb-300kb之间的基因组。所述选择子集合的多个基因组区域的总范围 可以是100kb-200kb之间的基因组。所述选择子集合的多个基因组区 域的总范围可以是10kb-300kb之间的基因组。所述选择子集合的多 个基因组区域的总范围可以是10kb-200kb之间的基因组。所述选择 子集合的多个基因组区域的总范围可以是10kb-100kb之间的基因 组。所述选择子集合的多个基因组区域的总范围可以是5kb-100kb之 间的基因组。所述选择子集合的多个基因组区域的总范围可以是5 kb-75kb之间的基因组。所述选择子集合的多个基因组区域的总范围 可以是5kb-50kb之间的基因组。
所述检测IV期癌症的方法的灵敏度可至少为60%,65%,70%, 75%,77%,80%,82%,85%,87%,90%,92%,95%,97%,或99%或更 高。所述检测IV期癌症的方法的灵敏度可至少为60%。所述检测IV期 癌症的方法的灵敏度可至少为70%。所述检测IV期癌症的方法的灵敏 度可至少为80%。所述检测IV期癌症的方法的灵敏度可至少为90%。 所述检测IV期癌症的方法的灵敏度可至少为95%。
所述检测IV期癌症的方法的特异性可至少为60%,65%,70%, 75%,77%,80%,82%,85%,87%,90%,92%,95%,97%,或99%或更 高。所述检测IV期癌症的方法的特异性可至少为60%。所述检测IV期 癌症的方法的特异性可至少为70%。所述检测IV期癌症的方法的特异 性可至少为80%。所述检测IV期癌症的方法的特异性可至少为90%。 所述检测IV期癌症的方法的特异性可至少为95%。
所述方法可检测至少50%,52%,55%,57%,60%,62%,65%, 70%,72%,75%,77%,80%,82%,85%,87%,90%,92%,95%,97%或更 多的IV期癌症。所述方法可检测至少50%或更多的IV期癌症。所述方 法可检测至少60%或更多的IV期癌症。所述方法可检测至少70%或更 多的IV期癌症。所述方法可检测至少75%或更多的IV期癌症。所述方 法可检测至少80%或更多的IV期癌症。所述方法可检测至少85%或更 多的IV期癌症。所述方法可检测至少90%或更多的IV期癌症。
本文进一步公开了制备选择子集合的方法。所述方法可包括 (a)鉴别包含来自患癌症受试者群体的一个或多个受试者中的突变的 基因组区域;(b)基于复发指数(RI)将基因组区域排序,其中所述基因 组区域的RI通过将在所述基因组区域有突变的受试者或肿瘤数量除 以所述基因组区域的大小测定;及(c)基于RI制备包含一个或多个基因 组区域的选择子集合。
至少排序基因组区域的子集可为外显子区域。至少20%,2%, 30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%, 90%,95%,或97%的排序基因组区域可包含外显子区域。至少30%的 排序基因组区域可包含外显子区域。至少40%的排序基因组区域可包 含外显子区域。至少50%的排序基因组区域可包含外显子区域。至少 60%的排序基因组区域可包含外显子区域。少于97%,95%,92%,90%, 87%,85%,82%,80%,77%,75%,72%,70%,67%,65%,62%,60%, 57%,55%,52%,50%,45%,或40%的排序基因组区域可包含外显子 区域。少于97%的排序基因组区域可包含外显子区域。少于92%的排 序基因组区域可包含外显子区域。少于84%的排序基因组区域可包含 外显子区域。少于75%的排序基因组区域可包含外显子区域。少于 65%的排序基因组区域可包含外显子区域。
至少选择子集合的基因组区域的子集可包含外显子区域。至 少20%,2%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%, 80%,85%,90%,95%,或97%的选择子集合的基因组区域可包含外显 子区域。至少30%的选择子集合的基因组区域可包含外显子区域。至 少40%的选择子集合的基因组区域可包含外显子区域。至少50%的选 择子集合的基因组区域可包含外显子区域。至少60%的选择子集合的 基因组区域可包含外显子区域。少于97%,95%,92%,90%,87%,85%, 82%,80%,77%,75%,72%,70%,67%,65%,62%,60%,57%,55%, 52%,50%,45%,或40%的选择子集合的基因组区域可包含外显子区 域。少于97%的选择子集合的基因组区域可包含外显子区域。少于 92%的选择子集合的基因组区域可包含外显子区域。少于84%的选择 子集合的基因组区域可包含外显子区域。少于75%的选择子集合的基 因组区域可包含外显子区域。少于65%的选择子集合的基因组区域可 包含外显子区域。
至少排序基因组区域的子集可为内含子区域。至少20%,2%, 30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%, 90%,95%,或97%的排序基因组区域可包含内含子区域。至少30%的 排序基因组区域可包含内含子区域。至少40%的排序基因组区域可包 含内含子区域。至少50%的排序基因组区域可包含内含子区域。至少 60%的排序基因组区域可包含内含子区域。少于97%,95%,92%,90%, 87%,85%,82%,80%,77%,75%,72%,70%,67%,65%,62%,60%, 57%,55%,52%,50%,45%,或40%的排序基因组区域可包含内含子 区域。少于97%的排序基因组区域可包含内含子区域。少于92%的排 序基因组区域可包含内含子区域。少于84%的排序基因组区域可包含 内含子区域。少于75%的排序基因组区域可包含内含子区域。少于 65%的排序基因组区域可包含内含子区域。
至少选择子集合的基因组区域的子集可包含内含子区域。至 少20%,2%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%, 80%,85%,90%,95%,或97%的选择子集合的基因组区域可包含内含 子区域。至少30%的选择子集合的基因组区域可包含内含子区域。至 少40%的选择子集合的基因组区域可包含内含子区域。至少50%的选 择子集合的基因组区域可包含内含子区域。至少60%的选择子集合的 基因组区域可包含内含子区域。少于97%,95%,92%,90%,87%,85%, 82%,80%,77%,75%,72%,70%,67%,65%,62%,60%,57%,55%, 52%,50%,45%,或40%的选择子集合的基因组区域可包含内含子区 域。少于97%的选择子集合的基因组区域可包含内含子区域。少于 92%的选择子集合的基因组区域可包含内含子区域。少于84%的选择 子集合的基因组区域可包含内含子区域。少于75%的选择子集合的基 因组区域可包含内含子区域。少于65%的选择子集合的基因组区域可 包含内含子区域。
至少排序基因组区域的子集可为未翻译区域。至少20%,2%, 30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%, 90%,95%,或97%的排序基因组区域可包含未翻译区域。至少30%的 排序基因组区域可包含未翻译区域。至少40%的排序基因组区域可包 含未翻译区域。至少50%的排序基因组区域可包含未翻译区域。至少 60%的排序基因组区域可包含未翻译区域。少于97%,95%,92%,90%, 87%,85%,82%,80%,77%,75%,72%,70%,67%,65%,62%,60%, 57%,55%,52%,50%,45%,或40%的排序基因组区域可包含未翻译 区域。少于97%的排序基因组区域可包含未翻译区域。少于92%的排 序基因组区域可包含未翻译区域。少于84%的排序基因组区域可包含 未翻译区域。少于75%的排序基因组区域可包含未翻译区域。少于 65%的排序基因组区域可包含未翻译区域。
至少选择子集合的基因组区域的子集可包含未翻译区域。至 少20%,2%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%, 80%,85%,90%,95%,或97%的选择子集合的基因组区域可包含未翻 译区域。至少30%的选择子集合的基因组区域可包含未翻译区域。至 少40%的选择子集合的基因组区域可包含未翻译区域。至少50%的选 择子集合的基因组区域可包含未翻译区域。至少60%的选择子集合的 基因组区域可包含未翻译区域。少于97%,95%,92%,90%,87%,85%, 82%,80%,77%,75%,72%,70%,67%,65%,62%,60%,57%,55%, 52%,50%,45%,或40%的选择子集合的基因组区域可包含未翻译区 域。少于97%的选择子集合的基因组区域可包含未翻译区域。少于 92%的选择子集合的基因组区域可包含未翻译区域。少于84%的选择 子集合的基因组区域可包含未翻译区域。少于75%的选择子集合的基 因组区域可包含未翻译区域。少于65%的选择子集合的基因组区域可 包含未翻译区域。
至少排序基因组区域的子集可为非编码区域。至少20%,2%, 30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%, 90%,95%,或97%的排序基因组区域可包含非编码区域。至少30%的 排序基因组区域可包含非编码区域。至少40%的排序基因组区域可包 含非编码区域。至少50%的排序基因组区域可包含非编码区域。至少 60%的排序基因组区域可包含非编码区域。少于97%,95%,92%,90%, 87%,85%,82%,80%,77%,75%,72%,70%,67%,65%,62%,60%, 57%,55%,52%,50%,45%,或40%的排序基因组区域可包含非编码 区域。少于97%的排序基因组区域可包含非编码区域。少于92%的排 序基因组区域可包含非编码区域。少于84%的排序基因组区域可包含 非编码区域。少于75%的排序基因组区域可包含非编码区域。少于 65%的排序基因组区域可包含非编码区域。
至少选择子集合的基因组区域的子集可包含非编码区域。至 少20%,2%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%, 80%,85%,90%,95%,或97%的选择子集合的基因组区域可包含非编 码区域。至少30%的选择子集合的基因组区域可包含非编码区域。至 少40%的选择子集合的基因组区域可包含非编码区域。至少50%的选 择子集合的基因组区域可包含非编码区域。至少60%的选择子集合的 基因组区域可包含非编码区域。少于97%,95%,92%,90%,87%,85%, 82%,80%,77%,75%,72%,70%,67%,65%,62%,60%,57%,55%, 52%,50%,45%,或40%的选择子集合的基因组区域可包含非编码区 域。少于97%的选择子集合的基因组区域可包含非编码区域。少于 92%的选择子集合的基因组区域可包含非编码区域。少于84%的选择 子集合的基因组区域可包含非编码区域。少于75%的选择子集合的基 因组区域可包含非编码区域。少于65%的选择子集合的基因组区域可 包含非编码区域。
基于RI制备选择子集合可包括筛选复发指数在前第60、第 65、第70、第72、第75、第77、第80、第82、第85、第87、第90、第 92、第95,或第97或更高的百分位数的基因组区域。基于RI制备选择 子集合可包括筛选复发指数在前第80或更高的百分位数的基因组区 域。基于RI制备选择子集合可包括筛选复发指数在前第70或更高的百 分位数的基因组区域。基于RI制备选择子集合可包括筛选复发指数在 前第90或更高的百分位数的基因组区域。
制备选择子集合可进一步包括筛选导致在所述基因组区域 具有一种突变的受试者数量最大减少的基因组区域。
制备选择子集合可包括将运算法则应用到排序的基因组区 域的子集中。所述运算法则可应用2,3,4,5,6,7,8,9,10或更多次。所 述运算法则可应用两次或更多次。所述运算法则可应用三次或更多 次。
制备选择子集合可包括筛选可使选择子集合的每个受试者 的突变中位数最大化的基因组区域。制备选择子集合可包括筛选可使 选择子集合的受试者数最大化的基因组区域。
制备选择子集合可包括筛选可使所述基因组区域的总范围 最小化的基因组区域。
所述选择子集合可包含属于多个基因组区域的信息,所述基 因组区域包含存在于至少一个患有癌症的受试者中的一种或多种突 变。所述选择子集合可包含属于多个基因组区域的信息,所述基因组 区域包含存在于至少一个患有癌症的受试者中的1,2,3,4,5,6,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多种突变。所述选择子集合 可包含属于多个基因组区域的信息,所述基因组区域包含存在于至少 一个患有癌症的受试者中的25,30,35,40,45,50,55,60,65,70,75,80, 85,90,95,100,110,120,130,140,150,160,170,180,190,200或更多 种突变。
所述选择子集合可包含属于多个基因组区域的信息,所述基 因组区域包含存在于至少一个患有癌症的受试者中的一种或多种突 变。所述多个基因组区域中的一种或多种突变可存在于至少1,2,3,4, 5,6,8,9,10,11,12,13,14,15,16,17,18,19,20或更多个患有癌症的 受试者中。所述多个基因组区域中的一种或多种突变可存在于至少25, 30,35,40,45,50,55,60,65,70,75,80,85,90,95,100,110,120,130, 140,150,160,170,180,190,200或更多个患有癌症的受试者中。
所述选择子集合可包含属于多个基因组区域的信息,所述基 因组区域包含存在于至少一个患有癌症的受试者中的一种或多种突 变。所述多个基因组区域中的一种或多种突变可存在于患有癌症的受 试者群体中的至少1%,2%,3%,4%,5%,6%,8%,9%,10%,11%,12%, 13%,14%,15%,16%,17%,18%,19%,20%或更多的受试者中。所述多 个基因组区域中的一种或多种突变可存在于患有癌症的受试者群体 中的至少25%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%, 80%,85%,90%,95%或更多的受试者中。
所述选择子集合可包含属于多个基因组区域的序列信息,所 述基因组区域包含存在于至少一个患有癌症的受试者中的一种或多 种突变。所述选择子集合可包含属于多个基因组区域的序列信息,所 述基因组区域包含存在于至少一个患有癌症的受试者中的1,2,3,4,5, 6,8,9,10,11,12,13,14,15,16,17,18,19,20或更多种突变。所述选择 子集合可包含属于多个基因组区域的序列信息,所述基因组区域包含 存在于至少一个患有癌症的受试者中的25,30,35,40,45,50,55,60, 65,70,75,80,85,90,95,100,110,120,130,140,150,160,170,180, 190,200或更多种突变。
所述选择子集合可包含属于多个基因组区域的序列信息,所 述基因组区域包含存在于至少一个患有癌症的受试者中的一种或多 种突变。所述多个基因组区域中的一种或多种突变可存在于至少1,2, 3,4,5,6,8,9,10,11,12,13,14,15,16,17,18,19,20或更多个患有癌 症的受试者中。所述多个基因组区域中的一种或多种突变可存在于至 少25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100,110,120, 130,140,150,160,170,180,190,200或更多个患有癌症的受试者中。
所述选择子集合可包含属于多个基因组区域的序列信息,所 述基因组区域包含存在于至少一个患有癌症的受试者中的一种或多 种突变。所述多个基因组区域中的一种或多种突变可存在于患有癌症 的受试者群体中的至少1%,2%,3%,4%,5%,6%,8%,9%,10%,11%, 12%,13%,14%,15%,16%,17%,18%,19%,20%或更多的受试者中。所述多个基因组区域中的一种或多种突变可存在于患有癌症的受试 者群体中的至少25%,30%,35%,40%,45%,50%,55%,60%,65%, 70%,75%,80%,85%,90%,95%或更多的受试者中。
所述选择子集合可包含属于多个基因组区域的基因组坐标, 所述基因组区域包含存在于至少一个患有癌症的受试者中的一种或 多种突变。所述选择子集合可包含属于多个基因组区域的基因组坐 标,所述基因组区域包含存在于至少一个患有癌症的受试者中的1,2, 3,4,5,6,8,9,10,11,12,13,14,15,16,17,18,19,20或更多种突变。所 述选择子集合可包含属于多个基因组区域的基因组坐标,所述基因组 区域包含存在于至少一个患有癌症的受试者中的25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100,110,120,130,140,150,160,170, 180,190,200或更多种突变。
所述选择子集合可包含属于多个基因组区域的基因组坐标, 所述基因组区域包含存在于至少一个患有癌症的受试者中的一种或 多种突变。所述多个基因组区域中的一种或多种突变可存在于至少1, 2,3,4,5,6,8,9,10,11,12,13,14,15,16,17,18,19,20或更多个患有 癌症的受试者中。所述多个基因组区域中的一种或多种突变可存在于 至少25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100,110, 120,130,140,150,160,170,180,190,200或更多个患有癌症的受试者 中。
所述选择子集合可包含属于多个基因组区域的基因组坐标, 所述基因组区域包含存在于至少一个患有癌症的受试者中的一种或 多种突变。所述多个基因组区域中的一种或多种突变可存在于患有癌 症的受试者群体中的至少1%,2%,3%,4%,5%,6%,8%,9%,10%, 11%,12%,13%,14%,15%,16%,17%,18%,19%,20%或更多的受试 者中。所述多个基因组区域中的一种或多种突变可存在于患有癌症的 受试者群体中的至少25%,30%,35%,40%,45%,50%,55%,60%,65%, 70%,75%,80%,85%,90%,95%或更多的受试者中。
所述选择子集合可包含含有一种或多种类型突变的基因组 区域。所述选择子集合可包含含有两种或更多种类型突变的基因组区 域。所述选择子集合可包含含有三种或更多种类型突变的基因组区 域。所述选择子集合可包含含有四种或更多种类型突变的基因组区 域。突变的类型可包括,但不限于单一核苷酸变体(SNVs),插入/缺 失(插入/缺失),重排及拷贝数变体(CNVs)。
所述选择子集合可包含含有两种或更多种不同类型突变的 基因组区域,所述突变类型选自由单一核苷酸变体(SNVs),插入/缺 失(插入/缺失),重排及拷贝数变体(CNVs)组成的群组。所述选择 子集合可包含含有三种或更多种不同类型突变的基因组区域,所述突 变类型选自由单一核苷酸变体(SNVs),插入/缺失(插入/缺失),重 排及拷贝数变体(CNVs)组成的群组。所述选择子集合可包含含有四 种或更多种不同类型突变的基因组区域,所述突变类型选自由单一核 苷酸变体(SNVs),插入/缺失(插入/缺失),重排及拷贝数变体(CNVs) 组成的群组。
所述选择子集合可包含含有至少一个SNV的基因组区域和 含有至少一个其他类型突变的基因组区域。所述选择子集合可包含含 有至少一个SNV的基因组区域和含有至少一个插入/缺失的基因组区 域。所述选择子集合可包含含有至少一个SNV的基因组区域和含有至 少一个重排的基因组区域。所述选择子集合可包含含有至少一个SNV 的基因组区域和含有至少一个CNV的基因组区域。
所述选择子集合可包含含有至少一个插入/缺失的基因组区 域和含有至少一个其他类型突变的基因组区域。所述选择子集合可包 含含有至少一个插入/缺失的基因组区域和含有至少一个SNV的基因 组区域。所述选择子集合可包含含有至少一个插入/缺失的基因组区 域和含有至少一个重排的基因组区域。所述选择子集合可包含含有至 少一个插入/缺失的基因组区域和含有至少一个CNV的基因组区域。
所述选择子集合可包含含有至少一个重排的基因组区域。所 述选择子集合可包含含有至少一个重排的基因组区域和含有至少一 个其他类型突变的基因组区域。所述选择子集合可包含含有至少一个 重排的基因组区域和含有至少一个SNV的基因组区域。所述选择子集 合可包含含有至少一个重排的基因组区域和含有至少一个插入/缺失 的基因组区域。所述选择子集合可包含含有至少一个重排的基因组区 域和含有至少一个CNV的基因组区域。
所述选择子集合可包含含有至少一个CNV的基因组区域和 含有至少一个其他类型突变的基因组区域。所述选择子集合可包含含 有至少一个CNV的基因组区域和含有至少一个SNV的基因组区域。所 述选择子集合可包含含有至少一个CNV的基因组区域和含有至少一 个插入/缺失的基因组区域。所述选择子集合可包含含有至少一个 CNV的基因组区域和含有至少一个重排的基因组区域。
至少约1%,2%,3%,4%,5%,6%,7%,8%,9%,10%,11%,12%, 13%,14%,15%,16%,17%,18%,19%,或20%的所述选择子集合的基 因组区域可包含SNV。至少约25%,30%,35%,40%,45%,50%,55%, 或60%的所述选择子集合的基因组区域可包含SNV。至少约10%的所 述选择子集合的基因组区域可包含SNV。至少约15%的所述选择子集合的基因组区域可包含SNV。至少约20%的所述选择子集合的基因组 区域可包含SNV。至少约30%的所述选择子集合的基因组区域可包含 SNV。至少约40%的所述选择子集合的基因组区域可包含SNV。至少 约50%的所述选择子集合的基因组区域可包含SNV。至少约60%的所 述选择子集合的基因组区域可包含SNV。
少于99%,98%,97%,95%,92%,90%,87%,85%,82%,80%, 77%,75%,72%,70%,67%,65%,62%,60%,57%,55%,52%,50%的所 述选择子集合的基因组区域可包含SNV。少于97%的所述选择子集合 的基因组区域可包含SNV。少于95%的所述选择子集合的基因组区域 可包含SNV。少于90%的所述选择子集合的基因组区域可包含SNV。少于85%的所述选择子集合的基因组区域可包含SNV。少于77%的所 述选择子集合的基因组区域可包含SNV。
所述选择子集合的基因组区域可包含约10%-约95%的SNVs。 所述选择子集合的基因组区域可包含约10%-约90%的SNVs。所述选 择子集合的基因组区域可包含约15%-约95%的SNVs。所述选择子集 合的基因组区域可包含约20%-约95%的SNVs。所述选择子集合的基 因组区域可包含约30%-约95%的SNVs。所述选择子集合的基因组区 域可包含约30%-约90%的SNVs。所述选择子集合的基因组区域可包 含约30%-约85%的SNVs。所述选择子集合的基因组区域可包含约 30%-约80%的SNVs。
至少约1%,2%,3%,4%,5%,6%,7%,8%,9%,10%,11%,12%, 13%,14%,15%,16%,17%,18%,19%,或20%的所述选择子集合的基 因组区域可包含插入/缺失。至少约25%,30%,35%,40%,45%,50%, 55%,或60%的所述选择子集合的基因组区域可包含插入/缺失。至 少约1%的所述选择子集合的基因组区域可包含插入/缺失。至少约3% 的所述选择子集合的基因组区域可包含插入/缺失。至少约5%的所述 选择子集合的基因组区域可包含插入/缺失。至少约8%的所述选择子 集合的基因组区域可包含插入/缺失。至少约10%的所述选择子集合的 基因组区域可包含插入/缺失。至少约15%的所述选择子集合的基因组 区域可包含插入/缺失。至少约30%的所述选择子集合的基因组区域可包含插入/缺失。
少于99%,98%,97%,95%,92%,90%,87%,85%,82%,80%, 77%,75%,72%,70%,67%,65%,62%,60%,57%,55%,52%,50%的所 述选择子集合的基因组区域可包含插入/缺失。少于97%的所述选择子 集合的基因组区域可包含插入/缺失。少于95%的所述选择子集合的基 因组区域可包含插入/缺失。少于90%的所述选择子集合的基因组区域 可包含插入/缺失。少于85%的所述选择子集合的基因组区域可包含插 入/缺失。少于77%的所述选择子集合的基因组区域可包含插入/缺失。
所述选择子集合的基因组区域可包含约10%-约95%的插入/ 缺失。所述选择子集合的基因组区域可包含约10%-约90%的插入/缺 失。所述选择子集合的基因组区域可包含约10%-约85%的插入/缺失。 所述选择子集合的基因组区域可包含约10%-约80%的插入/缺失。所 述选择子集合的基因组区域可包含约10%-约75%的插入/缺失。所述 选择子集合的基因组区域可包含约10%-约70%的插入/缺失。所述选 择子集合的基因组区域可包含约10%-约60%的插入/缺失。所述选择 子集合的基因组区域可包含约10%-约50%的插入/缺失。
至少约1%,2%,3%,4%,5%,6%,7%,8%,9%,10%,11%,12%, 13%,14%,15%,16%,17%,18%,19%,或20%的所述选择子集合的基 因组区域可包含重排。至少约1%的所述选择子集合的基因组区域可 包含重排。至少约2%的所述选择子集合的基因组区域可包含重排。 至少约3%的所述选择子集合的基因组区域可包含重排。至少约4%的所述选择子集合的基因组区域可包含重排。至少约5%的所述选择子 集合的基因组区域可包含重排。
至少约1%,2%,3%,4%,5%,6%,7%,8%,9%,10%,11%,12%, 13%,14%,15%,16%,17%,18%,19%,或20%的所述选择子集合的基 因组区域可包含CNV。至少约25%,30%,35%,40%,45%,50%,55%, 或60%的所述选择子集合的基因组区域可包含CNV。至少约1%的所 述选择子集合的基因组区域可包含CNV。至少约3%的所述选择子集合的基因组区域可包含CNV。至少约5%的所述选择子集合的基因组 区域可包含CNV。至少约8%的所述选择子集合的基因组区域可包含 CNV。至少约10%的所述选择子集合的基因组区域可包含CNV。至少 约15%的所述选择子集合的基因组区域可包含CNV。至少约30%的所 述选择子集合的基因组区域可包含CNV。
少于99%,98%,97%,95%,92%,90%,87%,85%,82%,80%, 77%,75%,72%,70%,67%,65%,62%,60%,57%,55%,52%,50%的所 述选择子集合的基因组区域可包含CNV。少于97%的所述选择子集合 的基因组区域可包含CNV。少于95%的所述选择子集合的基因组区域 可包含CNV。少于90%的所述选择子集合的基因组区域可包含CNV。少于85%的所述选择子集合的基因组区域可包含CNV。少于77%的所 述选择子集合的基因组区域可包含CNV。
所述选择子集合的基因组区域可包含约5%-约80%的CNV。 所述选择子集合的基因组区域可包含约5%-约70%的CNV。所述选择 子集合的基因组区域可包含约5%-约60%的CNV。所述选择子集合的 基因组区域可包含约5%-约50%的CNV。所述选择子集合的基因组区 域可包含约5%-约40%的CNV。所述选择子集合的基因组区域可包含 约5%-约35%的CNV。所述选择子集合的基因组区域可包含约5%-约 30%的CNV。所述选择子集合的基因组区域可包含约5%-约25%的 CNV。
所述选择子集合可用于受试者的样品的分类。所述选择子集 合可用于受试者的2,3,4,5,6,7,8,9,10,11,12,13,14,或15或更多 个样品的分类。所述选择子集合可用于受试者的两个或更多个样品的 分类。
所述选择子集合可用于一个或多个受试者的一个或多个样 品的分类。所述选择子集合可用于两个或更多个受试者的两个或更多 个样品的分类。所述选择子集合可用于2,3,4,5,6,7,8,9,10,11,12, 13,14,15,16,17,18,19,或20或更多个受试者的多个样品的分类。
所述样品可以是相同类型的样品。所述样品可以是两种或更 多种不同类型的样品。所述样品可以是血浆样品。所述样品可以是肿 瘤样品。所述样品可以是种系样品。所述样品可包含肿瘤衍生的分子。 所述样品可包含非肿瘤衍生的分子。
所述选择子集合可将样品分类为有肿瘤的。所述选择子集合 可将样品分类为无肿瘤的。
所述选择子集合可以是个体化的选择子集合。所述选择子集 合可用于诊断有需要的受试者的癌症。所述选择子集合可用于预测有 需要的受试者的癌症状态或结果。所述选择子集合可用于确定有需要 的受试者的癌症治疗方案。
或者,所述选择子集合可以是通用型选择子集合。所述选择 子集合可用于诊断有需要的多个受试者的癌症。所述选择子集合可用 于预测有需要的多个受试者的癌症状态或结果。所述选择子集合可用 于确定有需要的多个受试者的癌症治疗方案。
所述多个受试者可包括5,10,15,20,25,30,35,40,50,60,70, 80,90,或100或更多个受试者。所述多个受试者可包括5或更多个受 试者。所述多个受试者可包括10或更多个受试者。所述多个受试者可 包括25或更多个受试者。所述多个受试者可包括50或更多个受试者。 所述多个受试者可包括75或更多个受试者。所述多个受试者可包括 100或更多个受试者。
基于来自一个或多个受试者的一个或多个样品,所述选择子 集合可用于将一个或多个受试者分类。所述选择子集合可用于将受试 者按疗法的响应者分类。所述选择子集合可用于将受试者按疗法的非 响应者分类。
所述选择子集合可用于设计多个低聚核苷酸。所述多个低聚 核苷酸可选择性地与一个或多个由所述选择子集合识别的基因组区 域杂交。至少两个低聚核苷酸可选择性地与一个基因组区域杂交。至 少三个低聚核苷酸可选择性地与一个基因组区域杂交。至少四个低聚 核苷酸可选择性地与一个基因组区域杂交。
所述多个低聚核苷酸中的低聚核苷酸的长度可以是至少约 10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,或 100个核苷酸。低聚核苷酸的长度可以是至少约20个核苷酸。低聚核 苷酸的长度可以是至少约30个核苷酸。低聚核苷酸的长度可以是至少约40个核苷酸。低聚核苷酸的长度可以是至少约45个核苷酸。低聚 核苷酸的长度可以是至少约50个核苷酸。
所述多个低聚核苷酸中的低聚核苷酸的长度可以是小于或 等于300,275,250,225,200,190,180,170,160,150,140,130,125,120, 115,110,105,100,95,90,85,80,75,或70个核苷酸。所述多个低聚核 苷酸中的低聚核苷酸的长度可以是小于或等于200个核苷酸。所述多 个低聚核苷酸中的低聚核苷酸的长度可以是小于或等于150个核苷 酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是小于或等于 110个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是小 于或等于100个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度 可以是小于或等于80个核苷酸。
所述多个低聚核苷酸中的低聚核苷酸的长度可以是约20-200 个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是约 20-170个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以是 约20-150个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可以 是约20-130个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度可 以是约20-120个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长度 可以是约30-150个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的长 度可以是约30-120个核苷酸。所述多个低聚核苷酸中的低聚核苷酸的 长度可以是约40-150个核苷酸。所述多个低聚核苷酸中的低聚核苷酸 的长度可以是约40-120个核苷酸。所述多个低聚核苷酸中的低聚核苷 酸的长度可以是约50-150个核苷酸。所述多个低聚核苷酸中的低聚核 苷酸的长度可以是约50-120个核苷酸。
所述多个低聚核苷酸中的低聚核苷酸可与固体支持物相连 接。所述固体支持物可以是珠。所述珠可以是涂覆的珠。所述珠可以 是链酶亲和素涂覆的珠。所述固体支持物可以是阵列。所述固体支持 物可以是载玻片。
本文进一步公开了制备个体化选择子集合的方法。该方法可 包括(a)获得受试者肿瘤的基因型;(b)基于肿瘤的基因型识别包含一 种或多种突变的基因组区域;及(c)制备包含至少一个基因组区域的选 择子集合。
获得受试者肿瘤的基因型可包括对受试者的样品进行测序 反应。测序可包括全基因组测序。测序可包括全外显子组(exome)测 序。
测序可包括使用一个或多个衔接子。所述衔接子可与样品的 一个或多个核酸连接。所述衔接子可包含多个低聚核苷酸。所述衔接 子可包含一个或多个脱氧核糖核苷酸。所述衔接子可包含核糖核苷 酸。所述衔接子可以是单链的。所述衔接子可以是双链的。所述衔接 子可包含双链和单链部分。例如,所述衔接子可以是Y-型衔接子。所 述衔接子可以是线形衔接子。所述衔接子可以是环形衔接子。所述衔 接子可包含分子条形码、样品索引、引物序列、接头序列或其组合。 分子条形码可与样品索引相邻。分子条形码可与引物序列相邻。样品 索引可与引物序列相邻。接头序列可将分子条形码与样品索引连接。 接头序列可将分子条形码与引物序列连接。接头序列可将样品索引与 引物序列连接。
所述衔接子可包含分子条形码。所述分子条形码可包含随机 序列。所述分子条形码可包含预定序列。两个或更多个衔接子可包含 两个或更多个不同的分子条形码。所述分子条形码可优化以使二聚作 用最小化。所述分子条形码可优化以能够鉴别,即使具有扩增或测序 错误。例如,第一个分子条形码的扩增可能引入单个碱基错误。所述 第一个分子条形码可包含大于不同于其他分子条形码的单一碱基。因 此,所述具有单一碱基错误的第一个分子条形码可能仍然作为第一个 分子条形码被识别。所述分子条形码可包含至少2,3,4,5,6,7,8,9,10 或更多个核苷酸。所述分子条形码可包含至少3个核苷酸。所述分子 条形码可包含至少4个核苷酸。所述分子条形码可包含少于20,19,18, 17,16,或15个核苷酸。所述分子条形码可包含少于10个核苷酸。所 述分子条形码可包含少于8个核苷酸。所述分子条形码可包含少于6 个核苷酸。所述分子条形码可包含2-15个核苷酸。所述分子条形码可包含2-12个核苷酸。所述分子条形码可包含3-10个核苷酸。所述分子 条形码可包含3-8个核苷酸。所述分子条形码可包含4-8个核苷酸。所 述分子条形码可包含4-6个核苷酸。
所述衔接子可包含样品索引。所述样品索引可包含随机序 列。所述样品索引可包含预定序列。两组或多组衔接子可包含两个或 更多个不同的样品索引。一组衔接子中的衔接子可包含相同的样品索 引。所述样品索引可优化以使二聚作用最小化。所述样品索引可优化 以能够鉴别,即使具有扩增或测序错误。例如,第一个样品索引的扩 增可能引入单个碱基错误。所述第一个样品索引可包含大于不同于其 他样品索引的单一碱基。因此,所述具有单一碱基错误的第一个样品 索引可能仍然作为第一个分子条形码被识别。所述样品索引可包含至 少2,3,4,5,6,7,8,9,10或更多个核苷酸。所述样品索引可包含至少3 个核苷酸。所述样品索引可包含至少4个核苷酸。所述样品索引可包 含少于20,19,18,17,16,或15个核苷酸。所述样品索引可包含少于10 个核苷酸。所述样品索引可包含少于8个核苷酸。所述样品索引可包 含少于6个核苷酸。所述样品索引可包含2-15个核苷酸。所述样品索 引可包含2-12个核苷酸。所述样品索引可包含3-10个核苷酸。所述样 品索引可包含3-8个核苷酸。所述样品索引可包含4-8个核苷酸。所述 样品索引可包含4-6个核苷酸。
所述衔接子可包含引物序列。所述引物序列可以是PCR引物 序列。所述引物序列可以是测序引物。
衔接子可与样品中核酸的一个末端连接。所述核酸可以是 DNA。该DNA可以是无细胞DNA(cfDNA)。该DNA可以是循环肿瘤 DNA(ctDNA)。该核酸可以是RNA。衔接子可与核酸的两端连接。衔 接子可与单链核酸的一端或多端连接。衔接子可与双链核酸的一端或 多端连接。
衔接子可通过连接反应与核酸连接。连接反应可以是平端连 接反应。连接反应可以是粘性末端连接反应。衔接子可通过引物延长 与核酸连接。衔接子可通过反转录与核酸连接。衔接子可通过杂交与 核酸连接。衔接子可包含至少与核酸部分互补的序列。或者,在某些 情况中,衔接子不包含与核酸互补的序列。
基于肿瘤的基因型识别包含一种或多种突变的基因组区域 可包括确定包含所述一种或多种突变的基因组区域的共有序列。确定 共有序列可基于衔接子。确定共有序列可基于所述衔接子的分子条形 码部分。确定共有序列可包括分析属于分子条形码的序列读数。确定 共有序列可包括基于所述分子条形码测定具有相同序列的序列读数 的百分比。识别包含一种或多种突变的基因组区域可包括基于所述共 有序列百分比制作基因组区域的清单。制作基因组区域的清单可包括 基于分子条形码,筛选具有至少80%,82%,85%,87%,90%,91%,92%, 93%,94%,95%,96%,97%,98%,99%,或100%共有区的基因组区域。 例如,可将序列信息编排到分子条形码族中(例如,具有相同分子条 形码的序列被分在一组)。分析分子条形码族可揭示两个不同的序列。 1000个序列读数可能与第一序列相关,而10个序列读数可能与第二序 列相关。显性序列(例如,第一序列)可具有99%的共有区(例如, (1000除以1010)乘以100%)。所述基因组区域清单可包含所述基 因组区域的显性序列。所述基因组区域清单可包含基于分子条形码具 有90%共有区的基因组区域。所述基因组区域清单可包含基于分子条 形码具有95%共有区的基因组区域。所述基因组区域清单可包含基于 分子条形码具有98%共有区的基因组区域。所述基因组区域清单可包含基于分子条形码具有100%序列共有区的基因组区域。识别包含一 种或多种基于肿瘤基因型突变的基因组区域可包括制作按其序列共 有区百分比排列的基因组区域清单。
识别包含一种或多种基于肿瘤基因型突变的基因组区域可 包括计算所述基因组区域的丰度分数。识别包含一种或多种基于肿瘤 基因型突变的基因组区域可包括从按其序列共有区百分比排列的基 因组区域清单中计算所述基因组区域的丰度分数。丰度分数可通过属 于具有一种或多种突变的基因组区域的序列读数数除以基因组区域 的序列读数总数计算。例如,基因组区域可包含基因X的外显子2。 属于基因组区域的序列读数总数可能是1000,其中100个序列读数在 基因X的外显子2中有插入。所述在基因X的外显子2中有插入的基因 组区域的丰度分数为0.1(例如,100个序列读数除以1000)。识别包 含一种或多种基于肿瘤基因型突变的基因组区域可包括制作按其丰 度分数排列的基因组区域清单。
制备选择子集合可包括从按其丰度分数排列的基因组区域 清单中筛选一个或多个基因组区域。制备选择子集合可包括筛选一个 或多个丰度分数小于50%,47%,45%,42%,40%,37%,35%,34%,33%, 31%,30%,29%,28%,27%,26%,25%,24%,23%,22%,21%,20%, 19%,18%,17%,16%,15%,14%,13%,12%,11%,10%,9%,8%,7%, 6%,5%,4%,3%,2%,或1%的基因组区域。制备选择子集合可包括筛 选一个或多个丰度分数小于37%的基因组区域。制备选择子集合可包 括筛选一个或多个丰度分数小于33%的基因组区域。制备选择子集合 可包括筛选一个或多个丰度分数小于30%的基因组区域。制备选择子 集合可包括筛选一个或多个丰度分数小于27%的基因组区域。制备选择子集合可包括筛选一个或多个丰度分数小于25%的基因组区域。制 备选择子集合可包括筛选一个或多个丰度分数在约0.00001%-约35% 之间的基因组区域。制备选择子集合可包括筛选一个或多个丰度分数 在约0.00001%-约30%之间的基因组区域。制备选择子集合可包括筛 选一个或多个丰度分数在约0.00001%-约27%之间的基因组区域。
所述选择子集合可包含至少1,2,3,4,5,6,7,8,9,10或更多 个基因组区域。所述选择子集合可包含一个基因组区域。所述选择子 集合可包含至少2个基因组区域。所述选择子集合可包含至少3个基因 组区域。
所述选择子集合的基因组区域可包含一种或多种之前未识 别的突变。所述选择子集合的基因组区域可包含2种或更多种之前未 识别的突变。所述选择子集合的基因组区域可包含3种或更多种之前 未识别的突变。所述选择子集合的基因组区域可包含4种或更多种之 前未识别的突变。
所述基因组区域可包含一种或多种选自由SNVs,插入/缺失, 重排及CNVs组成的群组的突变。所述基因组区域可包含两种或更多 种选自由SNVs,插入/缺失,重排及CNVs组成的群组的突变。所述 基因组区域可包含三种或更多种选自由SNVs,插入/缺失,重排及CNVs组成的群组的突变。所述基因组区域可包含四种或更多种选自 由SNVs,插入/缺失,重排及CNVs组成的群组的突变。
所述基因组区域可包含选自由SNVs,插入/缺失,重排及 CNVs组成的群组的一种或多种类型突变。所述基因组区域可包含选 自由SNVs,插入/缺失,重排及CNVs组成的群组的两种或更多种类 型突变。所述基因组区域可包含选自由SNVs,插入/缺失,重排及 CNVs组成的群组的三种或更多种类型突变。所述基因组区域可包含 选自由SNVs,插入/缺失,重排及CNVs组成的群组的四种或更多种 类型突变。
本文进一步公开了用于本文公开的方法中的计算机可读媒 介物。所述计算机可读媒介物可包括两个或更多个基因组区域的序列 信息,其中(a)所述基因组区域可包含来自受癌症折磨的受试者群体的 大于80%肿瘤中的一种或多种突变;(b)所述基因组区域代表小于1.5 Mb的基因组;及(c)下述中的一种或多种:(i)所述病症可能不是毛细 胞白血病、卵巢癌、瓦尔登斯特伦巨球蛋白血症;(ii)基因组区域可 包含至少一个受癌症折磨的受试者中的至少一种突变;(iii)所述癌症 包括两种或更多种不同类型的癌症;(iv)所述两个或更多个基因组区 域可衍生自两种或更多种不同的基因;(v)所述基因组区域可包含两 种或更多种突变;或(vi)所述两个或更多个基因组区域可包含至少 10kb。
在某些情况中,所述病症不是毛细胞白血病。
所述基因组区域可包含来自受另一种类型癌症折磨的另外 的受试者群体的大于60%肿瘤中的一种或多种突变。
所述基因组区域可衍生自2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个不同的基因。所述基因组区域可衍生 自25,30,35,40,45,50,60,70,80,90,100或更多个不同的基因。
所述基因组区域可包含至少1,2,3,4,5,6,7,8,9,10,15,20, 25,30,35,40,45,或50kb。所述基因组区域可包含至少5kb。所述基 因组区域可包含至少10kb。所述基因组区域可包含至少50kb。
所述序列信息可包含属于2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个基因组区域的基因组坐标。所述序列 信息可包含属于25,30,35,40,45,50,55,60,65,70,75,80,85,90,95, 100或更多个基因组区域的基因组坐标。所述序列信息可包含属于125, 150,175,200,225,250,275,300,325,350,375,400,425,450,475,500 或更多个基因组区域的基因组坐标。
所述序列信息可包含属于2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个基因组区域的核酸序列。所述序列信 息可包含属于25,30,35,40,45,50,55,60,65,70,75,80,85,90,95, 100或更多个基因组区域的核酸序列。所述序列信息可包含属于125, 150,175,200,225,250,275,300,325,350,375,400,425,450,475,500 或更多个基因组区域的核酸序列。
所述序列信息可包含2,3,4,5,6,7,8,9,10,11,12,13,14,15, 16,17,18,19,20或更多个基因组区域的长度。所述序列信息可包含25, 30,35,40,45,50,55,60,65,70,75,80,85,90,95,100或更多个基因组 区域的长度。所述序列信息可包含125,150,175,200,225,250,275, 300,325,350,375,400,425,450,475,500或更多个基因组区域的长 度。
本文进一步公开了用于本文所公开的方法和系统的组合物。 所述组合物可包含一组与多个基因组区域选择性杂交的低聚核苷酸, 其中(a)大于80%的来自于癌症受试者群体的肿瘤包括一种或多种所 述基因组区域中的突变;(b)所述多个基因组区域代表小于1.5Mb的基 因组;及(c)所述低聚核苷酸组可包含5个或更多个与多个基因组区域 选择性杂交的不同的低聚核苷酸。
所述低聚核苷酸组中的低聚核苷酸可包含标签。所述标签可 以是生物素。所述标签可以是标记。所述标记可以是荧光标记或染料。 所述标签可以是衔接子。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表2中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100,150,200,250,300,350,400,450,500,或525个表2中所识别 那些中的区域。所述基因组区域可包含至少2个表2中所识别的那些区 域。所述基因组区域可包含至少20个表2中所识别的那些区域。所述 基因组区域可包含至少60个表2中所识别的那些区域。所述基因组区 域可包含至少100个表2中所识别的那些区域。所述基因组区域可包含 至少300个表2中所识别的那些区域。所述基因组区域可包含至少400个表2中所识别的那些区域。所述基因组区域可包含至少500个表2中 所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的基因组区域可 以是表2中所识别的区域。至少约5%的基因组区域可以是表2中所识 别的区域。至少约10%的基因组区域可以是表2中所识别的区域。至 少约20%的基因组区域可以是表2中所识别的区域。至少约30%的基 因组区域可以是表2中所识别的区域。至少约40%的基因组区域可以 是表2中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表6中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100,150,200,250,300,350,400,450,500,550,600,650,700,750, 800,或830个表6中所识别的那些区域。所述基因组区域可包含至少2 个表6中所识别的那些区域。所述基因组区域可包含至少20个表6中所 识别的那些区域。所述基因组区域可包含至少60个表6中所识别的那 些区域。所述基因组区域可包含至少100个表6中所识别的那些区域。 所述基因组区域可包含至少300个表6中所识别的那些区域。所述基因 组区域可包含至少600个表6中所识别的那些区域。所述基因组区域可 包含至少800个表6中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的基因组区域可 以是表6中所识别的区域。至少约5%的基因组区域可以是表6中所识 别的区域。至少约10%的基因组区域可以是表6中所识别的区域。至 少约20%的基因组区域可以是表6中所识别的区域。至少约30%的基 因组区域可以是表6中所识别的区域。至少约40%的基因组区域可以 是表6中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表7中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100,125,150,175,200,225,250,275,300,325,350,375,400,425, 或450个表7中所识别的那些区域。所述基因组区域可包含至少2个表7 中所识别的那些区域。所述基因组区域可包含至少20个表7中所识别 的那些区域。所述基因组区域可包含至少60个表7中所识别的那些区 域。所述基因组区域可包含至少100个表7中所识别的那些区域。所述 基因组区域可包含至少200个表7中所识别的那些区域。所述基因组区 域可包含至少300个表7中所识别的那些区域。所述基因组区域可包含 至少400个表7中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的基因组区域可 以是表7中所识别的区域。至少约5%的基因组区域可以是表7中所识 别的区域。至少约10%的基因组区域可以是表7中所识别的区域。至 少约20%的基因组区域可以是表7中所识别的区域。至少约30%的基 因组区域可以是表7中所识别的区域。至少约40%的基因组区域可以 是表7中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表8中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表8中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,或1050个表8中所识别的那些区域。所述基因组区域可包含至 少2个表8中所识别的那些区域。所述基因组区域可包含至少20个表8 中所识别的那些区域。所述基因组区域可包含至少60个表8中所识别 的那些区域。所述基因组区域可包含至少100个表8中所识别的那些区域。所述基因组区域可包含至少300个表8中所识别的那些区域。所述 基因组区域可包含至少600个表8中所识别的那些区域。所述基因组区 域可包含至少800个表8中所识别的那些区域。所述基因组区域可包含 至少1000个表8中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的基因组区域可 以是表8中所识别的区域。至少约5%的基因组区域可以是表8中所识 别的区域。至少约10%的基因组区域可以是表8中所识别的区域。至 少约20%的基因组区域可以是表8中所识别的区域。至少约30%的基 因组区域可以是表8中所识别的区域。至少约40%的基因组区域可以 是表8中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表9中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表9中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,1100,1200,1300,1400,或1500个表9中所识别的那些区域。所 述基因组区域可包含至少2个表9中所识别的那些区域。所述基因组区 域可包含至少20个表9中所识别的那些区域。所述基因组区域可包含 至少60个表9中所识别的那些区域。所述基因组区域可包含至少100个表9中所识别的那些区域。所述基因组区域可包含至少300个表9中 所识别的那些区域。所述基因组区域可包含至少500个表9中所识别的 那些区域。所述基因组区域可包含至少1000个表9中所识别的那些区 域。所述基因组区域可包含至少1300个表9中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的基因组区域可 以是表9中所识别的区域。至少约5%的基因组区域可以是表9中所识 别的区域。至少约10%的基因组区域可以是表9中所识别的区域。至 少约20%的基因组区域可以是表9中所识别的区域。至少约30%的基 因组区域可以是表9中所识别的区域。至少约40%的基因组区域可以 是表9中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表10中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表10中所识别的那些区域。所述基因组区域可包含至少125, 130,135,140,145,150,155,160,165,170,175,180,185,190,195,200, 210,220,230,240,250,260,270,280,290,300,310,320,或330个表 10中所识别的那些区域。所述基因组区域可包含至少2个表10中所识 别的那些区域。所述基因组区域可包含至少20个表10中所识别的那些 区域。所述基因组区域可包含至少60个表10中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的基因组区域可 以是表10中所识别的区域。至少约5%的基因组区域可以是表10中所 识别的区域。至少约10%的基因组区域可以是表10中所识别的区域。 至少约20%的基因组区域可以是表10中所识别的区域。至少约30%的基因组区域可以是表10中所识别的区域。至少约40%的基因组区域可 以是表10中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表11中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表11中所识别的那些区域。所述基因组区域可包含至少125, 130,135,140,145,150,155,160,165,170,175,180,185,190,195,200, 210,220,230,240,250,260,270,280,290,300,310,320,330,340,350, 375,400,420,440,或460个表11中所识别的那些区域。所述基因组区 域可包含至少2个表11中所识别的那些区域。所述基因组区域可包含 至少20个表11中所识别的那些区域。所述基因组区域可包含至少60 个表11中所识别的那些区域。所述基因组区域可包含至少100个表11 中所识别的那些区域。所述基因组区域可包含至少200个表11中所识 别的那些区域。所述基因组区域可包含至少300个表11中所识别的那 些区域。所述基因组区域可包含至少400个表11中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的基因组区域可 以是表11中所识别的区域。至少约5%的基因组区域可以是表11中所 识别的区域。至少约10%的基因组区域可以是表11中所识别的区域。 至少约20%的基因组区域可以是表11中所识别的区域。至少约30%的基因组区域可以是表11中所识别的区域。至少约40%的基因组区域可 以是表11中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表12中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表12中所识别的那些区域。所述基因组区域可包含至少125, 130,135,140,145,150,155,160,165,170,175,180,185,190,195,200, 210,220,230,240,250,260,270,280,290,300,310,320,330,340,350, 375,400,420,440,460,480或500个表12中所识别的那些区域。所述基 因组区域可包含至少2个表12中所识别的那些区域。所述基因组区域 可包含至少20个表12中所识别的那些区域。所述基因组区域可包含至 少60个表12中所识别的那些区域。所述基因组区域可包含至少100个 表12中所识别的那些区域。所述基因组区域可包含至少200个表12中 所识别的那些区域。所述基因组区域可包含至少300个表12中所识别 的那些区域。所述基因组区域可包含至少400个表12中所识别的那些 区域。所述基因组区域可包含至少500个表12中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的基因组区域可 以是表12中所识别的区域。至少约5%的基因组区域可以是表12中所 识别的区域。至少约10%的基因组区域可以是表12中所识别的区域。 至少约20%的基因组区域可以是表12中所识别的区域。至少约30%的基因组区域可以是表12中所识别的区域。至少约40%的基因组区域可 以是表12中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表13中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表13中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,1050,1100,1150,1200,1250,1300,1350,1400,或1450个表13 中所识别的那些区域。所述基因组区域可包含至少2个表13中所识别 的那些区域。所述基因组区域可包含至少20个表13中所识别的那些区 域。所述基因组区域可包含至少60个表13中所识别的那些区域。所述基因组区域可包含至少100个表13中所识别的那些区域。所述基因组 区域可包含至少300个表13中所识别的那些区域。所述基因组区域可 包含至少500个表13中所识别的那些区域。所述基因组区域可包含至 少1000个表13中所识别的那些区域。所述基因组区域可包含至少1300 个表13中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的基因组区域可 以是表13中所识别的区域。至少约5%的基因组区域可以是表13中所 识别的区域。至少约10%的基因组区域可以是表13中所识别的区域。 至少约20%的基因组区域可以是表13中所识别的区域。至少约30%的基因组区域可以是表13中所识别的区域。至少约40%的基因组区域可 以是表13中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表14中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表14中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,1050,1100,1150,1200,1210,1220,1230,或1240个表14中所识 别的那些区域。所述基因组区域可包含至少2个表14中所识别的那些 区域。所述基因组区域可包含至少20个表14中所识别的那些区域。所 述基因组区域可包含至少60个表14中所识别的那些区域。所述基因组区域可包含至少100个表14中所识别的那些区域。所述基因组区域可 包含至少300个表14中所识别的那些区域。所述基因组区域可包含至 少500个表14中所识别的那些区域。所述基因组区域可包含至少1000 个表14中所识别的那些区域。所述基因组区域可包含至少1100个表14 中所识别的那些区域。所述基因组区域可包含至少1200个表14中所识 别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的基因组区域可 以是表14中所识别的区域。至少约5%的基因组区域可以是表14中所 识别的区域。至少约10%的基因组区域可以是表14中所识别的区域。 至少约20%的基因组区域可以是表14中所识别的区域。至少约30%的基因组区域可以是表14中所识别的区域。至少约40%的基因组区域可 以是表14中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表15中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100,110,120,130,140,150,160,或170个表15中所识别的那些区 域。所述基因组区域可包含至少2个表15中所识别的那些区域。所述 基因组区域可包含至少20个表15中所识别的那些区域。所述基因组区 域可包含至少60个表15中所识别的那些区域。所述基因组区域可包含 至少100个表15中所识别的那些区域。所述基因组区域可包含至少120 个表15中所识别的那些区域。所述基因组区域可包含至少150个表15 中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的基因组区域可 以是表15中所识别的区域。至少约5%的基因组区域可以是表15中所 识别的区域。至少约10%的基因组区域可以是表15中所识别的区域。 至少约20%的基因组区域可以是表15中所识别的区域。至少约30%的基因组区域可以是表15中所识别的区域。至少约40%的基因组区域可 以是表15中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表16中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表16中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,1100,1200,1300,1400,1500,1600,1700,1800,1900,2000,或 2050个表16中所识别的那些区域。所述基因组区域可包含至少2个表 16中所识别的那些区域。所述基因组区域可包含至少20个表16中所识 别的那些区域。所述基因组区域可包含至少60个表16中所识别的那些 区域。所述基因组区域可包含至少100个表16中所识别的那些区域。 所述基因组区域可包含至少300个表16中所识别的那些区域。所述基 因组区域可包含至少500个表16中所识别的那些区域。所述基因组区 域可包含至少1000个表16中所识别的那些区域。所述基因组区域可包 含至少1200个表16中所识别的那些区域。所述基因组区域可包含至少 1500个表16中所识别的那些区域。所述基因组区域可包含至少1700 个表16中所识别的那些区域。所述基因组区域可包含至少2000个表16 中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的基因组区域可 以是表16中所识别的区域。至少约5%的基因组区域可以是表16中所 识别的区域。至少约10%的基因组区域可以是表16中所识别的区域。 至少约20%的基因组区域可以是表16中所识别的区域。至少约30%的基因组区域可以是表16中所识别的区域。至少约40%的基因组区域可 以是表16中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表17中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表17中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,1010,1020,1030,1040,1050,1060,1070,或1080个表17中所识 别的那些区域。所述基因组区域可包含至少2个表17中所识别的那些 区域。所述基因组区域可包含至少20个表17中所识别的那些区域。所 述基因组区域可包含至少60个表17中所识别的那些区域。所述基因组区域可包含至少100个表17中所识别的那些区域。所述基因组区域可 包含至少300个表17中所识别的那些区域。所述基因组区域可包含至 少500个表17中所识别的那些区域。所述基因组区域可包含至少1000 个表17中所识别的那些区域。所述基因组区域可包含至少1050个表17 中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的基因组区域可 以是表17中所识别的区域。至少约5%的基因组区域可以是表17中所 识别的区域。至少约10%的基因组区域可以是表17中所识别的区域。 至少约20%的基因组区域可以是表17中所识别的区域。至少约30%的基因组区域可以是表17中所识别的区域。至少约40%的基因组区域可 以是表17中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表18中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表18中所识别的那些区域。所述基因组区域可包含至少125, 130,135,140,145,150,155,160,165,170,175,180,185,190,195,200, 210,220,230,240,250,260,270,280,290,300,310,320,330,340,350, 375,400,420,440,460,480,500,520,540,或555个表18中所识别的 那些区域。所述基因组区域可包含至少2个表18中所识别的那些区域。 所述基因组区域可包含至少20个表18中所识别的那些区域。所述基因 组区域可包含至少60个表18中所识别的那些区域。所述基因组区域可 包含至少100个表18中所识别的那些区域。所述基因组区域可包含至 少200个表18中所识别的那些区域。所述基因组区域可包含至少300 个表18中所识别的那些区域。所述基因组区域可包含至少400个表18 中所识别的那些区域。所述基因组区域可包含至少500个表18中所识 别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的基因组区域可 以是表18中所识别的区域。至少约5%的基因组区域可以是表18中所 识别的区域。至少约10%的基因组区域可以是表18中所识别的区域。 至少约20%的基因组区域可以是表18中所识别的区域。至少约30%的基因组区域可以是表18中所识别的区域。至少约40%的基因组区域可 以是表18中所识别的区域。
所述组的低聚核苷酸可与小于1.5,1.45,1.4,1.35,1.3,1.25, 1.2,1.15,1.1,1.05,或1.0兆碱基(Mb)的基因组杂交。所述组的低聚核 苷酸可与小于1000,900,800,700,600,550,500,450,400,350,300, 250,200,150,或100kb的基因组杂交。所述组的低聚核苷酸可与小于 1.5兆碱基(Mb)的基因组杂交。所述组的低聚核苷酸可与小于1.25兆碱 基(Mb)的基因组杂交。所述组的低聚核苷酸可与小于1兆碱基(Mb)的 基因组杂交。所述组的低聚核苷酸可与小于1000kb的基因组杂交。 所述组的低聚核苷酸可与小于500kb的基因组杂交。所述组的低聚核 苷酸可与小于300kb的基因组杂交。所述组的低聚核苷酸可与小于100kb的基因组杂交。所述组的低聚核苷酸可有能力与大于50kb的基 因组杂交。
所述组的低聚核苷酸能够与5,10,15,20,25,30,35,40,45, 50,60,70,80,90,100,150,200,250,300,350,400,450,或500或更多 不同的基因组区域杂交。所述组的低聚核苷酸能够与5或更多不同的 基因组区域杂交。所述组的低聚核苷酸能够与20或更多不同的基因组 区域杂交。所述组的低聚核苷酸能够与50或更多不同的基因组区域杂 交。所述组的低聚核苷酸能够与100或更多不同的基因组区域杂交。
所述多个基因组区域可包含2,3,4,5,6,7,8,9,10,15,20,25, 30,35,40,45,50,60,70,80,90,100或更多不同的蛋白质编码区域。所 述蛋白质编码区域可包含外显子、内含子、未翻译区域或其组合。
所述多个基因组区域可包含2,3,4,5,6,7,8,9,10,15,20,25, 30,35,40,45,50,60,70,80,90,100或更多不同的非编码区域。所述非 编码区域可包含非编码RNA、核糖体RNA(rRNA)、转移RNA(tRNA) 或其组合。
所述低聚核苷酸可与固体支持物连接。所述固体支持物可以 是珠。所述珠可以是涂覆的珠。所述珠可以是链酶亲和素珠。所述固 体支持物可以是阵列。所述固体支持物可以是载玻片。
本文公开了用于本文所公开的任一方法或系统中的循环肿 瘤DNA(ctDNA)群体。循环肿瘤DNA(ctDNA)群体可包含通过杂种筛 选富集的ctDNA,所述杂种筛选采用包含本文所公开的组的低聚核苷 酸的任一组合物。ctDNA群体可包含通过所述ctDNA的选择性杂交富 集的ctDNA,所述杂交采用基于本文所公开的选择子集合的低聚核苷 酸组。ctDNA群体可包含通过选择性杂交富集的ctDNA,所述杂交采 用基于表2和6-18中任一个的低聚核苷酸组。
本文进一步公开了用于本文所公开的任一方法和系统的阵 列。所述阵列可包含多个低聚核苷酸以选择性地捕获基因组区域,其 中所述基因组区域可包含存在于大于60%患癌症的受试者群体中的 多个突变。
所述多个突变可存在于大于60%患另一类型癌症的另外的受 试者群体中。所述多个突变可存在于大于60%患两种或更多种其他类 型癌症的另外的受试者群体中。所述多个突变可存在于大于60%患三 种或更多种其他类型癌症的另外的受试者群体中。所述多个突变可存 在于大于60%患四种或更多种其他类型癌症的另外的受试者群体中。
所述低聚核苷酸组中的低聚核苷酸可包含标签。所述标签可 以是生物素。所述标签可包含标记。所述标记可以是荧光标记或染料。 所述标签可以是衔接子。所述衔接子可包含分子条形码。所述衔接子 可包含样品索引。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表2中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100,150,200,250,300,350,400,450,500,或525个表2中所识别 的那些区域。所述基因组区域可包含至少2个表2中所识别的那些区 域。所述基因组区域可包含至少20个表2中所识别的那些区域。所述 基因组区域可包含至少60个表2中所识别的那些区域。所述基因组区 域可包含至少100个表2中所识别的那些区域。所述基因组区域可包含 至少300个表2中所识别的那些区域。所述基因组区域可包含至少400 个表2中所识别的那些区域。所述基因组区域可包含至少500个表2中 所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述基因组区 域可以是表2中所识别的区域。至少约5%的所述基因组区域可以是表 2中所识别的区域。至少约10%的所述基因组区域可以是表2中所识别 的区域。至少约20%的所述基因组区域可以是表2中所识别的区域。至少约30%的所述基因组区域可以是表2中所识别的区域。至少约 40%的所述基因组区域可以是表2中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表6中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100,150,200,250,300,350,400,450,500,550,600,650,700,750, 800,或830个表6中所识别的那些区域。所述基因组区域可包含至少2 个表6中所识别的那些区域。所述基因组区域可包含至少20个表6中所 识别的那些区域。所述基因组区域可包含至少60个表6中所识别的那 些区域。所述基因组区域可包含至少100个表6中所识别的那些区域。 所述基因组区域可包含至少300个表6中所识别的那些区域。所述基因 组区域可包含至少600个表6中所识别的那些区域。所述基因组区域可 包含至少800个表6中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述基因组区 域可以是表6中所识别的区域。至少约5%的所述基因组区域可以是表 6中所识别的区域。至少约10%的所述基因组区域可以是表6中所识别 的区域。至少约20%的所述基因组区域可以是表6中所识别的区域。至少约30%的所述基因组区域可以是表6中所识别的区域。至少约 40%的所述基因组区域可以是表6中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表7中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100,125,150,175,200,225,250,275,300,325,350,375,400,425, 或450个表7中所识别的那些区域。所述基因组区域可包含至少2个表7 中所识别的那些区域。所述基因组区域可包含至少20个表7中所识别 的那些区域。所述基因组区域可包含至少60个表7中所识别的那些区 域。所述基因组区域可包含至少100个表7中所识别的那些区域。所述 基因组区域可包含至少200个表7中所识别的那些区域。所述基因组区 域可包含至少300个表7中所识别的那些区域。所述基因组区域可包含 至少400个表7中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述基因组区 域可以是表7中所识别的区域。至少约5%的所述基因组区域可以是表 7中所识别的区域。至少约10%的所述基因组区域可以是表7中所识别 的区域。至少约20%的所述基因组区域可以是表7中所识别的区域。至少约30%的所述基因组区域可以是表7中所识别的区域。至少约 40%的所述基因组区域可以是表7中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表8中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表8中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,或1050个表8中所识别的那些区域。所述基因组区域可包含至 少2个表8中所识别的那些区域。所述基因组区域可包含至少20个表8 中所识别的那些区域。所述基因组区域可包含至少60个表8中所识别 的那些区域。所述基因组区域可包含至少100个表8中所识别的那些区域。所述基因组区域可包含至少300个表8中所识别的那些区域。所述 基因组区域可包含至少600个表8中所识别的那些区域。所述基因组区 域可包含至少800个表8中所识别的那些区域。所述基因组区域可包含 至少1000个表8中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述基因组区 域可以是表8中所识别的区域。至少约5%的所述基因组区域可以是表 8中所识别的区域。至少约10%的所述基因组区域可以是表8中所识别 的区域。至少约20%的所述基因组区域可以是表8中所识别的区域。至少约30%的所述基因组区域可以是表8中所识别的区域。至少约 40%的所述基因组区域可以是表8中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表9中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表9中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,1100,1200,1300,1400,或1500个表9中所识别的那些区域。所 述基因组区域可包含至少2个表9中所识别的那些区域。所述基因组区 域可包含至少20个表9中所识别的那些区域。所述基因组区域可包含 至少60个表9中所识别的那些区域。所述基因组区域可包含至少100个表9中所识别的那些区域。所述基因组区域可包含至少300个表9中 所识别的那些区域。所述基因组区域可包含至少500个表9中所识别的 那些区域。所述基因组区域可包含至少1000个表9中所识别的那些区 域。所述基因组区域可包含至少1300个表9中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述基因组区 域可以是表9中所识别的区域。至少约5%的所述基因组区域可以是表 9中所识别的区域。至少约10%的所述基因组区域可以是表9中所识别 的区域。至少约20%的所述基因组区域可以是表9中所识别的区域。至少约30%的所述基因组区域可以是表9中所识别的区域。至少约 40%的所述基因组区域可以是表9中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表10中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表10中所识别的那些区域。所述基因组区域可包含至少125, 130,135,140,145,150,155,160,165,170,175,180,185,190,195,200, 210,220,230,240,250,260,270,280,290,300,310,320,或330个表10 中所识别的那些区域。所述基因组区域可包含至少2个表10中所识别 的那些区域。所述基因组区域可包含至少20个表10中所识别的那些区 域。所述基因组区域可包含至少60个表10中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述基因组区 域可以是表10中所识别的区域。至少约5%的所述基因组区域可以是 表10中所识别的区域。至少约10%的所述基因组区域可以是表10中所 识别的区域。至少约20%的所述基因组区域可以是表10中所识别的区 域。至少约30%的所述基因组区域可以是表10中所识别的区域。至少 约40%的所述基因组区域可以是表10中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表11中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表11中所识别的那些区域。所述基因组区域可包含至少125, 130,135,140,145,150,155,160,165,170,175,180,185,190,195,200, 210,220,230,240,250,260,270,280,290,300,310,320,330,340,350, 375,400,420,440,或460个表11中所识别的那些区域。所述基因组区 域可包含至少2个表11中所识别的那些区域。所述基因组区域可包含 至少20个表11中所识别的那些区域。所述基因组区域可包含至少60 个表11中所识别的那些区域。所述基因组区域可包含至少100个表11 中所识别的那些区域。所述基因组区域可包含至少200个表11中所识 别的那些区域。所述基因组区域可包含至少300个表11中所识别的那 些区域。所述基因组区域可包含至少400个表11中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述基因组区 域可以是表11中所识别的区域。至少约5%的所述基因组区域可以是 表11中所识别的区域。至少约10%的所述基因组区域可以是表11中所 识别的区域。至少约20%的所述基因组区域可以是表11中所识别的区 域。至少约30%的所述基因组区域可以是表11中所识别的区域。至少 约40%的所述基因组区域可以是表11中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表12中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表12中所识别的那些区域。所述基因组区域可包含至少125, 130,135,140,145,150,155,160,165,170,175,180,185,190,195,200, 210,220,230,240,250,260,270,280,290,300,310,320,330,340,350, 375,400,420,440,460,480或500个表12中所识别的那些区域。所述基 因组区域可包含至少2个表12中所识别的那些区域。所述基因组区域 可包含至少20个表12中所识别的那些区域。所述基因组区域可包含至 少60个表12中所识别的那些区域。所述基因组区域可包含至少100个 表12中所识别的那些区域。所述基因组区域可包含至少200个表12中 所识别的那些区域。所述基因组区域可包含至少300个表12中所识别 的那些区域。所述基因组区域可包含至少400个表12中所识别的那些 区域。所述基因组区域可包含至少500个表12中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述基因组区 域可以是表12中所识别的区域。至少约5%的所述基因组区域可以是 表12中所识别的区域。至少约10%的所述基因组区域可以是表12中所 识别的区域。至少约20%的所述基因组区域可以是表12中所识别的区 域。至少约30%的所述基因组区域可以是表12中所识别的区域。至少 约40%的所述基因组区域可以是表12中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表13中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表13中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,1050,1100,1150,1200,1250,1300,1350,1400,或1450个表13 中所识别的那些区域。所述基因组区域可包含至少2个表13中所识别 的那些区域。所述基因组区域可包含至少20个表13中所识别的那些区 域。所述基因组区域可包含至少60个表13中所识别的那些区域。所述基因组区域可包含至少100个表13中所识别的那些区域。所述基因组 区域可包含至少300个表13中所识别的那些区域。所述基因组区域可 包含至少500个表13中所识别的那些区域。所述基因组区域可包含至 少1000个表13中所识别的那些区域。所述基因组区域可包含至少1300 个表13中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述基因组区 域可以是表13中所识别的区域。至少约5%的所述基因组区域可以是 表13中所识别的区域。至少约10%的所述基因组区域可以是表13中所 识别的区域。至少约20%的所述基因组区域可以是表13中所识别的区 域。至少约30%的所述基因组区域可以是表13中所识别的区域。至少 约40%的所述基因组区域可以是表13中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表14中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表14中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,1050,1100,1150,1200,1210,1220,1230,或1240个表14中所识 别的那些区域。所述基因组区域可包含至少2个表14中所识别的那些 区域。所述基因组区域可包含至少20个表14中所识别的那些区域。所 述基因组区域可包含至少60个表14中所识别的那些区域。所述基因组区域可包含至少100个表14中所识别的那些区域。所述基因组区域可 包含至少300个表14中所识别的那些区域。所述基因组区域可包含至 少500个表14中所识别的那些区域。所述基因组区域可包含至少1000 个表14中所识别的那些区域。所述基因组区域可包含至少1100个表14 中所识别的那些区域。所述基因组区域可包含至少1200个表14中所识 别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述基因组区 域可以是表14中所识别的区域。至少约5%的所述基因组区域可以是 表14中所识别的区域。至少约10%的所述基因组区域可以是表14中所 识别的区域。至少约20%的所述基因组区域可以是表14中所识别的区 域。至少约30%的所述基因组区域可以是表14中所识别的区域。至少 约40%的所述基因组区域可以是表14中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表15中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100,110,120,130,140,150,160,或170个表15中所识别的那些区 域。所述基因组区域可包含至少2个表15中所识别的那些区域。所述 基因组区域可包含至少20个表15中所识别的那些区域。所述基因组区 域可包含至少60个表15中所识别的那些区域。所述基因组区域可包含 至少100个表15中所识别的那些区域。所述基因组区域可包含至少120 个表15中所识别的那些区域。所述基因组区域可包含至少150个表15 中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述基因组区 域可以是表15中所识别的区域。至少约5%的所述基因组区域可以是 表15中所识别的区域。至少约10%的所述基因组区域可以是表15中所 识别的区域。至少约20%的所述基因组区域可以是表15中所识别的区 域。至少约30%的所述基因组区域可以是表15中所识别的区域。至少 约40%的所述基因组区域可以是表15中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表16中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表16中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,1100,1200,1300,1400,1500,1600,1700,1800,1900,2000,或 2050个表16中所识别的那些区域。所述基因组区域可包含至少2个表 16中所识别的那些区域。所述基因组区域可包含至少20个表16中所识 别的那些区域。所述基因组区域可包含至少60个表16中所识别的那些 区域。所述基因组区域可包含至少100个表16中所识别的那些区域。 所述基因组区域可包含至少300个表16中所识别的那些区域。所述基 因组区域可包含至少500个表16中所识别的那些区域。所述基因组区 域可包含至少1000个表16中所识别的那些区域。所述基因组区域可包 含至少1200个表16中所识别的那些区域。所述基因组区域可包含至少 1500个表16中所识别的那些区域。所述基因组区域可包含至少1700 个表16中所识别的那些区域。所述基因组区域可包含至少2000个表16 中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述基因组区 域可以是表16中所识别的区域。至少约5%的所述基因组区域可以是 表16中所识别的区域。至少约10%的所述基因组区域可以是表16中所 识别的区域。至少约20%的所述基因组区域可以是表16中所识别的区 域。至少约30%的所述基因组区域可以是表16中所识别的区域。至少 约40%的所述基因组区域可以是表16中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表17中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表17中所识别的那些区域。所述基因组区域可包含至少250, 300,350,400,450,500,550,600,650,700,750,800,850,900,950, 1000,1010,1020,1030,1040,1050,1060,1070,或1080个表17中所识 别的那些区域。所述基因组区域可包含至少2个表17中所识别的那些 区域。所述基因组区域可包含至少20个表17中所识别的那些区域。所 述基因组区域可包含至少60个表17中所识别的那些区域。所述基因组区域可包含至少100个表17中所识别的那些区域。所述基因组区域可 包含至少300个表17中所识别的那些区域。所述基因组区域可包含至 少500个表17中所识别的那些区域。所述基因组区域可包含至少1000 个表17中所识别的那些区域。所述基因组区域可包含至少1050个表17 中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述基因组区 域可以是表17中所识别的区域。至少约5%的所述基因组区域可以是 表17中所识别的区域。至少约10%的所述基因组区域可以是表17中所 识别的区域。至少约20%的所述基因组区域可以是表17中所识别的区 域。至少约30%的所述基因组区域可以是表17中所识别的区域。至少 约40%的所述基因组区域可以是表17中所识别的区域。
所述基因组区域可包含至少2,3,4,5,6,7,8,9,10,11,12,13, 14,15,16,17,18,19,20或更多个表18中所识别的那些区域。所述基因 组区域可包含至少25,30,35,40,45,50,55,60,65,70,75,80,85,90, 95,100个表18中所识别的那些区域。所述基因组区域可包含至少125, 130,135,140,145,150,155,160,165,170,175,180,185,190,195,200, 210,220,230,240,250,260,270,280,290,300,310,320,330,340,350, 375,400,420,440,460,480,500,520,540,或555个表18中所识别的 那些区域。所述基因组区域可包含至少2个表18中所识别的那些区域。 所述基因组区域可包含至少20个表18中所识别的那些区域。所述基因 组区域可包含至少60个表18中所识别的那些区域。所述基因组区域可 包含至少100个表18中所识别的那些区域。所述基因组区域可包含至 少200个表18中所识别的那些区域。所述基因组区域可包含至少300 个表18中所识别的那些区域。所述基因组区域可包含至少400个表18 中所识别的那些区域。所述基因组区域可包含至少500个表18中所识 别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述基因组区 域可以是表18中所识别的区域。至少约5%的所述基因组区域可以是 表18中所识别的区域。至少约10%的所述基因组区域可以是表18中所 识别的区域。至少约20%的所述基因组区域可以是表18中所识别的区 域。至少约30%的所述基因组区域可以是表18中所识别的区域。至少 约40%的所述基因组区域可以是表18中所识别的区域。
所述低聚核苷酸可选择性地捕获5,10,15,20,25,或30或更 多不同的基因组区域。
所述低聚核苷酸可与小于1.5,1.47,1.45,1.42,1.40,1.37,1.35, 1.32,1.30,1.27,1.25,1.22,1.20,1.17,1.15,1.12,1.10,1.07,1.05,1.02, 或1.0兆碱基(Mb)的基因组杂交。所述低聚核苷酸可与小于1000,900, 800,700,600,500,400,300,200,100,90,80,70,60,50,40,30,20,或 10kb的基因组杂交。
所述低聚核苷酸能够与大于1,2,3,4,5,6,7,8,9,10,15,20, 25,30,35,40,45,或50kb的基因组杂交。所述低聚核苷酸能够与大于 5kb的基因组杂交。所述低聚核苷酸能够与大于10kb的基因组杂交。 所述低聚核苷酸能够与大于30kb的基因组杂交。所述低聚核苷酸能够 与大于50kb的基因组杂交。
所述多个基因组区域可包含2个或更多个不同的蛋白质编码 区域。所述多个基因组区域可包含至少3个不同的蛋白质编码区域。 所述蛋白质编码区域可包含外显子、内含子、未翻译区域或其组合。
所述多个基因组区域可包含至少一个非编码区域。所述非编 码区域可包含非编码RNA、核糖体RNA(rRNA)、转移RNA(tRNA) 或其组合。
本文进一步公开了测定循环肿瘤DNA(ctDNA)的量的方法。 所述方法可包括(a)将一个或多个衔接子与源自于受试者样品的无细 胞DNA(cfDNA)连接以生成一个或多个衔接子连接的cfDNA;(b)对所 述一个或多个衔接子连接的cfDNA进行测序,其中所述待测序的衔接 子连接的cfDNA基于包含多个基因组区域的选择子集合;及(c)基于从 衔接子连接的cfDNA获得的测序信息,采用计算机可读媒介物测定来 自肿瘤的cfDNA量。
在某些情况中,测序不包括全基因组测序。在某些情况中, 测序不包括全外显子组测序。测序可包括大规模平行测序。
所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表2中所识别的那些区 域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100,150,200,250,300,350,400,450,500, 或525个表2中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表2中所识别的那些区域。所述选择子集合的基因组区域可 包含至少20个表2中所识别的那些区域。所述选择子集合的基因组区 域可包含至少60个表2中所识别的那些区域。所述选择子集合的基因 组区域可包含至少100个表2中所识别的那些区域。所述选择子集合的 基因组区域可包含至少300个表2中所识别的那些区域。所述选择子集 合的基因组区域可包含至少400个表2中所识别的那些区域。所述选择 子集合的基因组区域可包含至少500个表2中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表2中所识别的区域。至少约5%的所述选择子 集合的基因组区域可以是表2中所识别的区域。至少约10%的所述选 择子集合的基因组区域可以是表2中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表2中所识别的区域。至少约30% 的所述选择子集合的基因组区域可以是表2中所识别的区域。至少约 40%的所述选择子集合的基因组区域可以是表2中所识别的区域。
所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表6中所识别的那些区 域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100,150,200,250,300,350,400,450,500, 550,600,650,700,750,800,或830个表6中所识别的那些区域。所述 选择子集合的基因组区域可包含至少2个表6中所识别的那些区域。所 述选择子集合的基因组区域可包含至少20个表6中所识别的那些区 域。所述选择子集合的基因组区域可包含至少60个表6中所识别的那 些区域。所述选择子集合的基因组区域可包含至少100个表6中所识别 的那些区域。所述选择子集合的基因组区域可包含至少300个表6中所 识别的那些区域。所述选择子集合的基因组区域可包含至少600个表6 中所识别的那些区域。所述选择子集合的基因组区域可包含至少800 个表6中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表6中所识别的区域。至少约5%的所述选择子 集合的基因组区域可以是表6中所识别的区域。至少约10%的所述选 择子集合的基因组区域可以是表6中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表6中所识别的区域。至少约30% 的所述选择子集合的基因组区域可以是表6中所识别的区域。至少约 40%的所述选择子集合的基因组区域可以是表6中所识别的区域。
所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表7中所识别的那些区 域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100,125,150,175,200,225,250,275,300, 325,350,375,400,425,或450个表7中所识别的那些区域。所述选择 子集合的基因组区域可包含至少2个表7中所识别的那些区域。所述选 择子集合的基因组区域可包含至少20个表7中所识别的那些区域。所 述选择子集合的基因组区域可包含至少60个表7中所识别的那些区 域。所述选择子集合的基因组区域可包含至少100个表7中所识别的那 些区域。所述选择子集合的基因组区域可包含至少200个表7中所识别 的那些区域。所述选择子集合的基因组区域可包含至少300个表7中所 识别的那些区域。所述选择子集合的基因组区域可包含至少400个表7 中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表7中所识别的区域。至少约5%的所述选择子 集合的基因组区域可以是表7中所识别的区域。至少约10%的所述选 择子集合的基因组区域可以是表7中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表7中所识别的区域。至少约30% 的所述选择子集合的基因组区域可以是表7中所识别的区域。至少约 40%的所述选择子集合的基因组区域可以是表7中所识别的区域。
所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表8中所识别的那些区 域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表8中所识别的那些区域。所述选择 子集合的基因组区域可包含至少250,300,350,400,450,500,550,600,650,700,750,800,850,900,950,1000,或1050个表8中所识别的那些 区域。所述选择子集合的基因组区域可包含至少2个表8中所识别的那 些区域。所述选择子集合的基因组区域可包含至少20个表8中所识别 的那些区域。所述选择子集合的基因组区域可包含至少60个表8中所 识别的那些区域。所述选择子集合的基因组区域可包含至少100个表8 中所识别的那些区域。所述选择子集合的基因组区域可包含至少300 个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至 少600个表8中所识别的那些区域。所述选择子集合的基因组区域可包 含至少800个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至少1000个表8中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表8中所识别的区域。至少约5%的所述选择子 集合的基因组区域可以是表8中所识别的区域。至少约10%的所述选 择子集合的基因组区域可以是表8中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表8中所识别的区域。至少约30% 的所述选择子集合的基因组区域可以是表8中所识别的区域。至少约 40%的所述选择子集合的基因组区域可以是表8中所识别的区域。
所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表9中所识别的那些区 域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表9中所识别的那些区域。所述选择 子集合的基因组区域可包含至少250,300,350,400,450,500,550,600,650,700,750,800,850,900,950,1000,1100,1200,1300,1400,或 1500个表9中所识别的那些区域。所述选择子集合的基因组区域可包 含至少2个表9中所识别的那些区域。所述选择子集合的基因组区域可 包含至少20个表9中所识别的那些区域。所述选择子集合的基因组区 域可包含至少60个表9中所识别的那些区域。所述选择子集合的基因 组区域可包含至少100个表9中所识别的那些区域。所述选择子集合的 基因组区域可包含至少300个表9中所识别的那些区域。所述选择子集 合的基因组区域可包含至少500个表9中所识别的那些区域。所述选择 子集合的基因组区域可包含至少1000个表9中所识别的那些区域。所 述选择子集合的基因组区域可包含至少1300个表9中所识别的那些区 域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表9中所识别的区域。至少约5%的所述选择子 集合的基因组区域可以是表9中所识别的区域。至少约10%的所述选 择子集合的基因组区域可以是表9中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表9中所识别的区域。至少约30% 的所述选择子集合的基因组区域可以是表9中所识别的区域。至少约 40%的所述选择子集合的基因组区域可以是表9中所识别的区域。
所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表10中所识别的那些 区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表10中所识别的那些区域。所述 选择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,或330个表10中所识别的那些区域。所述 选择子集合的基因组区域可包含至少2个表10中所识别的那些区域。 所述选择子集合的基因组区域可包含至少20个表10中所识别的那些 区域。所述选择子集合的基因组区域可包含至少60个表10中所识别的 那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表10中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表10中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表10中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表10中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表10中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表10中所识别的区 域。
所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表11中所识别的那些 区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表11中所识别的那些区域。所述 选择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,330,340,350,375,400,420,440,或460 个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至 少2个表11中所识别的那些区域。所述选择子集合的基因组区域可包 含至少20个表11中所识别的那些区域。所述选择子集合的基因组区域 可包含至少60个表11中所识别的那些区域。所述选择子集合的基因组 区域可包含至少100个表11中所识别的那些区域。所述选择子集合的 基因组区域可包含至少200个表11中所识别的那些区域。所述选择子 集合的基因组区域可包含至少300个表11中所识别的那些区域。所述 选择子集合的基因组区域可包含至少400个表11中所识别的那些区 域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表11中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表11中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表11中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表11中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表11中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表11中所识别的区 域。
所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表12中所识别的那些 区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表12中所识别的那些区域。所述 选择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,330,340,350,375,400,420,440,460,480 或500个表12中所识别的那些区域。所述选择子集合的基因组区域可 包含至少2个表12中所识别的那些区域。所述选择子集合的基因组区 域可包含至少20个表12中所识别的那些区域。所述选择子集合的基因 组区域可包含至少60个表12中所识别的那些区域。所述选择子集合的 基因组区域可包含至少100个表12中所识别的那些区域。所述选择子 集合的基因组区域可包含至少200个表12中所识别的那些区域。所述 选择子集合的基因组区域可包含至少300个表12中所识别的那些区 域。所述选择子集合的基因组区域可包含至少400个表12中所识别的 那些区域。所述选择子集合的基因组区域可包含至少500个表12中所 识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表12中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表12中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表12中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表12中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表12中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表12中所识别的区 域。
所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表13中所识别的那些 区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表13中所识别的那些区域。所述 选择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1050,1100,1150,1200, 1250,1300,1350,1400,或1450个表13中所识别的那些区域。所述选 择子集合的基因组区域可包含至少2个表13中所识别的那些区域。所 述选择子集合的基因组区域可包含至少20个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表13中所识别的那 些区域。所述选择子集合的基因组区域可包含至少100个表13中所识 别的那些区域。所述选择子集合的基因组区域可包含至少300个表13 中所识别的那些区域。所述选择子集合的基因组区域可包含至少500 个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至 少1000个表13中所识别的那些区域。所述选择子集合的基因组区域可 包含至少1300个表13中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表13中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表13中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表13中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表13中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表13中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表13中所识别的区 域。
所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表14中所识别的那些 区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表14中所识别的那些区域。所述 选择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1050,1100,1150,1200, 1210,1220,1230,或1240个表14中所识别的那些区域。所述选择子集 合的基因组区域可包含至少2个表14中所识别的那些区域。所述选择 子集合的基因组区域可包含至少20个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表14中所识别的那些区域。 所述选择子集合的基因组区域可包含至少100个表14中所识别的那些 区域。所述选择子集合的基因组区域可包含至少300个表14中所识别 的那些区域。所述选择子集合的基因组区域可包含至少500个表14中 所识别的那些区域。所述选择子集合的基因组区域可包含至少1000 个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至 少1100个表14中所识别的那些区域。所述选择子集合的基因组区域可 包含至少1200个表14中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表14中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表14中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表14中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表14中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表14中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表14中所识别的区 域。
所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表15中所识别的那些 区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100,110,120,130,140,150,160,或 170个表15中所识别的那些区域。所述选择子集合的基因组区域可包 含至少2个表15中所识别的那些区域。所述选择子集合的基因组区域 可包含至少20个表15中所识别的那些区域。所述选择子集合的基因组 区域可包含至少60个表15中所识别的那些区域。所述选择子集合的基 因组区域可包含至少100个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至少120个表15中所识别的那些区域。所述选 择子集合的基因组区域可包含至少150个表15中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表15中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表15中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表15中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表15中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表15中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表15中所识别的区 域。
所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表16中所识别的那些 区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表16中所识别的那些区域。所述 选择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1100,1200,1300,1400, 1500,1600,1700,1800,1900,2000,或2050个表16中所识别的那些区 域。所述选择子集合的基因组区域可包含至少2个表16中所识别的那 些区域。所述选择子集合的基因组区域可包含至少20个表16中所识别 的那些区域。所述选择子集合的基因组区域可包含至少60个表16中所 识别的那些区域。所述选择子集合的基因组区域可包含至少100个表 16中所识别的那些区域。所述选择子集合的基因组区域可包含至少 300个表16中所识别的那些区域。所述选择子集合的基因组区域可包 含至少500个表16中所识别的那些区域。所述选择子集合的基因组区 域可包含至少1000个表16中所识别的那些区域。所述选择子集合的基 因组区域可包含至少1200个表16中所识别的那些区域。所述选择子集 合的基因组区域可包含至少1500个表16中所识别的那些区域。所述选 择子集合的基因组区域可包含至少1700个表16中所识别的那些区域。 所述选择子集合的基因组区域可包含至少2000个表16中所识别的那 些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表16中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表16中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表16中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表16中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表16中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表16中所识别的区 域。
所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表17中所识别的那些 区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表17中所识别的那些区域。所述 选择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1010,1020,1030,1040, 1050,1060,1070,或1080个表17中所识别的那些区域。所述选择子集 合的基因组区域可包含至少2个表17中所识别的那些区域。所述选择 子集合的基因组区域可包含至少20个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至少60个表17中所识别的那些区域。 所述选择子集合的基因组区域可包含至少100个表17中所识别的那些 区域。所述选择子集合的基因组区域可包含至少300个表17中所识别 的那些区域。所述选择子集合的基因组区域可包含至少500个表17中 所识别的那些区域。所述选择子集合的基因组区域可包含至少1000 个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至 少1050个表17中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表17中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表17中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表17中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表17中所识别的区域。至少约30%的所述选择子集合的基因组区域可以是表17中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表17中所识别的区 域。
所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9, 10,11,12,13,14,15,16,17,18,19,20或更多个表18中所识别的那些 区域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50, 55,60,65,70,75,80,85,90,95,100个表18中所识别的那些区域。所述 选择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,330,340,350,375,400,420,440,460,480, 500,520,540,或555个表18中所识别的那些区域。所述选择子集合的 基因组区域可包含至少2个表18中所识别的那些区域。所述选择子集 合的基因组区域可包含至少20个表18中所识别的那些区域。所述选择 子集合的基因组区域可包含至少60个表18中所识别的那些区域。所述 选择子集合的基因组区域可包含至少100个表18中所识别的那些区 域。所述选择子集合的基因组区域可包含至少200个表18中所识别的 那些区域。所述选择子集合的基因组区域可包含至少300个表18中所 识别的那些区域。所述选择子集合的基因组区域可包含至少400个表 18中所识别的那些区域。所述选择子集合的基因组区域可包含至少 500个表18中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表18中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表18中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表18中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表18中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表18中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表18中所识别的区 域。
所述多个基因组区域可包含存在于至少60%,62%,65%,67%, 70%,72%,75%,77%,80%,82%,85%,87%,90%,92%,95%,97%或 99%或更多的患癌症受试者群体中的一种或多种突变。所述多个基因 组区域可包含存在于至少60%或更多的患癌症受试者群体中的一种 或多种突变。所述多个基因组区域可包含存在于至少72%或更多的患 癌症受试者群体中的一种或多种突变。所述多个基因组区域可包含存 在于至少80%或更多的患癌症受试者群体中的一种或多种突变。
所述多个选择子集合的基因组区域的总范围可包含小于1.5 兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或 150kb的基因组。所述多个选择子集合的基因组区域的总范围可包含 小于1.5Mb的基因组。所述多个选择子集合的基因组区域的总范围可 包含小于1Mb的基因组。所述多个选择子集合的基因组区域的总范围 可包含小于500kb的基因组。所述多个选择子集合的基因组区域的总 范围可包含小于300kb的基因组。所述多个选择子集合的基因组区域 的总范围可包含小于100,90,80,70,60,50,40,30,20,10或5kb的基 因组。所述多个选择子集合的基因组区域的总范围可包含小于100kb 的基因组。所述多个选择子集合的基因组区域的总范围可包含小于75 kb的基因组。所述多个选择子集合的基因组区域的总范围可包含小于 50kb的基因组。
所述多个选择子集合的基因组区域的总范围可为在100 kb-1000kb之间的基因组。所述多个选择子集合的基因组区域的总范 围可为在100kb-500kb之间的基因组。所述多个选择子集合的基因组 区域的总范围可为在100kb-300kb之间的基因组。所述多个选择子集 合的基因组区域的总范围可为在5kb-500kb之间的基因组。所述多个 选择子集合的基因组区域的总范围可为在5kb-300kb之间的基因组。 所述多个选择子集合的基因组区域的总范围可为在5kb-200kb之间 的基因组。所述多个选择子集合的基因组区域的总范围可为在1 kb-100kb之间的基因组。所述多个选择子集合的基因组区域的总范围 可为在1kb-50kb之间的基因组。
本文进一步公开了制备测序文库的方法。所述方法可包括(a) 对源自于样品的无细胞DNA(cfDNA)进行扩增反应以产生多个扩增 子,其中所述扩增反应可包括20个或更少的扩增周期;及(b)制备测 序文库,所述文库包括多个扩增子。
所述扩增反应可包括19,18,17,16,15,14,13,12,11,或10个 或更少的扩增周期。所述扩增反应可包括15个或更少的扩增周期。
所述方法可进一步包括将衔接子与cfDNA的一端或多端连 接。所述衔接子可包含多个低聚核苷酸。所述衔接子可包含一个或多 个脱氧核糖核苷酸。所述衔接子可包含核糖核苷酸。所述衔接子可以 是单链的。所述衔接子可以是双链的。所述衔接子可包含双链和单链 部分。例如,所述衔接子可以是Y-型衔接子。所述衔接子可以是线形 衔接子。所述衔接子可以是环形衔接子。所述衔接子可包含分子条形 码、样品索引、引物序列、接头序列或其组合。分子条形码可与样品 索引相邻。分子条形码可与引物序列相邻。样品索引可与引物序列相 邻。接头序列可将分子条形码与样品索引连接。接头序列可将分子条 形码与引物序列连接。接头序列可将样品索引与引物序列连接。
所述衔接子可包含分子条形码。所述分子条形码可包含随机 序列。所述分子条形码可包含预定序列。两个或更多个衔接子可包含 两个或更多个不同的分子条形码。所述分子条形码可优化以使二聚作 用最小化。所述分子条形码可优化以能够鉴别,即使具有扩增或测序 错误。例如,第一个分子条形码的扩增可能引入单个碱基错误。所述 第一个分子条形码可包含大于不同于其他分子条形码的单一碱基。因 此,所述具有单一碱基错误的第一个分子条形码可能仍然作为第一个 分子条形码被识别。所述分子条形码可包含至少2,3,4,5,6,7,8,9,10 或更多个核苷酸。所述分子条形码可包含至少3个核苷酸。所述分子 条形码可包含至少4个核苷酸。所述分子条形码可包含少于20,19,18, 17,16,或15个核苷酸。所述分子条形码可包含少于10个核苷酸。所 述分子条形码可包含少于8个核苷酸。所述分子条形码可包含少于6 个核苷酸。所述分子条形码可包含2-15个核苷酸。所述分子条形码可包含2-12个核苷酸。所述分子条形码可包含3-10个核苷酸。所述分子 条形码可包含3-8个核苷酸。所述分子条形码可包含4-8个核苷酸。所 述分子条形码可包含4-6个核苷酸。
所述衔接子可包含样品索引。所述样品索引可包含随机序 列。所述样品索引可包含预定序列。两组或多组衔接子可包含两个或 更多个不同的样品索引。一组衔接子中的衔接子可包含相同的样品索 引。所述样品索引可优化以使二聚作用最小化。所述样品索引可优化 以能够鉴别,即使具有扩增或测序错误。例如,第一个样品索引的扩 增可能引入单个碱基错误。所述第一个样品索引可包含大于不同于其 他样品索引的单一碱基。因此,所述具有单一碱基错误的第一个样品 索引可能仍然作为第一个分子条形码被识别。所述样品索引可包含至 少2,3,4,5,6,7,8,9,10或更多个核苷酸。所述样品索引可包含至少3 个核苷酸。所述样品索引可包含至少4个核苷酸。所述样品索引可包 含少于20,19,18,17,16,或15个核苷酸。所述样品索引可包含少于10 个核苷酸。所述样品索引可包含少于8个核苷酸。所述样品索引可包 含少于6个核苷酸。所述样品索引可包含2-15个核苷酸。所述样品索 引可包含2-12个核苷酸。所述样品索引可包含3-10个核苷酸。所述样 品索引可包含3-8个核苷酸。所述样品索引可包含4-8个核苷酸。所述 样品索引可包含4-6个核苷酸。
所述衔接子可包含引物序列。所述引物序列可以是PCR引物 序列。所述引物序列可以是测序引物。
衔接子可与样品中核酸的一个末端连接。所述核酸可以是 DNA。该DNA可以是无细胞DNA(cfDNA)。该DNA可以是循环肿瘤 DNA(ctDNA)。核酸可以是RNA。衔接子可与核酸的两端连接。衔接 子可与单链核酸的一端或多端连接。衔接子可与双链核酸的一端或多 端连接。
衔接子可通过连接反应与核酸连接。连接反应可以是平端连 接反应。连接反应可以是粘性末端连接反应。衔接子可通过引物延长 与核酸连接。衔接子可通过反转录与核酸连接。衔接子可通过杂交与 核酸连接。衔接子可包含至少与核酸部分互补的序列。或者,在某些 情况中,衔接子不包含与核酸互补的序列。
所述方法可进一步包括将cfDNA分段。所述方法可进一步包 括cfDNA末端修复。所述方法可进一步包括将cfDNA A-加尾。
本文进一步公开了确定选择子集合统计学显著性的方法。所 述方法可包括(a)检测来自于受试者的一个或多个样品中的一种或多 种突变的存在,其中所述一种或多种突变可基于包括含所述一种或多 种突变的基因组区域的选择子集合;(b)确定存在于样品中的一种或 多种突变的突变类型;及(c)通过基于存在于所述一种或多种样品中的 突变的突变类型的p值计算ctDNA检测指数,确定所述选择子集合的 统计学显著性。
在某些情况中,如果在两个或更多个受试者样品中观察到重 排,那么该ctDNA检测指数为0。至少所述两个或更多个样品之一可 以是血浆样品。至少所述两个或更多个样品之一可以是肿瘤样品。所 述重排可以是融合或断点。
在某些情况中,如果存在一种类型的突变,那么该ctDNA检 测指数为所述一种类型的突变的p值。
在某些情况中,如果(i)样品中存在两种或更多种类型的突变; (ii)所述两种或更多种类型突变的p值小于0.1;及(iii)重排不是所述突 变类型之一,那么该ctDNA检测基于所述两种或更多种突变的组合p 值计算。所述两种或更多种突变的p值可根据Fisher法组合。所述两种 或更多种类型突变之一可以是SNV。该SNV的p值可以通过蒙特卡罗 抽样法测定。所述两种或更多种类型突变之一可以是插入/缺失。
在某些情况中,如果(i)样品中存在两种或更多种类型的突变; (ii)至少所述两种或更多种类型突变之一的p值大于0.1;及(iii)重排不 是所述突变类型之一,那么该ctDNA检测基于所述两种或更多种类型 突变之一的p值计算。所述两种或更多种类型突变之一可以是SNV。 该ctDNA检测指数可基于该SNV的p值计算。所述两种或更多种类型 突变之一可以是插入/缺失。
本文进一步公开了识别一种或多种核酸中重排的方法。所述 方法可包括(a)获得属于多个基因组区域的测序信息;(b)制作基因组 区域的清单,其中所述基因组区域可与一个或多个候选物重排位点相 邻或所述基因组区域可包含一个或多个候选物重排位点;及(c)将运算 法则应用于该基因组区域清单以验证候选物重排位点,从而识别重 排。
所述测序信息可包括比对文件。所述比对文件可包括配对末 端(pair-end)读数、外显子坐标及对照基因组的比对文件。
所述测序信息可从数据库获得。该数据库可包含属于患疾病 或病症的受试者群体的测序信息。所述疾病或病症可以是癌症。
所述测序信息可从一个或多个受试者的一个或多个样品中 获得。
制作基因组区域清单可包括基于所述测序信息识别不一致 的读数(read)对。所述不一致的读数对可以指读数及其配偶体,其中: (i)插入片段大小可不等于预计的数据集分布;或(ii)读数的作图方向 可能是意料不到的。
制作基因组区域清单可包括基于所述测序信息将不一致的 读数对分类。制作基因组区域清单可进一步包括将所述基因组区域排 序。所述基因组区域可按不一致读数深度的递减顺序排序。
制作基因组区域清单可包括筛选具有最小用户定义的读数 深度的基因组区域。
所述最小用户定义的读数深度可以是至少2x,3x,4x,5x,6x, 7x,8x,9x,10x或更多。
所述方法可进一步包括消除重复片段。
制作基因组区域清单可包括应用一种或多种运算法则。所述 运算法则可正确地分析成对的读数,其中所述成对的读数之一可以被 截以形成软-剪的(soft-clipped)读数。所述运算法则可基于模式分析软 -剪的读数。所述模式可基于跳过的碱基(skippedbases)的x值(Sx)和相 邻的作图碱基(mapped bases)的y值(My)。所述模式可以是MySx或 SxMy。
应用所述运算法则验证候选物重排位点可包括删除读出频 率小于2的候选物重排。应用所述运算法则验证候选物重排位点可包 括基于其读出频率将候选物重排排序。
应用所述运算法则验证候选物重排位点可包括比较两种或 更多种候选物重排的读数。应用所述运算法则验证候选物重排位点可 包括将候选物重排识别为重排,如果两个或更多个读数具有序列排 比。
应用所述运算法则验证候选物重排位点可包括评估读数间 的一致性。评估读数间的一致性可包括将所述候选物重排位点的第一 个测序读数分成多个长度为l的子序列。评估读数间的一致性可包括 将所述候选物重排位点的第二个测序读数分成多个长度为l的子序 列。评估读数间的一致性可包括比较所述第一个测序读数的子序列与 所述第二个测序读数的子序列。如果可达到最小的匹配阈值,所述第 一和第二个测序读数可以认为是一致的。
应用所述运算法则验证候选物重排位点可包括用计算机进 行所述候选物重排位点的验证。用计算机验证可包括将所述候选物重 排位点的测序读数与对照重排序列比对。所述对照重排序列可从对照 基因组获得。候选物重排位点可被认为是重排,如果读数与对照重排 序列定位的同一性至少为70%,75%,80%,85%,90%,95%,97%或更 多。
候选物重排位点可被识别是重排,如果所述比对序列的长度 可以是所述候选物重排位点读数长度的至少70%,75%,80%,85%, 90%,或95%或更多。
本文进一步公开了识别源自肿瘤的单一核苷酸变体(SNVs) 的方法。该方法可包括(a)获得患癌症的或怀疑患癌症的受试者样品; (b)对该样品进行测序反应以生成测序信息;(c)将运算法则应用于该 测序信息以形成基于步骤(b)的测序信息的候选物肿瘤等位基因清 单,其中候选物肿瘤等位基因可包含可能不是种系SNP的非显性碱 基;及(d)基于所述候选物肿瘤等位基因清单识别源自肿瘤的SNVs。
制作候选物肿瘤等位基因清单可包括按其丰度分数将肿瘤 等位基因排序。制作候选物肿瘤等位基因清单可包括筛选丰度分数为 百分位数前第70、第75、第80、第85、第87、第90、第92、第95、或 第97的肿瘤等位基因。制作候选物肿瘤等位基因清单可包括筛选丰度 分数小于受试者样品中总等位基因的1%,0.9%,0.8%,0.7%,0.6%, 0.5%,0.4%,0.3%,0.2%,0.1%的肿瘤等位基因。
制作候选物肿瘤等位基因清单可包括按其测序深度将肿瘤 等位基因排序。制作候选物肿瘤等位基因清单可包括筛选满足最小测 序深度的肿瘤等位基因。所述最小测序深度可以是至少100x,200x, 300x,400x,500x,600x,700x,800x,900x,1000x或更多。
制作候选物肿瘤等位基因清单可包括计算肿瘤等位基因的 链偏差百分比。制作候选物肿瘤等位基因清单可包括基于其链偏差百 分比将肿瘤等位基因排序。制作候选物肿瘤等位基因清单可包括筛选 具有用户定义的链偏差百分比的肿瘤等位基因。所述用户定义的链偏 差百分比可小于或等于60%,65%,70%,75%,80%,85%,90%,95%, 或97%。
制作候选物肿瘤等位基因清单可包括将肿瘤等位基因序列 与对照肿瘤等位基因相比。制作候选物肿瘤等位基因清单可进一步包 括识别不同于对照肿瘤等位基因的肿瘤等位基因。
识别不同于对照肿瘤等位基因的肿瘤等位基因可包括采用 一种或多种统计学分析。所述一种或多种统计学分析可包括采用 Bonferroni法计算肿瘤等位基因的Bonferroni校正二项式概率。
制作候选物肿瘤等位基因清单可包括基于Bonferroni校正二 项式概率筛选肿瘤等位基因。候选物肿瘤等位基因的Bonferroni校正 二项式概率可小于或等于3x10-8,2.9x10-8,2.8x10-8,2.7x10-8,2.6 x10-8,2.5x10-8,2.3x10-8,2.2x10-8,2.1x10-8,2.09x10-8,2.08x10-8,2.07 x10-8,2.06x10-8,2.05x10-8,2.04x10-8,2.03x10-8,2.02x10-8,2.01x10-8或2x10-8。候选物肿瘤等位基因的Bonferroni校正二项式概率可小于 或等于2.08x10-8
识别不同于对照肿瘤等位基因的肿瘤等位基因可进一步包 括将Z检验应用于Bonferroni校正二项式概率以生成肿瘤等位基因的 Bonferroni校正单尾Z分数。Bonferroni校正单尾Z分数大于或等于6, 5.9,5.8,5.7,5.6,5.5.,5.4,5.3,5.2,5.1,或5.0的肿瘤等位基因可被认为 与对照肿瘤等位基因不同。
所述样品可以是血液样品。所述样品可以是成对的样品。
本文进一步公开了制备选择子集合的方法。该方法可包括(a) 获得患癌症受试者肿瘤样品的测序信息;(b)将所述肿瘤样品的测序 信息与该受试者的非肿瘤样品的测序信息比较以识别特定于该肿瘤 样品测序信息的一种或多种突变;及(c)制备包含一个或多个基因组区 域的选择子集合,所述基因组区域包含特定于该肿瘤样品测序信息的 一种或多种突变。
所述选择子集合可包含属于一个或多个基因组区域的测序 信息。所述选择子集合可包含属于一个或多个基因组区域的基因组坐 标。
所述选择子集合可用于制备多个选择性地与一个或多个基 因组区域杂交的低聚核苷酸。所述多个低聚核苷酸可以是生物素化 的。
所述一种或多种突变可包括SNVs。所述一种或多种突变可包 括插入/缺失。所述一种或多种突变可包括重排。
制备选择子集合可包括用本文所公开的方法识别源自肿瘤 的SNVs。
制备选择子集合可包括用本文所公开的方法识别源自肿瘤 的重排。
附图说明
图1:深度测序的癌症个体化概况分析(CAPP-Seq)的开发。(a) CAPP-Seq选择子的流程描述设计及其在评价循环肿瘤DNA上的应 用。(b)NSCLC选择子的多阶段设计。阶段1:捕获含有NSCLC中已知 /可疑驱动子突变的基因组区域。阶段2-4:用来自TCGA的肺腺癌和鳞状细胞癌的WES数据加入含复发SNV的外显子(n=407)。迭代筛选 区域以使突变/肿瘤数最大化,而使选择子大小最小化。复发指数=每 kb的外显子所覆盖的全部具有突变的独特患者。阶段5-6:加入预测 的NSCLC驱动子的外显子和在涉及ALK,ROS1,和RET的重排中含断点的内含子/外显子。底部:在各设计阶段期间选择子长度的增加。(c) 分析TCGA WES组中由NSCLC选择子覆盖的SNV/肺腺癌数(训练; n=229)及独立的肺腺癌WES数据集(验证;n=183)。结果与从外显子组 中随机取样的选择子比较(随机选择子和NSCLC选择子之差的P<1.0x10-6)。(d)SNV/从来自TCGA的结肠(COAD)、直肠(READ)和子宫 内膜样(UCEC)癌的三个腺癌的WES数据中由NSCLC选择子识别的 患者数。
图2:分析性能。(a-c)血浆cfDNA的代表性CAPP-Seq分析的 质量参数,包括所测序的cfDNA片段(a)的长度分布,选择子中所有基 因组区域中的测序范围的深度(b)。(c)4个患者cfDNA样品中的测序深 度变化。橙色被膜代表s.e.m.。(d)分析从13个NSCLC患者和5个健康 个体收集的40个血浆cfDNA样品的背景比率。(e)分析d中的生物学背 景,聚焦在来自之前报道的SnaPshot小组的107个复发体细胞突变。 排除给定患者肿瘤中发现的突变。所有受试者的平均频率为~0.01%。 单一异常值突变(TP53 R175H)由橙色菱形表示。(f)e中的个体突变按 最多到最少复发排序,根据那40个cfDNA样品的平均频率。p-值阈值 0.01(水平线)相应于d中整个选择子背景的第99百分位数。(g)用 CAPP-Seq对突变体等位基因频率的预期值与实测值的稀释液系列分 析。稀释液系列通过将成片段的HCC78 DNA加入到对照cfDNA中制 备。(h)分析所考虑的SNV数对丰度分数估计值的影响(95%置信区间, 以灰色表示)。(i)用小图h的数据分析所考虑的SNV数对预期的和实 测的癌症分数(蓝色虚线)之间的平均相关系数的影响。显示了e-f 的95%置信区间。g的统计学变化显示为s.e.m。
图3:灵敏度和特异性分析。(a)来自预处理样品和健康对照 的cfDNA样品的接受者操作特性(ROC)分析,分成所有期(n=13个患者) 和II-IV期(n=9个患者)。曲线下面积(AUC)值有统计学意义,P< 0.0001。Sn,灵敏度;Sp,特异性。(b)与a相关的原始数据。TP,真阳性;FP,假阳性;TN,真阴性;FN,假阴性。(c)由CT或PET/CT 测定的肿瘤体积与由CAPP-Seq测定的预处理样品(n=9)ctDNA的pg /mL之间的一致性。患者P6和P9被排除,分别由于不能准确地评价肿 瘤体积和与融合捕获相关的差别。值得注意的是,在非-log空间中进 行线性回归;log-log轴和虚线对角线的目的仅为显示。
图4:循环肿瘤DNA的无创检测和监控。(a-h)用CAPP-Seq监 控疾病。(a-b)响应于III期NSCLC患者治疗的疾病负荷变化,采用SNV 和插入/缺失(a),而IV期NSCLC患者采用三个重排断点(b)。(c)IV期 NSCLC患者中不同报道基因(SNV和融合)之间的一致性。(d)在IV期NSCLC患者中检测亚克隆EGFR T790M耐药突变。优势克隆和含 T790M克隆的丰度分数在原发性肿瘤(左)和血浆样品(右)中显示。 (e-f)后处理cfDNA样品的CAPP-Seq结果对IIB期NSCLC患者(e)和 IIIB期NSCLC患者(f)的临床结果是由预测性的。(g-h)两个IB期NSCLC 患者的肿瘤负荷监控,在完成肿瘤切除(g)和立体定向放疗(SABR)(h) 后。(i)CAPP-Seq潜在应用于无活检肿瘤基因型分型或癌症筛查的探 索性分析。在不知原发性肿瘤突变的情况下检查所有表1中患者血浆 cfDNA样品的突变体等位基因异常值的存在;显示了具有可检测的突 变的样品,以及两个确定是癌症阴性的样品(P1-2和P16-3)及无源自于 肿瘤的SNV的样品(P9-5;参见表1)。所检测的最低突变体等位基因分 数是~0.5%(点状水平线)。误差条d表示s.e.m。Tu,肿瘤;Ef,胸腔 积液;SD,稳定的疾病;PD,进行性疾病;PR,部分响应;CR,完 全响应;DOD,死于疾病。
图5:与检测血浆中ctDNA的其他方法比较。(a)对血浆中肿瘤 cfDNA的不同检测限而言,做CAPP-Seq,WES,和WGS分析模型。计 算基于每个NSCLC用CAPP-Seq检测的突变的中位数(例如,4)和NSCLC外显子组和基因组中的突变的报道数。垂直的虚线表示该研 究中NSCLC患者血浆中的源自于肿瘤的cfDNA的中间分数(见下)。 (b)WES和WGS达到与CAPP-Seq相同的理论检测限的成本(如图5a 的黑色实线所示)。
图6:CAPP-Seq计算流程。用图表表示血浆中突变发现和定 量的生物信息学流程的主要步骤。
图7:频发突变的NSCLC外显子捕获已知驱动子的统计学富 集。我们采用两个度量以优先排列包括在CAPP-SeqNSCLC选择子中 的具有频发突变的外显子。第一个,称为复发指数(RI),定义为具有 体细胞突变的独特患者(例如肿瘤)数/千碱基的给定外显子,第二个度量基于在给定kb的外显子中具有突变的独特患者(例如肿瘤)的 最小数。在407个肺腺癌(LUAD)和鳞状细胞癌(SCC)患者的合并的组 中,我们分析了含至少一个由TCGA基因分型(n=47,769)的非沉默 SNV的外显子。(a)在RI≥30(插入)时已知/疑似NSCLC驱动子高度富集,包含1.8%(n=861)所分析的外显子。(b)在≥3具有突变的患者/ 外显子(插入)时已知/疑似NSCLC驱动子高度富集,包括16%所分析 的外显子。
图8:断点定位的FACTERA分析流程。FACTERA采用主要 步骤以准确地从比对的配对末端测序数据中识别基因组断点,用两个 假设基因w和v说明。(a)不合适配对的,或“不一致”读数(以黄色表示) 用于定位潜在融合中涉及的基因(在该情形中,w和v)。(b)因为被截断的(例如,软剪的)读数可表示融合断点,在由w和v描述的基因 组区域内的任何此类读数也被进一步分析。(c)考虑软剪的读数,R1 和R2,其非剪除的部分分别定位于w和v。如果R1和R2来源于包含w 和v之间的真实融合的片段,那么R1的定位部分应与R2的软剪的部分匹配,反之亦然。这通过FACTERA评价,采用快速k-mer索引和比较。 (d)描述了R1和R2的四种可能方向。然而,仅病例1a和2a可产生有效 的融合。因此,在k-mer比较之前(小图c),对病例1b和2b分别采取 R1的反向补充,将它们转变成病例1a和2a。(e)在某些情形中,立即位于断点侧面的短序列是相同的,防止该断点的含糊的确定。令迭代 子i和j表示R1和R2之间的第一匹配序列位置。为了调解序列重叠,采 用通过bp2和i及bp1和j之间的距离差确定的序列抵消,FACTERA任意 地调节R2中的断点(例如,bp2)以与R1匹配(例如,bp1)。说明 了两个病例,相应于d中描述的序列方向。
图9:FACTERA在NSCLC细胞系NCI-H3122和HCC78上的应 用,及断点的Sanger-验证。(a)堆存NCI-H3122中识别的定位于 EML4-ALK融合的软剪的读数的子集以及相应的Sanger色谱图。(b)同 a,但是HCC78中识别的SLC34A2-ROS1易位。
图10:用优化的文库制备方法改善CAPP-Seq性能。用32ng 血浆输入cfDNA,我们比较了标准和‘用珠’5文库制备方法,以及两个 商业上可获得的DNA聚合酶(Phusion和KAPAHiFi)。我们用退化的低 聚核苷酸PCR(DOP)也比较了模板预扩增与全基因组扩增(WGA)。这 些比较所考虑的指标包括(a)测序过的捕获的cfDNA片段的长度,(b) 选择子中所有基因组区域中的测序范围的深度和一致性,及(c)序列定 位和捕获统计,包括唯一性。共同地,这些比较识别了KAPA HiFi 聚合酶和具有最鲁棒和一致性能的“用珠”方案。
图11:优化Illumina文库制备期间从低输入cfDNA中回收等位 基因。条形表示CAPP-Seq文库的相对产率,这些文库由4ng cfDNA 构建,通过将CAPP-Seq中n=4预筛选报道基因的定量PCR测定值与 预定义的扩增效率平均计算。(a)于16℃、十六小时的连接反应增加了 连接反应效率和报道基因回收率。(b)衔接子连接反应体积对连接反 应效率和报道基因回收率不具有显著影响。(c)进行“用珠”酶促反应以 使试管转移步骤最小化增加报道基因回收率。(d)在连接反应期间增 加衔接子浓度增加了连接反应效率和报道基因回收率。当采用KAPA HiFi DNA聚合酶时报道基因回收率也比用Phusion DNA聚合酶要高 (e)及当采用a-d中有修改的KAPA文库制备试剂盒时,与带自动化 Mondrian SP工作站的NuGENSP Ovation超低文库系统比较(f)。采用 2-ΔCt法通过qPCR测定相对报道基因丰度。具有相等方差的双侧t检验 用于测试组间的统计学意义。所有值均以平均值±s.d.表示,N.S.,无统计学意义。基于这些结果,我们估计合并a和c–e中的方法上的修 改提高了NGS文库的产率3.3倍。
图12:各种输入cfDNA的量的CAPP-Seq性能。(a)测序过的捕 获的cfDNA片段的长度。(b)选择子中所有基因组区域中的测序范围的 深度(复制前去除)。(c)序列定位和捕获统计。按预期,更多的输 入cfDNA质量与更多所测序的唯一片段相关。
图13.文库复杂性和分子回收率分析。(a)将所有患者和对照 样品的复制后读数中的附加的文库复杂性的预期比例作图,包括血浆 cfDNA(n=40)和成对肿瘤/PBL样品(各自的n=17)。由于自然出现在血 浆中的cfDNA片段的高度刻板大小,当与超声剪切的基因组DNA比较 时,血浆中循环的DNA的任何两个片段天生地更可能偶然从不同的 原始分子产生,要么考虑肿瘤要么非肿瘤细胞作为该cfDNA的来源。 为了估计该“失去的”复杂性,我们推理,具有相同开始/终止坐标的 两个DNA片段(例如,配对的末端读数),它们不同于单一优先定 义的种系变体(例如,一个母系的和一个父系的等位基因),代表两 个唯一的和独立的起始分子而不是技术性人工制品(例如PCR复制 品)。因此,分享具有杂合SNP的母系和父系种系等位基因的相同开 始/终止坐标的片段数用于估测附加文库的复杂性。表3、20和21也提 供了更新了这些数据中因素的文库复杂性估测并按本文所描述的确 定。(b)通过测定所产生的DNA的质量凭经验评价cfDNA(n=40)中的 分子回收,基于质量输入、PCR周期数和效率(平均值=46%)与预 测的文库产率比较。(a-b)值以平均值±95%置信区间表示。
图14.文库交叉污染分析。评估了相同泳道中多路复用的 cfDNA样品中的患者特异性纯合子种系SNP的等位基因分数。按方法 中描述的呼唤SNP。cfDNA样品中的平均“交叉污染”率为0.06%,以 水平圆点线表示。该污染水平太低以致于不能影响我们的肿瘤负荷估 测,该负荷给出低分数的NSCLC患者血浆中源自于肿瘤的cfDNA(中 位数为~0.1%;图5a)(例如,给定样品将平均代表由另一个样品 ctDNA污染为0.06x 0.1=0.006%)。值得注意的是,为了使样品间污 染的风险最小化,我们使用气溶胶屏蔽顶端,在通风橱中工作,并且 在相同泳道不多路复用肿瘤和血浆文库。
图15.所捕获的序列中的选择子宽度偏差分析。因为NSCLC 选择子被设计用于靶向hg19对照基因组,我们推理,SNV的选择子偏 差,如果有,杂合种系SNP中非对照与对照等位基因的系统性更低的 比率应该是可辨别的。因此,我们分析患者PBL样品中由VarScan检测的高度信心SNP,其中高度信心被定义为具有dbSNP(版本137.0) 的普通SNP子集中的非对照分数>10%的变体。如所示,我们检测到 了对于对照得非常小的偏离(11个样品中的8个的中位非对照等位基 因频率为49%;剩余3个样品无偏差)。重要的是,此类偏差太小以致于不能显著地影响我们的结果。方框表示四分点范围,晶须 (whiskers)包括了第10和第90百分位数。种系SNP用VarScan 2识别。
图16:用两个NSCLC细胞系进行CAPP-Seq的凭经验加入分 析。(a)加入到对照HCC78 DNA中的NCI-H3122 DNA的预期的和实 测的(由CAPP-Seq)分数是线性的,对所有测试的分数而言(0.1%,1%, 及10%;R2=1)。(b)采用a中的数据,分析所考虑的SNV数对丰度分数 估测值的影响(95%置信区间,以灰色表示)。(c)用小图a的数据分 析所考虑的SNV数对平均相关系数和预期的和实测的癌症分数(蓝色 虚线)之间的变化系数的影响。(d)在所有测试的加入浓度中,HCC78 中的EML4-ALK融合的预期的和实测的分数是线性的(R2=0.995)(断 点证明,参见图9b)。基于100%H3122 DNA中的融合的相对丰度将 实测的EML4-ALK分数标准化。此外,单一杂合插入(‘插入/缺失’;chr7: 107416855,+T)和NCI-H3122中的4.9kb纯合子缺失(‘缺失’,chr17: 29422259-29592392)与规定浓度是一致的。a中的值以平均值±s.e.m表 示。
图17:为所有患者定位的碱基对分辨率断点和FACTERA列 举的细胞系。涉及ALK(a)和ROS1(b)的基因融合用图表描述。顶部 小图的图表表示ALK,ROS1,EML4,KIF5B,SLC34A2,CD74,MKX,和FYN中的断点的准确基因组位置(HG19 NCBI Build 37.1/GRCh37)。底 部小图描述了位于所预测基因融合侧面的外显子,符号标明5’融合伴 侣基因,及最后融合的外显子及随后的3’融合伴侣基因和第一融合外 显子。例如,在S13del37中,SLC34A2的R34外显子1-13(排除外显子 13的3’37核苷酸)与ROS1的外显子34-43融合。FYN中的外显子来自其 5’UTR并在第一编码外显子前面。在所预测的FYN-ROS1融合中的绿 色点状线表示ROS1外显子33中的第一框内蛋氨酸,它保留编码ROS1 激酶域的开放阅读框。所有重排各自独立地由PCR和/或FISH证实。
图18:融合的存在与CAPP-Seq检测的SNV数反向相关。对表 1所列的每个患者而言,对所识别的SNV数与所检测的基因组融合的 有(n=11)或无(n=6)作图。用双侧Wilcoxon秩和检验确定统计学 意义,并将所总结的值以平均值±s.e.m.表示。
图19.CAPP-Seq性能的接受者操作曲线(ROC)分析包括预处 理和后处理样品。灵敏度和特异性的比较获得了非重复数据删除数据 (小图a和c)和重复数据删除(PCR后复制除去)数据(小图b和d)。 另外,所有阶段(小图a和b)均与晚期(II-IV期,小图c和d)的中间阶段比较。最后,对所有ROC分析而言,显示了插入/缺失/融合滤器 对灵敏度/特异性的影响。表4提供了非重复数据删除和重复数据删除 cfDNA样品的报道基因分数。
图20.所有患者报告中CAPP-Seq灵敏度和特异性及所测序的 血浆cfDNA样品。所显示的所有值显示ctDNA检测指数为0.03。检测 度量、癌症阳性,癌症阴性和未知类别的确定详见方法。
图21.用CAPP-Seq进行无创癌症筛查,涉及图4i。(a)用患有 NSCLC的患者样品识别所证明的血浆cfDNA中的候选物SNV的步骤 (P6,参见表4)。逐步过滤之后,应用异常值检测。(b)同a,但是 采用其肿瘤手术除去的患者的血浆cfDNA样品。如预料,未识别出 SNV。(c,d)三个另外的有代表性的样品,对在该研究中分析的患者 应用可追溯的筛选。P2和P5样品证实了源自于肿瘤的SNVs,虽然P9 是癌症阳性但是缺乏源自于肿瘤的SNVs。红点,证实了源自于肿瘤 的SNVs;绿点,背景噪音。
图22描述了患者分析的流程图。
图23显示了实施本公开的方法的系统。
具体实施方式
由于体细胞突变,癌细胞的基因组序列从来源于此的个体基 因组序列变成,这是癌细胞的特征。大多数人类癌症在个体基因的体 细胞突变上是相对混杂的。具体地说,在大多数人类肿瘤中,单一基 因的频发体细胞改变占患者的少数,而仅少数肿瘤类型可用在预定位 置的少数频发突变来定义。本发明通过使用从具有选择子集合的总基 因组核酸中,富集来源于肿瘤的核酸分子来解决这一问题。选择子的 设计是关键,因为(1)它指示对具有特定癌症的患者而言那些突变可 以高概率被检测,及(2)所述选择子的大小(以kb计)直接影响成本和 序列范围的深度。
虽然具体的基因变化在个体与个体之间及癌症类型之间不 同,但是有显示复发变化的基因组区域存在。在那些区域中,任何特 定个体的癌症将显示基因变异的可能性增加。癌细胞中的基因改变提 供了一种手段,通过它可以将癌细胞与正常(例如非癌症)细胞区分。 无细胞DNA,例如在血液样品中发现的DNA片段可分析肿瘤细胞基 因变异特异性的存在。然而,此类样品中肿瘤DNA的绝对水平通常 是小的,基因变异可能仅占整个基因组中的非常小的一部分。本发明 通过提供选择性检测与癌症相关的突变区域的方法解决该问题,从而 使得癌细胞DNA或RNA能从正常细胞DNA或RNA背景中准确地检测 出。虽然本文所公开的方法可能具体地指DNA(例如,无细胞DNA, 循环肿瘤DNA),但是应理解的是本文所公开的方法、组合物和系统 能应用于所有类型的核酸(例如,RNA,DNA,RNA/DNA杂化物)。
本文提供了检测不均匀样品中少量核酸的超灵敏方法。所述 方法可包括(a)获得源自于受试者无细胞DNA(cfDNA)样品的序列信 息;及(b)用来源于(a)的序列信息检测样品中的无细胞少量核酸,其 中所述方法能够检测小于总cfDNA的2%的无细胞少量核酸的百分 比。所述少量核酸可指源自于不同于受试者正常细胞或组织的细胞或 组织的核酸。例如,受试者可能受病原体例如细菌感染,少量核酸可 能是来源于病原体的核酸。在另一个例子中,受试者是捐献者细胞、 组织或器官的接受者,少量核酸可能是来源于捐献者细胞、组织或器 官的核酸。在另一个例子中,受试者是怀孕的受试者,少量核酸可能 是来源于胎儿的核酸。所述方法可包括采用序列信息检测胎儿中的一 种或多种体细胞突变。所述方法可包括采用序列信息检测胎儿中的一 种或多种受精卵形成后突变。或者,受试者可能患有癌症,少量核酸 可能是来源于癌细胞的核酸。
本文提供了检测样品中循环肿瘤DNA的超灵敏方法。所述方 法可称为深度测序的癌症个体化概况分析(CAPP-Seq)。所述方法可包 括(a)获得源自于受试者无细胞DNA(cfDNA)样品的序列信息;及(b) 用来源于(a)的序列信息检测样品中的无细胞肿瘤DNA(ctDNA),其中 所述方法能够检测小于总cfDNA的2%的ctDNA的百分比。CAPP-Seq 可准确地定量早期和晚期阶段肿瘤中的无细胞肿瘤DNA。CAPP-Seq 可以识别检测限为<0.01%的突变体等位基因下至0.025%。来源于肿 瘤的DNA水平通常与不同疗法的临床响应平行,CAPP-Seq可识别可 操作突变。CAPP-Seq可常规地应用于非侵害性检测和监控肿瘤,因 此促进了个体化癌症治疗。
本文公开了测定样品中循环肿瘤DNA(ctDNA)量的方法。所 述方法可包括(a)将一个或多个衔接子与源自于受试者样品的无细胞 DNA(cfDNA)连接以生成一个或多个衔接子连接的cfDNA;(b)对所述 一个或多个衔接子连接的cfDNA进行测序,其中所述待测序的衔接子 连接的cfDNA基于包含多个基因组区域的选择子集合;及(c)基于从所 述衔接子连接的cfDNA获得的测序信息,采用计算机可读媒介物测定 源自于肿瘤的cfDNA的量。
本文进一步公开了检测、诊断、或预测受试者癌症状态或结 果的方法。该方法可包含:(a)获得源自于受试者无细胞DNA(cfDNA) 样品的序列信息;(b)用从(a)获得的序列信息检测样品中无细胞肿瘤 DNA(ctDNA),其中所述方法能够检测少于总cfDNA 2%的ctDNA百 分比。
本文进一步公开了诊断受试者癌症状态或结果的方法。所述 方法可包括(a)获得采自于受试者样品的无细胞基因组DNA的序列信 息,其中所述序列信息源自于至少80%受癌症折磨的受试者群体的突 变基因组区域;及(b)基于所述序列信息诊断受试者中的癌症,所述 癌症选自由肺癌、乳腺癌、结直肠癌和前列腺癌组成的群组,其中所 述方法的灵敏度为80%。
本文进一步公开了预测受试者癌症状态或结果的方法。所述 方法可包括(a)获得源自于受试者样品的无细胞基因组DNA序列信 息,其中所述序列信息来自至少80%受病症折磨的受试者群体的突变 区域;及(b)基于该序列信息确定受试者病症的预测。
本文进一步公开了为患癌症的受试者筛选疗法的方法。所述 方法可包括(a)获得源自于受试者无细胞DNA(cfDNA)样品的序列信 息;及(b)用从(a)获得的序列信息检测样品中无细胞肿瘤 DNA(ctDNA),其中所述方法能够检测少于2%总cfDNA的ctDNA含 量。
或者,所述方法可包括(a)获得源自于受试者样品的无细胞基 因组DNA序列信息,其中所述序列信息来自至少80%受病症折磨的受 试者群体的突变区域;及(b)基于该序列信息确定受试者病症的治疗 方案。
本文进一步公开了为受癌症折磨或易于患癌症的受试者诊 断、预测或确定治疗方案的方法。所述方法可包括(a)获得受试者无细 胞DNA样品中的基因组DNA选择区域的序列信息;(b)利用该序列信 息确定所述选择区域中一种或多种突变的存在或者不存在,其中至少 70%受癌症折磨的受试者群体在所述区域具有突变;及(c)基于一种或 多种突变的存在或者不存在,提供受试者的诊断、预测或治疗方案报 告。
本文进一步公开了评估受试者中肿瘤负荷的方法。所述方法 可包括(a)获得来自于受试者样品中无细胞核酸的序列信息;(b)用计 算机可读的介质测定该样品中循环肿瘤DNA(ctDNA)的量;(c)基于所 述ctDNA的量评估肿瘤负荷;及(d)向该受试者或该受试者的代表报告 肿瘤负荷。
本文进一步公开了确定受试者体内癌症疾病状态的方法。所 述方法可包括(a)获得受试者样品中的循环肿瘤DNA(ctDNA)的量;(b) 获得受试者肿瘤的体积;及(c)基于ctDNA的量与肿瘤体积的比率确定 受试者癌症的疾病状态。
本文公开了特异性大于90%的检测至少50%I期癌症的方法。 所述方法可包括(a)对源自于样品的无细胞DNA进行测序,其中所述 待测序的无细胞DNA基于包含多个基因组区域的选择子集合;(b)基 于所述无细胞DNA的测序信息用计算机可读媒介物测定无细胞DNA 的量;及(c)基于无细胞DNA的量检测样品的I期癌症。
本文公开了特异性大于90%的检测至少60%II期癌症的方 法,所述方法包括(a)对源自于样品的无细胞DNA进行测序,其中所 述待测序的无细胞DNA基于包含多个基因组区域的选择子集合;(b) 基于所述无细胞DNA的测序信息用计算机可读媒介物测定无细胞DNA的量;及(c)基于无细胞DNA的量检测样品的II期癌症。
本文公开了特异性大于90%的检测至少60%III期癌症的方 法,所述方法包括(a)对源自于样品的无细胞DNA进行测序,其中所 述待测序的无细胞DNA基于包含多个基因组区域的选择子集合;(b) 基于所述无细胞DNA的测序信息用计算机可读媒介物测定无细胞 DNA的量;及(c)基于无细胞DNA的量检测样品的III期癌症。
本文公开了特异性大于90%的检测至少60%IV期癌症的方 法,所述方法包括(a)对源自于样品的无细胞DNA进行测序,其中所 述待测序的无细胞DNA基于包含多个基因组区域的选择子集合;(b) 基于所述无细胞DNA的测序信息用计算机可读媒介物测定无细胞DNA的量;及(c)基于无细胞DNA的量检测样品的IV期癌症。
本文还提供了用于本文所公开的方法的选择子集合。所述选 择子集合可包括多个包含存在于患癌症的受试者群体中的一种或多 种突变的基因组区域。所述选择子集合可以是用于CAPP-Seq方法的 频发突变的基因组区域的文库。频发突变的基因组区域的靶向可区别 肿瘤细胞DNA和正常DNA。另外,频发突变的基因组区域的靶向可 同时检测点突变、拷贝数变体、插入/缺失及重排。
所述选择子集合可以是计算机可读媒介物。所述计算机可读 媒介物可包括两种或更多种基因组DNA区域的核酸序列信息,其中(a) 所述基因组区域包含来自受癌症折磨的受试者群体的大于80%肿瘤 中的一种或多种突变;(b)所述基因组DNA区域表示小于1.5Mb的基 因组;及(c)下述中的一种或多种:(i)所述病症不是毛细胞白血病、卵 巢癌、瓦尔登斯特伦巨球蛋白血症;(ii)各基因组DNA区域包含至少 一个受癌症折磨的受试者中的至少一种突变;(iii)所述癌症包括两种 或更多种不同类型的癌症;(iv)所述两个或更多个基因组区域衍生自 两种或更多种不同的基因;(v)所述基因组区域包含两种或更多种突变;或(vi)所述两个或更多个基因组区域包含至少10kb。
所述选择子集合可提供,例如,用于选择性扩增源自肿瘤的 核酸的低聚核苷酸。所述选择子集合可提供,例如,可用于选择性捕 获或富集源自肿瘤的核酸的低聚核苷酸。本文公开了包含一组基于所 述选择子集合的低聚核苷酸的组合物。所述组合物可包含一组与多个 基因组DNA区域选择性杂交的低聚核苷酸,其中(a)>80%的来自于癌 症受试者群体的肿瘤包括一种或多种所述基因组DNA区域中的突 变;(b)所述多个基因组DNA区域表示小于1.5Mb的基因组;及(c)所 述组的低聚核苷酸包含5个或更多个与多个基因组DNA区域选择性 杂交的不同的低聚核苷酸。
所述组合物可包含与多个基因组区域选择性杂交的低聚核 苷酸,其中所述基因组区域包含存在于>60%患癌症受试者群体的多 个突变。
本文进一步公开了阵列,该阵列包含多个低聚核苷酸以选择 性捕获基因组区域,其中所述基因组区域包含存在于>60%患癌症受 试者群体的多个突变。
本文进一步公开了制备用于癌症的选择子集合的方法。所述 制备用于癌症的选择子集合的方法可包括(a)识别所选择的癌症的频 发突变的基因组DNA区域;及(b)用一个或多个下列标准将区域优先 排序:(i)所述基因组区域的复发指数(RI),其中所述RI为具有体细胞 突变的特殊患者或肿瘤数/基因组区域的长度;及(ii)在一定基因组区 域长度内具有突变的特殊患者或肿瘤的最小数。
本文公开了富集样品中的循环肿瘤DNA的方法。所述方法可 包括将样品中的无细胞核酸与多个低聚核苷酸接触,其中所述多个低 聚核苷酸与多个含存在于>60%患癌症受试者群体中的多种突变的多 个基因组区域选择性地杂交。
或者,所述方法可包括将样品中的无细胞核酸与一组低聚核 苷酸接触,其中所述组的低聚核苷酸选择性地与多个基因组区域杂 交,其中(a)>80%的癌症受试者群体的肿瘤包括在该基因组区域中的 一种或多种突变;(b)所述多个基因组区域表示小于1.5Mb的基因组; 及(c)所述组的低聚核苷酸包含5个或更多个选择性地与多个基因组区 域杂交的不同低聚核苷酸。
本文进一步公开了制备用于测序的核酸样品的方法。所述 方法可包括(a)对源自于样品的无细胞DNA(cfDNA)进行扩增反应以 产生多个扩增子,其中所述扩增反应包含20或更少的扩增周期;及(b) 制备测序文库,所述文库包含多个扩增子。
本文进一步公开了用于实施本文所公开的方法的一个或多 个方法或步骤的系统。图23显示为实施本文所公开的方法(例如制备 选择子集合和/或数据分析)所设置或配置的计算机系统(本文中也 称为“系统”)2301。系统2301包括中央处理器(CPU,本文中也称为 “处理器”和“计算机处理器”)2305,它可以是单核或多核处理器,或 用于平行处理的多个处理器。系统2301也包括存储器2310(例如,随 机存取存储器,只读存储器,闪存),电子存储单元2315(例如,硬 盘),用于与一个或多个其他系统通讯的通讯接口2320(例如,网络适配器),及外部设备2325,例如快速缓冲贮存区,其他存储器,数 据保存和/或电子显示适配器。存储器2310、存储单元2315、接口2320 及外部设备2325通过通讯总线(实线)(例如母板)与CPU2305连通。 存储单元2315可以是用于存储数据的数据存储单元(或数据仓库)。系统2301在通讯接口2320的帮助下有效地与计算机网络(“网络”) 2330连接。网络2330可以是国际互联网、互联网和/或外联网,或内 联网和/或与国际互联网连通的外联网。在某些情况中,网络2330是 电信和/或数据网络。网络2330可包括一个或多个计算机服务器,该服务器能分配计算机的运作,如云计算。在某些情况中,网络2330, 在系统2301的帮助下,能实施对等网络,这能使与系统2301连接的设 备表现为客户端或服务器。
系统2301与处理系统2335连通。处理系统2335可被装配以实 施本文所公开的方法。在某些例子中,处理系统2335是核酸测序系统, 例如,如下一代测序系统(例如,Illumina测序仪,Ion Torrent测序仪, Pacific Biosciences测序仪)。处理系统2335可通过网络2330,或通过 直接(例如,有线的,无线的)连接与系统2301连通。处理系统2335 可被装配用于分析,例如核酸序列分析。
本文所公开的方法可通过存储在系统2301的电子存储位置 中的机器(或计算机处理器)可执行编码(或软件)(例如,如存储 器2310或电子存储单元2315)实施。在使用期间,编码可通过处理器 2305执行。在某些例子中,编码可从存储单元2315中检索并存储在存 储器2310中,以便处理器2305便利地获取。在某些情形中,电子存储 单元2315可以排除,而机器可执行的指令存储在存储器2310中。
本文公开了用于计算一个或多个基因组区域复发指数的计 算机可实施系统。所述计算机可实施系统可包括(a)包含装配用于实施 可执行的指令的操作系统的数字处理设备和存储设备;及(b)计算机 程序,包括可通过该数字处理设备执行的指令以生成复发指数,所述 计算机程序包含(i)装配的第一个软件模块以接收属于多个突变的数 据;(ii)装配的第二个软件模块以便将多个突变与一个或多个基因组 区域和/或一个或多个受试者联系起来;及(iii)装配的第三个软件模块 以计算一个或多个基因组区域的复发指数,其中所述复发指数基于突 变数/受试者/核苷酸序列的千碱基数。
选择子集合
本文所公开的方法、试剂盒和系统可包括一个或多个选择子 集合或其用途。选择子集合可以是包含与目标一种或多种癌症相关的 基因组(例如,基因组区域)的区域序列信息的生物信息学构建物。 选择子集合可以是包含用于一个或多个基因组区域的基因组坐标的 生物信息学构建物。所述基因组区域可包含一个或多个频发突变的区 域。所述基因组区域可包含一种或多种与一种或多种目标癌症相关的 突变。
选择子集合中的基因组区域数可随癌症性质而变。大量基因 组区域的内含物一般可增加特殊体细胞突变将被识别的可能性。在文 库中包含太多基因组区域并不是不计成本的,然而,因为基因组区域 数直接与分析中必须测序的核酸长度相关。极端地来说,肿瘤样品和 基因组样品的全基因组能够被测序,而所得序列可以比较以记录任何 差别。
本发明的选择子集合可通过识别特定癌症中的频发突变的 基因组区域处理该问题,然后将这些区域排序以使该区域将包括区别 特殊肿瘤中的体细胞突变的可能性最大化。频发突变的基因组区域的 文库,或“选择子集合”在特定癌症或癌症类型的全部群体中可使用, 而不需要为每个受试者优化。
所述选择子集合可包含至少约2,3,4,5,6,7,8,或9个不同的 基因组区域。所述选择子集合可包含至少约10个不同的基因组区域; 至少约25个,至少约50个,至少约100个,至少约150个,至少约200 个,至少约250个,至少约300个,至少约350个,至少约400个,至少约500个,至少约600个,至少约700个,至少约800个,至少约900个, 至少约1000个或更多个不同的基因组区域。
所述选择子集合可包含约10-约1000个不同的基因组区域。所 述选择子集合可包含约10-约900个不同的基因组区域。所述选择子集 合可包含约10-约800个不同的基因组区域。所述选择子集合可包含约 10-约700个不同的基因组区域。所述选择子集合可包含约20-约600个 不同的基因组区域。所述选择子集合可包含约20-约500个不同的基因 组区域。所述选择子集合可包含约20-约400个不同的基因组区域。所 述选择子集合可包含约50-约500个不同的基因组区域。所述选择子集 合可包含约50-约400个不同的基因组区域。所述选择子集合可包含约 50-约300个不同的基因组区域。
所述选择子集合可包含多个基因组区域。所述多个基因组区 域可包含最多5000个不同的基因组区域。在某些实施方案中,所述多 个基因组区域包含最多2000个不同的基因组区域。在某些实施方案 中,所述多个基因组区域包含最多1000个不同的基因组区域。在某些 实施方案中,所述多个基因组区域包含最多500个不同的基因组区域。 在某些实施方案中,所述多个基因组区域包含最多400个不同的基因 组区域。在某些实施方案中,所述多个基因组区域包含最多300个不 同的基因组区域。在某些实施方案中,所述多个基因组区域包含最多 200个不同的基因组区域。在某些实施方案中,所述多个基因组区域 包含最多150个不同的基因组区域。在某些实施方案中,所述多个基 因组区域包含最多100个不同的基因组区域。在某些实施方案中,所 述多个基因组区域包含最多50个不同的基因组区域或者甚至更少。
基因组区域可包含蛋白质编码区域,或其部分。蛋白质编码 区域可指为蛋白质编码的基因组的区域。蛋白质编码区域可包含内含 子、外显子和/或未翻译区域(UTR)。基因组区域可包含两个或更 多个蛋白质编码区域,或其部分。例如,基因组区域可包含外显子部 分和内含子部分。基因组区域可包含三个或更多个蛋白质编码区域, 或其部分。例如,基因组区域可包含第一外显子部分、内含子部分和 第二外显子部分。或者,或另外,基因组区域可包含外显子部分、内 含子部分和未翻译区域部分。
基因组区域可包含基因。基因组区域可包含仅基因的一部 分。基因组区域可包含基因的外显子。基因组区域可包含基因的内含 子。基因组区域可包含基因的未翻译区域(UTR)。在某些情况中,基 因组区域不包含全基因。基因组区域可包含少于90%,85%,80%,75%, 70%,65%,60%,55%,50%,45%,40%,35%,30%,25%,20%,15%, 10%,或5%的基因。基因组区域可包含少于60%的基因。
基因组区域可包含非蛋白质编码区域。非蛋白质编码区域也 可称为非编码区域。非蛋白质编码区域可指不对蛋白质进行编码的基 因组区域。非蛋白质编码区域可转录到非编码RNA(ncRNA)中。非编 码RNA可具有已知功能。例如,非编码RNA可以是转移RNA(tRNA)、 核糖体RNA(rRNA),和/或调节RNA。非编码RNA可具有未知功能。 ncRNA的例子包括,但不限于,tRNA,rRNA,核小RNA(snRNA), 核仁小RNA(snoRNA),微小RNA,小干扰RNA(siRNAs),Piwi-相互 作用RNA(piRNA),及长ncRNA(例如,Xist,HOTAIR)。基因组区域可 包含假基因、转位子和/或反转录转座子。
基因组区域可包含频发突变的区域。频发突变的区域可指基 因组(通常为人类基因组)的区域,其中总体上相对于基因组,目标 癌症中的基因组突变的可能性增加。频发突变区域可指含在所述群体 中复发的一种或多种突变的基因组区域。例如,频发突变区域可指含 存在于群体中的两个或更多个受试者中的突变的基因组区域。频发突 变的区域的特征可在于“复发指数”(RI)。RI通常指在特定千碱基的基 因组序列中发生突变的个体受试者(例如,癌症患者)的数目(例如, 具有突变的患者数/基因组区域kb长度)。基因组区域的特征还可在 于具有突变的患者数/外显子。各度量的阈值(例如RI和患者/外显子 或基因组区域)可以选择以在统计学上为目标癌症的已知/疑似驱动 子富集。目标癌症的已知/疑似驱动子可以是基因。在非小细胞肺癌 (NSCLC)中,这些度量值可使已知/疑似驱动子富集(参见表2中所列 的基因)。阈值也可通过任意挑选各度量值的前百分位数筛选。
选择子集合可包含基因组区域,该基因组区域包含在群体中 不复发的突变。例如,基因组区域可包含存在于特定受试者中的一种 或多种突变。在某些情况中,受试者中包含一种或多种突变的基因组 区域可用于制备用于该受试者的个体化选择子集合。
术语“突变”可指有机体的基因组中的基因变更。对本发明的 目的而言,有关突变通常是相对于种系序列的变化,例如癌细胞特定 变化。突变可包括单一核苷酸变体(SNV),拷贝数变体(CNV),插入, 缺失和重排(例如,融合)。所述选择子集合可包括含选自由SNV,CNV,插入,缺失和重排组成的群组的一种或多种突变的一个或多个 基因组区域。所述选择子集合可包括含选自由SNV,CNV,插入,缺 失和重排组成的群组的两种或更多种突变的多个基因组区域。所述选 择子集合可包括含选自由SNV,CNV,插入,缺失和重排组成的群组的三种或更多种突变的多个基因组区域。所述选择子集合可包括含选 自由SNV,CNV,插入,缺失和重排组成的群组的四种或更多种突变 的多个基因组区域。所述选择子集合可包括含选自由SNV,CNV,插 入,缺失和重排组成的群组的五种或更多种突变的多个基因组区域。所述选择子集合可包括含至少一个SNV,插入和缺失的多个基因组区 域。所述选择子集合可包括含至少一个SNV和重排的多个基因组区 域。所述选择子集合可包括含至少一个插入、缺失和重排的多个基因 组区域。所述选择子集合可包括含至少一个缺失和重排的多个基因组 区域。所述选择子集合可包括含至少一个插入和重排的多个基因组区 域。所述选择子集合可包括含至少一个SNV,插入、缺失和重排的多 个基因组区域。所述选择子集合可包括含至少一个重排和至少一个选 自由SNV,插入和缺失组成的群组的突变的多个基因组区域。所述选 择子集合可包括含至少一个重排和至少一个选自由SNV,CNV,插入 和缺失组成的群组的突变的多个基因组区域。
选择子集合可包括在已知与癌症相关的基因组区域中的突 变。所述在已知与癌症相关的基因组区域中的突变可称为“已知体细 胞突变”。已知体细胞突变可以是位于已知与癌症相关的一个或多个 基因中的突变。已知体细胞突变可以是位于一个或多个致癌基因中的 突变。例如,已知体细胞突变可包括位于p53,EGFR,KRAS和/或 BRCA1中的一种或多种突变。
选择子集合可包括在预测与癌症相关的基因组区域中的突 变。选择子集合可包括未报道与癌症相关的基因组区域中的突变。
基因组区域可包括足够大小的人类基因组序列以捕获一种 或多种频发突变。本发明的方法可涉及cfDNA,它的长度通常小于约 200bp,因此基因组区域可通常小于约10kb。选择子集合中基因组区 域的长度可平均为约100bp,约125bp,约150bp,175bp,约200bp, 约225bp,约250bp,约275bp,或约300bp。通常所述SNV的基因组 区域可以是非常短的,长度约45-约500bp,而融合体或其他基因组重 排的基因组区域可能较长,长度约1Kbp-约10Kbp。选择子集合中基 因组区域的长度可小于约10Kbp,9Kbp,8Kbp,7Kbp,6Kbp,5Kbp,4Kbp,3Kbp,2Kbp,或1Kbp。选择子集合中基因组区域可小于约1000 bp,900bp,800bp,700bp,600bp,500bp,400bp,300bp,200bp,或 100bp。基因组区域可被说成“识别”突变,当该突变在所述基因组区 域的序列内时。
在某些实施方案中,选择子集合所覆盖的总序列小于约1.5 兆碱基对(Mbp),1.4Mbp,1.3Mbp,1.2Mbp,1.1Mbp,1Mbp。选择子 集合所覆盖的总序列可小于约1000kb,小于约900kb,小于约800kb, 小于约700kb,小于约600kb,小于约500kb,小于约400kb,小于约350kb,小于约300kb,小于约250kb,小于约200kb,或小于约150kb。 选择子集合所覆盖的总序列可在约100kb-500kb之间。选择子集合所 覆盖的总序列可在约100kb-350kb之间。选择子集合所覆盖的总序列 可在约100kb-150kb之间。
所述选择子集合可包含多个基因组区域中的2,3,4,5,6,7,8, 9,10,11,12,13,14,15,16,17,18,19,20或更多个突变。所述选择子集 合可包含多个基因组区域中的25,30,35,40,45,50,55,60,65,70,75, 80,85,90,95,100或更多个突变。所述选择子集合可包含多个基因组 区域中的125,150,175,200,250,300,350,400,450,500,550,600,650,700,750,800,850,900,950,1000或更多个突变。
至少所述突变的一部分可以在相同基因组区域内。至少约2, 3,4,5,6,7,8,9,10或更多个突变可以在相同基因组区域内。至少约2 个突变可以在相同基因组区域内。至少约3个突变可以在相同基因组 区域内。
至少所述突变的一部分可以在不同基因组区域内。至少约2, 3,4,5,6,7,8,9,10或更多个突变可以在两个或更多个不同基因组区 域内。至少约2个突变可以在两个或更多个不同基因组区域内。至少 约3个突变可以在两个或更多个不同基因组区域内。
两种或更多种突变可以在相同非编码区域的两个或更多个 不同基因组区域中。两种或更多种突变可以在相同蛋白质编码区域的 两个或更多个不同基因组区域中。两种或更多种突变可以在相同基因 的两个或更多个不同基因组区域中。例如,第一突变可位于包含第一 基因的第一外显子的第一基因组区域内,而第二突变可位于包含第一 基因的第二外显子的第二基因组区域内。在另一个例子中,第一突变 可位于包含第一长非编码RNA的第一部分的第一基因组区域内,而第 二突变可位于包含第一长非编码RNA的第二部分的第二基因组区域 内。
或者,或另外,两种或更多种突变可以在两种或更多种不同 非编码区域、蛋白质编码区域和/或基因的两个或更多个不同基因组 区域中。例如,第一突变可位于包含第一基因的第一外显子的第一基 因组区域内,而第二突变可位于包含第二基因的第二外显子的第二基 因组区域内。在另一个例子中,第一突变可位于包含第一基因的第一 外显子的第一基因组区域内,而第二突变可位于包含微小RNA部分的 第二基因组区域内。
所述选择子集合可识别至少2,通常至少3,及优选至少4个 不同突变的中位数/个体受试者。所述选择子集合可识别至少5,6,7,8, 9,10,11,12,13或更多个不同突变的中位数/个体受试者。不同突变可 在一个或多个基因组区域。不同突变可在1,2,3,4,5,6,7,8,9,10,11, 12,13,14,15或更多个基因组区域。不同突变可在1,2,3,4,5,6,7,8,9, 10,11,12,13,14,15或更多个频发突变的区域。
由所述选择子集合识别的突变中位数可在最大到10,最大到 25,最大到25,最大到50,最大到87,最大到100或更多受试者群体 中确定。由所述选择子集合识别的突变中位数可在最大到125,150, 175,200,225,250,275,300,325,350,375,400或更多受试者群体中确 定。在此类群体中,目标选择子集合可识别至少60%,至少65%,至 少70%,至少75%,至少80%,至少82%,至少85%,至少87%,至少 90%,至少92%,至少95%或更多受试者中的一种或多种突变。
由所述选择子集合识别的总突变可存在于至少60%,至少 65%,至少70%,至少75%,至少80%,至少82%,至少85%,至少87%, 至少90%,至少92%,至少95%或更多受试者群体中。例如,所述选 择子集合可识别存在于20%受试者中的第一突变和80%受试者中的 第二突变,因此由所述选择子集合识别的总突变可存在于80%-100% 受试者群体中。
除生物信息学构建物外,选择子集合可用于产生用于特异性 捕获、测序和/或相应于基因组区域的cfDNA扩增的低聚核苷酸或低 聚核苷酸组。低聚核苷酸组可包括至少一个用于待靶向的各基因组区 域的低聚核苷酸。低聚核苷酸可具有有足够长度的通性以独特地识别 所述基因组区域,例如长度通常至少约15个核苷酸,至少约16,17,18, 19,20个核苷酸。低聚核苷酸可进一步包含用于测序系统的衔接子; 用于分类的标签;特异性结合标签,例如生物素,FITC等。用于扩 增的低聚核苷酸可包含一对位于目标区域侧面和相反方向的序列。所 述低聚核苷酸可包含引物序列。所述低聚核苷酸可包含与至少所述基 因组区域的一部分互补的序列。
本文所述方法可产生包含选择子集合序列信息的生物信息 学构建物。为了将所述选择子集合用于患者的诊断和预测方法中,一 组选择子探针可从所述选择子集合库中产生。该组选择子探针可包含 来自至少约20个基因组区域,至少约30个基因组区域,至少约40个基 因组区域,至少约50个基因组区域,至少约60个基因组区域,至少约 70个基因组区域,至少约80个基因组区域,至少约90个基因组区域, 至少约100个基因组区域,至少约200个基因组区域,至少约300个基 因组区域,至少约400个基因组区域,或者至少约500个基因组区域的 序列。所述基因组区域可选自表2和6-18中的任何一个中所提及基因 组区域。筛选可基于生物信息学标准,包括该区域所提供的其他数值, RI等。在某些实施方案中,患者的预设范围用作取舍点,例如当至少 90%具有一种或多种SNV时,当至少95%具有一种或多种SNV时,当 至少98%具有一种或多种SNV时。
所述选择子集合可包含一个或多个表2所识别的基因组区 域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表2中所识别的那些区域。 所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55,60, 65,70,75,80,85,90,95,100,150,200,250,300,350,400,450,500, 或525个表2中所识别的那些区域。所述选择子集合的基因组区域可包 含至少2个表2中所识别的那些区域。所述选择子集合的基因组区域可 包含至少20个表2中所识别的那些区域。所述选择子集合的基因组区 域可包含至少60个表2中所识别的那些区域。所述选择子集合的基因 组区域可包含至少100个表2中所识别的那些区域。所述选择子集合的 基因组区域可包含至少300个表2中所识别的那些区域。所述选择子集 合的基因组区域可包含至少400个表2中所识别的那些区域。所述选择 子集合的基因组区域可包含至少500个表2中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表2中所识别的区域。至少约5%的所述选择子 集合的基因组区域可以是表2中所识别的区域。至少约10%的所述选 择子集合的基因组区域可以是表2中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表2中所识别的区域。至少约30% 的所述选择子集合的基因组区域可以是表2中所识别的区域。至少约 40%的所述选择子集合的基因组区域可以是表2中所识别的区域。
所述选择子集合可包含一个或多个表6所识别的基因组区 域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表6中所识别的那些区域。 所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55,60, 65,70,75,80,85,90,95,100,150,200,250,300,350,400,450,500, 550,600,650,700,750,800,或830个表6中所识别的那些区域。所述 选择子集合的基因组区域可包含至少2个表6中所识别的那些区域。所 述选择子集合的基因组区域可包含至少20个表6中所识别的那些区 域。所述选择子集合的基因组区域可包含至少60个表6中所识别的那 些区域。所述选择子集合的基因组区域可包含至少100个表6中所识别 的那些区域。所述选择子集合的基因组区域可包含至少300个表6中所 识别的那些区域。所述选择子集合的基因组区域可包含至少600个表6 中所识别的那些区域。所述选择子集合的基因组区域可包含至少800 个表6中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表6中所识别的区域。至少约5%的所述选择子 集合的基因组区域可以是表6中所识别的区域。至少约10%的所述选 择子集合的基因组区域可以是表6中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表6中所识别的区域。至少约30% 的所述选择子集合的基因组区域可以是表6中所识别的区域。至少约 40%的所述选择子集合的基因组区域可以是表6中所识别的区域。
所述选择子集合可包含一个或多个表7所识别的基因组区 域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表7中所识别的那些区域。 所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55,60, 65,70,75,80,85,90,95,100,125,150,175,200,225,250,275,300, 325,350,375,400,425,或450个表7中所识别的那些区域。所述选择 子集合的基因组区域可包含至少2个表7中所识别的那些区域。所述选 择子集合的基因组区域可包含至少20个表7中所识别的那些区域。所 述选择子集合的基因组区域可包含至少60个表7中所识别的那些区 域。所述选择子集合的基因组区域可包含至少100个表7中所识别的那 些区域。所述选择子集合的基因组区域可包含至少200个表7中所识别 的那些区域。所述选择子集合的基因组区域可包含至少300个表7中所 识别的那些区域。所述选择子集合的基因组区域可包含至少400个表7 中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表7中所识别的区域。至少约5%的所述选择子 集合的基因组区域可以是表7中所识别的区域。至少约10%的所述选 择子集合的基因组区域可以是表7中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表7中所识别的区域。至少约30% 的所述选择子集合的基因组区域可以是表7中所识别的区域。至少约 40%的所述选择子集合的基因组区域可以是表7中所识别的区域。
所述选择子集合可包含一个或多个表8所识别的基因组区 域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表8中所识别的那些区域。 所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55,60, 65,70,75,80,85,90,95,100个表8中所识别的那些区域。所述选择子 集合的基因组区域可包含至少250,300,350,400,450,500,550,600, 650,700,750,800,850,900,950,1000,或1050个表8中所识别的那些 区域。所述选择子集合的基因组区域可包含至少2个表8中所识别的那 些区域。所述选择子集合的基因组区域可包含至少20个表8中所识别 的那些区域。所述选择子集合的基因组区域可包含至少60个表8中所 识别的那些区域。所述选择子集合的基因组区域可包含至少100个表8 中所识别的那些区域。所述选择子集合的基因组区域可包含至少300 个表8中所识别的那些区域。所述选择子集合的基因组区域可包含至 少600个表8中所识别的那些区域。所述选择子集合的基因组区域可包 含至少800个表8中所识别的那些区域。所述选择子集合的基因组区域 可包含至少1000个表8中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表8中所识别的区域。至少约5%的所述选择子 集合的基因组区域可以是表8中所识别的区域。至少约10%的所述选 择子集合的基因组区域可以是表8中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表8中所识别的区域。至少约30% 的所述选择子集合的基因组区域可以是表8中所识别的区域。至少约 40%的所述选择子集合的基因组区域可以是表8中所识别的区域。
所述选择子集合可包含一个或多个表9所识别的基因组区 域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表9中所识别的那些区域。 所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55,60, 65,70,75,80,85,90,95,100个表9中所识别的那些区域。所述选择子 集合的基因组区域可包含至少250,300,350,400,450,500,550,600, 650,700,750,800,850,900,950,1000,1100,1200,1300,1400,或 1500个表9中所识别的那些区域。所述选择子集合的基因组区域可包 含至少2个表9中所识别的那些区域。所述选择子集合的基因组区域可 包含至少20个表9中所识别的那些区域。所述选择子集合的基因组区 域可包含至少60个表9中所识别的那些区域。所述选择子集合的基因 组区域可包含至少100个表9中所识别的那些区域。所述选择子集合的 基因组区域可包含至少300个表9中所识别的那些区域。所述选择子集 合的基因组区域可包含至少500个表9中所识别的那些区域。所述选择 子集合的基因组区域可包含至少1000个表9中所识别的那些区域。所 述选择子集合的基因组区域可包含至少1300个表9中所识别的那些区 域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表9中所识别的区域。至少约5%的所述选择子 集合的基因组区域可以是表9中所识别的区域。至少约10%的所述选 择子集合的基因组区域可以是表9中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表9中所识别的区域。至少约30% 的所述选择子集合的基因组区域可以是表9中所识别的区域。至少约 40%的所述选择子集合的基因组区域可以是表9中所识别的区域。
所述选择子集合可包含一个或多个表10所识别的基因组区 域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表10中所识别的那些区 域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表10中所识别的那些区域。所述选 择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,或330个表10中所识别的那些区域。所述 选择子集合的基因组区域可包含至少2个表10中所识别的那些区域。 所述选择子集合的基因组区域可包含至少20个表10中所识别的那些 区域。所述选择子集合的基因组区域可包含至少60个表10中所识别的 那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表10中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表10中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表10中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表10中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表10中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表10中所识别的区 域。
所述选择子集合可包含一个或多个表11所识别的基因组区 域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表11中所识别的那些区 域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表11中所识别的那些区域。所述选 择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,330,340,350,375,400,420,440,或460 个表11中所识别的那些区域。所述选择子集合的基因组区域可包含至 少2个表11中所识别的那些区域。所述选择子集合的基因组区域可包 含至少20个表11中所识别的那些区域。所述选择子集合的基因组区域 可包含至少60个表11中所识别的那些区域。所述选择子集合的基因组 区域可包含至少100个表11中所识别的那些区域。所述选择子集合的 基因组区域可包含至少200个表11中所识别的那些区域。所述选择子 集合的基因组区域可包含至少300个表11中所识别的那些区域。所述 选择子集合的基因组区域可包含至少400个表11中所识别的那些区 域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表11中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表11中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表11中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表11中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表11中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表11中所识别的区 域。
所述选择子集合可包含一个或多个表12所识别的基因组区 域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表12中所识别的那些区 域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表12中所识别的那些区域。所述选 择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,330,340,350,375,400,420,440,460,480 或500个表12中所识别的那些区域。所述选择子集合的基因组区域可 包含至少2个表12中所识别的那些区域。所述选择子集合的基因组区 域可包含至少20个表12中所识别的那些区域。所述选择子集合的基因 组区域可包含至少60个表12中所识别的那些区域。所述选择子集合的 基因组区域可包含至少100个表12中所识别的那些区域。所述选择子 集合的基因组区域可包含至少200个表12中所识别的那些区域。所述 选择子集合的基因组区域可包含至少300个表12中所识别的那些区 域。所述选择子集合的基因组区域可包含至少400个表12中所识别的 那些区域。所述选择子集合的基因组区域可包含至少500个表12中所 识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表12中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表12中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表12中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表12中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表12中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表12中所识别的区 域。
所述选择子集合可包含一个或多个表13所识别的基因组区 域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表13中所识别的那些区 域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表13中所识别的那些区域。所述选 择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1050,1100,1150,1200, 1250,1300,1350,1400,或1450个表13中所识别的那些区域。所述选 择子集合的基因组区域可包含至少2个表13中所识别的那些区域。所 述选择子集合的基因组区域可包含至少20个表13中所识别的那些区 域。所述选择子集合的基因组区域可包含至少60个表13中所识别的那 些区域。所述选择子集合的基因组区域可包含至少100个表13中所识 别的那些区域。所述选择子集合的基因组区域可包含至少300个表13 中所识别的那些区域。所述选择子集合的基因组区域可包含至少500 个表13中所识别的那些区域。所述选择子集合的基因组区域可包含至 少1000个表13中所识别的那些区域。所述选择子集合的基因组区域可 包含至少1300个表13中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表13中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表13中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表13中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表13中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表13中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表13中所识别的区 域。
所述选择子集合可包含一个或多个表14所识别的基因组区 域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表14中所识别的那些区 域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表14中所识别的那些区域。所述选 择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1050,1100,1150,1200, 1210,1220,1230,或1240个表14中所识别的那些区域。所述选择子集 合的基因组区域可包含至少2个表14中所识别的那些区域。所述选择 子集合的基因组区域可包含至少20个表14中所识别的那些区域。所述 选择子集合的基因组区域可包含至少60个表14中所识别的那些区域。 所述选择子集合的基因组区域可包含至少100个表14中所识别的那些 区域。所述选择子集合的基因组区域可包含至少300个表14中所识别 的那些区域。所述选择子集合的基因组区域可包含至少500个表14中 所识别的那些区域。所述选择子集合的基因组区域可包含至少1000 个表14中所识别的那些区域。所述选择子集合的基因组区域可包含至 少1100个表14中所识别的那些区域。所述选择子集合的基因组区域可 包含至少1200个表14中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表14中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表14中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表14中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表14中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表14中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表14中所识别的区 域。
所述选择子集合可包含一个或多个表15所识别的基因组区 域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表15中所识别的那些区 域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100,110,120,130,140,150,160,或170 个表15中所识别的那些区域。所述选择子集合的基因组区域可包含至 少2个表15中所识别的那些区域。所述选择子集合的基因组区域可包 含至少20个表15中所识别的那些区域。所述选择子集合的基因组区域 可包含至少60个表15中所识别的那些区域。所述选择子集合的基因组 区域可包含至少100个表15中所识别的那些区域。所述选择子集合的 基因组区域可包含至少120个表15中所识别的那些区域。所述选择子 集合的基因组区域可包含至少150个表15中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表15中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表15中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表15中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表15中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表15中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表15中所识别的区 域。
所述选择子集合可包含一个或多个表16所识别的基因组区 域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表16中所识别的那些区 域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表16中所识别的那些区域。所述选 择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1100,1200,1300,1400, 1500,1600,1700,1800,1900,2000,或2050个表16中所识别的那些区 域。所述选择子集合的基因组区域可包含至少2个表16中所识别的那 些区域。所述选择子集合的基因组区域可包含至少20个表16中所识别 的那些区域。所述选择子集合的基因组区域可包含至少60个表16中所 识别的那些区域。所述选择子集合的基因组区域可包含至少100个表 16中所识别的那些区域。所述选择子集合的基因组区域可包含至少 300个表16中所识别的那些区域。所述选择子集合的基因组区域可包 含至少500个表16中所识别的那些区域。所述选择子集合的基因组区 域可包含至少1000个表16中所识别的那些区域。所述选择子集合的基 因组区域可包含至少1200个表16中所识别的那些区域。所述选择子集 合的基因组区域可包含至少1500个表16中所识别的那些区域。所述选 择子集合的基因组区域可包含至少1700个表16中所识别的那些区域。 所述选择子集合的基因组区域可包含至少2000个表16中所识别的那 些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表16中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表16中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表16中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表16中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表16中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表16中所识别的区 域。
所述选择子集合可包含一个或多个表17所识别的基因组区 域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表17中所识别的那些区 域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表17中所识别的那些区域。所述选 择子集合的基因组区域可包含至少250,300,350,400,450,500,550, 600,650,700,750,800,850,900,950,1000,1010,1020,1030,1040, 1050,1060,1070,或1080个表17中所识别的那些区域。所述选择子集 合的基因组区域可包含至少2个表17中所识别的那些区域。所述选择 子集合的基因组区域可包含至少20个表17中所识别的那些区域。所述 选择子集合的基因组区域可包含至少60个表17中所识别的那些区域。 所述选择子集合的基因组区域可包含至少100个表17中所识别的那些 区域。所述选择子集合的基因组区域可包含至少300个表17中所识别 的那些区域。所述选择子集合的基因组区域可包含至少500个表17中 所识别的那些区域。所述选择子集合的基因组区域可包含至少1000 个表17中所识别的那些区域。所述选择子集合的基因组区域可包含至 少1050个表17中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表17中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表17中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表17中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表17中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表17中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表17中所识别的区 域。
所述选择子集合可包含一个或多个表18所识别的基因组区 域。所述选择子集合的基因组区域可包含至少2,3,4,5,6,7,8,9,10, 11,12,13,14,15,16,17,18,19,20或更多个表18中所识别的那些区 域。所述选择子集合的基因组区域可包含至少25,30,35,40,45,50,55, 60,65,70,75,80,85,90,95,100个表18中所识别的那些区域。所述选 择子集合的基因组区域可包含至少125,130,135,140,145,150,155, 160,165,170,175,180,185,190,195,200,210,220,230,240,250,260, 270,280,290,300,310,320,330,340,350,375,400,420,440,460,480, 500,520,540,或555个表18中所识别的那些区域。所述选择子集合的基因组区域可包含至少2个表18中所识别的那些区域。所述选择子集 合的基因组区域可包含至少20个表18中所识别的那些区域。所述选择 子集合的基因组区域可包含至少60个表18中所识别的那些区域。所述 选择子集合的基因组区域可包含至少100个表18中所识别的那些区 域。所述选择子集合的基因组区域可包含至少200个表18中所识别的 那些区域。所述选择子集合的基因组区域可包含至少300个表18中所 识别的那些区域。所述选择子集合的基因组区域可包含至少400个表 18中所识别的那些区域。所述选择子集合的基因组区域可包含至少 500个表18中所识别的那些区域。
至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述选择子集 合的基因组区域可以是表18中所识别的区域。至少约5%的所述选择 子集合的基因组区域可以是表18中所识别的区域。至少约10%的所述 选择子集合的基因组区域可以是表18中所识别的区域。至少约20%的所述选择子集合的基因组区域可以是表18中所识别的区域。至少约 30%的所述选择子集合的基因组区域可以是表18中所识别的区域。至 少约40%的所述选择子集合的基因组区域可以是表18中所识别的区 域。
选择子集合探针的长度可为至少约15,20,25,30,35,40,45, 50,55,60,65,70,75,80,85,90,95或100个核苷酸。选择子集合探针的 长度可为至少约20个核苷酸。选择子集合探针的长度可为至少约30 个核苷酸。选择子集合探针的长度可为至少约40个核苷酸。选择子集 合探针的长度可为至少约50个核苷酸。
选择子探针的长度可为约15-约250个核苷酸。选择子集合探 针的长度可为约15-约200个核苷酸。选择子集合探针的长度可为约 15-约170个核苷酸。选择子集合探针的长度可为约15-约150个核苷 酸。选择子集合探针的长度可为约25-约200个核苷酸。选择子集合探 针的长度可为约25-约150个核苷酸。选择子集合探针的长度可为约 50-约150个核苷酸。选择子集合探针的长度可为约50-约125个核苷 酸。
1,2,3,4,5,6,7,8,9,10或更多个选择子集合探针可相应于一 个基因组区域。两个或更多个选择子集合探针可相应于一个基因组区 域。三个或更多个选择子集合探针可相应于一个基因组区域。一组选 择子集合探针因此可具有从其中获得的选择子集合的复杂性。选择子 探针可用常规方法合成,或通过任一其他合适的分子生物学方法产 生。选择子探针可与cfDNA杂交用于杂化物捕获,如本文所描述的。 选择子探针可包含允许捕获杂化物的结合部分。可用于该目的的各种 结合部分(例如,标签)在本领域是已知的,包括但不限于生物素、 HIS标签,MYC标签,FITC等。
表2和6-18提供了例示的选择子集合。包含表2中所识别的一 个或多个基因组区域的选择子集合可用于非小细胞肺癌(NSCLC)。包 含表6中所识别的一个或多个基因组区域的选择子集合可用于乳腺 癌。包含表7中所识别的一个或多个基因组区域的选择子集合可用于 结直肠癌。包含表8中所识别的一个或多个基因组区域的选择子集合 可用于弥漫性大B细胞淋巴瘤(DLBCL)。包含表9中所识别的一个或多 个基因组区域的选择子集合可用于埃利希腹水癌(EAC)。包含表10 中所识别的一个或多个基因组区域的选择子集合可用于滤泡性淋巴 瘤(FL)。包含表11中所识别的一个或多个基因组区域的选择子集合 可用于头颈鳞状细胞癌(HNSC)。包含表12中所识别的一个或多个基 因组区域的选择子集合可用于NSCLC。包含表13中所识别的一个或 多个基因组区域的选择子集合可用于NSCLC。包含表14中所识别的 一个或多个基因组区域的选择子集合可用于卵巢癌。包含表15中所识 别的一个或多个基因组区域的选择子集合可用于卵巢癌。包含表16 中所识别的一个或多个基因组区域的选择子集合可用于胰腺癌。包含 表17中所识别的一个或多个基因组区域的选择子集合可用于前列腺 腺癌。包含表18中所识别的一个或多个基因组区域的选择子集合可用 于皮肤黑素瘤。表2和6-18中的任何一个的选择子集合可用于癌和一 般以下(sub-generically)用于腺癌或鳞状细胞癌。
制备选择子集合的方法
本文公开了制备选择子集合的方法。设计选择子集合的一个 目标可包括使所覆盖的患者分数和突变数/所覆盖的患者最大化,同 时使选择子大小最小化。评估基因组区域的所有可能组合以建立此类 选择子集合可能是指数上的大问题(例如,2n个可能的外显子组合 得到n个外显子),致使采用近似算法临界值。因此,可采用启发 式策略以制备选择子集合。
本文所公开的选择子集合可为特定的ctDNA检测限、测序成 本和/或DNA输入质量合理地设计。此类选择子集合可采用选择子设 计计算器设计。选择子设计计算器可基于下列分析模型:对特定测序 读数深度而言回收至少1个血浆中单一突变体等位基因的读数的概率 P和血浆中ctDNA的检测限可通过二项分布制作模型。特定P,检测血 浆中所有确定的肿瘤突变的概率可通过几何分布制作模型。用这一设 计计算器,可以首先估计将需要多少肿瘤受体以达到期望的灵敏度, 然后可以靶向选择子的大小,该选择子的大小权衡该数目与成本和 DNA质量输入。图5a以图显示用CAPP-Seq对血浆ctDNA的不同检测 限检测血浆ctDNA的概率P(黑色,粗线)、全外显子序列(i和ii)、及 全基因组序列(iii)。
所述制备选择子集合的方法可包括(a)用在所述基因组区域 具有一个或多个突变的受试者数除以该基因组区域的长度,计算多个 基因组区域的基因组区域的复发指数;及(b)通过基于复发指数筛选 基因组区域,制备包含多个基因组区域的一个或多个基因组区域的选 择子集合。例如,10个受试者可能在包含100个碱基的基因组区域中 有一个或多个突变。复发指数可通过用在所述一个或多个基因组区域 具有突变的受试者数除以该基因组区域的长度计算。在该例子中,该 基因组区域的复发指数将为10个受试者除以100个碱基,等于0.1个受 试者/碱基。
所述方法可进一步包括用复发指数将多个基因组区域的基 因组区域排序。基于复发指数制备选择子集合可包括筛选复发指数在 百分位数前第70、第75、第80、第85、第90、或第95或更高的基因组 区域。基于复发指数制备选择子集合可包括筛选复发指数在百分位数 前第90的基因组区域。例如,第一基因组区域的复发指数可在百分位 数前第80,而第二基因组区域的复发指数可在百分位数倒数第20。基 于复发指数在百分位数前第75的基因组区域的选择子集合可包含第 一基因组区域,但不包含第二基因组区域。
所述方法可进一步包括通过在所述基因组区域具有一个或 多个突变的受试者数将基因组区域排序。制备选择子集合可进一步包 括筛选在该基因组区域具有一个或多个突变的受试者数在百分位数 前第70、第75、第80、第85、第90、或第95或更高的基因组区域。制 备选择子集合可进一步包括筛选在该基因组区域具有一个或多个突 变的受试者数在百分位数前第90或更高的基因组区域。
基因组区域的长度可以是千碱基。基因组区域的长度可以是 数个碱基。对含与癌症相关的已知体细胞突变的基因组区域而言,该 基因组区域的长度可主要由已知突变的子序列组成。对含与癌症相关 的已知体细胞突变的基因组区域而言,该基因组区域的长度可主要由 已知突变的子序列和在该已知突变子序列侧面的一个或多个碱基组 成。对含与癌症相关的已知体细胞突变的基因组区域而言,该基因组 区域的长度可主要由已知突变的子序列和在该已知突变子序列侧面 的1-5个碱基组成。对含与癌症相关的已知体细胞突变的基因组区域 而言,该基因组区域的长度可主要由已知突变的子序列和在该已知突 变子序列侧面的5个或更少的碱基组成。包含已知体细胞突变的基因 组区域的复发指数可基于已知突变子序列的长度或在该已知突变子 序列侧面具有其他碱基的已知突变子序列的长度重新计算。例如,基 因组区域可包含200个碱基,而在该基因组区域内的已知体细胞突变 可包含100个碱基。复发指数可通过用在该基因组区域内含一个或多 个突变的受试者数除以在该基因组区域内体细胞突变的长度(例如, 100个碱基)计算。
本文进一步公开了制备选择子集合的方法,所述方法包括(a) 借助于计算机处理器,通过分析属于患癌症受试者群体的多个基因组 区域的数据,识别含一个或多个突变的多个基因组区域;及(b)将运 算法则应用于该数据以制备包含多个基因组区域的两个或更多个基 因组区域的选择子集合,其中所述运算法则用于使在该受试者群体中 选择子集合的基因组区域中的突变中位数最大化。
识别所述多个基因组区域可包括计算多个基因组区域的一 个或多个基因组区域的复发指数。运算法则可应用于属于复发指数在 百分位数前第40、第45、第50、第55、第57、第60、第63、或第65 或更高的基因组区域的数据。运算法则可应用于属于复发指数在百分位数为至少约15,20,25,30,35,40,45,或50或更多的基因组区域的 数据。
识别所述多个基因组区域可包括确定在基因组区域中具有 一个或多个突变的受试者数。运算法则可应用于属于在该基因组区域 具有一个或多个突变的受试者数在百分位数前第40、第45、第50、第 55、第57、第60、第63、或第65或更高的基因组区域的数据。
通过识别导致在该基因组区域具有一种突变的受试者最大 减少的基因组区域,所述运算法则可使突变中位数最大化。制备选择 子集合可包括筛选导致在该基因组区域具有一种突变的受试者最大 减少的基因组区域。
运算法则可应用于属于达到最小阈值的基因组区域的数据。 所述最小阈值可属于复发指数。例如,运算法则可应用于复发指数在 百分位数前第60的基因组区域。在另一个例子中,运算法则可应用于 复发指数大于或等于30的基因组区域。或者,或另外,所述最小阈值 可属于在该基因组区域中具有一个或多个突变的受试者数在百分位 数前第60的基因组区域。
运算法则可使用1,2,3,4,5,6,7,8,9,10或更多次。运算法则 可使用一次或更多次。运算法则可使用两次或更多次。运算法则可应 用于达到第一最小阈值的第一组基因组区域。例如,运算法则可应用 于复发指数在百分位数前第60及在该基因组区域中具有一个或多个 突变的受试者数在百分位数前第60的第一组基因组区域。运算法则可 应用于达到第二最小阈值的第二组基因组区域。例如,运算法则可应 用于复发指数大于或等于20的第二组基因组区域。
受试者群体的基因组区域内的突变中位数可为至少约2,3,4, 5,6,7,8,9,10或更多突变。受试者群体的基因组区域内的突变中位数 可为至少约2,3,或4或更多突变。
所述运算法则可进一步用于使在选择子集合的基因组区域 内含一个或多个突变的受试者数最大化。所述运算法则可进一步用于 使选自在选择子集合的基因组区域内含一个或多个突变群体的受试 者百分比最大化。来自在基因组区域内含一个或多个突变群体的受试 者百分比可为至少约60%,65%,70%,75%,80%,85%,87%,90%,92%,95%,或97%或更多。
或者,制备选择子集合的方法可包括(a)获得属于患癌症受试 者群体的多个基因组区域的数据;及(b)将运算法则应用于该数据以 制备包含多个基因组区域中的两个或更多个基因组区域的选择子集 合,其中所述运算法则用于使在该选择子基因组区域内含一个或多个 突变的受试者数最大化。
通过计算基因组区域的复发指数,运算法则可使含一个或多 个突变的受试者数最大化。制备选择子集合可包括基于该复发指数筛 选一个或多个基因组区域。
通过识别包含在2,3,4,5,6,7,8,9,10或更多受试者中发现 的一个或多个突变的基因组区域,运算法则可使含一个或多个突变的 受试者数最大化。通过识别包含在5或更多受试者中发现的一个或多 个突变的基因组区域,运算法则可使含所述一个或多个突变的受试者 数最大化。制备选择子集合可包括基于在受试者群体的基因组区域内 的突变频率筛选一个或多个基因组区域。
制备选择子集合可包括基因组区域与选择子集合的迭代相 加。制备选择子集合可包括筛选一个或多个基因组区域,所述基因组 区域能从受试者群体中识别至少一个新受试者的突变。例如,选择子 集合可包括基因组区域A、B和C,其中含在受试者1,2,3,4,5,6,7和 8中观察到的突变。基因组区域D可含在受试者1-4和10中观察到的突 变。基因组区域E可含在受试者1-5中观察到的突变。基因组区域D识 别至少一个另外的受试者(例如,受试者10)并可加到该选择子集合 中,而基因组区域E不识别另外的受试者,并且不加到该选择子集合 中。
制备选择子集合可包括基于使已经被选择子识别的受试者 的重叠最小化筛选一个或多个基因组区域。例如,选择子集合可包括 基因组区域A、B、C和D,其中含在受试者1,2,3,4,5,6,7,8,9和 10中观察到的突变。基因组区域E可含在受试者1-5,11和13中观察到的突变。基因组区域F可含在受试者12和15中观察到的突变。基因组 区域E有5个受试者与该选择子集合相同,而基因组区域F无受试者与 该选择子集合相同。因此,基因组区域F可加到选择子集合中。
所述运算法则可用于使来自在选择子的基因组区域内含一 个或多个突变群体的受试者百分比最大化。来自在基因组区域内含一 个或多个突变群体的受试者百分比可为至少约60%,65%,70%,75%, 80%,85%,87%,90%,92%,95%,或97%或更多。
所述运算法则可进一步用于使受试者群体中的受试者基因 组区域内的突变中位数最大化。受试者基因组区域内的突变中位数可 为至少约2,3,4,5,6,7,8,9,10或更多突变。受试者基因组区域内的突 变中位数可为至少约2,3,或4或更多突变。
制备所述选择子集合可进一步包括加入包含已知与癌症相 关的一个或多个突变的基因组区域。制备所述选择子集合可进一步包 括加入包含预测与癌症相关的一个或多个突变的基因组区域。制备所 述选择子集合可进一步包括加入包含一个或多个重排的基因组区域。 制备所述选择子集合可进一步包括加入包含一个或多个融合的基因 组区域。
所述方法可进一步包括识别含一个或多个癌症频发突变的 一个或多个基因组区域。识别这些频发突变可较大程度上得益于可利 用数据库例如,如癌症基因组图集(TCGA)及其子集。此类数据库可 作为识别选择子集合的频发突变的基因组区域的起始点。所述数据库 也可提供在特定百分比的患特定癌症受试者内发生的突变样品。
所述制备选择子集合的方法可包括(a)识别多个基因组区域;
(b)按优先顺序排列多个基因组区域;及(c)筛选一个或多个包含到选 择子集合中的基因组区域。下列设计策略可用于识别和优先排列包含 到选择子集合中的基因组区域。三阶段可包含已知的和疑似的驱动子 基因,以及已知参与临床上可操作的融合的基因组区域,而另一个三 阶段可利用运算方法使所覆盖的患者数和SNVs/患者都最大化,该运算方法采用本文所描述的“复发指数”(RI)。该策略可使用初始患者 数据库来评价包括选择子集合中的基因组区域的效用。用于该目的的 典型数据库可包括来自至少25、至少50、至少100、至少200、至少300 或更多具体肿瘤的序列信息。所述制备选择子集合的方法可包括下列 阶段的一个或多个:
·阶段1(已知驱动子)。基于之前在肿瘤中识别的SNVs模式筛选已 知是目标癌症中的驱动子的基因。
·阶段2(使覆盖最大化)。为了使覆盖最大化,对在起始数据库中SNVs 覆盖≥5癌症患者的各外显子而言,筛选当与前阶段比较时识别至少1 个新患者的具有最高RI的外显子。在具有同高RI的外显子中,加入 在已经由选择子捕获的患者中具有最小重叠的外显子。重复直到无更 多的外显子符合这些标准。
·阶段3(RI≥30)。对在相关数据库中RI≥30并且SNVs覆盖≥3患 者的各剩余外显子而言,识别导致仅有1个SNV的患者最大减少的 外显子。为了在相同最好外显子中打破束缚,选择具有最高RI的外 显子。重复该阶段直到无另外的外显子满足这些标准。
·阶段4(RI≥20)。重复阶段3中的程序,但是用RI≥20。
·阶段5(预测的驱动子)。加入来自之前预测在目标癌症中有隐匿驱 动子突变的其他基因的所有外显子。
·阶段6(加入融合体)。向已知复发重排加入融合事件中最常涉及的 内含子和侧面外显子。
应理解,然而,加入已知驱动子、预测驱动子和融合体可独 立地以任何次序进行。
制备选择子集合的方法可包括(a)通过用在多个基因组区域 的基因组区域中含一个或多个突变的受试者数除以该基因组区域的 大小,计算患癌症受试者群体的多个基因组区域的复发指数;及(b) 基于其复发指数将所述多个基因组区域排序。
制备选择子集合的方法可包括(a)通过用在多个基因组区域 的基因组区域中含一个或多个突变的受试者数除以该基因组区域的 大小,计算患癌症受试者群体的多个基因组区域的复发指数;及(b) 制备包含多个基因组区域的两个或更多个基因组区域的选择子集合, 通过(i)采用复发指数使用于受试者群体的选择子集合的覆盖范围最 大化;和/或(ii)采用复发指数使突变中位数/受试者群体中的受试者最 大化。
使受试者覆盖范围最大化可包括使用称为“复发指数”(RI) 的度量标准。RI可指在特定千碱基的基因组序列中有隐匿突变(例 如,SNVs/插入/缺失)的受试者数。该度量标准可进一步通过受试者 数/研究标准化使得可以比较不同研究和明确的癌症。类似的方法用 于制备用于非小细胞肺癌(NSCLC)的选择子集合(参见图1b)。对一个 示例的NSCLC选择子集合而言,外显子是主要基因组单元,而不认 为插入/缺失是。一部分外显子可含已知体细胞突变。在该情形中, 运算法则仅包括含已知由用户定义的缓冲剂侧面损害(默认,=1个 碱基)的一部分外显子的子序列。在该调节之后对各外显子可再计算 RI。运算法则可将基因组区域按RI递减顺序排列。运算法则可考虑 基因组区域的子集。例如,运算法则可仅考虑RI和/或受试者数/外显 子都在百分位数前P的基因组区域(默认P=第90百分位数,但是可 用户更改的)。选择子设计可通过反复穿越排列的基因组区域清单, 筛选用最小的另外的空间加入另外的受试者覆盖范围的各基因组区 域进行。这可以继续直到所有满足百分位数过滤器的基因组区域被评 价和/或达到用户定义的最大选择子大小。
制备所述选择子集合可包括使突变中位数/受试者最大化。使 突变中位数/受试者最大化可包括使用一种或多种运算法则。使突变 中位数/受试者最大化可包括利用一个或多个阈值或过滤器以评价包 含到所述选择子集合中的基因组区域。所述阈值或过滤器可基于复发 指数。例如,所述过滤器可以是复发指数的百分位数过滤器。所述百 分位数过滤器可以被放宽以允许评价包含到所述选择子集合中的另 外基因组区域。所述百分位数过滤器可设置为(2/3)xP,其中P是RI 的前百分位数。阈值可为用户定义的。阈值可大于或等于2/3。或者, 阈值小于或等于2/3。P也可为用户定义的。运算法则可通过按RI递 减排序的基因组区域清单,反复加入最大地增加突变中位数/受试者 的区域进行。在评价完所有通过百分位数过滤器的基因组区域,和/ 或如果达到所期望的选择子大小端点后,可结束该程序。通过继续放 宽百分位数阈值,该程序可重复第三回或更多回。使突变中位数/受试者最大化可包括(i)基于其复发指数将两个或更多个基因组区域排 序;(ii)制作包含所述基因组区域子集的基因组区域清单,其中所述 清单中的基因组区域的复发指数在百分位数的前第60;及(iii)通过将 基因组区域加入到初级选择子集合中并计算所述初级选择子集合中 的突变中位数/受试者,制备初级选择子集合。
本文进一步公开了制备选择子集合的方法,所述方法包括(a) 获得属于一个或多个基因组区域的数据;(b)将运算法则应用于该数 据以确定基因组区域:(i)在所述基因组区域中存在一个或多个突变; (ii)在该基因组区域中具有突变的受试者数;及(iii)复发指数(RI),其 中所述RI通过用在该基因组区域具有突变的受试者数除以基因组区 域的大小确定;及(c)基于所述一个或多个基因组区域的复发指数制备 包含一个或多个基因组区域的选择子集合。
所述方法可进一步包括再计算包含已知突变的一个或多个 基因组区域的复发指数。所述已知突变的大小可小于所述基因组区域 的大小。再计算复发指数可包括用在该基因组区域具有已知突变的受 试者数除以该已知突变的大小。例如,基因组区域的大小可以是200 个碱基对,而所述基因组区域内的已知突变的大小可能为100个碱基 对。基因组区域的复发指数可通过用在该基因组区域中具有已知突变 的受试者数除以已知突变的大小(例如,100个碱基对)而不是除以 整个基因组区域的大小(例如,200个碱基对)来确定。
所述方法可进一步包括基于所述复发指数将两个或更多个 基因组区域排序。排序的基因组区域清单可包括按所述复发指数排序 的基因组区域的子集。排序的基因组区域清单可包括满足一个或多个 标准的基因组区域的子集。所述一个或多个标准可基于复发指数。例 如,排序的基因组区域清单可包括复发指数的百分位数在前第90的 基因组区域的子集。制备所述选择子集合可包括基于复发指数筛选一 个或多个基因组区域。制备所述选择子集合可包括基于所述两个或更 多个基因组区域的排序筛选一个或多个基因组区域。所述两个或更多 个基因组区域可借助于运算法则排序。基于再现用于排列两个或更多个基因组区域的运算法则可与用于确定所述一个或多个基因组区域 的复发指数的运算法则相同。运算法则可与用于确定复发指数的运算 法则不同。
所述方法可进一步包括反复穿越排列的基因组区域清单并 筛选提供加入到所建议的选择子集合的基因组区域总大小最小的另 外的受试者覆盖范围的基因组区域。例如,第一基因组区域可将两个 新受试者加入到所建议的选择子集合中并且所建议的选择子集合的 大小可增加10个碱基对,而第二基因组区域可将两个新受试者加入 到所建议的选择子集合中并且所建议的选择子集合的大小可增加100 个碱基对。该第一基因组区域与该第二基因组区域相比可被选中包含 到所建议的选择子集合中。排列的基因组区域的整个清单可被贯穿。 或者,一部分排列的基因组区域清单可被贯穿。例如,基因组区域的 穿越和筛选可基于用户定义的最大选择子大小。一旦达到最大选择子 大小,穿越排列的基因组区域清单和筛选基因组区域的步骤可结束。 运算法则可用于穿越排列的基因组区域情况并用于筛选包含到选择 子集合中的基因组区域。运算法则可与用于确定复发指数的运算法则 相同。运算法则可与用于确定复发指数的运算法则不同。
所述方法可进一步包括反复穿越排列的基因组区域清单并 筛选使在选择子集合的受试者群体中突变中位数/受试者最大化的基 因组区域。可确定所建议的选择子集合的突变中位数/受试者,通过(a) 计数所建议的选择子集合的所有基因组区域中各受试者的突变数N; 及(b)通过按突变数将受试者分类应用运算法则确定突变中位数。例 如,所建议的选择子集合可包含10个基因组区域,该基因组区域包 含9个受试者群体中的20个突变。第一个受试者可能有4个突变, 第二个受试者可能有2个突变,第三个受试者可能有3个突变,第四 个受试者可能有6个突变,第五个受试者可能有8个突变,第六个受 试者可能有6个突变,第七个受试者可能有8个突变,第八个受试者 可能有4个突变,及第九个受试者可能有2个突变。{2,2,3,4,4,6,8, 8}的中位数为4。如果包含该基因组区域增加了在选择子集合中的受 试者群体的突变中位数/受试者,基因组区域可被选用于被包含到选 择子集合中。例如,第一基因组区域可能含2/10的受试者中存在的 一个突变,而第二基因组区域可能含3/10的受试者中存在的一个突 变。第二基因组区域与第一基因组区域相比可被选中包含到选择子集 合中,因为加入第二基因组区域到选择子集合中将比加入第一基因组区域产生更大增加的突变中位数/受试者。排列的基因组区域的整个 清单可被贯穿。或者,一部分排列的基因组区域清单可被贯穿。例如, 基因组区域的穿越和筛选可基于用户定义的最大选择子大小。一旦达 到最大选择子大小,穿越排列的基因组区域清单和筛选基因组区域的 步骤可结束。
制备选择子集合的方法可包括:(a)获得患癌症受试者的肿瘤 样品的测序信息;(b)将该肿瘤样品的测序信息与该受试者非肿瘤样 品的测序信息比较,以识别特定于该肿瘤样品的测序信息的一个或多 个突变;及(c)制备包含一个或多个基因组区域的选择子集合,该基因 组区域包含特定于该肿瘤样品的测序信息的一个或多个突变。该选择 子集合可包含属于该一个或多个基因组区域的测序信息。该选择子集 合可包含属于该一个或多个基因组区域的基因组坐标。该选择子集合 可包含选择性地与该一个或多个基因组区域杂交的多个低聚核苷酸。 所述多个低聚核苷酸可以是生物素化的。所述一个或多个突变包含 SNVs。所述一个或多个突变包含插入/缺失。所述一个或多个突变包 含重排。制备选择子集合可包含基于本文所公开的方法识别源自于肿 瘤的SNVs。制备选择子集合可包含基于本文所公开的方法识别源自 于肿瘤的重排。
将本文所公开的方法应用于非小细胞肺癌中的突变基因组 区域可产生如表2所示的选择子集合。按照本发明方法产生的选择子 集合可识别极可能包括肿瘤序列中可识别的突变的基因组区域。该选 择子集合可包括相对小的基因组区域总数和因此相对短的基因组区 域累积长度,但是可提供更大的群体中可能的突变总范围。该选择子 集合,因此,不需要进行逐个患者的优化。相对短的基因组区域累积 长度也意味着用这些文库分析源自于癌症的无细胞DNA可能是高度 灵敏的。相对短的基因组区域累积长度可使无细胞DNA的测序更深 入。
按照本发明的方法产生的包含频发突变的基因组区域的选 择子集合使高百分比受试者基因组区域内的患者特异性突变和/或肿 瘤特异性的突变能够识别。具体地说,在这些选择子集合中,多个基 因组区域内的至少一个突变可存在于至少60%的患特定癌症受试者 群体中。在某些实施方案中,多个基因组区域内的至少两个突变存在 于至少60%的患特定癌症受试者群体中。在特定的实施方案中,多个 基因组区域内的至少三个,或甚至更多的突变存在于至少60%的患特 定癌症受试者群体中。
产生选择子集合的方法,如本文所公开的,可通过程序化的 计算机系统实施。因此,根据另一方面,本公开提供了产生选择子集 合的计算机系统(例如,频发突变的基因组区域的文库)。此类系统 可包含至少一个处理器和存储计算机可执行指令的非暂时性计算机 可读媒介物,当由至少一个处理器执行时,这些指令使计算机系统执 行本文所公开的方法以产生选择子集合(例如,文库)。
ctDNA检测指数
本文中所公开的方法、试剂盒和系统可包含ctDNA检测指数 或其用途。一般而言,ctDNA检测指数基于存在于受试者样品中一种 或多种类型突变的p-值。ctDNA检测指数可包含全部多个突变和体 细胞突变类型的整体信息内容。ctDNA检测指数可与假阳性率类似。 ctDNA检测指数可基于决策树,其中由于其不存在的背景融合断点占 优势和/或其中多个类型的突变的p-值可被整合。突变的类型可包括, 但不限于SNVs、插入/缺失、拷贝数变体和重排。
ctDNA检测指数可用于评估选择子集合的统计学意义,该选 择子集合包含含有多个类型突变的基因组区域。例如,ctDNA检测指 数可用于评估包含含有SNVs和插入/缺失的基因组区域的选择子集 合的统计学意义。在另一个例子中,ctDNA检测指数可用于评估包含 含有SNVs和重排的基因组区域的选择子集合的统计学意义。在另一 个例子中,ctDNA检测指数可用于评估包含含有重排和插入/缺失的 基因组区域的选择子集合的统计学意义。在另一个例子中,ctDNA检 测指数可用于评估包含含有SNVs、插入/缺失、拷贝数变体和重排的 基因组区域的选择子集合的统计学意义。ctDNA检测指数的计算可基 于在受试者中检测到的选择子集合的基因组区域内的突变类型(例 如,分类)。例如,选择子集合可包含含有SNVs、插入/缺失、拷贝 数变体和重排的基因组区域,然而,在受试者中检测到的选择子的突 变类型可能是SNVs和插入/缺失。ctDNA检测指数可通过合并SNVs 的p-值和插入/缺失的p-值确定。适合于合并独立的、部分试验的任 何方法都可用于合并SNVs和插入/缺失的p-值。合并SNVs和插入/ 缺失的p-值可基于Fisher法。
确定ctDNA检测指数的方法可包括(a)检测一个或多个受试 者样品中的一个或多个突变的存在,其中所述一个或多个突变基于包 含含有所述一个或多个突变的基因组区域的选择子集合;(b)确定该 样品中存在的一个或多个突变的突变类型;及(c)基于存在于所述一个 或多个样品中突变的突变类型p-值计算ctDNA检测指数。
例如,其中单一类型的突变存在于受试者样品中,ctDNA检 测指数基于该单一类型突变的p-值。单一类型突变的p-值可通过蒙 特卡洛取样法估算。蒙特卡洛取样法可采用依赖于重复随机取样的宽 范围计算机可计算的运算法则以获得p-值。该ctDNA检测指数可等 于该单一类型突变的p-值。
例如,其中在受试者肿瘤样品和血浆样品中检测到重排(例 如,融合),ctDNA检测指数基于该重排的p-值。该重排的p-值可 以是0。因此,该ctDNA检测指数是该重排的p-值,它为0。
例如,其中仅在受试者肿瘤样品中而没有在受试者血浆样品 中检测到重排(例如,融合),ctDNA检测指数基于其他类型突变的 p-值。
例如,其中(a)在受试者样品中检测到SNV和插入/缺失;(b) SNV的p-值小于0.1和插入/缺失的p-值小于0.1;及(c)在受试者血浆 样品中未检测到重排,ctDNA检测指数基于合并的SNVs和插入/缺 失的p-值计算。适合于合并独立的、部分试验的任何方法都可用于合 并SNVs和插入/缺失的p-值。SNVs和插入/缺失的p-值可根据Fisher 法合并。因此,该ctDNA检测指数是合并的SNVs和插入/缺失的p- 值。
例如,其中(a)在受试者样品中检测到SNV和插入/缺失;(b) SNV的p-值不小于0.1或插入/缺失的p-值不小于0.1;及(c)在受试者 血浆样品中未检测到重排,ctDNA检测指数基于SNV的p-值。因此, 该ctDNA检测指数是SNV的p-值。
如果ctDNA检测指数小于或等于0.10,0.09,0.08,0.07,0.06, 0.05,0.04,0.03,0.02,或0.01,该ctDNA检测指数可能有意义。如果 ctDNA检测指数小于或等于0.05,该ctDNA检测指数可能有意义。 如果ctDNA检测指数小于或等于假阳性率(FPR),该ctDNA检测指 数可能有意义。
可基于他或她的报道基因阵列(例如,突变)采用下列规则 计算受试者的ctDNA检测指数,可以任何顺序执行:
(i)对患者肿瘤中仅有单一报道基因类型的情形而言,采用相应的p- 值(按蒙特卡洛取样法估算)。
(ii)如果检测到SNV和插入/缺失报道基因,并且如果各自的p-值独 立地<0.1,其p-值分别用Fisher法合并。否则,指定在选择子设计中 SNVs的优先顺序,采用该SNV的p-值。
(iii)如果在相同患者的肿瘤样品中识别的融合断点(例如,涉及ROS1, ALK,或RET)在其血浆DNA中找到,这胜过所有其他突变类型,并 采用其p-值(~0)。
(iv)如果在肿瘤中检测到的融合未在相应的血浆中发现(很可能由于 杂交无效),采用任一剩余突变类型的p-值。
如果ctDNA检测指数≤0.05(≈假阳性率(FPR)≤5%),该 ctDNA检测指数可被认为有意义,这是使CAPP-Seq灵敏度和ROC分 析的特异性最大化的阈值(对完美的分类器通过欧几里得距离测定, 例如,真实阳性报告(TPR)=1和FPR=0)。
计算ctDNA检测指数可包括确定SNVs的统计学意义。在某 些实施方案中,为了评价SNVs的意义,策略是整合所有体细胞SNVs 中的cfDNA片段,进行位置特异性背景的调节,并用蒙特卡洛取样 法评估整个选择子的背景等位基因的统计学意义。这使得具有潜在的高等位基因丢失率的低水平的ctDNA定量成为可能。评价SNVs的 统计学意义的方法可采用下列步骤:
·对特定的cfDNA样品θ,用方程式f*=max{0,f-(e-μ)}调节来自患 者P的每个nSNVs的等位基因分数f,其中f是cfDNA中的粗等位 基因分数,e是所有cfDNA样品中特定等位基因的位置特异性出错 率,及μ表示平均选择子宽度背景率;
·用蒙特卡洛模拟法比较调节的平均SNV分数F*(=(∑f*)/n)与整个选 择子的背景等位基因的零值分配;
·测定患者P的SNV p-值作为关于θ中背景等位基因的零值分配的百 分位数的F*。
计算ctDNA检测指数可包括确定重排的统计学意义。可指定 源自于肿瘤的基因组融合(重排)的回收率的p-值为~0,由于非常低 的出错率。
计算ctDNA检测指数可包括确定插入/缺失的统计学意义。插 入和缺失(插入/缺失)的分析可分别评估,采用下列步骤:
·对患者P中的每个插入/缺失而言,用Z-检验比较其在特定cfDNA样 品θ中的分数与其在一个组中每个cfDNA样品中的分数(排除来自 相同患者P的cfDNA样品);其中各读出的链任选分别评估并合并 到单一Z-分数中;
·如果患者P有多于1个插入/缺失,将所有插入/缺失特异性的Z-分数 合并到最终的Z统计数据中。
可以整合不同突变类型的p-值以评价肿瘤负荷定量的统计学 意义(例如,p-值)。因此,ctDNA检测指数,它整合了不同突变类 型的p-值,可用于评价肿瘤负荷定量的统计学意义。对各样品而言, 可基于所检测的多个体细胞突变的p-值整合计算ctDNA检测指数。
ctDNA检测指数可基于本文中所公开的方法测定。对样品中仅存在单 一体细胞突变的情形而言,可采用相应的p-值。如果在相同患者的肿 瘤样品中确定的融合断点在其cfDNA中找到,则可采用该融合断点 的p-值。如果检测到SNV和插入/缺失体细胞突变,并且如果各自的 p-值独立地<0.1,可合并其各自的p-值并采用所得的p-值。如果测定 ctDNA检测指数为0.05,那么肿瘤负荷定量的p-值为0.05。ctDNA 检测指数≤0.05可提示受试者的突变在该受试者样品中是明显可检 测的。ctDNA检测指数小于假阳性率(FPR)可提示受试者的突变在该 受试者样品中是明显可检测的。
选择子集合的灵敏度和特异性
可选择所述选择子集合以提供所期望的灵敏度和/或特异性。
正如本领域所知,预测性模型的相对灵敏度和/或特异性可“调整”到 有利于要么选择性度量要么灵敏度度量,其中这两个度量具有相反的 关系。灵敏度和特异性之一或两者可为至少约0.6,至少约0.65,至 少约0.7,至少约0.75,至少约0.8,至少约0.85,至少约0.9或更高。
灵敏度和特异性可能是选择子集合发挥功能的性能统计学 测量。例如,选择子集合的灵敏度可用于评估选择子集合的用途以正 确地诊断或预测受试者癌症的状态或结果。选择子集合的灵敏度可测 量正确地确定为患有癌症的受试者的比例。选择子集合的灵敏度也可 测量选择子集合的用途以正确地筛选受试者中的癌症。选择子集合的 灵敏度也可测量选择子集合的用途以正确地诊断受试者中的癌症。选 择子集合的灵敏度也可测量选择子集合的用途以正确地预测受试者 中的癌症。选择子集合的灵敏度也可测量选择子集合的用途以正确地 识别作为治疗方案响应者的受试者。灵敏度可为至少约60%,61%,62%,63%,64%,65%,66%,67%,68%,69%,70%或更高。灵敏度可为 至少约72%,75%,77%,80%,82%,85%,87%,90%,92%,95%,97% 或更高。
灵敏度可随肿瘤阶段而变化。I期肿瘤的灵敏度可为至少约 50%,至少约52%,至少约55%,至少约57%,至少约60%,至少 约62%,至少约65%,至少约67%,至少约70%,至少约72%,至 少约75%,至少约77%,至少约80%,至少约85%,至少约87%, 至少约90%,至少约92%,至少约95%,至少约98%,至少约99% 或更高。I期肿瘤的灵敏度可为至少约50%。I期肿瘤的灵敏度可为 至少约65%。I期肿瘤的灵敏度可为至少约72%。I期肿瘤的灵敏度 可为至少约75%。I期肿瘤的灵敏度可为至少约85%。I期肿瘤的灵 敏度可为至少约92%。
II期肿瘤的灵敏度可为至少约50%,至少约52%,至少约55%, 至少约57%,至少约60%,至少约62%,至少约65%,至少约67%, 至少约70%,至少约72%,至少约75%,至少约77%,至少约80%, 至少约85%,至少约87%,至少约90%,至少约92%,至少约95%,至少约98%,至少约99%或更高。II期肿瘤的灵敏度可为至少约60%。II期肿瘤的灵敏度可为至少约75%。II期肿瘤的灵敏度可为至少约 85%。II期肿瘤的灵敏度可为至少约92%。
III期肿瘤的灵敏度可为至少约50%,至少约52%,至少约 55%,至少约57%,至少约60%,至少约62%,至少约65%,至少 约67%,至少约70%,至少约72%,至少约75%,至少约77%,至 少约80%,至少约85%,至少约87%,至少约90%,至少约92%, 至少约95%,至少约98%,至少约99%或更高。III期肿瘤的灵敏度 可为至少约60%。III期肿瘤的灵敏度可为至少约75%。III期肿瘤的 灵敏度可为至少约85%。III期肿瘤的灵敏度可为至少约92%。
IV期肿瘤的灵敏度可为至少约50%,至少约52%,至少约 55%,至少约57%,至少约60%,至少约62%,至少约65%,至少 约67%,至少约70%,至少约72%,至少约75%,至少约77%,至 少约80%,至少约85%,至少约87%,至少约90%,至少约92%, 至少约95%,至少约98%,至少约99%或更高。IV期肿瘤的灵敏度 可为至少约60%。IV期肿瘤的灵敏度可为至少约75%。IV期肿瘤的 灵敏度可为至少约85%。IV期肿瘤的灵敏度可为至少约92%。
健康者对照的灵敏度可为至少约60%,至少约65%,至少约 70%,至少约75%,至少约80%,至少约85%,至少约87%,至少约90%, 至少约92%,至少约95%,至少约98%,至少约99%或更高。
AUC值也可随肿瘤阶段而变化。I期癌症的AUC值可为至少 约0.50,至少约0.52,至少约0.55,至少约0.57,至少约0.60,至少 约0.62,至少约0.65,至少约0.67,至少约0.70,至少约0.72,至少 约0.75,至少约0.77,至少约0.80,至少约0.82,至少约0.85,至少 约0.87,至少约0.90,至少约0.92,至少约0.95,至少约0.97或更 大。I期癌症的AUC值可为至少约0.50。I期癌症的AUC值可为至 少约0.55。I期癌症的AUC值可为至少约0.60。I期癌症的AUC值 可为至少约0.70。I期癌症的AUC值可为至少约0.75。I期癌症的 AUC值可为至少约0.80。
II期癌症的AUC值可为至少约0.50,至少约0.52,至少约 0.55,至少约0.57,至少约0.60,至少约0.62,至少约0.65,至少约 0.67,至少约0.70,至少约0.72,至少约0.75,至少约0.77,至少约 0.80,至少约0.82,至少约0.85,至少约0.87,至少约0.90,至少约 0.92,至少约0.95,至少约0.97或更大。II期癌症的AUC值可为至 少约0.50。II期癌症的AUC值可为至少约0.55。II期癌症的AUC值 可为至少约0.60。II期癌症的AUC值可为至少约0.70。II期癌症的 AUC值可为至少约0.75。II期癌症的AUC值可为至少约0.80。II期 癌症的AUC值可为至少约0.90。II期癌症的AUC值可为至少约0.95。
III期癌症的AUC值可为至少约0.50,至少约0.52,至少约 0.55,至少约0.57,至少约0.60,至少约0.62,至少约0.65,至少约 0.67,至少约0.70,至少约0.72,至少约0.75,至少约0.77,至少约 0.80,至少约0.82,至少约0.85,至少约0.87,至少约0.90,至少约 0.92,至少约0.95,至少约0.97或更大。III期癌症的AUC值可为至 少约0.50。III期癌症的AUC值可为至少约0.55。III期癌症的AUC 值可为至少约0.60。III期癌症的AUC值可为至少约0.70。III期癌症 的AUC值可为至少约0.75。III期癌症的AUC值可为至少约0.80。 III期癌症的AUC值可为至少约0.90。III期癌症的AUC值可为至少 约0.95。
IV期癌症的AUC值可为至少约0.50,至少约0.52,至少约 0.55,至少约0.57,至少约0.60,至少约0.62,至少约0.65,至少约 0.67,至少约0.70,至少约0.72,至少约0.75,至少约0.77,至少约 0.80,至少约0.82,至少约0.85,至少约0.87,至少约0.90,至少约 0.92,至少约0.95,至少约0.97或更大。IV期癌症的AUC值可为至 少约0.50。IV期癌症的AUC值可为至少约0.55。IV期癌症的AUC 值可为至少约0.60。IV期癌症的AUC值可为至少约0.70。IV期癌 症的AUC值可为至少约0.75。IV期癌症的AUC值可为至少约0.80。 IV期癌症的AUC值可为至少约0.90。IV期癌症的AUC值可为至少 约0.95。
健康者对照的AUC值可为至少约0.70,至少约0.75,至少 约0.80,至少约0.85,至少约0.90,至少约0.95。
选择子的特异性可测量正确地确定为未患癌症的受试者的 比例。选择子集合的特异性也可测量选择子集合的用途以正确地诊断 受试者中没有癌症。选择子集合的特异性也可测量选择子集合的用途 以正确地识别作为治疗方案的非响应者的受试者。所述特异性可为至 少约60%,61%,62%,63%,64%,65%,66%,67%,68%,69%,70%或更 大。所述特异性可为至少约72%,75%,77%,80%,82%,85%,87%, 90%,92%,95%,97%或更大。
基于对受试者样品的选择子集合中的一个或多个基因组区 域内的一个或多个突变的检测,所述选择子集合可用于检测、诊断和 /或预测受试者中癌症的状态或结果。选择子集合检测、诊断和/或预 测受试者中癌症的状态或结果的灵敏度和/或特异性可通过ctDNA检 测指数调整(例如,调节/修改)。ctDNA检测指数可用于评估用选 择子集合检测的受试者样品中的突变类型的统计学意义。ctDNA检测 指数可用于确定用该选择子集合检测的一个或多个突变类型是否有 意义。例如,ctDNA检测指数可确定用该选择子集合检测的第一个受 试者中的突变类型有统计学意义,这可导致诊断出该第一个受试者中 有癌症。ctDNA检测指数可确定用该选择子集合检测的第二个受试者 中的突变类型无统计学意义,这可导致诊断出该第二个受试者中无癌 症。如此,ctDNA检测指数可影响选择子集合检测、诊断和/或预测 受试者中癌症状态或结果的灵敏度和/或特异性的分析。
重排的识别
本文进一步公开了识别重排的方法。所述重排可以是基因组 融合事件和/或断点。该方法可用于ctDNA样品的重新分析。或者, 该方法可用于已知肿瘤/种系DNA样品的分析。该方法可包括启发式 近似法。通常,该方法可包括(a)获得配对末端读数、外显子坐标、对 照基因组或其组合的比对文件;及(b)将运算法则应用于来自该比对 文件的信息以识别一个或多个重排。该运算法则可用于属于一个或多 个基因组区域的信息。该运算法则可用于与一个或多个基因组区域重 叠的信息。
该方法可称为FACTERA(FACile易位枚举和恢复算法)。作 为输入,FACTERA可采用配对末端读数、外显子坐标和对照基因组 的比对文件。另外,分析可任选限制于重叠特定基因组区域的读数。 FACTERA可以三个连续的阶段处理输入:识别不一致的读数,以碱 基对分辨率检测断点,及用计算机验证候选物融合。
本文进一步公开了识别重排的方法,该方法包括(a)获得属于 多个基因组区域的测序信息;(b)制作与一个或多个候选物重排位点 邻近的基因组区域清单;(c)将运算法则应用于验证候选物重排位点, 从而识别重排。
所述测序信息可包括比对文件。该比对文件可包括配对末端 读数、外显子坐标和对照基因组的比对文件。该测序信息可从数据库 获得。该数据库可包括属于患疾病或病症的受试者群体的测序信息。 该数据库可以是药物基因组学数据库。该测序信息可从一个或多个受 试者的一个或多个样品中获得。
制作与一个或多个候选物重排位点邻近的基因组区域清单 可包括基于测序信息识别不一致的读数对。不一致的读数对可指读数 及其配偶体,其中插入片段大小不等于(例如,大于或小于)所期望 的数据集分配,或其中读数的定位方向是意料之外的(例如,两者都 在相同链上)。制作与一个或多个候选物重排位点邻近的基因组区域 清单可包括基于测序信息将不一致的读数对分类。
不一致的读数对可由NGS文库准备和/或测序人工制品(例 如,跳跃式PCR)引入。然而,它们也可能位于真正的融合事件的断 点的侧面。制作与一个或多个候选物重排位点邻近的基因组区域清单 可进一步包括将基因组区域排序。基因组区域可按不一致的读数深度 的递减顺序排序。所述方法可进一步包括排除复制片段。制作与一个 或多个候选物重排位点邻近的基因组区域清单可包括筛选具有最小 用户定义的读数深度的基因组区域。该读数深度可为至少2x,3x,4x, 5x,6x,7x,8x,9x,10x或更多。该读数深度可为至少约2x。
制作与一个或多个候选物融合位点邻近的基因组区域清单 可包括使用一种或多种运算法则。所述运算法则可恰当地分析成对的 读数,其中两个读数之一是“软-剪的”或是被截的。软-剪可指缩短成 对的读数的一端或多端。软-剪可通过从所述成对的读数中消除少于 或等于10,9,8,7,6,5,4,3,2,1个碱基或碱基对缩短一端或多端。软- 剪可包括从所述成对的读数消除至少一个碱基或碱基对。软-剪可包 括从所述成对读数的一端消除至少一个碱基或碱基对。软-剪可包括 从所述成对读数的两端消除至少一个碱基或碱基对。软-剪的读数可 允许精确的断点确定。该精确断点可通过分解与各定位读数相关的 CIGAR线来识别,这细密地指定了用于各碱基的比对操作(例如定 位My=y邻近碱基,跳过了Sx=x碱基)。所述运算法则可用特定 的模式分析软-剪的读数。例如,所述运算法则可用下列模式分析软- 剪的读数,SxMy或MySx。跳过的碱基数x可具有最小要求。通过 设置跳过的碱基数x的最小要求,可减少非特定序列比对的影响。跳 过的碱基数可至少为10,11,12,13,14,15,16,17,18,19,20,21,22,23, 24,25或更多。跳过的碱基数可至少为16。跳过的碱基数可以为用户 定义的。邻近碱基数y也可为用户定义的。
运算法则可用于验证候选物重排位点。所述运算法则可确定 所述候选物重排位点的读出频率。所述运算法则可排除不符合最小读 出频率的候选物重排位点。该最小读出频率可为用户定义的。该最小 读出频率可为至少约2,3,4,5,6,7,8,9,10或更多个读数。该最小读 出频率可为至少约2个读数。所述运算法则可基于所述读出频率排列 该候选物重排位点。候选物重排位点可包含多个软-剪的读数。所述 运算法则可为候选物重排位点筛选有代表性的软-剪的读数。筛选有 代表性的软-剪的读数可基于选择长度最接近于该读数长度一半的软 -剪的读数。如果有代表性的软-剪的读数的定位区域与该候选物重排 位点的另一个软-剪的读数的定位区域相匹配,该运算法则可将该候 选物重排位点标注为重排事件。如果有代表性的软-剪的读数的定位 区域与该候选物重排位点的另一个软-剪的读数的定位区域相匹配, 该运算法则可将该候选物重排位点确定为重排。如果有代表性的软- 剪的读数的定位区域与该候选物重排位点的另一个软-剪的读数的定 位区域相匹配,该运算法则可将该候选物重排位点标注为融合事件。 将所述运算法则应用于验证候选物重排可包括将该候选物重排确定 为重排,如果所述两个或更多个读数具有序列比对。
验证候选物重排位点可进一步包括将运算法则应用于评价 读数间一致性。该运算法则可通过将候选物重排位点软-剪的序列的 第一序列读数分成多个用户定义的长度k的可能的子序列评价读数 间一致性。软-剪的序列的第二序列读数可被分成长度为k的子序列。 该第二序列读数大小为k的子序列可与第一测序读数比较,从而确定 所述两个读数的一致性。例如,候选物融合的软-剪的序列可能是100 个碱基而该软-剪的序列可再分成10个碱基的用户定义的长度。该长 度为10的子序列可从第一读数中提取并存储。第二读数可通过在该 第二读数中筛选10个碱基的子序列与该第一读数比较。用户定义的 长度可使该第二读数的部分与该第一读数的软-剪的(例如,非定位 的)部分联合成复合序列,然后评价该序列的改进定位性质。验证所 述候选物重排可包括将第一读数分成k-mers的子序列。为了迅速地 与该第一读数比较,第二读数可分成k-mers。如果任何k-mers重叠 第一读数,计数它们并用于评价序列的相似性。如果达到最小匹配阈 值,这两个读数可认为是一致的。最小匹配阈值可以是用户定义的值。 最小匹配阈值可以是被比较的两个序列最短长度的50%。例如,第一 序列读数可能是100个碱基而第二序列读数可能是130个碱基。最小匹配阈值可为50个碱基(例如,100个碱基乘以0.50)。最小匹配 阈值可以是被比较的两个序列最短长度至少10%,20%,25%,30%, 35%,40%,45%,50%,55%,60%,65%,70%,75%,或80%。该运算法 则可处理各不一致的基因(或基因组区域)对的100,200,300,400,500, 600,700,800,900,1000,1500,2000或更多假定的断点对。该运算法 则处理的假定的断点对数可为用户定义的。此外,对基因对而言,该 运算法则可比较其方向与有效融合一致的读数。此类读数可具有面向 相反方向的软-剪的序列。当该条件未满足时,该运算法则可采用读 数1的相反补充进行k-mer分析。
在某些情况中,位于真实断点侧面的基因组子序列可几乎或 完全相同,引起软-剪的读数的比对的部分重叠。这可防止该断点的 单值确定。如此,运算法则可用于调节一个读数(例如,读数2)中 的断点使与另一个(例如,读数1)匹配。对读数而言,该运算法则可计算该断点与相应于读数之间该第一k-mer匹配的读数坐标之间的 距离。例如,将x定义为读数1的断点坐标与第一匹配k-mer指数之 间的距离,j,和y定义为读数2的相应距离。那么,偏移被评定为 这两个读数之间距离(x,y)的差。因此,例如如果其中融合事件不能不含糊地基于序列读数确定,那么运算法则用于确定融合位点。
所述方法可进一步包括用计算机验证候选物重排位点。运算 法则可进行候选物重排位点的读数相对对照重排序列的局部重新比 对。对照重排序列可从对照基因组获得。局部比对可以是位于该候选 物重排位点侧面的序列。该局部比对可以是该候选物重排位点100, 200,300,400,500,600,700,800,900,或1000或更多个碱基对中的序 列。该局部比对可以是该候选物重排位点500个碱基对中的序列。 BLAST可用于比对所述序列。BLAST数据库可通过收集定位至候选 物融合序列的读数构建,这些读数包括不一致读数和软-剪的读数, 以及在最初输入文件中未定位的读数。定位至具有用户定义的同一性 (例如,至少95%)和/或所比对的序列长度的对照重排序列的读数 是该输入读数长度的用户定义的百分比(例如,90%)。可计数围绕 或位于该断点侧面的读数。该用户定义的同一性可为至少约70%, 75%,80%,85%,90%,95%,97%或更多。所比对的序列长度可为该输 入读数长度(例如,候选物重排序列的读数长度)的至少约70%,75%, 80%,85%,90%,或95%或更多。输出冗余度可通过消除至少20个碱 基对的间隔或更多的具有更大读数支持和具有相同序列方向(以避免 消除相互融合)的融合序列内的融合序列最小化。
所述方法可进一步包括产生属于重排的输出。该输出可包括 下列基因对、重排的基因组坐标、重排的方向(例如,向前-向前或 向前-向后)、该重排50bp内的基因组序列,及围绕该重排并位于该 重排侧面的读数的深度统计数字中的一个或多个。
所述方法可进一步包括列举融合等位基因频率。例如,被测 序cfDNA中的融合等位基因频率可按照本文所公开的及实施例1列 举。融合等位基因频率可按α/β计算,其中α是断点围绕的读数数, 而β是在该断点周围预定距离的基因组区域内的平均总深度。因此,融合等位基因频率可通过将重排围绕的读数数除以在该断点周围预 定距离的基因组区域内的平均总深度计算。
识别重排的方法可应用于全基因组测序数据或其他适合的 下一代测序数据集。包含由该数据识别的重排的基因组区域可用于设 计选择子集合。
识别重排的方法可应用于受试者的测序数据。该方法可识别 选择子集合捕获的肿瘤基因组DNA中的特定受试者的断点。该方法 可用于确定特定受试者的断点是否存在于该受试者的血浆DNA样品 中。
源自于肿瘤的SNVs的识别
本文进一步公开了识别源自于肿瘤的SNVs的无创性方法。
源自于肿瘤的SNVs可以在未知在相应肿瘤活检样品中识别的体细胞 变异的之前被识别。在本发明的某些实施方案中,未与患者已知肿瘤 DNA样品比较即可分析cfDNA。在此类实施方案中,cfDNA的存在 采用迭代模型用于(i)成对种系DNA中的背景噪音,(ii)整个选择子集 合中的cfDNA的碱基对分辨率背景频率,及(iii)cfDNA中的测序错 误。这些方法可采用下列步骤,这些步骤可通过数据点迭代以自动呼 叫源自于肿瘤的SNVs:
·从单一cfDNA样品中取得等位基因频率并选择高质量的数据;
·测试特定的输入cfDNA等位基因是否与相应成对的种系等位基因明 显不同;
·汇集cfDNA背景等位基因频率的数据库;
·测试特定的输入等位基因是否与相同位置的cfDNA背景明显不同, 并筛选那些具有预定阈值的平均背景频率,例如5%或更大;2.5%或 更大等。
·通过异常值分析从剩余背景噪音中区别源自于肿瘤的SNVs。
所述识别源自于肿瘤的SNVs的无创性方法可包括(a)获得患 癌症或怀疑患癌症的受试者的样品;(b)对该样品进行测序反应以产 生测序信息;及(c)基于步骤(b)的测序信息将运算法则应用于该测序 信息以形成候选物肿瘤等位基因清单,其中候选物肿瘤等位基因包含 不是种系SNP的非显性碱基;及(d)基于候选物肿瘤等位基因清单识 别源自于肿瘤的SNVs。候选物肿瘤等位基因可指包含候选物SNV的 基因组区域。
候选物肿瘤等位基因可以是高质量候选物肿瘤等位基因。高 质量背景等位基因可指具有最高丰度分数的非显性碱基,不包括种系 SNPs。候选物肿瘤等位基因的丰度分数可通过将支持性读数数除以 该基因组位置的总测序深度计算。例如,对第一基因组区域中的候选 物突变而言,二十个序列读数可包含具有候选物突变的第一序列而 100个序列读数可含有无候选物突变的第二序列。该候选物肿瘤等位 基因可以是含候选物突变的第一序列。基于该实例,候选物肿瘤等位 基因的丰度分数将为20除以120,即~17%。制作候选物肿瘤等位基 因清单可包括基于其丰度分数排列该肿瘤等位基因。制作候选物肿瘤 等位基因清单可包括筛选具有最高丰度分数的肿瘤等位基因。制作候 选物肿瘤等位基因清单可包括筛选具有丰度分数在百分位数前第70、 第75、第80、第85、第87、第90、第92、第95、或第97的肿瘤 等位基因。候选物肿瘤等位基因的丰度分数可为小于属于受试者样品 中候选物肿瘤等位基因的总等位基因的35%,30%,27%,25%,20%, 18%,15%,13%,10%,9%,8%,7%,6.5%,6%,5.5%,5%,4.5%,4%, 3.5%,3%,2.5%,2%,1.75%,1.50%,1.25%,或1%。候选物肿瘤等位基 因的丰度分数可为小于属于受试者样品中候选物肿瘤等位基因的总 等位基因的1%,0.9%,0.8%,0.7%,0.6%,0.5%,0.4%,0.3%,0.2%,或0.1%。候选物肿瘤等位基因的丰度分数可为小于受试者样品中总等位 基因的0.5%。该样品可包含来自受试者的成对样品。因此,该丰度 分数可基于受试者的成对样品。成对样品可包含含疑似源自于肿瘤的 核酸的样品及含非源自于肿瘤的核酸的样品。例如,所述成对样品可 包含血浆样品及含外周血淋巴细胞(PBLs)或外周血单核细胞(PBMCs) 的样品。
候选物肿瘤等位基因可具有最小测序深度。制备候选物肿瘤 等位基因清单可包括基于其测序深度排列肿瘤等位基因。制备候选物 肿瘤等位基因清单可包括筛选满足最小测序深度的肿瘤等位基因。最 小测序深度可为至少100x,200x,300x,400x,500x,600x,700x,800x, 900x,1000x或更多。最小测序深度可为至少约500x。最小测序深度 可为用户定义的。
候选物肿瘤等位基因可具有链偏差百分比。制备候选物肿瘤 等位基因清单可包括计算肿瘤等位基因的链偏差百分比。制备候选物 肿瘤等位基因清单可包括基于其链偏差百分比排列肿瘤等位基因。制 备候选物肿瘤等位基因清单可包括筛选链偏差百分比小于或等于 60%,65%,70%,75%,80%,85%,90%,95%,或97%的肿瘤等位基因。 制备候选物肿瘤等位基因清单可包括筛选链偏差百分比小于或等于 90%的肿瘤等位基因。链偏差百分比可为用户定义的。
制备候选物肿瘤等位基因清单可包括将该肿瘤等位基因序 列与对照肿瘤等位基因序列比较。对照肿瘤等位基因可以是种系等位 基因。制备候选物肿瘤等位基因清单可包括确定该候选物肿瘤等位基 因是否与对照肿瘤等位基因不同。制备候选物肿瘤等位基因清单可包 括筛选不同于对照肿瘤等位基因的肿瘤等位基因。
确定肿瘤等位基因是否与对照肿瘤等位基因不同可包括采 用一种或多种统计学分析方法。所述统计学分析方法可包括用Bonferroni校正法计算肿瘤等位基因的Bonferroni法调整的二项式概 率。Bonferroni法调整的二项式概率可通过所期望的p-值截止点(α) 除以所测试的假设数计算。所测试的假设数可通过选择子中的碱基数 乘以可能的碱基变化数计算。Bonferroni法调整的二项式概率可通过 所期望的p-值截止点(α)除以选择子中的碱基数再乘以可能的碱基 变化数计算。Bonferroni法调整的二项式概率可用于确定肿瘤等位基 因是否偶然出现。制备候选物肿瘤等位基因清单可包括基于Bonferroni法调整的二项式概率筛选肿瘤等位基因。候选物肿瘤等位 基因的Bonferroni法调整的二项式概率可为小于或等于3x10-8,2.9 x10-8,2.8x10-8,2.7x10-8,2.6x10-8,2.5x10-8,2.3x10-8,2.2x10-8,2.1 x10-8,2.09x10-8,2.08x10-8,2.07x10-8,2.06x10-8,2.05x10-8,2.04x10-8, 2.03x10-8,2.02x10-8,2.01x10-8或2x10-8。候选物肿瘤等位基因的Bonferroni法调整的二项式概率可为小于或等于2.08x10-8
确定肿瘤等位基因是否与对照肿瘤等位基因不同可包括采 用二项式分布。所述二项式分布可用于装配候选物肿瘤等位基因频率 的数据库。运算法则,例如Z-检验,可用于确定候选物肿瘤等位基 因是否与相同位置的典型循环等位基因明显不同。明显不同可指不可 能偶然发生的差别。Z-检验可应用于肿瘤等位基因的Bonferroni法调 整的二项式概率以产生Bonferroni法调整的单尾Z-分数。Bonferroni 法调整的单尾Z-分数可用正常分布测定。Bonferroni法调整的单尾 Z-分数大于或等于6,5.9,5.8,5.7,5.6,5.5.,5.4,5.3,5.2,5.1,或5.0的 肿瘤等位基因被认为与对照肿瘤等位基因不同。制备候选物肿瘤等位 基因清单可包括筛选Bonferroni法调整的单尾Z-分数大于或等于6, 5.9,5.8,5.7,5.6,5.5.,5.4,5.3,5.2,5.1,或5.0的肿瘤等位基因。制备候 选物肿瘤等位基因清单可包括筛选Bonferroni法调整的单尾Z-分数 大于5.6的肿瘤等位基因。
候选物肿瘤等位基因可基于选择子集合的基因组区域。候选 物肿瘤等位基因清单可包括频率小于或等于10%,9%,8%,7%,6.5%, 6%,5.5%,5%,4.5%,4%,3.5%,或3%的候选物肿瘤等位基因。候选物 肿瘤等位基因清单可包括频率小于5%的候选物肿瘤等位基因。
基于所述候选物肿瘤等位基因清单识别源自于肿瘤的SNVs 可包括测试来自该候选物肿瘤等位基因清单的候选物肿瘤等位基因 的测序错误。测试候选物肿瘤等位基因的测序错误可基于该候选物肿 瘤等位基因的复制速度。复制速度可通过比较候选物肿瘤等位基因的 支持性读数的非重复数据删除(nondeduped)数据(例如,符合质量控 制标准的所有片段)与重复数据删除数据(例如,符合质量控制标准 的唯一片段)确定。候选物肿瘤等位基因可基于其复制速度排列。源 自于肿瘤的SNV可在候选物肿瘤等位基因具有低复制速度。
识别源自于肿瘤的SNVs可进一步包括采用异常值分析。所 述异常值分析可用于从剩余背景噪音中辨别源自于候选物肿瘤的 SNVs。所述异常值分析可包括比较鲁棒距离Rd(马氏距离 (Mahalanobis distance))的平方根与卡方分布Cs分位数的平方根。源 自于肿瘤的SNVs可从异常值分析中的异常值识别。
所述测序信息可属于位于选择子集合的一个或多个基因组 区域侧面的区域。所述测序信息可属于位于选择子集合的基因组坐标 侧面的区域。所述测序信息可属于选择子集合的基因组区域的100, 200,300,400,500,600,700,800,900,1000或更多个碱基对内的区域。 所述测序信息可属于选择子集合的基因组区域的500个碱基对内的 区域。所述测序信息可属于选择子集合的基因组坐标的100,200,300, 400,500,600,700,800,900,1000或更多个碱基对内的区域。所述测 序信息可属于选择子集合的基因组坐标的500个碱基对内的区域。
计算机程序
本文中所描述的方法可通过计算机程序产品实施,所述计算 机程序产品包括录制在计算机可读媒介物中的计算机可执行逻辑。例 如,所述计算机程序可执行某些或所有下列功能:(i)控制从样品中分 离核酸,(ii)预扩增该样品中的核酸或(iii)筛选、扩增、测序或排列该 样品中的特定区域,(iv)识别和定量样品中的体细胞突变,(v)比较从 该样品检测到的体细胞突变数据与预定阈值,(vi)基于该cfDNA中体 细胞突变的存在确定肿瘤负担,及(vii)宣布肿瘤负担、残余疾病、对 疗法的响应或最初诊断的评估结果。该计算机程序可计算复发指数。 该计算机程序可按复发指数排列基因组区域。该计算机程序可基于复发指数选择一个或多个基因组区域。该计算机程序可制备选择子集 合。该计算机程序可将基因组区域加入到选择子集合中。该计算机程 序可使该选择子集合的受试者范围最大化。该计算机程序可使突变中 位数/群体中受试者最大化。该计算机程序可计算ctDNA检测指数。
该计算机程序可计算一种或多种类型的突变的p-值。该计算机程序可 识别存在于一个或多个患癌症受试者中的包含一个或多个突变的基 因组区域。该计算机程序可识别存在于一个或多个患癌症受试者中的 新突变。该计算机程序可识别存在于一个或多个患癌症受试者中的新 融合。
所述计算机可执行逻辑可在任何计算机中工作,该计算机可 以是各种类型的多种用途计算机例如个人电脑、网络服务器、工作站、 或目前或稍后开发的其他计算机平台中的任何一个。在某些实施方案 中,计算机程序产品被描述成包含存储于其中的具有计算机可执行逻 辑(计算机软件程序,包括程序编码)的计算机可用媒介物。计算机 可执行逻辑可通过处理器执行,使该处理器实施本文中所描述的功 能。在其他实施方案中,某些功能主要在计算机硬件中实施,例如, 采用硬件状态机。为了实施本文中所描述的功能安装硬件状态机对相 关领域中的技术人员而言将是显而易见的。
程序可提供通过获取反映所选择的个体cfDNA序列,和/或 该个体循环中cfDNA的一个或多个核酸的定量的数据评估个体中肿 瘤细胞存在的方法。待定量的循环中cfDNA的一个或多个核酸可基 于由选择子集合提供的基因组区域或基因组坐标。
在一个实施方案中,执行本发明的计算机逻辑的计算机也可 包括数字输入设备例如扫描仪。该数字输入设备可提供核酸信息,例 如多态性水平/量。
在某些实施方案中,本发明提供了包含记录在其上的一组指 令的计算机可读媒介物以使计算机进行步骤(i)接收样品中所检测的 一个或多个核酸的数据;及(ii)诊断或预测肿瘤负担、残余疾病、对 疗法的响应或基于定量的最初诊断结果。
测序
将ctDNA基因分型和/或ctDNA的检测、识别和/定量可采用 测序。测序可用高通量系统完成。在某些情形中,高通量测序产生至 少1,000,至少5,000,至少10,000,至少20,000,至少30,000,至少 40,000,至少50,000,至少100,000或至少500,000个序列读数/小时; 各读数至少50,至少60,至少70,至少80,至少90,至少100,至少 120或至少150个碱基/读数。测序可采用本文所描述的核酸例如来 自RNA转录或RNA作为模板的基因组DNA、cDNA进行。测序可 包括大规模平行测序。
在某些实施方案中,高通量测序涉及采用太阳神生物科学公 司(剑桥,马萨诸塞州)[Helicos BioSciences Corporation(Cambridge, Massachusetts)]的技术例如通过合成单分子测序法[Single Molecule Sequencing by Synthesis(SMSS)]。在某些实施方案中,高通量测序涉 及采用454Lifesciences,Inc.(Branford,Connecticut)的技术例如Pico Titer Plate设备,该设备包括纤维光学板,该光学板传送通过待由该 仪器中CDD照相机记录的测序反应产生的化学发光信号。该纤维光 学板的使用使得在4.5小时内检测最少2千万碱基对成为可能。
在某些实施方案中,高通量测序采用克隆单分子阵列(Solexa, Inc.)或利用可逆终止子化学的通过合成测序法 [sequencing-by-synthesis(SBS)]进行。这些技术在部分地在美国专利 Nos.6,969,488;6,897,023;6,833,246;6,787,308,和美国公布申请Nos.200401061 30;20030064398;20030022207及Constans,A,The Scientist 2003,17(13):36中有描述。
在某些实施方案中,RNA或DNA的高通量测序可用AnyDot. 芯片(Genovoxx,Germany)进行,该芯片使得监控生物进程[例如, miRNA表达或等位基因变异性(SNP检测)]成为可能。尤其是, AnyDot芯片能使核苷酸荧光信号检测增强10倍–50倍。其他高通 量测序系统包括Venter,J.,et al.Science,2001年2月16日;Adams,M. et al,Science,2000年3月24日;及M.J,Levene,et al.Science, 299:682-686,2003年1月;以及美国公布申请No.20030044781和 2006/0078937中所公开的那些系统。使核酸链生长及识别所加的核苷酸类似物可能被重复,以便该核酸链进一步延伸,并确定靶核酸的序 列。
本文所公开的方法可包括基于选择子集合的一个或多个基 因组区域进行测序反应。所述选择子集合可包括一个或多个表2的基 因组区域。测序反应可在基于表2的选择子集合的10,20,30,40,50, 60,70,80,90,100或更多基因组区域上进行。测序反应可在基于表2 的选择子集合的5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%或更多基因组区 域上进行。
测序反应可在选择子集合的基因组区域子集上进行。测序反 应可在选择子集合的10,20,30,40,50,60,70,80,90,100,110,120, 130,140,150,160,170,180,190,200,210,220,230,240,250,260,270, 280,290,300或更多基因组区域上进行。测序反应可在选择子集合的 325,350,375,400,425,450,475,500或更多基因组区域上进行。
测序反应可在选择子集合的所有基因组区域上进行。或者, 测序反应可在选择子集合的5%、10%,15%,20%,25%,30%,35%, 40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,95%或更 多基因组区域上进行。测序反应可在选择子集合的至少10%基因组区 域上进行。测序反应可在选择子集合的至少30%基因组区域上进行。 测序反应可在选择子集合的至少50%基因组区域上进行。
测序反应可在选择子集合的少于5%,10%,15%,20%,25%, 30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%, 90%,95%基因组区域上进行。测序反应可在选择子集合的少于10% 基因组区域上进行。测序反应可在选择子集合的少于30%基因组区域 上进行。测序反应可在选择子集合的少于50%基因组区域上进行。
本文所公开的方法可包括获得选择子集合的一个或多个基 因组区域的测序信息。可获得基于表2的选择子集合的10,20,30,40, 50,60,70,80,90,100或更多基因组区域的测序信息。可获得基于表2 的选择子集合的5%,10%,15%,20%,25%,30%,35%,40%,45%,50%, 55%,60%,65%,70%,75%,80%,85%,90%,或95%或更多基因组区域的测序信息。
可获得选择子集合的基因组区域子集的测序信息。可获得选 择子集合的10,20,30,40,50,60,70,80,90,100,110,120,130,140, 150,160,170,180,190,200,210,220,230,240,250,260,270,280,290, 300或更多基因组区域的测序信息。可获得选择子集合的325,350, 375,400,425,450,475,500或更多基因组区域的测序信息。
可获得选择子集合的所有基因组区域的测序信息。或者,可 获得选择子集合的5%,10%,15%,20%,25%,30%,35%,40%,45%, 50%,55%,60%,65%,70%,75%,80%,85%,90%,或95%或更多基因 组区域的测序信息。可获得选择子集合的至少10%基因组区域的测序 信息。可获得选择子集合的至少30%基因组区域的测序信息。
可获得选择子集合的少于5%,10%,15%,20%,25%,30%, 35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,或 95%基因组区域的测序信息。可获得选择子集合的少于10%基因组区 域的测序信息。可获得选择子集合的少于30%基因组区域的测序信 息。可获得选择子集合的少于50%基因组区域的测序信息。可获得选 择子集合的少于70%基因组区域的测序信息。
扩增
本文所公开的方法可包括脱细胞DNA(cfDNA)和/或循环肿 瘤DNA(ctDNA)的扩增。扩增可包括基于PCR的扩增。或者,扩增 可包括非基于PCR的扩增。
cfDNA和/或ctDNA的扩增可包括采用珠扩增接着采用 Marguiles et al."在微量制备的高密度pricolitre反应器中的基因组测 序(Genome sequencing inmicrofabricated high-density pricolitre reactors)",Nature,doi:10.1038/nature03959;以及美国公布申请Nos. 20020012930;20030058629;20030100102;20030148344;20040248 161;20050079510,20050124022;和20060078909中所描述的纤维光 学检测。
核酸的扩增可包括采用一个或多个聚合酶。该聚合酶可以是 DNA聚合酶。该聚合酶可以是RNA聚合酶。该聚合酶可以是高保真 聚合酶。该聚合酶可以是KAPA HiFi DNA聚合酶。该聚合酶可以是 Phusion DNA聚合酶。
扩增可包括20或更少的扩增周期。扩增可包括20,19,18,17, 16,15,14,13,12,11,10,或9或更少的扩增周期。扩增可包括18或 更少的扩增周期。扩增可包括16或更少的扩增周期。扩增可包括15 或更少的扩增周期。
样品
本文所公开的方法、试剂盒和系统可包括一个或多个样品或 其用途。“样品”可指从受试者中分离的任何生物学样品。样品可包括, 但不限于,等分试样的体液、全血、血小板、血清、血浆、红细胞、 白细胞或白血球、内皮细胞、组织活检、滑液、淋巴液、腹水及间质液或细胞外液。术语“样品”也可包含细胞间隙中的液体,包括齿龈缝 液、骨髓、脑脊液(CSF)、唾液、粘液、痰、精液、汗、尿或任何 其他体液。“血液样品”可指全血或其任何组分,包括血细胞、红细胞、 白细胞或白血球、血小板、血清和血浆。样品可来自体液。样品可以是血浆样品。样品可以是血清样品。样品可以是肿瘤样品。样品可通 过包括但不限于静脉穿刺、排泄、射精、按摩、活检、针抽、灌洗、 刮、外科切开、或介入等手段或本领域已知的其他手段从受试者获得。
可用于本发明方法的样品可包括无细胞DNA(cfDNA),例 如,不含在细胞中的样品中的DNA。通常这样的DNA可以是片段化 的,并且可能长度为平均约170个核苷酸,这可能与单个核小体周围 的DNA的长度一致。cfDNA可能一般是正常细胞和肿瘤细胞DNA 的非均匀混合物,而cfDNA的最初样品一般可能不富含癌细胞基因 组的频发突变的区域。术语ctDNA、无细胞肿瘤DNA或“循环肿 瘤”DNA可用于指源自于肿瘤的样品中的cfDNA部分。本领域技术 人员将理解,肿瘤来源和正常细胞来源之间的种系序列可能不会被区 分,但是含体细胞突变的序列具有高度的源自于肿瘤DNA的可能性。 样品可以是对照种系DNA样品。样品可以是已知肿瘤DNA样品。 样品可以是从怀疑其样品中有ctDNA的个体获得的cfDNA。
本文中所公开的方法可包括获得一个或多个受试者的样品。 所述一个或多个样品可以是肿瘤核酸样品。或者,或另外,所述一个 或多个样品可以是基因组核酸样品。应理解,从具有特定癌症的受试 者中获得肿瘤核酸样品和基因组核酸样品的步骤可一步发生。或者, 从具有特定癌症的受试者中获得肿瘤核酸样品和基因组核酸样品的 步骤可分步发生。例如,从患者,例如从活检样品获得单一组织样品 是可能的,该活检样品既包括肿瘤核酸又包括基因组核酸。从受试者 分开的样品、分开的组织中,或者甚至在分开的时间获得肿瘤核酸样 品和基因组核酸样品,也在该步骤的范围内。
样品可包含核酸。所述核酸可以是无细胞核酸。所述核酸可 以是循环核酸。所述核酸可来自肿瘤。所述核酸可以是循环肿瘤DNA (ctDNA)。所述核酸可以是无细胞DNA(cfDNA)。所述核酸可以是基 因组核酸。所述核酸可以是肿瘤核酸。
从具有特定癌症的受试者中获得肿瘤核酸样品和基因组核 酸样品的步骤也可包括从具有特定癌症的受试者中提取生物液体或 组织样品的过程。这些特定的步骤对医学领域普通技术人员,尤其是 那些在医学实验室工作的人员而言,是能充分理解的。
从具有特定癌症的受试者中获得肿瘤核酸样品和基因组核 酸样品的步骤可另外包括提高产率或回收样品中核酸的方法。例如, 该步骤可包括从可能存在于生物液体或组织样品中的其他细胞成分 和污染物中分离核酸的实验室方法。如所说明的,此类步骤可提高产 率和/或可促进测序反应。
也应理解,从具有特定癌症的受试者中获得肿瘤核酸样品和 基因组核酸样品的步骤可由商业实验室进行,该实验室甚至不直接接 触受试者。例如,该商业实验室可从医院或例如,在那里进行活检或 其他程序以从受试者获得组织的其他临床机构获得核酸样品。该商业 实验室因此可应受试者在那里进行治疗或诊断的机构的要求,或在其 指示下执行目前公开的方法中的所有步骤。
使用本文所描述的选择子集合,可筛选样品中相应于频发突 变的区域的DNA。在某些实施方案中,筛选程序包括下列方法。从 细胞来源获得的DNA可被分成大约cfDNA大小,例如,长度为约 50-约1KB的片段。然后可使该DNA变性,并与包含特定结合元件 (例如生物素等)的选择子集合探针群体杂交。杂交的DNA的组合 物然后可应用于补充的结合元件,例如抗生物蛋白,链酶亲和素,特 定用于标签等的抗体,及没有洗涤的未结合的DNA。所筛选的DNA 群体然后可洗去未结合的DNA。
所捕获的DNA然后可按任何合适的方案测序。在某些实施 方案中,所捕获的DNA在测序之前先扩增,其中扩增引物可采用适 合于高通量测序的引物或低聚核苷酸。所得产物可以是富含相应于在 有关癌症中有频发突变的基因组区域序列的一组DNA序列。剩余的分析可采用生物信息学方法,这可随体细胞突变的类型(例如SNV、 SNV、融合等)而变。
本文进一步公开了制备下一代测序(NGS)文库的方法。该方 法可包括(a)将衔接子与多个核酸连接以产生多个衔接子修饰的核酸; 及(b)扩增所述多个衔接子修饰的核酸,从而形成NGS文库,其中扩 增包括1-20个扩增周期。
本文所公开的方法可包括将衔接子与核酸连接。将衔接子与 核酸连接可包括将衔接子与核酸连接反应。将衔接子与核酸连接可包 括将衔接子与核酸杂交。将衔接子与核酸连接可包括引物延伸。
所述多个核酸可来自样品。将衔接子与多个核酸连接可包括 将样品与衔接子接触。
将衔接子与核酸连接可包括将衔接子与核酸在特定的温度 或温度范围下孵育。将衔接子与核酸连接可包括将衔接子与核酸在 20℃下孵育。将衔接子与核酸连接可包括将衔接子与核酸在低于20 ℃下孵育。将衔接子与核酸连接可包括将衔接子与核酸在19℃,18 ℃,17℃,16℃或更低温度下孵育。或者,将衔接子与核酸连接可包 括将衔接子与核酸在不同温度下孵育。例如,将衔接子与核酸连接可 包括温度循环。将衔接子与核酸连接可包括将衔接子与核酸在第一温 度下孵育第一时间段,接着在一个或多个另外的温度下孵育一个或多 个另外的时间段。所述一个或多个另外的温度可大于所述第一温度或 前面的温度。或者,或另外,所述一个或多个另外的温度可小于所述 第一温度或前面的温度。例如,所述核酸和衔接子可在10℃孵育30 秒,接着在30℃孵育30秒。在10℃孵育30秒和在30℃孵育30 秒的温度循环可重复多次。例如,通过温度循环将衔接子与核酸连接 可包括温度在30秒内从10℃-30℃交替增加总时间段12-16小时。
衔接子与核酸可在规定的温度或温度范围下孵育一段时间。 衔接子与核酸可在规定的温度或温度范围下孵育至少约15分钟。衔 接子与核酸可在规定的温度或温度范围下孵育至少约30分钟、60分 钟、90分钟、120分钟或更长。衔接子与核酸可在规定的温度或温度 范围下孵育至少约1小时、2小时、3小时、4小时、5小时、6小时、 7小时、8小时、9小时、10小时、12小时、14小时、16小时或更 长。衔接子与核酸可在规定的温度或温度范围下孵育至少约16小时。
通过在温度小于或等于20℃下将核酸与衔接子孵育至少约 20,30,40,50,60,70,80,90,100或更多分钟,衔接子可与核酸连接。 通过在温度小于或等于20,19,18,17,16℃下将核酸与衔接子孵育至 少约1小时,衔接子可与核酸连接。通过在温度小于或等于18℃下 将核酸与衔接子孵育至少约1,2,3,4,5,6,7,8,9,10,11,12,13,14,15, 16或更多小时,衔接子可与核酸连接。通过在温度小于或等于20,19, 18,17,16℃下将核酸与衔接子孵育至少约5小时,衔接子可与核酸 连接。通过在温度小于或等于16℃下将核酸与衔接子孵育至少约5 小时,衔接子可与核酸连接。
将衔接子与核酸连接可包括使用一种或多种酶。该酶可以是 连接酶。该连接酶可以是DNA连接酶。该DNA连接酶可以是T4 DNA 连接酶、大肠杆菌(E.coli)DNA连接酶、哺乳动物连接酶或其组合。 哺乳动物连接酶可以是DNA连接酶I、DNA连接酶III、或DNA连 接酶IV。所述连接酶可以是耐热连接酶。
所述衔接子可包括通用引物结合序列。所述衔接子可包括引 物序列。该引物序列可使衔接子修饰的核酸的测序成为可能。该引物 序列可使衔接子修饰的核酸的扩增成为可能。衔接子可包括条形码。 该条形码能够区分相同分子种类的两个或更多个分子。该条形码能够 定量一个或多个分子。
所述方法可进一步包括将多个核酸与多个珠接触以形成多 个珠缀合的核酸。将衔接子与核酸连接之后,多个核酸可与多个珠接 触。或者,或另外,在衔接子修饰的核酸扩增之前,多个核酸可与多 个珠接触。或者,或另外,在衔接子修饰的核酸扩增之后,多个核酸 可与多个珠接触。
所述珠可以是磁珠。所述珠可以是涂覆珠。所述珠可以是抗 体涂覆的珠。所述珠可以是蛋白涂覆的珠。所述珠可以用一个或多个 官能团涂覆。所述珠可以用一个或多个低聚核苷酸涂覆。
扩增多个衔接子修饰的核酸可包括本领域已知的任何方法。 例如,扩增可包括基于PCR的扩增。或者,扩增可包括非基于PCR 的扩增。扩增可包括本文所公开的任一扩增方法。
扩增多个衔接子修饰的核酸可包括扩增衔接子修饰的核酸 的产物或衍生物。衔接子连接的核酸的产物或衍生物可包括珠缀合的 核酸、富集的核酸、成片段的核酸、末端修复过的核酸、A-尾的核酸、 条形编码的核酸或其组合。
扩增衔接子修饰的核酸可包括1-20个扩增周期。扩增衔接子 修饰的核酸可包括1-18个扩增周期。扩增衔接子修饰的核酸可包括1-17个扩增周期。扩增衔接子修饰的核酸可包括1-16个扩增周期。 扩增衔接子修饰的核酸可包括2-20个扩增周期。扩增衔接子修饰的 核酸可包括2-18个扩增周期。扩增衔接子修饰的核酸可包括2-16个 扩增周期。扩增衔接子修饰的核酸可包括3-20个扩增周期。扩增衔 接子修饰的核酸可包括3-19个扩增周期。扩增衔接子修饰的核酸可 包括3-17个扩增周期。扩增衔接子修饰的核酸可包括4-20个扩增周 期。扩增衔接子修饰的核酸可包括4-18个扩增周期。扩增衔接子修 饰的核酸可包括4-16个扩增周期。扩增衔接子修饰的核酸可包括5-20 个扩增周期。扩增衔接子修饰的核酸可包括5-19个扩增周期。扩增 衔接子修饰的核酸可包括5-18个扩增周期。扩增衔接子修饰的核酸 可包括5-17个扩增周期。扩增衔接子修饰的核酸可包括5-16个扩增 周期。扩增衔接子修饰的核酸可包括5-15个扩增周期。
扩增衔接子修饰的核酸可包括20,19,18,17,16,15,14,13, 12,11,10,9,8,7,6,5,4,3,或2个或更少扩增周期。扩增衔接子修饰 的核酸可包括20个或更少扩增周期。扩增衔接子修饰的核酸可包括 18个或更少扩增周期。扩增衔接子修饰的核酸可包括16个或更少扩 增周期。扩增衔接子修饰的核酸可包括15个或更少扩增周期。
所述方法可进一步包括将多个核酸分段以产生多个成片段 的核酸。多个核酸可在将衔接子与所述多个核酸连接之前分段。多个 核酸可在衔接子与所述多个核酸连接之后分段。多个核酸可在衔接子 修饰的核酸扩增之前分段。多个核酸可在衔接子修饰的核酸扩增之后 分段。将多个核酸分段可包括使用一种或多种限制性内切酶。将多个 核酸分段可包括使用超声波仪。将多个核酸分段可包括剪断核酸。
所述方法可进一步包括对多个核酸进行末端修复反应以形 成多个末端修复的核酸。所述末端修复反应可在将衔接子与多个核酸 连接之前进行。所述末端修复反应可在将衔接子与多个核酸连接之后 进行。所述末端修复反应可在衔接子修饰的核酸扩增之前进行。所述 末端修复反应可在衔接子修饰的核酸扩增之后进行。所述末端修复反 应可在将多个核酸分段之前进行。所述末端修复反应可在将多个核酸 分段之后进行。进行所述末端修复反应可包括采用一种或多种末端修 复酶。
所述方法可进一步包括对多个核酸进行加A尾反应以生成多 个加A尾的核酸。所述加A尾反应可在将衔接子与多个核酸连接之 前进行。所述加A尾反应可在将衔接子与多个核酸连接之后进行。 所述加A尾反应可在衔接子修饰的核酸扩增之前进行。所述加A尾反应可在衔接子修饰的核酸扩增之后进行。所述加A尾反应可在多 个核酸分段之前进行。所述加A尾反应可在多个核酸分段之后进行。 所述加A尾反应可在多个核酸的末端修复之前进行。所述加A尾反 应可在多个核酸的末端修复之后进行。进行所述加A尾反应可包括采用一种或多种加A尾酶。
所述方法可进一步包括将多个核酸与多个分子条形码接触 以产生多个条形编码核酸。制备所述多个条形编码核酸可在将衔接子 与多个核酸连接之前发生。制备所述多个条形编码核酸可在将衔接子 与多个核酸连接之后发生。制备所述多个条形编码核酸可在衔接子修 饰的核酸扩增之前发生。制备所述多个条形编码核酸可在衔接子修饰 的核酸扩增之后发生。制备所述多个条形编码核酸可在将多个核酸分 段之前发生。制备所述多个条形编码核酸可在将多个核酸分段之后发 生。制备所述多个条形编码核酸可在多个核酸的末端修复之前发生。 制备所述多个条形编码核酸可在多个核酸的末端修复之后发生。制备所述多个条形编码核酸可在多个核酸加A尾之前发生。制备所述多 个条形编码核酸可在多个核酸加A尾之后发生。所述条形码能够区 分相同分子种类的两个或更多个分子。所述条形码能够定量一个或多 个分子。所述条形码可以是分子条形码。该分子条形码可用于区分相 同分子种类的两个或更多个分子。分子条形码可用于区分相同基因组 区域的两个或更多个分子。所述条形码可以是样品索引。该样品索引 可用于识别分子(例如,核酸)来自其中的样品。例如,来自第一样 品的分子可与第一样品索引相关,而来自第二样品的分子可与第二样 品索引相关。来自两个或更多个样品的样品索引可以是不同的。所述 两个或更多个样品可来自相同受试者。所述两个或更多个样品可来自 两个或更多个受试者。所述两个或更多个样品可在相同时间获得。或 者,或另外,所述两个或更多个样品可在两个或更多个时间点获得。
所述方法可进一步包括将多个核酸与多个测序衔接子接触 以产生多个适合于测序仪的核酸。制备多个适合于测序仪的核酸可在 将衔接子与多个核酸连接之前发生。制备多个适合于测序仪的核酸可 在将衔接子与多个核酸连接之后发生。制备多个适合于测序仪的核酸 可在衔接子修饰的核酸扩增之前发生。制备多个适合于测序仪的核酸 可在衔接子修饰的核酸扩增之后发生。制备多个适合于测序仪的核酸 可在多个核酸分段之前发生。制备多个适合于测序仪的核酸可在多个 核酸分段之后发生。制备多个适合于测序仪的核酸可在多个核酸的末 端修复之前发生。制备多个适合于测序仪的核酸可在多个核酸的末端 修复之后发生。制备多个适合于测序仪的核酸可在多个核酸加A尾 之前发生。制备多个适合于测序仪的核酸可在多个核酸加A尾之后 发生。制备多个适合于测序仪的核酸可在制备条形编码核酸之前发 生。制备多个适合于测序仪的核酸可在制备条形编码核酸之后发生。 测序衔接子可使核酸的测序成为可能。
所述方法可进一步包括将多个核酸与多个引物衔接子接触 以产生多个适合于引物的核酸。制备多个适合于引物的核酸可在将衔 接子与多个核酸连接之前发生。制备多个适合于引物的核酸可在将衔 接子与多个核酸连接之后发生。制备多个适合于引物的核酸可在衔接 子修饰的核酸扩增之前发生。制备多个适合于引物的核酸可在衔接子 修饰的核酸扩增之后发生。制备多个适合于引物的核酸可在多个核酸 分段之前发生。制备多个适合于引物的核酸可在多个核酸分段之后发 生。制备多个适合于引物的核酸可在多个核酸的末端修复之前发生。 制备多个适合于引物的核酸可在多个核酸的末端修复之后发生。制备多个适合于引物的核酸可在多个核酸加A尾之前发生。制备多个适 合于引物的核酸可在多个核酸加A尾之后发生。制备多个适合于引 物的核酸可在制备条形编码核酸之前发生。制备多个适合于引物的核 酸可在制备条形编码核酸之后发生。制备多个适合于引物的核酸可在 制备适合于测序仪的核酸之前发生。制备多个适合于引物的核酸可在 制备适合于测序仪的核酸之后发生。制备多个适合于引物的核酸可包 括将所述引物衔接子与核酸连接。所述引物衔接子可使核酸的测序成 为可能。所述引物衔接子可使核酸的扩增成为可能。
所述方法可进一步包括进行杂交反应。所述杂交反应可包括 使用固体支持物。所述杂交反应可包括将多个核酸与固体支持物杂 交。所述杂交反应可包括使用多个珠。所述杂交反应可包括将多个核 酸与多个珠杂交。所述方法可进一步包括在酶促反应之后进行杂交反 应。所述酶促反应可包括连接反应。所述酶促反应可包括断裂反应。 所述酶促反应可包括末端修复反应。所述酶促反应可包括加A尾反 应。所述酶促反应可包括扩增反应。所述方法可进一步包括在一个或 多个选自由连接反应、断裂反应、末端修复反应、加A尾反应和扩 增反应组成的群组的反应之后进行杂交反应。所述方法可进一步包括 在两个或更多个选自由连接反应、断裂反应、末端修复反应、加A 尾反应和扩增反应组成的群组的反应之后进行杂交反应。所述方法可 进一步包括在三个或更多个选自由连接反应、断裂反应、末端修复反 应、加A尾反应和扩增反应组成的群组的反应之后进行杂交反应。 所述方法可进一步包括在四个或更多个选自由连接反应、断裂反应、 末端修复反应、加A尾反应和扩增反应组成的群组的反应之后进行 杂交反应。所述杂交反应可在选自由连接反应、断裂反应、末端修复 反应、加A尾反应和扩增反应组成的群组的各反应之后进行。
核酸检测方法
本文提供了检测不均匀样品中少量核酸的超灵敏方法。所述 方法可包括(a)获得源自于受试者无细胞DNA(cfDNA)样品的序列信 息;及(b)用来自于(a)的序列信息检测样品中的少量无细胞核酸,其 中所述方法能够检测小于2%总cfDNA的少量无细胞核酸的百分比。 少量核酸可指来自于受试者的、不同于正常细胞或组织的细胞或组织 的核酸。例如,受试者可能感染上病原体(例如细菌)而少量核酸可 能是来自该病原体的核酸。在另一个实例中,受试者是捐献者细胞、 组织或器官的接受者而少量核酸可能是来自该捐献者细胞、组织或器 官的核酸。在另一个实例中,受试者是怀孕受试者而少量核酸可能是 来自胎儿的核酸。所述方法可包括采用序列信息检测胎儿中的一个或 多个体细胞突变。所述方法可包括采用序列信息检测胎儿中的一个或 多个合子形成后突变。或者,受试者可能正患癌症而少量核酸可能是 来自癌细胞的核酸。
本文提供了检测样品中循环肿瘤DNA的超灵敏方法。该方 法可称为深度测序的癌症个体化概况分析(CAPP-Seq)。该方法可包括 (a)获得源自于受试者无细胞DNA(cfDNA)样品的序列信息;及(b)用 来自于(a)的序列信息检测样品中的无细胞肿瘤DNA(ctDNA),其中所述方法能够检测小于2%总cfDNA的ctDNA的百分比。CAPP-Seq 可准确地定量早期和晚期肿瘤中的无细胞肿瘤DNA。CAPP-Seq可识 别检测限<0.01%的、下至0.025%的突变体等位基因。源自于肿瘤的 DNA水平经常与临床上对各种疗法的响应平行,而CAPP-Seq可识 别可反应的突变。CAPP-Seq可常规上用于无创检测并监控肿瘤,因 此促进了个体化癌症治疗。
本文公开了测定样品中循环肿瘤DNA(ctDNA)的量的方法。 该方法可包括(a)将一个或多个衔接子与源自于受试者样品的无细胞 DNA(cfDNA)连接以形成一个或多个与衔接子连接的cfDNA;(b)对 所述一个或多个与衔接子连接的cfDNA进行测序,其中待测序的与衔接子连接的cfDNA基于包含多个基因组区域的选择子集合;及(c) 基于从与衔接子连接的cfDNA获得的测序信息,采用计算机可读媒 介物测定来自于肿瘤的cfDNA的量。来自于肿瘤的cfDNA可称为无 细胞肿瘤DNA或循环肿瘤DNA(ctDNA)。ctDNA的量可以是百分比。 测定ctDNA的量可包括测定选择子集合的一个或多个基因组区域的 序列。测定ctDNA的量可包括测定许多序列读数,这些读数含相应 于基于选择子集合的一个或多个基因组区域中的一个或多个突变的 突变序列。测定ctDNA的量可包括测定许多序列读数,这些读数含 有不含突变的序列,所述突变相应于基于选择子集合的一个或多个基 因组区域中的一个或多个突变。测定ctDNA的量可包括计算序列读 数的百分比,这些读数含具有一个或多个突变的序列,所述突变相应 于基于选择子集合的一个或多个基因组区域中的一个或多个突变。例 如,选择子集合可用于获得第一基因组区域的测序信息。该序列信息 可包括属于该第一基因组区域的二十个测序读数。分析该测序信息可 确定含相应于基于选择子集合的第一基因组区域中第一突变的突变 的测序读数中的两个,及不含相应于基于选择子集合的第一基因组区 域中突变的突变的测序读数中的十八个。因此,ctDNA的量可等于具 有相应于第一基因组区域中突变的突变的测序读数的百分比,这将为 10%(例如,2个读数除以20个读数乘以100%)。对属于基于选 择子集合的两个或更多个基因组区域的序列信息而言,测定ctDNA 的量可包括计算所述两个或更多个基因组区域的平均百分比。例如, 含相应于第一基因组区域中第一突变的突变的测序读数百分比为 20%,而含相应于第二基因组区域中第二突变的突变的测序读数百分 比为40%;该ctDNA的量是所述两个基因组区域的平均百分比,即 30%[例如,(20%+40%)除以2]。ctDNA的量可通过ctDNA的百分 比乘以总无细胞DNA的绝对浓度/单位体积折合成质量/单位体积值。 例如,ctDNA的百分比可能是30%而无细胞DNA的浓度可能是10 纳克/毫升(ng/mL);ctDNA的量可能为3ng/mL(例如,0.30乘以 10ng/mL)。
或者,或另外,测定ctDNA的量可包括采用包含条形码序列 的衔接子。两个或更多个衔接子可包含两个或更多个不同的条形码序 列。条形码序列可以是随机序列。基因组区域可与含条形码序列的衔 接子连接。相同基因组区域可与含不同条形码序列的衔接子连接。非 相同基因组区域可与含不同条形码序列的衔接子连接。条形码序列可 用于计数基因组区域出现的数目。ctDNA的量可基于基于选择子集合 计数基因组区域出现的数目。与其ctDNA的量基于测序读数数,倒 不如ctDNA的量可基于与一个或多个基因组区域相关的不同条形码 的数。例如,十个不同的条形码可与含相应于基于选择子集合的第一 基因组区域中的突变的突变序列相关,所得ctDNA的量为10。对两 个或更多个基因组区域而言,ctDNA的量可以是所述两个或更多个基 因组区域的量的总合。例如,十个不同的条形码可与含相应于第一基 因组区域中的突变的突变序列相关,而二十个不同的条形码可与含相应于第二基因组区域中的突变的突变序列相关,所得ctDNA的量为 30。ctDNA的量可以是总无细胞DNA的百分比。例如,十个不同的 条形码可与含相应于第一基因组区域中的突变的突变序列相关,而四 十个不同的条形码可与不含相应于第一基因组区域中的突变的突变序列相关,所得ctDNA的量为20%[例如,(10除以50)乘以100%]。
本文公开了富集样品中循环肿瘤DNA的方法。该方法可包 括将样品中的无细胞核酸与多个低聚核苷酸接触,其中所述多个低聚 核苷酸选择性地与多个基因组区域杂交,该基因组区域包含存在 于>60%患癌症受试者群体中的多个突变。
或者,所述方法可包括将样品中的无细胞核酸与一组低聚核 苷酸接触,其中所述组的低聚核苷酸选择性地与多个基因组区域杂 交,其中(a)>80%癌症受试者群体的肿瘤包括所述基因组区域中的一 个或多个突变;(b)所述多个基因组区域表示小于1.5Mb的基因组; 及(c)所述组的低聚核苷酸包含5个或更多个选择性地与多个基因组 区域杂交的不同低聚核苷酸。所述无细胞核酸可以是DNA。所述无 细胞核酸可以是RNA。
应用
根据本文所描述的方法制备的选择子集合可用于分析基因 变更,尤其是用于比较癌症患者的肿瘤和基因组序列。如图2所示, 通过对肿瘤和基因组核酸样品中的选择子文库的基因组区域测序并 比较结果,该患者组织活检样品可用于发现肿瘤中的突变。可设计选 择子集合用于识别大比例的所有患者肿瘤中的突变,因此,优化每个 患者的文库可能不是必要的。
在本发明的某些方法中,将体细胞突变的cfDNA的分析与从 个体已知肿瘤样品的体细胞突变开发的最初的数据集中个体化的肿 瘤标志物比较。为了开发该数据集,可获得肿瘤细胞或已知肿瘤DNA 的样品,将该样品与种系样品比较。优选,虽然不必要,种系样品可 来自于该个体。
“分析”可包括通过测定DNA序列测定与样品相关的一组值, 并将该序列与相同受试者的样品或一组样品、对照品、本领域已知的 参考值等的序列比较。“分析”可包括进行统计学分析。
CAPP-seq可采用相应于频发突变的区域的cfDNA的杂种筛 选以诊断和监控个体患者的癌症。在此类实施方案中,选择子集合探 针用于富集(例如通过杂种筛选)相应于很可能含肿瘤特异性体细胞 突变的基因组区域的ctDNA。然后扩增并测序“所筛选的”ctDNA以确 定该个体肿瘤中那个所筛选的基因组区域发生突变。最初任选将个体 的种系DNA序列和/或该个体的肿瘤活检样品比较。这些体细胞突变 提供了区分ctDNA和种系DNA的手段,因此提供了有关该个体中存 在肿瘤细胞和肿瘤细胞的量的有用信息。该过程的流程图如图22所 示。
在其他实施方案中,CAPP-seq用于癌症筛查和免活检肿瘤基 因型分型,其中患者的ctDNA样品不参照活检样品来分析。在某些 此类实施方案中,其中CAPP-Seq从ctDNA样品中识别出临床上可 作用的靶中的突变,所述方法包括提供适合于该靶的疗法。此类突变包括,但不限于,重排和其他涉及致癌基因、受体酪氨酸激酶等的突 变。
本文进一步公开了为癌症患者进行检测、诊断、预测或疗法 选择的方法,该方法包括:(a)获得源自于受试者无细胞DNA(cfDNA) 样品的序列信息;及(b)用来自于(a)的序列信息检测样品中的无细胞 非种系DNA(cfNG-DNA),其中所述方法能够检测小于2%总cfDNA 的cfNG-DNA的百分比。该方法能够检测小于1.5%总cfDNA的ctDNA 的百分比。该方法能够检测小于1%总cfDNA的cfNG-DNA的百分比。 该方法能够检测小于0.5%总cfDNA的cfNG-DNA的百分比。该方法能 够检测小于0.1%总cfDNA的cfNG-DNA的百分比。该方法能够检测小 于0.01%总cfDNA的cfNG-DNA的百分比。该方法能够检测小于 0.001%总cfDNA的cfNG-DNA的百分比。该方法能够检测小于 0.0001%总cfDNA的cfNG-DNA的百分比。样品可以是血浆或血清样 品。样品可以是脑脊液样品。在某些情况中,样品不是帕氏涂片样品。在某些情况中,样品是囊肿液样品。在某些情况中,样品是胰液样品。 序列信息可包括与至少10,20,30,40,100,200,300个基因组区域相关 的信息。所述基因组区域可包括基因、外显子区域、内含子区域、未 翻译区域、非编码区域或其组合。所述基因组区域可包括外显子区域、 内含子区域和未翻译区域中的两个或更多个。所述基因组区域可包括 至少一个外显子区域和至少一个内含子区域。至少5%的所述基因组 区域可包括内含子区域。至少20%的所述基因组区域可包括外显子区 域。所述基因组区域可包含小于1.5兆碱基(Mb)的基因组。所述基因 组区域可包含小于1Mb的基因组。所述基因组区域可包含小于500千 碱基(kb)的基因组。所述基因组区域可包含小于350kb的基因组。所 述基因组区域可包含100kb-300kb之间的基因组。所述序列信息可包 含属于1,2,3,4,5,6,7,8,9,10,15,20或更多包含多个基因组区域的 选择子集合的基因组区域的信息。所述序列信息可包含属于25,30,40, 50,60,70,80,90,100或更多包含多个基因组区域的选择子集合的基 因组区域的信息。所述序列信息可包含属于多个基因组区域的信息。 所述多个基因组区域可基于包含基因组区域的选择子集合,该基因组 区域包含存在于来自癌症受试者群体的一个或多个受试者中的一个 或多个突变。至少约5%,10%,15%,20%,25%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,或95%的所述多个 基因组区域可基于包含基因组区域的选择子集合,该基因组区域包含 存在于来自癌症受试者群体的一个或多个受试者中的一个或多个突 变。所述选择子集合的基因组区域的总范围可包含少于1.5兆碱基 (Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或150kb 的基因组。所述选择子集合的基因组区域的总范围可以是100kb-300 kb之间的基因组。所述选择子集合可包含1,2,3,4,5,6,7,8,9,10,15, 20,25,30,40,50,60,70,80,90,100或更多个选自表2的基因组区域。 在某些情况中,所述受试者不患有胰腺癌。获得序列信息可包含进行 大规模的平行测序。大规模的平行测序可在cfDNA样品中的cfDNA基 因组子集中进行。所述基因组子集可包含少于1.5兆碱基(Mb),1Mb, 500千碱基(kb),350kb,300kb,250kb,200kb,或150kb的基因组。所 述基因组的子集可包含100kb-300kb之间的基因组。获得序列信息可包含使用单分子进行条形编码。使用单分子进行条形编码可包括将含 有不同序列的条形码与cfDNA样品中的核酸连接。所述序列信息可包 含属于条形码的序列信息。该方法可包括获得受试者两个或更多个样 品中的无细胞DNA样品的测序信息。所述两个或更多个样品可以是 相同类型的样品。所述两个或更多个样品可以是两个不同类型的样 品。所述两个或更多个样品可在相同时间点从受试者获得。所述两个 或更多个样品可在两个或更多个时间点从受试者获得。该方法可包括 获得两个或更多个不同受试者的无细胞DNA样品的测序信息。来自 两个或更多个不同受试者的样品可在获得该测序信息之前编入索引 并合并在一起。使用序列信息可包括在受试者基因组的所选区域中检 测一种或多种SNVs、插入/缺失、融合、断点、结构变体、串联重复 的可变数、超变区、小卫星、二核苷酸重复、三核苷酸重复、四核苷 酸重复、样品序列重复、或其组合。使用序列信息可包含检测受试者 基因组的所选区域中的SNVs、插入/缺失、拷贝数变体及重排中的一 种或多种。使用序列信息可包含检测受试者基因组的所选区域中的 SNVs、插入/缺失、拷贝数变体及重排中的两种或更多种。使用序列 信息可包含检测受试者基因组的所选区域中的至少一个SNV、插入/ 缺失、拷贝数变体及重排。在某些情况中,检测不涉及进行数字PCR (dPCR)。检测无细胞非种系DNA可包含将运算法则应用于序列信息 以确定选择子集合中一个或多个基因组区域的量。所述选择子集合可 包含多个基因组区域,该基因组区域包含存在于癌症受试者群体中的一个或多个癌症受试者中的一种或多种突变。所述选择子集合可包含 多个基因组区域,该基因组区域包含存在于癌症受试者群体中的至少 60%癌症受试者中的一种或多种突变。所述cfNG-DNA可源自于受试 者中的肿瘤。所述方法可进一步包括基于检测cfNG-DNA来检测受试 者中的癌症。所述方法可进一步包括基于检测cfNG-DNA来诊断受试 者中的癌症。诊断癌症的灵敏度可为至少约75%,77%,80%,82%, 85%,87%,89%,90%,91%,92%,93%,94%,95%,96%,97%,或99%。 诊断癌症的特异性可为至少约75%,77%,80%,82%,85%,87%,89%, 90%,91%,92%,93%,94%,95%,96%,97%,或99%。所述方法可进一 步包括基于检测cfNG-DNA来预测受试者中的癌症。预测癌症的灵敏 度可为至少约75%,77%,80%,82%,85%,87%,89%,90%,91%,92%, 93%,94%,95%,96%,97%,或99%。预测癌症的特异性可为至少约 75%,77%,80%,82%,85%,87%,89%,90%,91%,92%,93%,94%, 95%,96%,97%或99%。所述方法可进一步包括基于检测cfNG-DNA 来确定受试者的治疗方案。所述方法可进一步包括基于检测 cfNG-DNA给予受试者抗癌疗法治疗。所述cfNG-DNA可源自于受试 者中的胎儿。所述方法可进一步包括基于检测cfNG-DNA来诊断胎儿 中的疾病或病症。诊断胎儿中的疾病或病症的灵敏度可为至少约75%, 77%,80%,82%,85%,87%,89%,90%,91%,92%,93%,94%,95%, 96%,97%,或99%。诊断胎儿中的疾病或病症的特异性可为至少约75%, 77%,80%,82%,85%,87%,89%,90%,91%,92%,93%,94%,95%, 96%,97%,或99%。所述cfNG-DNA可源自于受试者中的移植器官、细 胞或组织。所述方法可进一步包括基于检测cfNG-DNA来诊断受试者 中的器官移植排斥。诊断器官移植排斥的灵敏度可为至少约75%, 77%,80%,82%,85%,87%,89%,90%,91%,92%,93%,94%,95%, 96%,97%,或99%。诊断器官移植排斥的特异性可为至少约75%,77%, 80%,82%,85%,87%,89%,90%,91%,92%,93%,94%,95%,96%, 97%,或99%。所述方法可进一步包括基于检测cfNG-DNA来预测受试 者中的器官移植排斥风险。预测器官移植排斥风险的灵敏度可为至少 约75%,77%,80%,82%,85%,87%,89%,90%,91%,92%,93%,94%, 95%,96%,97%,或99%。预测器官移植排斥风险的特异性可为至少约 75%,77%,80%,82%,85%,87%,89%,90%,91%,92%,93%,94%, 95%,96%,97%,或99%。所述方法可进一步包括基于检测cfNG-DNA 为受试者确定免疫抑制疗法。所述方法可进一步包括基于检测 cfNG-DNA给予受试者免疫抑制治疗。
本文进一步公开了检测、诊断、或预测受试者中癌症状态或 结果的方法。该方法可包括(a)获得源自于受试者无细胞DNA(cfDNA) 样品的序列信息;(b)用来自于(a)的序列信息检测样品中的无细胞肿 瘤DNA(ctDNA),其中所述方法能够检测小于2%总cfDNA的ctDNA 的百分比。该方法能够检测小于1.5%总cfDNA的ctDNA的百分比。该 方法能够检测小于1%总cfDNA的ctDNA的百分比。该方法能够检测 小于0.5%总cfDNA的ctDNA的百分比。该方法能够检测小于0.1%总 cfDNA的ctDNA的百分比。该方法能够检测小于0.01%总cfDNA的 ctDNA的百分比。该方法能够检测小于0.001%总cfDNA的ctDNA的百 分比。该方法能够检测小于0.0001%总cfDNA的ctDNA的百分比。样 品可以是血浆或血清样品。样品可以是脑脊液样品。在某些情况中, 样品不是帕氏涂片样品。在某些情况中,样品是囊肿液样品。在某些 情况中,样品是胰液样品。序列信息可包括与至少10,20,30,40,100, 200,300个基因组区域相关的信息。所述基因组区域可包括基因、外 显子区域、内含子区域、未翻译区域、非编码区域或其组合。所述基 因组区域可包括外显子区域、内含子区域和未翻译区域中的两个或更 多个。所述基因组区域可包括至少一个外显子区域和至少一个内含子 区域。至少5%的所述基因组区域可包括内含子区域。至少20%的所 述基因组区域可包括外显子区域。所述基因组区域可包含小于1.5兆 碱基(Mb)的基因组。所述基因组区域可包含小于1Mb的基因组。所 述基因组区域可包含小于500千碱基(kb)的基因组。所述基因组区域可包含小于350kb的基因组。所述基因组区域可包含100kb-300kb之 间的基因组。所述序列信息可包含属于1,2,3,4,5,6,7,8,9,10,15,20 或更多包含多个基因组区域的选择子集合的基因组区域的信息。所述 序列信息可包含属于25,30,40,50,60,70,80,90,100或更多包含多个 基因组区域的选择子集合的基因组区域的信息。所述序列信息可包含 属于多个基因组区域的信息。所述多个基因组区域可基于包含基因组 区域的选择子集合,该基因组区域包含存在于来自癌症受试者群体的 一个或多个受试者中的一个或多个突变。至少约5%,10%,15%,20%, 25%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%, 85%,90%,或95%的所述多个基因组区域可基于包含基因组区域的 选择子集合,该基因组区域包含存在于来自癌症受试者群体的一个或 多个受试者中的一个或多个突变。所述选择子集合的基因组区域的总 范围可包含少于1.5兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb, 250kb,200kb,或150kb的基因组。所述选择子集合的基因组区域的 总范围可以是100kb-300kb之间的基因组。所述选择子集合可包含1, 2,3,4,5,6,7,8,9,10,15,20,25,30,40,50,60,70,80,90,100或更多 个选自表2的基因组区域。在某些情况中,所述受试者不患有胰腺癌。 获得序列信息可包含进行大规模的平行测序。大规模的平行测序可在 cfDNA样品中的cfDNA基因组子集中进行。所述基因组子集可包含少 于1.5兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb, 或150kb的基因组。所述基因组的子集可包含100kb-300kb之间的基 因组。获得序列信息可包含使用单分子进行条形编码。使用单分子进 行条形编码可包括将含有不同序列的条形码与cfDNA样品中的核酸 连接。所述序列信息可包含属于条形码的序列信息。该方法可包括获 得受试者两个或更多个样品中的无细胞DNA样品的测序信息。所述 两个或更多个样品可以是相同类型的样品。所述两个或更多个样品可 以是两个不同类型的样品。所述两个或更多个样品可在相同时间点从 受试者获得。所述两个或更多个样品可在两个或更多个时间点从受试 者获得。该方法可包括获得两个或更多个不同受试者的无细胞DNA 样品的测序信息。来自两个或更多个不同受试者的样品可在获得测序 信息之前编入索引并合并在一起。使用序列信息可包括在受试者基因 组的所选区域中检测一种或多种SNVs、插入/缺失、融合、断点、结 构变体、串联重复的可变数、超变区、小卫星、二核苷酸重复、三核 苷酸重复、四核苷酸重复、样品序列重复或其组合。使用序列信息可 包含检测受试者基因组的所选区域中的SNVs、插入/缺失、拷贝数变 体及重排中的一种或多种。使用序列信息可包含检测受试者基因组的 所选区域中的SNVs、插入/缺失、拷贝数变体及重排中的两种或更多 种。使用序列信息可包含检测受试者基因组的所选区域中的至少一个 SNV、插入/缺失、拷贝数变体及重排。在某些情况中,检测不涉及 进行数字PCR(dPCR)。检测ctDNA可包含将运算法则应用于序列信息 以确定选择子集合中一个或多个基因组区域的量。所述选择子集合可 包含多个基因组区域,该基因组区域包含存在于癌症受试者群体中的 一个或多个癌症受试者中的一种或多种突变。所述选择子集合可包含 多个基因组区域,该基因组区域包含存在于癌症受试者群体中的至少 60%癌症受试者中的一种或多种突变。所述ctDNA可源自于受试者中 的肿瘤。所述方法可进一步包括基于检测ctDNA来检测受试者中的癌 症。所述方法可进一步包括基于检测ctDNA来诊断受试者中的癌症。 诊断癌症的灵敏度可为至少约75%,77%,80%,82%,85%,87%,89%, 90%,91%,92%,93%,94%,95%,96%,97%,或99%。诊断癌症的特异性可为至少约75%,77%,80%,82%,85%,87%,89%,90%,91%,92%, 93%,94%,95%,96%,97%,或99%。所述方法可进一步包括基于检测 ctDNA来预测受试者中的癌症。预测癌症的灵敏度可为至少约75%, 77%,80%,82%,85%,87%,89%,90%,91%,92%,93%,94%,95%, 96%,97%,或99%。预测癌症的特异性可为至少约75%,77%,80%,82%,85%,87%,89%,90%,91%,92%,93%,94%,95%,96%,97%,或 99%。所述方法可进一步包括基于检测ctDNA来确定受试者的治疗方 案。所述方法可进一步包括基于检测ctDNA给予受试者抗癌疗法治 疗。
本文进一步公开了诊断受试者癌症状态或结果的方法。所述 方法可包括(a)获得采自于受试者样品的无细胞基因组DNA的序列信 息,其中所述序列信息源自于至少80%受癌症折磨的受试者群体的突 变的基因组区域;及(b)基于所述序列信息诊断受试者中的癌症,所 述癌症选自肺癌、乳腺癌、结直肠癌和前列腺癌,其中所述方法的灵 敏度为80%。所述突变的区域可包括总范围少于1.5Mb的基因组。所 述突变的区域可包括总范围少于1Mb的基因组。所述突变的区域可包 括总范围少于500kb的基因组。所述突变的区域可包括总范围少于 350kb的基因组。所述突变的区域可包括总范围100kb-300kb之间的 基因组。所述序列信息可源自于2个或更多个区域。所述序列可源自 于10个或更多个区域。所述序列可源自于50个或更多个区域。所述受 癌症折磨的受试者群体可以是来自于一个或多个数据库的受试者。所 述一个或多个数据库可包含癌症基因组图集(TCGA)。所述序列信息 可包含属于至少一种突变的信息,该突变可存在于至少约60%受癌症 折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信 息,该突变可存在于至少约70%受癌症折磨的受试者群体中。所述序 列信息可包含属于至少一种突变的信息,该突变可存在于至少约80% 受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种突变 的信息,该突变可存在于至少约90%受癌症折磨的受试者群体中。所 述序列信息可包含属于至少一种突变的信息,该突变可存在于至少约 95%受癌症折磨的受试者群体中。所述序列信息可包含属于至少一种 突变的信息,该突变可存在于至少约99%受癌症折磨的受试者群体 中。所述序列信息可源自于至少85%受癌症折磨的受试者群体中的突 变区域。所述序列信息可源自于至少90%受癌症折磨的受试者群体中 的突变区域。所述序列信息可源自于至少95%受癌症折磨的受试者群 体中的突变区域。所述序列信息可源自于至少99%受癌症折磨的受试 者群体中的突变区域。获得序列信息可包括测序非编码区域。所述非 编码区域可包含一个或多个lncRNA,snoRNA,siRNA,miRNA, piRNA,tiRNA,PASR,TASR,aTASR,TSSa-RNA,snRNA,RE-RNA, uaRNA,x-ncRNA,hY RNA,usRNA,snaR,vtRNA,T-UCRs,假基因, GRC-RNAs,aRNAs,PALRs,PROMPTs,LSINCTs,或其组合。获得序 列信息可包括测序蛋白质编码区域。所述蛋白质编码区域可包含一个 或多个外显子、内含子、未翻译区域,或其组合。在某些情况中,至 少所述区域之一不包含KRAS或EGFR。在某些情况中,至少所述区 域中的两个不包含KRAS和EGFR。在某些情况中,至少所述区域之 一不包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某 些情况中,至少所述区域中的两个不包含KRAS,EGFR,p53,PIK3CA, BRAF,EZH2,或BRCA1。在某些情况中,至少所述区域中的三个不 包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某些情 况中,至少所述区域中的四个不包含KRAS,EGFR,p53,PIK3CA, BRAF,EZH2,或BRCA1。所述方法可进一步包括基于测序信息检测 所述区域的突变。可基于检测突变诊断癌症。检测至少3种突变可提 示有癌症。检测三个或更多个区域中的一种或多种突变可提示有癌 症。乳腺癌可以是BRCA1癌症。所述方法的灵敏度可为至少85%, 87%,90%,91%,92%,93%,94%,95%,96%,97%,98%,或99%。所述方法的特异性可为至少70%,72%,75%,77%,80%,82%,85%,87%, 90%,91%,92%,93%,94%,95%,96%,97%,98%,或99%。所述方法 可进一步包括提供包含癌症诊断的计算机形成的报告。
本文进一步公开了预测受试者癌症状态或结果的方法。所述 方法可包括(a)获得采自于受试者样品的无细胞基因组DNA的序列信 息,其中所述序列信息源自于至少80%受病症折磨的受试者群体的突 变区域;及(b)基于所述序列信息确定受试者中病症的预测。所述突 变区域可包括总范围少于1.5Mb的基因组。所述突变区域可包括总范 围少于1Mb的基因组。所述突变区域可包括总范围少于500kb的基因 组。所述突变区域可包括总范围少于350kb的基因组。所述突变区域 可包括总范围100kb-300kb之间的基因组。所述序列信息可源自于2 个或更多个区域。所述序列可源自于10个或更多个区域。所述序列可 源自于50个或更多个区域。所述受病症折磨的受试者群体可以是来自 于一个或多个数据库的受试者。所述一个或多个数据库可包含癌症基 因组图集(TCGA)。所述序列信息可包含属于至少一种突变的信息, 该突变可存在于至少约60%受病症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息,该突变可存在于至少约70%受病 症折磨的受试者群体中。所述序列信息可包含属于至少一种突变的信 息,该突变可存在于至少约80%受病症折磨的受试者群体中。所述序 列信息可包含属于至少一种突变的信息,该突变可存在于至少约90% 受病症折磨的受试者群体中。所述序列信息可包含属于至少一种突变 的信息,该突变可存在于至少约95%受病症折磨的受试者群体中。所 述序列信息可包含属于至少一种突变的信息,该突变可存在于至少约 99%受病症折磨的受试者群体中。所述序列信息可源自于至少85%受 病症折磨的受试者群体中的突变区域。所述序列信息可源自于至少90%受病症折磨的受试者群体中的突变区域。所述序列信息可源自于 至少95%受病症折磨的受试者群体中的突变区域。所述序列信息可源 自于至少99%受病症折磨的受试者群体中的突变区域。获得序列信息 可包括测序非编码区域。所述非编码区域可包含一个或多个lncRNA, snoRNA,siRNA,miRNA,piRNA,tiRNA,PASR,TASR,aTASR, TSSa-RNA,snRNA,RE-RNA,uaRNA,x-ncRNA,hY RNA,usRNA, snaR,vtRNA,T-UCRs,假基因,GRC-RNAs,aRNAs,PALRs, PROMPTs,LSINCTs,或其组合。获得序列信息可包括测序蛋白质编 码区域。所述蛋白质编码区域可包含一个或多个外显子、内含子、未 翻译区域,或其组合。在某些情况中,至少所述区域之一不包含KRAS 或EGFR。在某些情况中,至少所述区域中的两个不包含KRAS和 EGFR。在某些情况中,至少所述区域之一不包含KRAS,EGFR,p53, PIK3CA,BRAF,EZH2,或BRCA1。在某些情况中,至少所述区域中 的两个不包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。 在某些情况中,至少所述区域中的三个不包含KRAS,EGFR,p53, PIK3CA,BRAF,EZH2,或BRCA1。在某些情况中,至少所述区域中 的四个不包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。 所述方法可进一步包括基于测序信息检测所述区域的突变。可基于检 测突变预测病症。检测至少3种突变可提示有病症的结果。检测三个 或更多个区域中的一种或多种突变可提示有病症的结果。所述病症可 以是癌症。该癌症可以是实体瘤。该实体瘤可以是非小细胞肺癌(NSCLC)。所述癌症可以是乳腺癌。所述乳腺癌可以是BRCA1癌。所述癌症可以是肺癌、结直肠癌、前列腺癌、卵巢癌、食道癌、乳腺癌、 淋巴瘤或白血病。所述方法的灵敏度可为至少75%,77%,80%,82%, 85%,87%,90%,91%,92%,93%,94%,95%,96%,97%,98%,或99%。 所述方法的特异性可为至少70%,72%,75%,77%,80%,82%,85%, 87%,90%,91%,92%,93%,94%,95%,96%,97%,98%,或99%。所述方 法可进一步包含提供包括病症的预测的由计算机形成的报告。
本文公开了特异性大于90%的、检测至少50%I期癌症的方 法。所述方法可包括(a)对源自于样品的无细胞DNA进行测序,其中 所述待测序的无细胞DNA基于包含多个基因组区域的选择子集合;(b) 基于该无细胞DNA的测序信息用计算机可读媒介物测定无细胞DNA 的量;及(c)基于无细胞DNA的量检测样品的I期癌症。测定无细胞 DNA的量可包括测定无细胞DNA的绝对量。无细胞DNA的量可通过 计数属于该无细胞DNA的测序读数测定。无细胞DNA的量可通过定 量PCR测定。无细胞DNA的量可通过无细胞DNA(cfDNA)的分子条形 编码测定。cfDNA的分子条形编码可包括将条形码与该cfDNA的一端 或多端连接。所述条形码可包含随机序列。两个或更多个条形码可包 含两个或更多个不同的随机序列。条形码可包含衔接子序列。两个或 更多个条形码可包含相同的衔接子序列。条形码可包含引物序列。两 个或更多个条形码可包含相同的引物序列。引物序列可以是PCR引物 序列。引物序列可以是测序引物。将条形码与ctDNA的一端或多端连 接可包括将条形码与ctDNA的一端或多端连接反应。测序可包括大规 模的平行测序。选择子集合可包含来自表2的1,2,3,4,5,6,7,8,9,10, 15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,或100或 更多个基因组区域。所述选择子集合中至少20%,30%,35%,40%,455, 50%,55%,60%,65%,70%,75%,80%,85%,90%,或95%或更多的基 因组区域基于表2的基因组区域。多个基因组区域可包含存在于至少 60%,62%,65%,67%,70%,72%,75%,77%,80%,82%,85%,87%, 90%,92%,95%,97%或99%或更多患癌症受试者群体的一种或多种 突变。所述选择子集合的多个基因组区域的总大小可包含小于1.5兆 碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或150 kb的基因组。所述选择子集合的多个基因组区域的总大小可以是100 kb-300kb之间的基因组。所述方法的灵敏度可为至少75%,77%,80%, 82%,85%,87%,90%,92%,95%,97%,或99%或更多。所述方法可检 测至少52%,55%,57%,60%,62%,65%,70%,72%,75%,77%,80%, 82%,85%,87%,90%,92%,95%,97%或更多的I期癌症。
本文公开了特异性大于90%的、检测至少60%II期癌症的方 法,所述方法包括(a)对源自于样品的无细胞DNA进行测序,其中所 述待测序的无细胞DNA基于包含多个基因组区域的选择子集合;(b) 基于该无细胞DNA的测序信息用计算机可读媒介物测定无细胞DNA 的量;及(c)基于无细胞DNA的量检测样品的II期癌症。测定无细胞 DNA的量可包括测定无细胞DNA的绝对量。无细胞DNA的量可通过 计数属于该无细胞DNA的测序读数测定。无细胞DNA的量可通过定 量PCR测定。无细胞DNA的量可通过无细胞DNA(cfDNA)的分子条形编码测定。cfDNA的分子条形编码可包括将条形码与该cfDNA的一端 或多端连接。所述条形码可包含随机序列。两个或更多个条形码可包 含两个或更多个不同的随机序列。条形码可包含衔接子序列。两个或 更多个条形码可包含相同的衔接子序列。条形码可包含引物序列。两 个或更多个条形码可包含相同的引物序列。引物序列可以是PCR引物 序列。引物序列可以是测序引物。将条形码与ctDNA的一端或多端连 接可包括将条形码与ctDNA的一端或多端连接反应。测序可包括大规 模地平行测序。选择子集合可包含来自表2的1,2,3,4,5,6,7,8,9,10, 15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,或100或 更多个基因组区域。所述选择子集合中至少20%,30%,35%,40%,455, 50%,55%,60%,65%,70%,75%,80%,85%,90%,或95%或更多的基 因组区域可基于表2的基因组区域。多个基因组区域可包含存在于至 少60%,62%,65%,67%,70%,72%,75%,77%,80%,82%,85%,87%, 90%,92%,95%,97%或99%或更多患癌症受试者群体的一种或多种突变。所述选择子集合的多个基因组区域的总大小可包含小于1.5兆 碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或150 kb的基因组。所述选择子集合的多个基因组区域的总大小可以是100 kb-300kb之间的基因组。所述方法的灵敏度可为至少75%,77%,80%, 82%,85%,87%,90%,92%,95%,97%,或99%或更多。所述方法可检 测至少60%,62%,65%,70%,72%,75%,77%,80%,82%,85%,87%, 90%,92%,95%,97%或更多的II期癌症。
本文公开了特异性大于90%的、检测至少60%III期癌症的方 法,所述方法包括(a)对源自于样品的无细胞DNA进行测序,其中所 述待测序的无细胞DNA基于包含多个基因组区域的选择子集合;(b) 基于该无细胞DNA的测序信息用计算机可读媒介物测定无细胞DNA 的量;及(c)基于无细胞DNA的量检测样品的III期癌症。测定无细胞 DNA的量可包括测定无细胞DNA的绝对量。无细胞DNA的量可通过 计数属于该无细胞DNA的测序读数测定。无细胞DNA的量可通过定 量PCR测定。无细胞DNA的量可通过无细胞DNA(cfDNA)的分子条形编码测定。cfDNA的分子条形编码可包括将条形码与该cfDNA的一端 或多端连接。所述条形码可包含随机序列。两个或更多个条形码可包 含两个或更多个不同的随机序列。条形码可包含衔接子序列。两个或 更多个条形码可包含相同的衔接子序列。条形码可包含引物序列。两 个或更多个条形码可包含相同的引物序列。引物序列可以是PCR引物 序列。引物序列可以是测序引物。将条形码与ctDNA的一端或多端连 接可包括将条形码与ctDNA的一端或多端连接反应。测序可包括大规 模地平行测序。选择子集合可包含来自表2的1,2,3,4,5,6,7,8,9,10, 15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,或100或 更多个基因组区域。所述选择子集合中至少20%,30%,35%,40%,455, 50%,55%,60%,65%,70%,75%,80%,85%,90%,或95%或更多的基 因组区域可基于表2的基因组区域。多个基因组区域可包含存在于至 少60%,62%,65%,67%,70%,72%,75%,77%,80%,82%,85%,87%, 90%,92%,95%,97%或99%或更多患癌症受试者群体的一种或多种突变。所述选择子集合的多个基因组区域的总大小可包含小于1.5兆 碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或150 kb的基因组。所述选择子集合的多个基因组区域的总大小可以是100 kb-300kb之间的基因组。所述方法的灵敏度可为至少75%,77%,80%, 82%,85%,87%,90%,92%,95%,97%,或99%或更多。所述方法可检 测至少60%,62%,65%,70%,72%,75%,77%,80%,82%,85%,87%, 90%,92%,95%,97%或更多的III期癌症。
本文公开了特异性大于90%的、检测至少60%IV期癌症的方 法,所述方法包括(a)对源自于样品的无细胞DNA进行测序,其中所 述待测序的无细胞DNA基于包含多个基因组区域的选择子集合;(b) 基于该无细胞DNA的测序信息用计算机可读媒介物测定无细胞DNA 的量;及(c)基于无细胞DNA的量检测样品的IV期癌症。测定无细胞 DNA的量可包括测定无细胞DNA的绝对量。无细胞DNA的量可通过 计数属于该无细胞DNA的测序读数测定。无细胞DNA的量可通过定 量PCR测定。无细胞DNA的量可通过无细胞DNA(cfDNA)的分子条形编码测定。cfDNA的分子条形编码可包括将条形码与该cfDNA的一端 或多端连接。所述条形码可包含随机序列。两个或更多个条形码可包 含两个或更多个不同的随机序列。条形码可包含衔接子序列。两个或 更多个条形码可包含相同的衔接子序列。条形码可包含引物序列。两 个或更多个条形码可包含相同的引物序列。引物序列可以是PCR引物 序列。引物序列可以是测序引物。将条形码与ctDNA的一端或多端连 接可包括将条形码与ctDNA的一端或多端连接反应。测序可包括大规 模地平行测序。选择子集合可包含来自表2的1,2,3,4,5,6,7,8,9,10, 15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,或100或 更多个基因组区域。所述选择子集合中至少20%,30%,35%,40%,455, 50%,55%,60%,65%,70%,75%,80%,85%,90%,或95%或更多的基 因组区域可基于表2的基因组区域。多个基因组区域可包含存在于至 少60%,62%,65%,67%,70%,72%,75%,77%,80%,82%,85%,87%, 90%,92%,95%,97%或99%或更多患癌症受试者群体的一种或多种突变。所述选择子集合的多个基因组区域的总大小可包含小于1.5兆 碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或150 kb的基因组。所述选择子集合的多个基因组区域的总大小可以是100 kb-300kb之间的基因组。所述方法的灵敏度可为至少75%,77%,80%, 82%,85%,87%,90%,92%,95%,97%,或99%或更多。所述方法可检 测至少60%,62%,65%,70%,72%,75%,77%,80%,82%,85%,87%, 90%,92%,95%,97%或更多的IV期癌症。
本文进一步公开了为患癌症的受试者选择疗法的方法。该方 法可包括(a)获得源自于受试者无细胞DNA(cfDNA)样品的序列信息; (b)用来自于(a)的序列信息检测样品中的无细胞肿瘤DNA(ctDNA); 及(c)基于ctDNA的检测为受试者确定疗法,其中所述方法能够检测 小于2%总cfDNA的ctDNA的百分比。该方法能够检测小于1.5%总 cfDNA的ctDNA的百分比。该方法能够检测小于1%总cfDNA的 ctDNA的百分比。该方法能够检测小于0.5%总cfDNA的ctDNA的 百分比。该方法能够检测小于0.1%总cfDNA的ctDNA的百分比。 该方法能够检测小于0.01%总cfDNA的ctDNA的百分比。该方法能 够检测小于0.001%总cfDNA的ctDNA的百分比。该方法能够检测 小于0.0001%总cfDNA的ctDNA的百分比。样品可以是血浆或血清 样品。样品可以是脑脊液样品。在某些情况中,样品不是帕氏涂片样 品。在某些情况中,样品是囊肿液样品。在某些情况中,样品是胰液 样品。序列信息可包括与至少10,20,30,40,100,200,300个基因组区 域相关的信息。所述基因组区域可包括基因、外显子区域、内含子区 域、未翻译区域、非编码区域或其组合。所述基因组区域可包括外显 子区域、内含子区域和未翻译区域中的两个或更多个。所述基因组区 域可包括至少一个外显子区域和至少一个内含子区域。至少5%的所 述基因组区域可包括内含子区域。至少20%的所述基因组区域可包括 外显子区域。所述基因组区域可包含小于1.5兆碱基(Mb)的基因组。所述基因组区域可包含小于1Mb的基因组。所述基因组区域可包含 小于500千碱基(kb)的基因组。所述基因组区域可包含小于350kb的 基因组。所述基因组区域可包含100kb-300kb之间的基因组。所述 序列信息可包含属于1,2,3,4,5,6,7,8,9,10,15,20或更多包含多个基因组区域的选择子集合的基因组区域的信息。所述序列信息可包含 属于25,30,40,50,60,70,80,90,100或更多包含多个基因组区域的 选择子集合的基因组区域的信息。所述序列信息可包含属于多个基因 组区域的信息。所述多个基因组区域可基于包含基因组区域的选择子 集合,该基因组区域包含存在于来自癌症受试者群体的一个或多个受 试者中的一个或多个突变。至少约5%,10%,15%,20%,25%,30%, 35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,或 95%的多个基因组区域可基于包含基因组区域的选择子集合,该基因 组区域包含存在于来自癌症受试者群体的一个或多个受试者中的一 个或多个突变。所述选择子集合的基因组区域的总范围可包含少于 1.5兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb, 或150kb的基因组。所述选择子集合的基因组区域的总范围可以是 100kb-300kb之间的基因组。所述选择子集合可包含1,2,3,4,5,6,7, 8,9,10,15,20,25,30,40,50,60,70,80,90,100或更多个选自表2的 基因组区域。在某些情况中,所述受试者不患有胰腺癌。获得序列信 息可包含进行大规模的平行测序。大规模的平行测序可在cfDNA样 品中的cfDNA基因组子集中进行。所述基因组子集可包含少于1.5 兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb,或 150kb的基因组。所述基因组的子集可包含100kb-300kb之间的基 因组。获得序列信息可包含使用单分子进行条形编码。使用单分子进 行条形编码可包括将含有不同序列的条形码与cfDNA样品中的核酸 连接。所述序列信息可包含属于条形码的序列信息。该方法可包括获 得受试者两个或更多个样品中的无细胞DNA样品的测序信息。所述 两个或更多个样品可以是相同类型的样品。所述两个或更多个样品可 以是两个不同类型的样品。所述两个或更多个样品可在相同时间点从 受试者获得。所述两个或更多个样品可在两个或更多个时间点从受试 者获得。该方法可包括获得两个或更多个不同受试者的无细胞DNA 样品的测序信息。来自两个或更多个不同受试者的样品可在获得测序 信息之前编入索引并合并在一起。使用序列信息可包括在受试者基因 组的所选区域中检测一种或多种SNVs、插入/缺失、融合、断点、结构变体、串联重复的可变数、超变区、小卫星、二核苷酸重复、三核 苷酸重复、四核苷酸重复、样品序列重复或其组合。使用序列信息可 包含检测受试者基因组的所选区域中的SNVs、插入/缺失、拷贝数变 体及重排中的一种或多种。使用序列信息可包含检测受试者基因组的 所选区域中的SNVs、插入/缺失、拷贝数变体及重排中的两种或更多 种。使用序列信息可包含检测受试者基因组的所选区域中的至少一个 SNV、插入/缺失、拷贝数变体及重排。在某些情况中,检测不涉及 进行数字PCR(dPCR)。检测ctDNA可包含将运算法则应用于序列信 息以确定选择子集合中一个或多个基因组区域的量。所述选择子集合 可包含多个基因组区域,该基因组区域包含存在于癌症受试者群体中 的一个或多个癌症受试者中的一种或多种突变。所述选择子集合可包 含多个基因组区域,该基因组区域包含存在于癌症受试者群体中的至 少60%癌症受试者中的一种或多种突变。所述ctDNA可源自于受试 者中的肿瘤。确定疗法可包括向受试者给予疗法。确定疗法可包括修 改治疗方案。修改治疗方案可包括终止治疗方案。修改治疗方案可包 括调节疗法的剂量。修改治疗方案可包括调节疗法的频率。治疗方案 可基于ctDNA量的变化修改。疗法的剂量可在响应ctDNA量的增加时增加。疗法的剂量可在响应ctDNA量的减少时减少。疗法的频率 可在响应ctDNA量的增加时增加。疗法的频率可在响应ctDNA量的 减少时减少。
或者,所述方法可包括(a)获得采自于受试者样品的无细胞基 因组DNA的序列信息,其中所述序列信息源自于至少80%受病症折磨 的受试者群体的突变区域;及(b)基于所述序列信息确定受试者中病 症的治疗方案。所述突变区域可包括总范围少于1.5Mb的基因组。所 述突变区域可包括总范围少于1Mb的基因组。所述突变区域可包括总 范围少于500kb的基因组。所述突变区域可包括总范围少于350kb的 基因组。所述突变区域可包括总范围100kb-300kb之间的基因组。所 述序列信息可源自于2个或更多个区域。所述序列可源自于10个或更 多个区域。所述序列可源自于50个或更多个区域。所述受病症折磨的 受试者群体可以是来自于一个或多个数据库的受试者。所述一个或多 个数据库可包含癌症基因组图集(TCGA)。所述序列信息可包含属于 至少一种突变的信息,该突变可存在于至少约60%受病症折磨的受试 者群体中。所述序列信息可包含属于至少一种突变的信息,该突变可 存在于至少约70%受病症折磨的受试者群体中。所述序列信息可包含 属于至少一种突变的信息,该突变可存在于至少约80%受病症折磨的 受试者群体中。所述序列信息可包含属于至少一种突变的信息,该突 变可存在于至少约90%受病症折磨的受试者群体中。所述序列信息可 包含属于至少一种突变的信息,该突变可存在于至少约95%受病症折 磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息, 该突变可存在于至少约99%受病症折磨的受试者群体中。所述序列信 息可源自于至少85%受病症折磨的受试者群体中的突变区域。所述序 列信息可源自于至少90%受病症折磨的受试者群体中的突变区域。所 述序列信息可源自于至少95%受病症折磨的受试者群体中的突变区 域。所述序列信息可源自于至少99%受病症折磨的受试者群体中的突 变区域。获得序列信息可包括测序非编码区域。所述非编码区域可包 含一个或多个lncRNA,snoRNA,siRNA,miRNA,piRNA,tiRNA, PASR,TASR,aTASR,TSSa-RNA,snRNA,RE-RNA,uaRNA, x-ncRNA,hY RNA,usRNA,snaR,vtRNA,T-UCRs,假基因, GRC-RNAs,aRNAs,PALRs,PROMPTs,LSINCTs,或其组合。获得序 列信息可包括测序蛋白质编码区域。所述蛋白质编码区域可包含一个 或多个外显子、内含子、未翻译区域,或其组合。在某些情况中,至 少所述区域之一不包含KRAS或EGFR。在某些情况中,至少所述区 域中的两个不包含KRAS和EGFR。在某些情况中,至少所述区域之一不包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某 些情况中,至少所述区域中的两个不包含KRAS,EGFR,p53,PIK3CA, BRAF,EZH2,或BRCA1。在某些情况中,至少所述区域中的三个不 包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某些情 况中,至少所述区域中的四个不包含KRAS,EGFR,p53,PIK3CA, BRAF,EZH2,或BRCA1。所述方法可进一步包括基于测序信息检测 所述区域的突变。可基于检测突变确定治疗方案。所述病症可以是癌症。该癌症可以是实体瘤。该实体瘤可以是非小细胞肺癌(NSCLC)。 所述癌症可以是乳腺癌。所述乳腺癌可以是BRCA1癌。所述癌症可 以是肺癌、结直肠癌、前列腺癌、卵巢癌、食道癌、乳腺癌、淋巴瘤 或白血病。
本文进一步公开了为受癌症折磨的或怀疑患有癌症的受试 者诊断、预测或确定治疗方案的方法。所述方法可包括(a)获得来自于 受试者无细胞DNA样品的基因组DNA的所选区域的序列信息;(b)用 所述序列信息确定所选区域中一种或多种突变的存在或者不存在,其 中至少70%受癌症折磨的受试者群体在所述区域具有突变;及(c)基于 所述一种或多种突变的存在或者不存在,向受试者提供诊断、预测或 治疗方案的报告。所选区域可包括总范围少于1.5Mb的基因组。所选 区域可包括总范围少于1Mb的基因组。所选区域可包括总范围少于 500kb的基因组。所选突变的区域可包括总范围少于350kb的基因组。 所选区域可包括总范围100kb-300kb之间的基因组。所述序列信息可 源自于2个或更多个所选区域。所述序列可源自于10个或更多个所选 区域。所述序列可源自于50个或更多个所选区域。所述受癌症折磨的 受试者群体可以是来自于一个或多个数据库的受试者。所述一个或多 个数据库可包含癌症基因组图集(TCGA)。所述序列信息可包含属于 至少一种突变的信息,该突变可存在于至少约60%受癌症折磨的受试 者群体中。所述序列信息可包含属于至少一种突变的信息,该突变可 存在于至少约70%受癌症折磨的受试者群体中。所述序列信息可包含 属于至少一种突变的信息,该突变可存在于至少约80%受癌症折磨的 受试者群体中。所述序列信息可包含属于至少一种突变的信息,该突 变可存在于至少约90%受癌症折磨的受试者群体中。所述序列信息可 包含属于至少一种突变的信息,该突变可存在于至少约95%受癌症折 磨的受试者群体中。所述序列信息可包含属于至少一种突变的信息,该突变可存在于至少约99%受癌症折磨的受试者群体中。所述序列信 息可源自于至少85%受癌症折磨的受试者群体中的突变区域。所述序 列信息可源自于至少90%受癌症折磨的受试者群体中的突变区域。所 述序列信息可源自于至少95%受癌症折磨的受试者群体中的突变区 域。所述序列信息可源自于至少99%受癌症折磨的受试者群体中的突 变区域。获得序列信息可包括测序非编码区域。所述非编码区域可包 含一个或多个lncRNA,snoRNA,siRNA,miRNA,piRNA,tiRNA, PASR,TASR,aTASR,TSSa-RNA,snRNA,RE-RNA,uaRNA,x-ncRNA,hY RNA,usRNA,snaR,vtRNA,T-UCRs,假基因, GRC-RNAs,aRNAs,PALRs,PROMPTs,LSINCTs,或其组合。获得序 列信息可包括测序蛋白质编码区域。所述蛋白质编码区域可包含一个 或多个外显子、内含子、未翻译区域,或其组合。在某些情况中,至 少所述区域之一不包含KRAS或EGFR。在某些情况中,至少所述区 域中的两个不包含KRAS和EGFR。在某些情况中,至少所述区域之 一不包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某 些情况中,至少所述区域中的两个不包含KRAS,EGFR,p53,PIK3CA, BRAF,EZH2,或BRCA1。在某些情况中,至少所述区域中的三个不 包含KRAS,EGFR,p53,PIK3CA,BRAF,EZH2,或BRCA1。在某些情 况中,至少所述区域中的四个不包含KRAS,EGFR,p53,PIK3CA, BRAF,EZH2,或BRCA1。检测到至少3种突变的结果可提示有癌症。 在三个或更多个区域检测到一个或多个突变的结果可提示有癌症。该 癌症可以是非小细胞肺癌(NSCLC)。所述癌症可以是乳腺癌。所述乳腺癌可以是BRCA1癌。所述癌症可以是肺癌、结直肠癌、前列腺癌、 卵巢癌、食道癌、乳腺癌、淋巴瘤或白血病。所述诊断或预测癌症的 方法的灵敏度至少为75%,77%,80%,82%,85%,87%,90%,91%, 92%,93%,94%,95%,96%,97%,98%,或99%。所述诊断或预测癌症 的方法的特异性至少为70%,72%,75%,77%,80%,82%,85%,87%, 90%,91%,92%,93%,94%,95%,96%,97%,98%,或99%。所述方法可 进一步包括给予受试者治疗药物。所述方法可进一步包括修改治疗方 案。修改治疗方案可包括终止治疗方案。修改治疗方案可包括增加该 治疗方案的剂量或频率。修改治疗方案可包括减少该治疗方案的剂量 或频率。修改治疗方案可包括启动该治疗方案。
在某些实施方案中,所述方法进一步包括基于所述分析选择 治疗方案。在一个实施方案中,所述方法进一步包括基于所述分析为 受试者确定治疗进程。在此类实施方案中,个体中肿瘤细胞的存在(包 括肿瘤负担的评估)提供了指导临床决定制定的信息,该临床决定指 规定和治疗的扩大以及治疗药剂的选择,患者对所述药剂最可能显示 出稳定的响应。
由CAPP-seq获得的信息可用于(a)确定所保证的治疗介入的 类型和水平(例如较多对较少攻击性疗法,单一疗法对联合疗法,联 合疗法的类型),及(b)优化治疗药剂的选择。用该方法,根据在不 同时间、在治疗的过程中获得的特异性数据,治疗方案可个体化及量 身定制,从而提供了适合于个人的治疗方案。另外,可在治疗过程中 的任何点获得患者样品用于分析。
治疗方案可基于具体患者的情况选择。当CAPP-seq用作最 初的诊断时,ctDNA的存在为阳性的样品可显示需要另外的诊断实验 以证实肿瘤的存在,和/或启动肿瘤细胞减少疗法,例如给予化学疗 法药物,给予放射疗法,和/或手术除去肿瘤组织。
本文进一步公开了评估受试者肿瘤负荷的方法。所述方法可 包括(a)获得源自于受试者样品中无细胞核酸的序列信息;(b)用计算 机可读的媒介物测定该样品中循环肿瘤DNA(ctDNA)的量;(c)基于所 述ctDNA的量评估肿瘤负荷;及(d)向该受试者或该受试者的代表报 告肿瘤负荷。测定ctDNA的量可包括测定ctDNA的绝对量。测定 ctDNA的量可包括测定ctDNA的相对量。测定ctDNA的量可通过计 数属于该ctDNA的序列读数进行。测定ctDNA的量可通过定量PCR 进行。测定ctDNA的量可通过数字PCR进行。测定ctDNA的量可 通过该ctDNA的分子条形编码进行。该ctDNA的分子条形编码可包 括将条形码连接到该ctDNA的一个或多个末端。所述条形码可包含 随机序列。两个或更多个条形码可包含两个或更多个不同的随机序 列。条形码可包含衔接子序列。两个或更多个条形码可包含相同的衔 接子序列。条形码可包含引物序列。两个或更多个条形码可包含相同 的引物序列。引物序列可以是PCR引物序列。引物序列可以是测序 引物。将条形码与ctDNA的一端或多端连接可包括将条形码与ctDNA 的一端或多端连接反应。序列信息可包括与一个或多个基因组区域相 关的信息。序列信息可包括与至少10,20,30,40,100,200,300个基因 组区域相关的信息。所述基因组区域可包括基因、外显子区域、内含 子区域、未翻译区域、非编码区域或其组合。所述基因组区域可包括 外显子区域、内含子区域和未翻译区域中的两个或更多个。所述基因 组区域可包括至少一个外显子区域和至少一个内含子区域。至少5% 的所述基因组区域可包括内含子区域。至少20%的所述基因组区域可 包括外显子区域。所述基因组区域可包含小于1.5兆碱基(Mb)的基因 组。所述基因组区域可包含小于1Mb的基因组。所述基因组区域可 包含小于500千碱基(kb)的基因组。所述基因组区域可包含小于350 kb的基因组。所述基因组区域可包含100kb-300kb之间的基因组。 所述序列信息可包含属于1,2,3,4,5,6,7,8,9,10,15,20或更多包含 多个基因组区域的选择子集合的基因组区域的信息。所述序列信息可 包含属于25,30,40,50,60,70,80,90,100或更多包含多个基因组区 域的选择子集合的基因组区域的信息。所述序列信息可包含属于多个 基因组区域的信息。所述多个基因组区域可基于包含基因组区域的选 择子集合,该基因组区域包含存在于来自癌症受试者群体的一个或多 个受试者中的一个或多个突变。至少约5%,10%,15%,20%,25%,30%, 35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,或 95%的多个基因组区域可基于包含基因组区域的选择子集合,该基因 组区域包含存在于来自癌症受试者群体的一个或多个受试者中的一 个或多个突变。所述选择子集合的基因组区域的总范围可包含少于1.5兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb,250kb,200kb, 或150kb的基因组。所述选择子集合的基因组区域的总范围可以是 100kb-300kb之间的基因组。所述选择子集合可包含1,2,3,4,5,6,7, 8,9,10,15,20,25,30,40,50,60,70,80,90,100或更多个选自表2的 基因组区域。获得序列信息可包含进行大规模的平行测序。大规模的 平行测序可在样品的无细胞核酸中的基因组子集中进行。所述基因组 子集可包含少于1.5兆碱基(Mb),1Mb,500千碱基(kb),350kb,300kb, 250kb,200kb,或150kb的基因组。所述基因组的子集可包含100 kb-300kb之间的基因组。该方法可包括获得受试者两个或更多个样 品中的无细胞DNA样品的测序信息。所述两个或更多个样品是相同 类型的样品。所述两个或更多个样品是两个不同类型的样品。所述两 个或更多个样品在相同时间点从受试者获得。所述两个或更多个样品 在两个或更多个时间点从受试者获得。测定ctDNA的量可包括在受 试者基因组的所选区域中检测一种或多种SNVs、插入/缺失、融合、 断点、结构变体、串联重复的可变数、超变区、小卫星、二核苷酸重 复、三核苷酸重复、四核苷酸重复、样品序列重复或其组合。测定 ctDNA的量可包含检测受试者基因组的所选区域中的SNVs、插入/ 缺失、拷贝数变体及重排中的一种或多种。测定ctDNA的量可包含 检测受试者基因组的所选区域中的SNVs、插入/缺失、拷贝数变体及 重排中的两种或更多种。测定ctDNA的量可包含检测受试者基因组 的所选区域中的至少一个SNVs、插入/缺失、拷贝数变体及重排。测 定ctDNA的量不涉及进行数字PCR(dPCR)。测定ctDNA的量可包 含将运算法则应用于序列信息以确定选择子集合中一个或多个基因 组区域的量。所述选择子集合可包含多个基因组区域,该基因组区域 包含存在于癌症受试者群体中的一个或多个癌症受试者中的一种或 多种突变。所述选择子集合可包含多个基因组区域,该基因组区域包 含存在于癌症受试者群体中的至少60%癌症受试者中的一种或多种 突变。所述受试者的代表可以是卫生保健提供者。所述卫生保健提供 者可以是护士、医生、医疗技术人员或医院工作人员。所述受试者的 代表可以是该受试者的家属。所述受试者的代表可以是该受试者的法 定监护人。
本文进一步公开了确定受试者体内癌症疾病状态的方法。所 述方法可包括(a)获得受试者样品中的循环肿瘤DNA(ctDNA)的量; (b)获得受试者肿瘤的体积;及(c)基于ctDNA的量与肿瘤体积的比率 确定受试者癌症的疾病状态。高ctDNA-体积比可提示影像学上隐藏 的疾病。低ctDNA-体积比可提示非恶性状态。获得肿瘤体积可包括 获得肿瘤的影像。获得肿瘤体积可包括获得肿瘤的CT扫描。获得 ctDNA量可包括数字PCR。获得ctDNA量可包括获得ctDNA的测序 信息。所述测序信息可包括与基于选择子集合的一个或多个基因组区 域相关的信息。获得ctDNA量可包括ctDNA与阵列的杂交。所述阵 列可包括多个基于选择子集合的一个或多个基因组区域的选择性杂 交的探针。所述选择子集合可包括来自表2的一个或多个基因组区 域。所述选择子集合可包括包含一种或多种突变的一个或多个基因组 区域,其中所述一种或多种突变存在于患癌症受试者群体中。所述选 择子集合可包括包含多种突变的多个基因组区域,其中所述多种突变 存在于至少60%的患癌症受试者群体中。
在某些实施方案中,个体血液或血液衍生物样品中ctDNA的 含量在一个或多个时间点上测定,任选与治疗方案结合。ctDNA的存 在与肿瘤负荷相关,并可用于监控对疗法的响应,监控残余疾病,监 控转移的存在,监控总肿瘤负荷等。虽然未要求,对某些方法而言,CAPP-Seq可与肿瘤影像学方法,例如PET/CT扫描等结合进行。当 CAPP-seq用于评估肿瘤负荷或残余疾病时,肿瘤细胞的存在随时间 而增加提示需要通过逐渐增加剂量、选择药剂等增加治疗。相应地, 当CAPP-seq显示无残余疾病的迹象,患者可取消治疗,或降低剂量。
CAPP-seq也可用于新药的临床研究,以确定对目标癌症治疗 的功效,其中肿瘤负荷的减少提示有效而肿瘤负荷的增加提示无效。
目标癌症可以是具体的癌症,例如非小细胞癌,子宫内膜样 癌等;或可以是一类癌的统称,例如上皮癌(癌);肉瘤;淋巴瘤; 黑素瘤;神经胶质瘤;畸胎瘤等;或亚属,例如腺癌;鳞状细胞癌等。
术语“诊断”可指鉴别分子或病理状态,疾病或病症,例如鉴 别乳腺癌、前列腺癌或其他类型癌症的分子亚型。
术语“预测”可指预测癌症引起的死亡或恶化的可能性,包括 复发,转移扩散,及耐药,预测肿瘤病,例如卵巢癌。术语“预测” 可指基于观察、经验或科学推理进行预言或评估的行为。在一个实例 中,医生可预言患者在手术除去原发瘤和/或化疗一段时间而无癌症 复发后将存活的可能性。
术语“治疗”、“处理”等可指为了获得效果的目的,给予药剂, 或实施程序。效果在完全或部分预防疾病或其症状方面可以是预防性 的,和/或在影响疾病和/或疾病症状的部分或完全治愈方面可以是治 疗性的。“治疗”,如本文所用,可包括哺乳动物,尤其是人的肿瘤的 治疗,并包括:(a)预防发生在受试者中的疾病或疾病症状,该受试者 可能有患该疾病的倾向但还未诊断出患有该疾病(例如,包括可能与 原发病相关或由其引起的疾病);(b)抑制疾病,例如,阻止其发展; 及(c)缓解疾病,例如,引起疾病的消退。
定义
许多通常用于细胞培养领域的术语自始至终用于本公开。为 了提供对说明书和权利要求清楚的和一致的理解,及此类术语的给定 范围,提供了下列定义。
应理解的是,本发明不限于特定的方法学,方案,细胞系, 动物种类或属,及所描述的试剂,因为这可变化。也应理解的是,本 文中所使用的术语目的仅为了描述特定的实施方案,而无意限制本发 明的范围,本发明仅受所附的权利要求的限制。
如本文所使用,单数形式“一个”、“一种”和“该”包括复数指 示物,除非上下文另外清晰地说明。因此,例如,提及“一种细胞” 可包括多个此类细胞而提及“该培养物”可包括一个或多个培养物及 其本领域技术人员已知的相等物等等。本文中所使用的所有技术和科 学术语具有与本领域技术人员通常所理解的相同含义,所述领域是本 发明所属的领域,除非另外清晰地说明。
“测量”或“测定”在本教导的上下文中可指确定临床上或来自 于受试者样品的物质的存在,缺少,量,数量,或有效量,包括此类 物质的存在,缺少,或浓度水平,和/或基于对照评估受试者临床参 数的值或进行分门别类。
除非上下文中显而易见,本发明的所有要素,步骤或特征可 与其他要素,步骤或特征任意组合使用。
分子生物学和细胞生物学的一般方法可在此类标准教科书 中找到,如分子克隆法:实验室手册(Molecular Cloning:A Laboratory Manual),第3版(Sambrook et al.,Harbor Laboratory Press 2001);分子 生物学中的短方案(ShortProtocols inMolecular Biology),第4版, (Ausubel et al.eds.,John Wiley&Sons 1999);蛋白质方法(Protein Methods)(Bollag et al.,John Wiley&Sons 1996);基因疗法的非病毒 载体(Nonviral Vectors for Gene Therapy)(Wagner et al.eds., Academic Press 1999);病毒载体(Viral Vectors)(Kaplift&Loewy eds.,Academic Press 1995);免疫学方法手册(Immunology Methods Manual)(I.Lefkovits ed.,Academic Press 1997);及细胞和组织培养: 生物技术中的实验室方法(Cell and Tissue Culture:Laboratory Proceduresin Biotechnology)(Doyle&Griffiths,John Wiley&Sons 1998)。用于涉及本公开基因操纵的试剂、克隆载体及试剂盒可从商 业供应商获得,例如BioRad,Stratagene,Invitrogen,Sigma-Aldrich,及 ClonTech。
本发明根据本发明人发现或推荐的具体实施方案进行了描 述,以包含实施本发明的优选方式。本领域技术人员将领会,按照本 公开,在所例举的特定实施方案中可进行许多修改和改变而不背离本 发明的预期范围。出于对生物学功能等价的考虑,可进行蛋白质结构 改变而不影响生物学作用的类型或量。所有此类修改打算包括在所附 的权利要求的范围中。
术语“受试者”、“个体”和“患者”在本文中可互换使用,并可 指被评估治疗和/或正在治疗的哺乳动物。在一个实施方案中,该哺 乳动物是人类。术语“受试者”、“个体”和“患者”可包括,但不限于, 患有癌症或怀疑患有癌症的个体。受试者可以是人类,但也包括其他 哺乳动物,尤其是那些可用作人类疾病的实验室模型的哺乳动物,例 如小鼠、大鼠等。也包括如犬科动物、猫科动物等的驯养和其他种类 动物的哺乳动物。
术语“癌症”、“瘤”、和“肿瘤”在本文中可互换使用,并可指 呈现自发的、不受控制生长的细胞,以至于它们呈现特征在于在细胞 增殖中明显失去控制的异常生长表型。本申请中用于检测、分析或治 疗的目标细胞可包括,但不限于,癌症前期的(例如良性的)、恶性的、转移前的、转移性的及非转移性的细胞。实际上每个组织的癌症 是已知的。短语“癌症负荷”可指受试者中癌细胞的量或癌症体积。相 应地减轻癌症负荷可指减少受试者中癌细胞的数目或癌症体积。本文 中所使用的术语“癌细胞”可指为癌细胞或从癌细胞衍生(例如癌细胞 的克隆)的任何细胞。对本领域技术人员而言癌症的许多类型是已知 的,包括实体瘤如癌、肉瘤、成胶质细胞瘤、黑素瘤、淋巴瘤、骨髓 瘤等,及循环癌症如白血病。癌症的实例包括,但不限于,卵巢癌、 乳腺癌、结肠癌、肺癌、前列腺癌、肝癌、胃癌、胰腺癌、宫颈癌、卵巢癌、肝癌、膀胱癌、尿道癌、甲状腺癌、肾癌、癌、黑素瘤、头 颈癌和脑癌。
癌症的“病理”可包括,但不限于,损害患者安康的所有现象。 这包括,但不限于,异常或不可控的细胞生长、转移、干扰邻近细胞 的正常功能、以非正常水平释放细胞因子或其他分泌产物、抑制或加 重炎性或免疫应答、瘤形成、初癌、恶性、侵入周围或远处组织或器 官例如淋巴结等。
如本文所使用,术语“癌症复发”和“肿瘤复发”及其语法上的 变体可指诊断出癌症之后瘤或癌细胞的进一步生长。尤其是,当更多 的癌细胞生长发生在癌组织中时,可发生复发。类似地,当肿瘤细胞 在局部或远处组织和器官中传播时,可发生“肿瘤扩散”;因此肿瘤扩 散可包括肿瘤转移。当肿瘤生长在局部扩散通过压制、破坏和/或阻 止正常器官功能损害所涉及的组织的功能时,可发生“肿瘤入侵”。
如本文所使用,术语“转移”可指癌性肿瘤在器官或身体中的 生长,其不直接与原癌性肿瘤的器官相关。转移可包括微小转移,它 是器官或人体中存在的、不直接与原癌性肿瘤的器官相关的不可检测 量的癌细胞。转移也可定义为一个过程中的几步,例如癌细胞从原肿 瘤位置的离开,及癌细胞迁移和/或入侵到机体的其他部位。
如本文所使用,DNA、RNA、核酸、核苷酸、低聚核苷酸、 多聚核苷酸可互换使用。除非另外明确地陈述,术语DNA包括任何 类型的核酸(例如,DNA,RNA,DNA/RNA杂化物及其类似物)。在 RNA用于本文所公开的方法的情况中,所述方法可进一步包括RNA 的反转录以产生互补DNA(cDNA)或DNA拷贝。
本说明书中所引用的所有出版物和专利申请通过引用结合 至本文中,好像各单独的出版物或专利申请具体地和分别地通过引用 结合至本文中那样。
本发明根据本发明人发现或推荐的特定实施方案进行了描 述,以包含实施本发明的优选方式。本领域技术人员将领会,按照本 公开,在所例举的特定实施方案中可进行许多修改和改变而不背离本 发明的预期范围。例如,由于密码子过多,在下面的DNA序列中可 进行改变而不影响蛋白质序列。在另一个实例中,由于DNA和RNA 的相似性,所述方法、组合物和系统可同等地应用于所有类型的核酸 (例如,DNA,RNA,DNA/RNA杂化物及其类似物)。此外,出于对 生物学功能等价的考虑,可进行蛋白质结构改变而不影响生物学作用的类型或量。所有此类修改打算包括在所附的权利要求的范围中。
提出下列实施例是为了给本领域技术人员提供如何产生和 使用本发明的完整的公开和描述,而不是意于限制本发明人把其发明 看成是什么的范围,也不是他们意于呈现下列试验是所有或唯一的进 行的试验。努力确保有关所使用的数目(例如量、温度等)的准确性 但应考虑某些试验上的错误和偏差。除非另外指明,份是重量份数, 分子量是重均分子量,温度是摄氏温度,及压力是大气压或接近大气 压。
实施例
实施例1:定量宽患者范围的循环肿瘤DNA的超灵敏方法
循环肿瘤DNA(ctDNA)代表疾病负荷的无创检测和复发监 控的有希望的生物标志物。然而,现有的ctDNA检测方法受限于灵 敏度、聚焦在小数量的突变上,和/或需要患者特异性的优化。为了 解决这些缺点,开发了深度测序的癌症个体化概况分析(CAPP-Seq), 一种对几乎每个患者进行血浆ctDNA定量的、经济的且高度灵敏的 方法。我们对非小细胞肺癌(NSCLC)进行了CAPP-Seq,设计成识 别>95%肿瘤突变,同时检测点突变、插入/缺失、拷贝数变体和重排。 当肿瘤突变特性已知时,我们检测了100%II-IV期NSCLC预处理血 浆样品及50%I期NSCLC样品中的ctDNA,特异性为95%的突变体 等位基因分数下至~0.02%。ctDNA的绝对量明显与肿瘤体积相关。 此外,后处理样品中的ctDNA水平有助于区别残余疾病与治疗相关 的影像变化,并提供比X光照射法更早的响应评估。最后,我们探 索了该方法在无活检肿瘤基因型分型和癌症筛查上的用途。 CAPP-Seq可以常规上应用于临床检测和监控各种恶性肿瘤,因此促 进了个体化癌症治疗。在此我们展示技术性能并探索CAPP-Seq在早 期和晚期NSCLC患者中的临床用途。
用于NSCLC的CAPP-Seq选择子的设计。对CAPP-Seq的最 初实施而言,我们聚焦在NSCLC上,虽然我们的方法可用于已识别 出频发突变的任何癌症。我们采用多阶段方法设计特定于NSCLC的 选择子,目标在于识别在该疾病中频发突变的基因组区域(图1b, 表1)。我们从包括外显子开始,该外显子覆盖来自癌症体细胞突变 目录(COSMIC)数据库以及其他来源(例如KRAS,EGFR,TP53)的潜 在驱动基因中的频发突变。接下来,采用癌症基因组图集(TCGA)描 述的407个NSCLC患者的全外显子组测序(WES)数据,我们采用迭 代算法使错义突变/患者数最大化而使选择子大小最小化。我们的方 法依靠复发指数,它能识别已知驱动子突变以及频繁突变的未表征的 基因,因此可能在NSCLC发病机理中涉及(图7和表2)。
大约8%的NSCLC存在临床上可作用的重排,这些重排涉及 受体酪氨酸激酶、ALK、ROS1和RET。这些结构的偏差是临床上可 作用的,因为它们是药理抑制剂的靶,趋向于不成比例地发生在具有 明显较少吸烟历史的年轻患者中,而他们的肿瘤比其他NSCLC患者 存在更少的体细胞变异。为了使用在结构重排的唯一连接序列中固有 的个体化性质和更低的假检测率,我们在最后的设计阶段中,在这些 基因中包括了跨越复发融合断点的内含子和外显子(图1b)。为了 检测肿瘤和血浆DNA中的融合,我们开发了称为FACTERA的断点 定位运算法则(图8)。将FACTERA应用于已知用之前未表征的断 点隐藏融合的2个NSCLC细胞系的下一代测序(NGS)数据,以核苷 酸分辨率容易的识别断点,并且这些在两个病例中被独立证实了(图 9)。
全体上,NSCLC选择子设计靶向139个频发突变基因的521 个外显子和13个内含子,总覆盖~125kb(图1b)。在这小靶(0.004% 的人类基因组)中,选择子识别4个点突变的中位数并覆盖96%的肺 腺癌或鳞状细胞癌患者。为了验证所覆盖的突变/肿瘤数,我们检查 了来自183个肺腺癌患者的独立小组的WES数据中的选择子区域。 该选择子覆盖了中位数为4SNVs/患者的88%患者,因此验证了我们 的选择子设计运算法则(P<1.0x10-6;图1c)。当与随机取样外显子组 比较时,被NSCLC选择子靶向的区域捕获了~4倍多的突变/患者(以 中位数,图1c)。由于在癌症主要致癌机理上的类似性,NSCLC选 择子表现为对其他癌有利。确实,该选择子成功地捕获了99%的结肠 癌,98%的直肠癌,和97%的子宫内膜样癌,中位数分别为12个、7 个和3个突变/患者(图1d)。这说明了靶向成百的频发突变基因组区域的价值并显示了可以设计单一选择子以同时覆盖多个恶性肿瘤 的频发突变。
方法学优化和性能评估。我们用NSCLC选择子进行深度测 序以实现~10,000x覆盖(预复制去除,~10-12个样品/泳道),并描述 了总共90个样品,包括2个NSCLC细胞系,17个原发瘤活检和匹 配的外周血白细胞(PBL)样品,及18个人类受试者的40个血浆样品, 包括5个健康成人和13个在各种癌症治疗之前和之后的NSCLC患 者(表3、20和21)。为了评估和优化选择子的性能,我们首先将 它应用于从健康对照血浆纯化得到的cfDNA,观察效能和基因组 DNA的唯一捕获(表3、20和21)。测序过的cfDNA片段的长度中 位数为~170bp(图2a),几乎相应于包含在染色体内的DNA的长度。 为了优化从少量cfDNA制备的文库,我们探索了连接反应和连接反 应后扩增步骤的各种改进,包括温度、孵育时间、DNA聚合酶及PCR纯化。所优化的方案使覆盖有效率增加了>300%并且降低了构建小如 4ng cfDNA的文库的偏差(图10、11和12)。因此,测序深度的波 动是极小的(图2b,c)。
CAPP-Seq的检测限受下列因素的影响:(i)cfDNA分子的输 入数和回收率,(ii)样品交叉污染,(iii)捕获试剂的潜在等位基因偏差, 及(iv)PCR或测序错误(例如,“技术的”背景)。我们检查了这些 要素中的每个,从而更好地理解了其对CAPP-Seq灵敏度的潜在影响。 首先,通过比较输入DNA分子/样品数与文库复杂性的预估(图13a), 我们计算出cfDNA分子回收率≥49%(表3,20和21)。这与用PCR 后质量产量计算的分子回收效率一致(图13b)。其次,通过分析样 品中患者特异性的同型结合SNP,我们发现多路复用cfDNA中的交叉污染为~0.06%(图14)。在大多数应用中虽然太低以至于不能影 响ctDNA检测,我们从进一步的分析中排除任何源自于肿瘤的SNV, 如果在另一个描述过的患者中作为种系SNP发现。为了分析可能的 捕获偏差,我们接下来评估了患者PBL(外周血淋巴细胞)样品中的杂合性SNP(单一核苷酸多形性)中的等位基因扭曲。我们观察到中 位数杂合性等位基因分数为51%(图15),表明对捕获对照等位基 因有最小偏差。最后,我们分析了40个cfDNA样品中非对照等位基 因在选择子中的分布,排除了源自于肿瘤的SNVs和种系SNPs(图 2d)。我们发现平均和中位数技术背景率分别为0.006%和0.0003%(图 2d),两者都比之前报道的基于NGS的ctDNA分析方法要低很多。
除了技术背景外,由于各种组织中的肿瘤发生前细胞的贡 献,突变体cfDNA在无癌症的情况下可存在,而该“生物学”背景可 影响灵敏度。我们假设生物学背景(如果存在)在已知癌症驱动基因 中的频发突变位置特别高,因此分析了所有40个血浆样品中的107个所选癌症相关的SNV的突变率,排除了在患者肿瘤中发现的体细 胞突变。虽然丰度分数中位数可与整体选择子背景相比(~0%),平 均值稍高~0.01%(图2e)。令人侧目的是,一个突变(TP53 R175H)以 ~0.18%的中位数频率从所有cfDNA样品中被检测到,包括患者的和 健康受试者的(图2f)。因为该等位基因明显高于整个背景(P<0.01;图 2f),我们假设这反映了真实的生物学背景,因此排除了它作为潜在 的报告基因。更一般地针对背景,在评估ctDNA检测的统计学意义 时我们也使背景率中的等位基因特异性差异标准化。结果,我们发 现生物学背景不是检测限在~0.01%之上的ctDNA定量的重要因素。
接下来,通过将NSCLC细胞系的规定浓度的成片段基因组 DNA加入到健康个体的cfDNA(图2g)中或加入到第二NSCLC系 (图16a)的基因组DNA中,我们凭经验用基准物质测定了等位基因频 率检测限和CAPP-Seq的线性。NSCLC DNA的规定输入在丰度分数 为0.025%-10%之间、高度线性(R2≥0.994)下被准确检测。SNP报道 基因数对错误规格的影响的分析显示仅最低改善在4个报道基因的 阈值之上(图2h,i,图16b,c),等于SNV/该选择子识别的NSCLC 肿瘤的中位数。我们也测试了融合断点、插入/缺失和CNV是否能用 作线性报道基因并发现这些突变类型的丰度分数与所预期的浓度高 度相关(R2≥0.97;图16d)。
识别NSCLC患者中的体细胞突变。设计、优化和评估了 CAPP-Seq的技术性能之后,我们将其应用到发现从17个NSCLC患 者的各组中收集的肿瘤中的体细胞突变(表1和表19)。为了测试用 于识别结构性重排的CAPP-Seq的用途(这种重排更经常在非吸烟者 肿瘤中见到),我们入组了6个临床上证实有融合的患者。这些易位 用作阳性对照,连同之前由临床试验(表19)识别的其他肿瘤中的 SNV。肿瘤样品包括福尔马林固定的外科或活检样品和含恶性肿瘤细 胞的胸膜液。以肿瘤和成对的种系样品(表3、20和21)中~5,000x (除去预复制)的平均测序深度,我们检测了100%之前识别的SNV 和融合(分别是7和8)并发现许多其他体细胞变体(表1和表19)。 此外,表征了8个重排中的每一个的伴侣基因和碱基对分辨率断点 (图17)。含融合的肿瘤几乎全部来自从不吸烟者,正如预期的那 样,比那些缺乏融合的含更少的SNV(图18)。排除了具有融合的 患者(<TCGA设计小组的10%),我们确定了6个SNV(3个错义)/患 者的中位数(表1),与我们的选择子设计阶段的预测一致(图1b-c)。
灵敏度和特异性。接下来,用5个健康对照血浆样品和35 个从13个NSCLC患者收集的连续样品,除了一个患者有可用的预 处理和后处理样品外,我们评估了用于疾病监控和最小残余疾病检测 的CAPP-Seq的灵敏度和特异性(表1;表5)。CAPP-Seq用于测定 整个血浆cfDNA样品格(40个血浆样品中,13个患者特异性的体细 胞报道基因组,或520对)中的肿瘤负荷,用整合了多个情况中的信 息内容和体细胞突变类型的方法以增加灵敏度和特异性。采用ROC 分析,对所有预处理肿瘤和健康对照,我们分别实现了85%的最大灵 敏度和95%的最大特异性(AUC=0.95)。I期肿瘤的灵敏度为50%而 II-IV期患者的灵敏度为100%,特异性为96%(图3a,b)。此外,当在 ROC分析中既考虑预处理又考虑后处理样品时,CAPP-Seq展示出鲁 棒性能,所有阶段的AUC值为0.89及II-IV期的为0.91(P<0.0001;图19)。此外,通过调节ctDNA检测指数,我们能将特异性增加到最高 98%而仍然捕获2/3的所有癌症阳性样品和3/4的II-IV期癌症阳性 样品(图20)。这表明我们的方法随讨论中的应用而可适合于递送所期 望的灵敏度和特异性及CAPP-Seq可实现NSCLC患者肿瘤负荷的鲁棒评估。
监控血浆样品中的NSCLC肿瘤负荷。我们接下来问ctDNA 明显可检测的水平是否与影像学上测定的肿瘤体积和对疗法的临床 响应相关。通过SNV和/或插入/缺失报道基因检测血浆中的源自于肿 瘤DNA的分数的范围为~0.02%-3.2%(表1),预处理样品中的中位数 为~0.1%。此外,预处理血浆中的ctDNA绝对水平明显与计算机断层 扫描(CT)和正电子成像术(PET)成像测定的肿瘤体积相关(R2=0.89, P=0.0002;图3c)。
为了确定ctDNA浓度是否反映纵向样品中的疾病负荷,我们 分析了三个具有高度疾病负荷的患者的血浆ctDNA,这些患者经历了 几次转移性NSCLC治疗,包括手术、放射疗法、化学疗法和酪氨酸 激酶抑制剂(图4a-c)。作为预处理样品,ctDNA水平与治疗期间的肿瘤体积高度相关(对P15而言,R2=0.95;对P9而言,R2=0.85)。在 从不吸烟者(P6)中,我们检测了3个SNV和KIF5B-ALK融合体,两 个突变类型都同时在血浆cfDNA中可检测到并且在对克唑替尼疗法 的响应上有可比性(图4c)。在所有3个患者中,观察到所测定的突变 类型是SNV和插入/缺失(P15,图4a),多个融合(P9,图4b),还是SNV 和融合(P6,图4c)的集合这种行为,验证了各种源自于肿瘤的体细 胞损伤的用途。值得注意的是,在一个患者中(P9)我们确定了典型的 EML4-ALK融合和两个之前未报道的涉及ROS1:FYN-ROS1和 ROS1-MKX的融合(图17)。所有融合都通过基因组DNA的qPCR扩 增证实并独立地在血浆样品中回收(表5)。虽然这些新ROS1融合体 的潜在功能是未知的,尽我们所知这是第一次在同一个NSCLC患者 中观察到ROS1和ALK融合。
NSCLC选择子被设计用于检测多个SNV/肿瘤,如果存在, 多于1种类型的突变/肿瘤。在一个患者的肿瘤中(P5),该设计使我们 能识别具有激活EGFR突变的支配性克隆以及具有EGFR T790M“看 门人”突变的亚克隆。克隆之间的比例在肿瘤活检中于同时取样的血浆相同(图4d),显示通过检测多个报道基因/肿瘤,我们的方法可用 于检测和定量临床上相关的亚克隆。
验证了CAPP-Seq对晚期患者的性能后,我们接下来检查了 ctDNA生物标志物可能用于其中的其他临床情景。经历了具有治愈意 图的决定性的放射疗法的II-III期NSCLC患者经常进行CT和/或 PET/CT扫描监视,由于放射诱导的炎症和肺和周围组织中的纤维化变化结果难于解释。这些可延迟复发的诊断或导致不必要的活检和引 起患者焦虑。为了比较ctDNA定量与常规监视成像的结果,我们分析 了2个患者的放射疗法前和放射疗法后血浆cfDNA。对患者P13而言, 该患者用放射疗法单独治疗IIB期NSCLC,复查影像学显示出感觉象 征残余疾病的大块。然而,在相同时间点上的ctDNA是不可检测的(图 4e)并且该患者22个月后依然无疾病,支持该ctDNA结果。第二个患 者(P14)用同时放化疗治疗IIIB期NSCLC而复查影像学显示胸部的几 乎完全响应(图4f)。然而,ctDNA浓度比预处理稍微增加,提示隐藏 的微小疾病的进展。确实,7个月后临床上检测到了进展并且该患者 最后死于NSCLC。这些数据突出了cfDNA分析作为影像学研究的互 补形式和作为复发的早期诊断方法的用途。
我们接下来问CAPP-Seq的低检测限是否能监控对早期 NSCLC治疗的响应。大约60-70%的I期NSCLC是可用手术或立体定 向放疗(SABR)治愈的。患者P1(图4g)和P16(图4h)分别经历了IB期 NSCLC的手术和SABR治疗。我们在患者P1的预处理血浆中检测到源 自于肿瘤的cfDNA,但在手术后的3或32个月未检测到,提示该患者 已无疾病且可能已痊愈。对患者P16而言,SABR后的最初的监视 PET-CT扫描显示有残余块存在,这被解释为代表要么是残余肿瘤要 么是放射疗法后炎症。我们用ctDNA未检测到残余疾病的迹象,这支 持后者,并且该患者最后在治疗后复查21个月后仍然无病。总而言之, 这些结果显示了CAPP-Seq作为无创临床测试在测定早期和晚期 NSCLC肿瘤负荷上及在不同类型的疗法期间监控ctDNA上的用途。
无创肿瘤基因型分型和癌症筛查。最后,我们探索cfDNA的 CAPP-Seq分析是否能潜在地用于无创肿瘤基因型分型和癌症筛查 (例如,无之前的肿瘤突变的了解)。我们使我们自己不理会各患者 肿瘤中的突变并应用新的统计学方法测试我们小组中的各血浆样品的癌症DNA的存在(图21)。该方法能识别含丰度分数在0.4%以上 ctDNA的全血浆样品中的突变体等位基因,而无假阳性(图4i)。因此, 该方法具有对局部晚期或转移患者进行无创肿瘤基因型分型的用途。 因为由低剂量CT确定的、具有发展为NSCLC高风险的患者中~95%结 节是假阳性的,CAPP-Seq也可用作补充无创筛查测试。
在该研究中,我们将CAPP-Seq作为ctDNA定量的新方法介 绍。我们的方法的关键特征包括高灵敏度和特异性,覆盖几乎所有 NSCLC患者,无需患者特异性优化,及低成本。通过包含优化的文 库构建和生物信息学方法,CAPP-Seq达到了目前用于ctDNA分析的 任一基于NGS方法的最低背景错误率和最低检测限。通过整合多个情 况的信息内容和体细胞突变的类型我们的方法也降低了随机噪音的 潜在影响和肿瘤负荷定量的生物学变化性(例如,接近检测限的突变 或亚克隆肿瘤演变)。这些特征促进了最小残余疾病的检测和用深度 测序进行I期NSCLC肿瘤的ctDNA定量的第一报告。虽然我们聚焦于 NSCLC,我们的方法也可应用于有频发突变数据的任何恶性肿瘤。
在许多患者中,ctDNA水平比之前描述的基于测序的方法的 检测阈值要低很多。例如,在大多数肺癌和结直肠癌(及可能其他癌 症)患者中预处理ctDNA浓度为<0.5%,而在大部分早期和许多晚期 患者中<0.1%。治疗后,ctDNA浓度通常下降,使得高度灵敏的方法, 如CAPP-Seq,甚至更关键。最近,实施了基于扩增子的深度测序方 法以检测最大到6个频发突变基因/测试。此类方法受可同时调查的 突变数和类型的限制,并且所报道的血浆中~2%等位基因检测限排除 了大多数NSCLC患者的ctDNA检测。几个研究报道了对cfDNA进 行全外显子组或基因组测序在分析体细胞SNV(单一核苷酸变体) 和CNV(拷贝数变体)上的应用。这些方法的SNV检测灵敏度明显 受测序成本的限制,甚至比我们用CAPP-Seq法的测序深度大10倍, 将不足于检测大多数NSCLC患者(图5a)中的ctDNA。同样,据报道 血浆中通过WGS的CNV定量的检测限为~1%,限制了该方法用于 高肿瘤负荷患者。
在检测阈值方面的另外收获是值得期待的。实现这些收获的 方法包括采用条形编码策略,这些策略阻止由文库制作产生的PCR 错误,增加用于ctDNA分析的血浆量在平均水平~1.5mL以上用于该 研究,进一步改善文库制作期间的连接反应和捕获效率,并增加选择 子的大小以增加肿瘤特异性突变/患者数。第二个限制是无效捕获融 合的潜在性,这可导致低估肿瘤负荷(例如,P9)。然而,该偏差可 在分析上处理,当其他报道基因类型存在时(例如,P6;表4)。最后, 虽然我们发现CAPP-Seq可定量CNV,但是我们目前的选择子设计不优先处理这些类型的偏差。为某些CNV增加覆盖范围可用于监控 各种类型的癌症。
总的来说,cfDNA的靶向杂化物捕获和高通量测序使得以低 成本、高灵敏度和无创检测癌症患者的ctDNA成为可能。CAPP-Seq 可常规地应用于临床以加速癌症的个体化检测、治疗和监控。 CAPP-Seq在各种临床环境中是有价值的,包括测定低癌细胞含量的 生物液体和样品中的癌症DNA。
患者筛选。2010年4月至2012年6月,正在进行治疗的新 诊断的或复发的NSCLC患者被招募到由斯坦福大学机构审查委员会 (StanfordUniversity Institutional ReviewBoard)批准的一项研究中并 提供了知情同意书。所招募的患者在3个月的血液收集内未接受输 血。患者特征见表3、20和21。所有治疗和影像学检查均作为标准 临床护理的一部分进行。肿瘤负荷的体积测定基于CT上的可见肿瘤 并按照椭球公式:(长度/2)*(宽度^2)计算。
样品收集和预处理。将患者外周血收集在EDTA真空采血管 (BD)中。在收集的3小时内处理血液样品。以2,500x g的速度离心 10分钟分离血浆,转移到小离心管中,并以16,000x g的速度离心 10分钟除去细胞碎片。采用DNeasy血液和组织试剂盒(Qiagen),最 初离心得到的细胞颗粒用于分离PBL(外周血白细胞)中的种系基因 组DNA。匹配的肿瘤DNA从FFPE样品或从胸腔积液的细胞颗粒中 被分离。基因组DNA用Quant-iT PicoGreen dsDNA测定试剂盒 (Invitrogen)定量。
无细胞DNA纯化和定量。用QIAamp循环核酸试剂盒 (Qiagen)从1-5mL血浆中分离无细胞DNA(cfDNA)。所纯化的cfDNA 的浓度通过定量PCR(qPCR)测定,该方法采用染色体1上的81bp 扩增子和完整的男性人类基因组DNA的一系列稀释液(Promega)作为 标准曲线。Power SYBR Green用于qPCR,用HT7900实时PCR仪 (AppliedBiosystems),采用标准PCR热循环参数。
Illumina NGS文库构建。编入索引的Illumina NGS文库由 cfDNA和切断的肿瘤、种系及细胞系基因组DNA制备。对患者cfDNA 而言,7-32ng DNA用于文库构建而无需另外的分段。对肿瘤、种系 和细胞系基因组DNA而言,69-1000ng DNA在文库构建之前用采用 推荐设置的Covaris S2仪切成200bp的片段。详见表2。
NGS文库用KAPA文库制备试剂盒(Kapa Biosystems)构建, 采用拥有强3'-5'核酸外切酶(或校正)活性的DNA聚合酶并展示所 有商业上可获得的B族DNA聚合酶的最低发表错误率(例如最高保 真度)。用Agencourt AMPure XP珠(Beckman-Coulter)修改产生商的方案以加入用珠的酶促和清除步骤。用100倍摩尔过量的编入索引的 Illumina TruSeq衔接子、在16℃进行连接反应16小时。通过加入40μL (0.8X)PEG缓冲液富集所连接的DNA片段进行一步规模的筛选。所 连接的片段然后用500nM Illumina主链低聚核苷酸和4-9PCR周期 进行扩增,该周期取决于输入的DNA质量。文库的纯度和浓度分别 用分光光度计(NanoDrop 2000)和qPCR(KAPA Biosystems)测定。片 段长度用DNA 1000试剂盒(Agilent)在2100生物分析仪上测定。
杂化物筛选的文库设计。杂化物筛选用常规SeqCap EZ选择 文库(RocheNimbleGen)进行。该文库通过采用基因组构建物HG19 NCBI构建物37.1/GRCh37和最大接近匹配(Maximum Close Matches)设置为1的NimbleDesign门户(v1.2.R1)设计。根据NSCLC中最频繁突变的基因和外显子筛选输入基因组区域。这些区域由 COSMIC数据库、TCGA和其他出版来源识别。最终的选择子坐标见 表1提供。
杂化物筛选和高通量测序。按照产生商的方案经修改使用 NimbleGen SeqCap EZChoice。在9-12个编入索引的Illumina文库之 间包括进单一捕获反应。杂化物筛选后,采用1X KAPA HiFi Hot Start Ready Mix和2μM Illumina主链低聚核苷酸、在4-6个分开的50μL 反应中,将所捕获的DNA片段PCR扩增12-14周期。然后将反应物 合并并用QIAquickPCR纯化试剂盒(Qiagen)处理。用2x 100bp配对 末端运行(pared-end runs)、在Illumina HiSeq 2000上进行多路复用文 库测序。
NGS数据的定位和质量控制。用BWA 0.6.2(默认参数)定位 配对末端读数至hg19对照基因组,并用SAMtools分类/编入索引。 QC用常规Perl脚本评估以收集各种统计数字,包括定位特征、读数 质量、及选择子中靶率(例如,与选择子空间交叉的独特读数数除以所有比对的读数的数),这些数字分别通过SAMtools flagstat,FastQC, 和BEDToolscoverageBed产生,修改以计数各读数最多一次。片段 长度分布对序列深度/范围的图自动形成用于视觉QC评价。为了减 轻测序错误的影响,不涉及融合的分析受限制于适当配对的读数,并 且仅Phred质量分数≥30(≤0.1%测序错误的概率)的碱基进一步进行 分析。
通过CAPP-Seq分析检测阈值。配制两个系列的稀释液以评 估用于定量源自于肿瘤的cfDNA的CAPP-Seq法的线性和精确性。 在一个试验中,将NSCLC细胞系(HCC78)的切断的基因组DNA加入 到健康个体的cfDNA中,而在第二个试验中,将一个NSCLC细胞 系(NCI-H3122)的切断的基因组DNA加入到第二个NSCLC细胞系 (HCC78)的切断的基因组DNA中。总共32ng DNA用于文库的构建。 在定位和质量控制之后,同型结合报道基因被确定为对各样品唯一的 等位基因,具有至少20x测序深度和等位基因分数>80%。在HCC78 基因组DNA和血浆cfDNA(图2g-h)之间十四个此类报道基因被确 定,而在NCI-H3122和HCC78基因组DNA(图16)之间24个报道 基因被发现。
统计分析。采用独立的肺腺癌小组(图1c)、用计算机验证 NSCLC选择子。为了评估统计学意义,我们采用10,000个随机从外 显子组取样的选择子分析了相同的小组,各外显子组对CAPP-Seq NSCLC选择子具有相同大小分布。随机选择子的性能具有正常分布, 并且因此计算了p-值。要注意的是,所有确定的体细胞损害在该分析 中均被考虑。
为了评价报道基因数对肿瘤负荷预测的影响,我们使用了蒙特卡洛取样法(MonteCarlo sampling)(1,000x),在两个加入试验中改变可用的报道基因的数{1,2,…,max n}(图2g-i;图13a-b)。
为了评价血浆cfDNA中肿瘤负荷预测的统计学意义,我们比 较了患者特异性SNV频率与选择子宽背景等位基因的零分布。采用 突变特异性背景率和Z统计分别分析了插入/缺失。由于其超低的假 检测率,当出现>0读数支持时融合断点被认为有统计学意义。不同 报道基因类型的p-值被结合到单一ctDNA检测索引中,如果度量 ≤0.05(≈FPR≤5%),使ROC分析中的CAPP-Seq灵敏度和特异性最大 化的阈值(通过完美的分类器的欧式距离测定,例如,TPR=1和FPR=0; 图3,图4,表1,表4),则认为有统计学意义。
关于图5,对特定深度和检测限而言回收血浆中单一突变体 等位基因的至少2个读数的概率P按二项式分布建模。特定的P, 检测所有确定的血浆中的肿瘤突变的概率(例如,CAPP-Seq的中位 数为4)按几何分布建模。图5a中的预测基于250百万100bp读数/ 泳道(例如,采用IlluminaHiSeq 2000平台)。此外,假设CAPP-Seq 和WES的中靶率为60%(图5)。
分子生物学方法
细胞系。肺腺癌细胞系NCI-H3122和HCC78分别从ATCC 和DSMZ获得,并在含L-谷氨酰胺(Gibco)、补充10%胎牛血清 (Gembio)和1%青霉素/链霉素混合物的RPMI 1640中生长。细胞在 37℃、5%CO2孵化器中保持以对数中期生长。基因组DNA用DNeasy 血液和组织试剂盒(Qiagen)从新鲜收获的细胞中纯化。
胸膜液处理和流式细胞仪,及细胞分选。于300x g、4℃下 离心5分钟收获来自患者P9和P6胸膜液的细胞并在FACS染色缓冲 液(HBSS+2%热失活的小牛血清[HICS])中洗涤。用ACK裂解缓冲液 (Invitrogen)将红血细胞裂解,将凝块通过100μm尼龙过滤器除去。将过滤的细胞旋转并再悬浮于染色缓冲液中。放在冰上的同时,将该 细胞悬浮液用10μg/mL大鼠IgG封阻20分钟,然后用APC缀合的 小鼠抗人EpCAM(BioLegend,克隆9C4),PerCP-Cy5.5-缀合的小鼠抗 人CD45(eBioscience,克隆2D1),及PerCP-eFluor710-缀合的小鼠抗人CD31(eBioscience,克隆WM59)染色20分钟。染色后,将细胞洗 涤并再悬浮于含1μg/mLDAPI的染色缓冲液中,分析,并用 FACSAria II细胞分类器(BD Biosciences)分类。从分析和分类中将细 胞双峰(Cell doublets)和DAPI阳性细胞排除。将 CD31CD45EpCAM+细胞挑选到染色缓冲液中,旋转,并在液氮中 闪式冷冻。用QIAamp DNA微试剂盒(Qiagen)分离DNA。
从低输入cfDNA制备NGS文库的优化。逐步比较Illumina文库 构建方案,目的在于(1)优化衔接子连接反应效率,(2)衔接子连接反 应后减少必需的PCR周期数,(3)保存cfDNA片段的自然发生大小分 布,及(4)使所有捕获的基因组区域测序范围的深度的可变性最小化。 最初的优化用Illumina的NEBNext DNA文库制备试剂盒(New EnglandBioLabs)完成,这包括用于cfDNA片段的末端修复、加A尾、衔接子 连接反应、及所连接片段用Phusion高保真PCR Master Mix扩增的试 剂。对所有条件而言,输入是4ng cfDNA(从相同健康志愿者的血浆 获得)。所构建的文库中的相对等位基因丰度通过4个基因组基因座的 qPCR(Roche NimbleGen:NSC-0237,NSC-0247,NSC-0268,及 NSC-0272)评估并用2-ΔCt法比较。
连接反应在20℃进行15分钟(按照产生商的方案),在16℃ 进行16小时,或者按之前描述的温度循环16小时。连接反应体积从标 准(50μL)变化到下至10μL,同时保持DNA连接酶、cfDNA片段和 Illumina衔接子的恒定浓度。随后的优化包括在16℃、50μL反应体积中进行连接反应16小时。
接下来,我们比较标准SPRI珠处理程序,其中在各酶促反应 之后加入新的AMPureXP珠并将DNA从珠中洗脱出来进行下一反应, 用珠的方案修改如前所述3。我们比较该连接反应中Illumina衔接子的 2个浓度:12nM(对cfDNA片段而言,10-倍摩尔过量)和120nM(100- 倍摩尔过量)。
采用所优化的文库制备程序,我们接下来比较NEBNextDNA 文库制备试剂盒(含Phusion DNA聚合酶)与KAPA文库制备试剂盒 (含KAPA HiFi DNA聚合酶)。含我们的修改的KAPA文库制备试剂盒 也与带自动化Mondrian SP工作站的NuGEN SP Ovation Ultralow文库 系统比较。
基于CAPP-Seq性能,评估文库制备的修改。我们用标准文库 制备方法、用NEBNext试剂盒对32ng cfDNA进行CAPP-Seq,或者用 优化过的方法、采用NEBNext试剂盒或KAPA文库制备试剂盒。我们 用KAPA试剂盒、用我们优化的方法平行地对4ng和128ng cfDNA进行CAPP-Seq。构建编入索引的文库,并且以多路进行杂化物筛选。后 捕获多路复用文库用Illumina主链引物扩增14个PCR周期,然后在 IlluminaHiSeq 2000的配对末端100bp泳道上测序。
全基因组扩增(WGA)后我们也评估了超低输入的CAPP-Seq。 我们使用SeqPlexDNA扩增试剂盒(Sigma-Aldrich),该试剂盒采用变 性的低聚核苷酸引物PCR。简要地说,用SYBR Green I(Sigma-Aldrich) 实时监控、在HT7900实时PCR仪(Applied Biosystems)上对1ng cfDNA 进行扩增。17个周期后终止扩增,得到2.8μg DNA。引物去除步骤得 到~600ng DNA,用NEBNext试剂盒、用本文所描述的优化方法,该 全部的量用于文库制备。
CAPP-Seq检测的变体验证。所有结构性重排和CAPP-Seq检 测的肿瘤SNV的子集独立地由qPCR和/或扩增的片段的Sanger测序 证实。对HCC78而言,120bp含SLC34A2-ROS1断点的片段从基因 组DNA扩增,采用下列引物:5’-AGACGGGAGAAAATAGCACC-3’ 和5’-ACCAAGGGTTGCAGAAATCC-3’。对NCI-H3122而言,143bp 含EML4-ALK断点的片段采用下列引物扩增: 5’-GAGATGGAGTTTCACTCTTGTTGC-3’和 5’-GAACCTTTCCATCATACTTAGAAATAC-3’。5ng基因组DNA用 作模板,在50μL反应液中含250nM低聚核苷酸和1X Phusion PCR MasterMix(NEB)。将产物用2.5%琼脂糖凝胶溶解并除去所期望大小 的带。用Qiaquick凝胶提取试剂盒(Qiagen)纯化所扩增的DNA片段 并用于Sanger测序(Elim Biopharm)。对P9而言,基因组DNA断点 由qPCR证实,采用下列引物:对EML4-ALK而言, 5’-TCCATGGAAGCCAGAAC-3’和5’-ATGCTAAGATGTGTCTGTCA-3’;对ROS1-MKX而言, 5’-CCTTAACACAGATGGCTCTTGATGC-3’和5’-TCCTCTTTCCACCTTGGCTTTCC-3’;及对FYN-ROS1而言, 5’-GGTTCAGAACTACCAATAACAAG-3’和 5’-ACCTGATGTGTGACCTGATTGATG-3’。对qPCR而言,10ng预 扩增基因组DNA用作模板,在10μL反应液中含250nM低聚核苷酸 和1X Power SyberGreen Master Mix,一式三份在HT7900实时PCR 仪(Applied Biosystems)上进行。使用标准PCR热循环参数。在P9中 检测到的跨度全部3个断点的扩增子的扩增在肿瘤基因组DNA以及 血浆cfDNA中得到证实,而PBL基因组DNA用作阴性对照。
CAPP-Seq证实了体细胞肿瘤突变(SNV和重排),这些突变由 作为标准临床护理的一部分的临床测试检测(表3、20和21)。临 床突变测试在福尔马林固定的石蜡包埋的组织上进行。SNV用 SNaPshot测试4检测。重排用荧光原位杂交法(FISH)检测,该方法采 用靶向ALK基因座(Abbott)或ROS1基因座(Cytocell)的分离探针。
生物信息学和统计方法
CAPP-Seq检测阈值度量。选择子基线水平背景。我们用从 NSCLC和健康个体收集的所有40个血浆cfDNA样品(在本工作中 分析)(表2)评估NSCLC选择子的基线水平背景分布(图2d)。具体的 说,对各背景而言,选择子位置的基线具有≥500x的总测序深度,计 算所有cfDNA样品的异常值校正均值。虽然我们测试了专用的异常 值校正方法,如迭代格拉布斯法和ROUT,我们的经验分析表明简单 的除去最小值和最大值最好。重要的是,为了将我们的分析限制于背 景基线,将各患者样品预过滤以除去种系,减少杂合性(LOH)和/或由VarScan 26产生的体细胞变体呼叫(体细胞p-值=0.01;否则,默认参 数)。
作为报道基因的SNV的统计学意义。为了评价血浆中源自 于肿瘤的SNV的统计学意义,我们采取了一个策略,该策略积分了 所有体细胞SNV中的cfDNA分数,进行了位置特异性的背景调节, 并用整个选择子中的背景等位基因的蒙特卡洛取样法评价统计学意义。我们注意到,该方法与之前的方法根本不同,在之前的方法中分 别对突变进行检查。与这些方法不同,我们的策略减少了随机噪音和 生物学变量(例如,接近检测限的突变,或肿瘤发展)对肿瘤负荷定 量的影响,允许更鲁棒的统计学评估。特别是,这使得CAPP-Seq能够定量潜在高比率的等位基因掉出的低水平的ctDNA。
对给定的血浆cfDNA样品θ而言,为了使选择子技术/生物 学背景对统计学预测的影响最小化,我们开始为患者P的各n SNV 调节等位基因分数f。具体地说,对各等位基因,我们进行下列简单 操作,f*=max{0,f-(e-μ)},其中f是血浆cfDNA中的粗等位基因 分数,e是给定的等位基因在整个cfDNA样品中的位置特定性错误率 (见上),而μ表示平均选择子宽背景率(在该研究中=0.006%,参 见B1.1小节和图2d)。事实上,该调节将所有n SNV的平均值推近 了整体选择子平均μ,减轻了技术/生物学背景的混乱影响。采用蒙特 卡洛模拟法,我们比较了调整过的平均SNV分数F*(=∑f*)/n与该 选择子中的背景等位基因的零分布。具体地说,对各i循环(在该工 作中=10,000),n背景等位基因从θ中随机取样,之后其分数用上述 公式调节并平均。患者P的SNV p-值以相对于θ中背景等位基因的 零分布的F*的百分位数测定。因此,如果F*排在θ中所调节的背景 等位基因的第96百分位数,患者P的一组SNV将赋予0.04的检测 p-值。我们注意到,背景调节总是改善我们的ROC分析中的CAPP-Seq 特异性。
作为报道基因的插入/缺失的统计学意义。基于群体统计我们 实施了一种方法以评价分别来自SNV的插入/缺失的统计学意义。对 患者P中各插入/缺失而言,我们使用Z-检验以比较其在给定血浆 cfDNA样品θ中的分数与其在我们的小组中每个cfDNA样品中的分数(排除来自相同患者P的cfDNA样品)。为了增加统计的鲁棒性, 各读数链(正或反方向)分开评估,各插入/缺失产生两个Z-分数。 这些分数按Stouffer法(积分Z统计数字的未加权方法)组合到单一 Z-分数中。最后,如果患者P有多于1个插入/缺失,将所有插入/缺 失特异性Z-分数按Stouffer法组合到最后的Z统计数字中,这一般转 化为p-值。
作为报道基因的融合的统计学意义。在独立的文库中给出与 检测相同NSCLC融合断点相关的非常低的假阳性率,血浆cfDNA 中源自于肿瘤的基因组融合的CAPP-Seq回收被(任意地)赋予p- 值为~0。
整合不同突变类型以评估肿瘤负荷定量的统计学意义。对各 患者而言,基于从他或她的报道基因阵列的p-值积分(表1和表19) 我们计算了ctDNA检测指数(相似于假阳性率)。对患者肿瘤中仅 存在单一报道基因类型的病例而言,采用相应的p-值。如果检测到SNV和插入/缺失报道基因,并且如果各自独立的p-值<0.1,我们按 Fisher法(Fisher,1925)组合其各自的p-值,并采用所得的p-值。否则, 在选择子设计中给定SNV的优先顺序,采用SNVp-值。如果肿瘤样 品中识别的融合断点(例如,涉及ROS1,ALK,或RET)从相同患者的血浆cfDNA中回收,这胜过所有其他突变类型,而采用其p-值(~0)。 如果肿瘤中检测到的融合未在相应的血浆中发现(可能由于杂交无 效;参见C4小节),采用任一剩余突变类型的p-值。重要的是,随 着新患者被选入,我们交叉检查增长的样品数据库中的报道基因类型 以改善特异性(在下面B1.6小节中描述)并识别潜在的红旗。
针对灵敏度和特异性评估的插入/缺失/融合纠正。涉及图3, 在用本文所公开的方法计算了所有cfDNA样品中每组报道基因的 ctDNA检测指数后,我们采用另一步骤以增加特异性。也就是,为了 开拓比SNV更低的插入/缺失和融合断点的技术背景,我们采用了“插 入/缺失/融合纠正”。具体地说,如果在患者X肿瘤中发现的插入/缺 失/融合报道基因能在患者X血浆cfDNA中唯一地被检测(例如,未 在任何其他患者或对照cfDNA样品中检测),那么在每个不匹配的 cfDNA样品中将相应于患者X的ctDNA检测指数设为1(例如,ctDNA不可检测)。换句话说,患者X的报道基因将不称为另一个 患者中的假阳性。虽然我们还未遇到两个患者具有相同的插入/缺失/ 融合报道基因,如果是这种情况,纠正将不应用于一个患者到另一个 患者。
为了以盲法进行该纠正,如图3(a和b小图)所示,我们识 别了各cfDNA和PBL样品中的种系SNP,并将各cfDNA样品赋予 给具有最高SNP一致性的肿瘤/正常对(揭盲后,发现所有cfDNA样 品正确地与其相应的肿瘤/正常对匹配)。如图19所示,该纠正一致 地增加了CAPP-Seq的特异性。种系SNP用VarScan 2识别,p-值阈 值为0.01,最小序列范围为100x,最小平均质量分数为30(Phred), 否则默认参数。
灵敏度和特异性分析。我们通过屏蔽所有患者的身份信息, 包括疾病阶段、cfDNA时间点、治疗等,以盲法测试CAPP-Seq的性 能。然后我们测试了本文所描述的我们的检测度量以正确地呼唤整个 格子中去标识的血浆cfDNA样品的肿瘤负荷(全部40个血浆样品,或520对中的13个患者特异性体细胞报道基因组)。为了计算灵敏 度和特异性,我们自己“未设盲”并将患者样品分成癌症阳性组(例如, 癌症存在于该患者的体内),癌症阴性组(例如,患者被治愈),或 癌症未知组(例如,数据不足以确定真实的类别)。我们考虑有放射性复发迹象的患者的每个时间点及所有IV期癌症阳性患者,而不管 在有关时间点上的临床进展。由于在最近的复查时“无疾病迹象 (NED)”状态,患者13(P13;IIB期NSCLC)的后处理时间点被认 为是癌症未知的,从其治疗开始几乎2年(图4e)。患者2(P2;IIIB 期NSCLC)在完全的手术切除后被归类为NED,也被认为是癌症未 知的。由于有限的复查,所有后处理I期NSCLC患者样品都被保守 地看作“癌症未知”而不是真实的阴性。
文库复杂性的分析
文库复杂性估测。我们用330个基因组同等物/1ng输入DNA 估测单倍体基因组同等物/文库的数(表2),并将整个“分子回收” 作为复制去除后中位数深度计算,除以下列两项中较小的那个:(i) 复制去除之前中位数深度和(ii)所估测的单倍体基因组同等物数。给 定测序深度的分子回收估测为:对cfDNA而言,38%;对肿瘤DNA 而言,37%;对PBL(所有样品中的最高DNA输入质量)而言,48%。
与基因组DNA相反,血浆cfDNA自然断裂并且具有与核小 体间距有关的高的已成陈规的大小分布,中位数长度为~170bp和非 常低的分散度(图2a,表3、20和21)。如此,我们假设具有相同 开始/结束坐标的独立输入分子可使cfDNA的复制率膨胀,导致被低 估的分子回收率。
我们通过分析杂合种系SNP测试了该假设,推断:具有相同 开始/结束坐标的并且通过单一预定定义种系变体进行区分的DNA 片段(例如,配对的末端读数)比技术性人工产物(例如,PCR复制 品)更可能代表独立的起始分子。用VarScan 2(如本文所描述)识 别了所有九十个样品(表2)中的杂合SNP,并过滤得到等位基因频 率在40%-60%之间的变体,此类变体存在于dbSNP的共同SNP子集 中(版本137.0)。对各杂合共同SNP,A/B而言,我们计数具有支持 A,B,或AB的唯一开始/末端坐标的所有片段。在具有给定A/B SNP 的分子中,当随机取样两个分子(AB或BA)时有50%的机会将A和B 聚集在一起,有合并的50%的机会得到要么AA要么BB。因为AB 的唯一开始/末端位置的数(标注为N)表示至少两倍的分子(≥2N),并 且合并的≥2N分子可以假设从支持A,或B的唯一开始/末端坐标失去, 总失去文库复杂性的更低边界按公式3N/S确定,其中S表示包含A, B,和AB的唯一开始/末端坐标的总数。在各输入样品的SNP中,我 们计算出平均失去文库复杂性,在cfDNA样品中是30%,在肿瘤和 PBL基因组DNA中平均失去文库复杂性分别是4%和6%(图13a)。 表2中提供了为所估测的复杂性损失而调节的分子回收率,提示平均 分子回收率在cfDNA中至少49%,在肿瘤基因组DNA中(大多数 是FFPE)为37%,而在PBL基因组DNA中为51%。
复制率。普通重复数据删除工具,如SAMtools rmdup和 Picard toolsMarkDuplicates(http://picard.sourceforge.net),基于序列坐 标和质量而不是序列组合物识别和/或瓦解读数。这可导致源自于肿 瘤的读数(代表不同的分子)的除去,这些读数碰巧与种系读数共享 序列坐标。这对cfDNA而言尤其成问题,因为对大的分子分数而言,有其他独特的分子具有相同的开始和末端(见上)。针对这一问题, 我们开发了常规的Perl脚本,该脚本忽视低质量的碱基(此处,Phred Q<30),并且仅瓦解那些具有100%序列同一性的片段(读数对), 这些片段也共享基因组坐标。表2和4中提供了所得复制后读数和相应的非重复数据删除数据,这些数据分别覆盖测序统计数字和cfDNA 监控结果。
通过PCR和质量输入测定的文库复杂性。作为分开的文库复 杂性的估测,对由cfDNA构建的各Illumina NGS文库而言,我们从 实际产率和预期(理想)产率计算了预期文库产率的分数(图13b)。 实际文库产率从所构建的文库的摩尔浓度和体积确定(在杂化物筛选 之前)。预期文库产率从用于文库制备的cfDNA的质量和所实施的 PCR周期数计算,假设连接反应100%有效及每个周期PCR 95%有效。 从在Illumina TruSeq文库的连续稀释液上进行的qPCR观察到95%的 PCR效率(4个独立试验的平均值为R2>0.999)。
CAPP-Seq选择子设计。大多数人类癌症在个体基因的体细胞 突变上是相对混杂的。具体地说,在大多数人类肿瘤中,单一基因的 再现体细胞变化占患者的少数,而仅少数肿瘤类型可以用少数预定义 位置上的频发突变(<5-10)定义。因此,选择子的设计对CAPP-Seq方 法是关键,因为(1)它命令那类突变可以在患有特定癌症高可能性的 患者中检测到,及(2)选择子大小(以kb计)直接影响成本和序列范围 的深度。例如,在目前全外显子组捕获试剂盒中可得到的杂化物筛选 文库范围为51-71Mb,相对全基因组测序提供了~40-60倍的最大理 论富集。潜在的富集度与选择子大小成反比,使得对~100kb选择子 而言,>10,000倍的富集应该可达到。
我们采用如下所述的六阶段设计策略为CAPP-Seq NSCLC 选择子识别和优先排序基因组区域。三阶段用于结合已知的和疑似的 NSCLC驱动子基因,以及已知要参与临床上可作用的融合的基因组 区域(阶段1,5,6),而另外三阶段采用运算方法以使所覆盖的患者数 和SNV/患者均最大化(阶段2-4)。后者依赖于我们称之为“复发指 数”(RI)的度量,为该实施例定义为具有在特定千碱基的外显子序列中 发生的SNV的NSCLC患者数(例如,具有突变的患者数/外显子长 度kb)。RI因此为测定外显子水平的患者水平复发频率服务,而同时使基因/外显子大小标准化。作为整个大组的患者中的相同基因型 的体细胞突变数据的来源,在阶段2-4中,我们分析了在TCGA全外 显子组测序数据中识别的非沉默SNV,这些数据来自肺鳞状细胞癌 数据集(SCC)中178个患者和肺腺癌(LUAD)数据集中229个患者(TCGA问讯日期是2012年3月13日)。选择各度量的阈值(例如, RI和患者/外显子)以在统计上富集SCC和LUAD数据中的已知/ 疑似驱动子(图7)。通过UCSC表浏览器(问讯日期是2012年4月 11日)获得了RefSeq外显子坐标(hg19)。
下列运算法则用于设计CAPP-Seq选择子(括号中的描述与 图1b中说明的设计阶段相符)。
·阶段1(已知驱动子)
基于其在NSCLC中的突变频率选择最初的种子基因。COSMIC(v57) 的分析识别了在≥9%NSCLC中频发突变的已知驱动子基因(分母 ≥500病例)。基于之前在NSCLC中识别的SNV的模式选择这些基因 的特定外显子。种子清单也包括来自频发突变基因的单一外显子,这 些突变发生的频率低但是具有强的是驱动子突变的迹象,如BRAF 外显子15,它包含<2%NSCLC中的V600E突变。
·阶段2(最大范围)
对在LUAD和SCC中覆盖≥5患者的具有SNV的各外显子而言,我 们选择当与前阶段比较时识别至少1个新患者的具有最高RI的外显 子。在具有同等高RI的外显子中,我们加入在已被选择子捕获的患 者中具有最小重叠的外显子。重复该阶段直到无更多的外显子满足这 些标准。
·阶段3(RI≥30)
对RI≥30和在LUAD和SCC中覆盖≥3患者的具有SNV的各剩余外 显子而言,我们识别了将在仅有1个SNV的患者中导致最大减少的 外显子。为了打破同等好的外显子之间的联系,选择具有最高RI的 外显子。重复该阶段直到无另外的外显子满足这些标准。
·阶段4(RI≥20)
与阶段3相同的程序,但用RI≥20。
·阶段5(预测的驱动子)
我们包括了来自之前预测在NSCLC中包含驱动子突变的另外的基因 的所有外显子。
·阶段6(加入融合)
对在涉及受体酪氨酸激酶ALK,ROS1和RET的NSCLC中的复发 重排而言,包括了最频繁牵涉到融合事件中的内含子和位于侧面的外 显子。
表1中提供了所有包括在选择子中的外显子,以及其相应的 HUGO基因符号和基因组坐标,以及NSCLC和各种其他癌症的患者 统计数字,该表由选择子设计阶段组织。
CAPP-Seq计算流程
突变发现:SNVs/插入/缺失。对检测体细胞SNV和插入/缺 失事件而言,我们采用VarScan 2(体细胞p-值=0.01,最小变异频率 =5%,链过滤器=准确,否则默认参数)。体细胞变异呼唤(SNV或插 入/缺失)在成对的正常样品(PBL)中存在小于0.5%突变体等位基因 频率,但是所处的位置保持具有至少PBL中的1000x总深度和肿瘤 中的100x深度,及在各链上具有至少1x读数深度(表3、20和21)。 虽然选择子被设计来主要捕获外显子,实际上,它也捕获位于各靶向 区域侧面的有限序列内容物。例如,该现象是通过在NSCLC中复发重排的激酶基因如ALK和ROS1的融合伴侣的CAPP-Seq(它未被 包括在该选择子中)(因此更)一致成功的回收的基础。如此,我们 也考虑了在500bps定义的选择子坐标内检测的变体呼唤。如果存在 于非编码重复区域内这些呼唤被排除,因为重复可能使定位的准确性混乱。用UCSC表浏览器中的RepeatMasker跟踪(hg19)获得重复序列 坐标。在多路复用cfDNA样品中给出低的、但是可测的交叉污染率 ~0.06%(表14),我们也排除了在相同泳道样品中发现作为种系SNP 的任何SNV。另外,我们排除了在整个选择子背景前第99.9百位分 数的SNV(>0.27%样品宽背景率;参见图2d和上述B1.1小节)。最 后,我们排除了在至少1个cfDNA样品中在至少500x的深度下不存 在的任何SNV。变体标注自动地从SeattleSeq标注137网络服务器下 载。表3、20和21提供了所有识别的SNV和插入/缺失的完整细节。 要注意的是,所有深度阈值指复制前除去读数。
突变发现:融合。对实用的和鲁棒的重新计数的基因组融合 事件和配对末端下一代测序数据的断点而言,我们开发了新的、启发 式的方法,称为FACTERA[FACile易位计数和回收运算法则(FACile Translocation Enumeration and Recovery Algorithm)]。FACTERA具有 最小的外部依赖,直接在先前存在的.bam比对文件上工作,并且容 易地产生可翻译的输出。该运算法则的主要步骤概述如下,并用图表 补充以说明该断点识别方法的关键因素(图8)。FACTERA被编码 到Perl中并在要求时可自由获取。
作为输入,FACTERA需要由BWA产生的配对末端读数 的.bam比对文件,.bed格式的外显子坐标(例如,hg19 RefSeq坐 标),及.2bit对照基因组以使能够快速序列恢复(例如,hg19)。另外, 分析可以任选限制于重叠特定基因组区域的读数(.bed文件),例如用 于该工作的CAPP-Seq选择子。
FACTERA以三个连续阶段处理输入:识别不一致的读数, 以碱基对分辨率检测断点,及用计算机验证候选物融合。下面详细描 述各阶段。
识别不一致的读数。为了迭代减少基因融合识别的序列空 间,FACTERA,像其他运算法则一样(例如BreakDancer),能识别和 分类不一致的读数对。此类读数表示位于附近的融合事件,因为他们 要么定位不同的染色体要么被大的插入片段尺寸(例如总片段长度) 意外分开,如按BWA定位运算法则测定。伴随各比对读数的按位标 志编码各种定位特征(例如,不合适配对的,未定位的,错误方向等), 并用杠杆作用迅速过滤不一致对的输入。各不一致读数的最紧密的外 显子随后被识别,并用于将不一致对簇集到不同的基因-基因组中, 产生与候选物融合位点相邻的基因组区域R的清单。对不一致基因 对的各成员基因而言,通过在该簇中获取最小量的所有3’外显子/读 数坐标,及该簇中最大量的所有5’外显子/读数坐标定义基因组区 域Ri。这些区域用于在下一阶段中优先处理断点的搜寻(图8a)。
以碱基对分辨率检测断点。不一致读数对可通过NGS文库 制备和/或测序人工制品(例如,跳跃PCR)引入。然而,它们也可 能位于真实融合事件的断点侧面。如此,所有在前阶段中识别的不一 致基因对以不一致读数深度递减的顺序排序(复制片段被排除以纠正可能的PCR偏差),并进一步评估深度至少为2x(默认)的基因组区 域的潜在断点。在各区域内,FACTERA分析了其中两个读数之一是 “软-剪的”或截断的所有适当配对的读数(参见图8a)。软-剪的读数 允许精确的断点测定,并且通过分析与各定位的读数相关的CIGAR 字符串很容易地识别,这紧凑地说明了用于各碱基的比对操作(例如 My=y相邻碱基被定位,Sx=x碱基被跳过)。为了简化该步骤,仅 考虑具有下列两个模式的软-剪的读数,SxMy和MySx,跳过的碱基 数x需要至少16(≤1,4.3B随机)以减少非特异性序列比对的影响。
为了验证潜在的基因组断点,该断点定义为软-剪的读数的边 缘,FACTERA执行了图8中描述的下列常规。对各不一致基因对而 言(例如图8a中的基因w和v),将所有候选物断点作表,并测定各 自的支持物(例如读数频率)。从进一步分析中排除由少于2个读数(默认)支持的断点。从具有最高支持物的两个断点开始,FACTERA 选择各断点的有代表性的软-剪的读数,以使所剪除的序列的长度最 接近读数长度的一半(图8b)。如果所定位的一个读数的区域与另一 个的软-剪的区域相匹配,FACTERA记录为推定融合事件。为了评估读数间坐标(例如参见图8c中的读数1和2),FACTERA采用了下 列运算法则。用滚动窗口(k=10,默认)将读数1的定位区域描述到所 有长度为k的可能的子序列中(例如,k-mers)。将各k-mer,以及其 读数1中的最低序列索引,存储在散列表数据结构中,使得k-mer成 员能在恒定的时间内被评估(图8c,左边)。随后,将读数2的软- 剪的序列描述到长度为k的子序列中,并且查询散列表以匹配k-mers (图8c,右边)。如果达到最小匹配阈值(=0.5x,两个被比较的子序列 的最小长度),于是这两个读数被认为一致。FACTERA将处理各不一 致基因对的最多1000(默认)各推定断点对。此外,对各基因对而 言,FACTERA将仅比较其方向与有效融合兼容的读数。此类读数在 相反方向具有软-剪的序列(图8d,上面)。当该条件不被满足时, FACTERA采用读数1的反面补充以进行k-mer分析(图8d,下面)。
在某些情形中,位于真实断点侧面的基因组子序列可以是几 乎或完全相同,引起软-剪的读数的比对部分重叠。不幸的是,这防 止了该断点的含糊的测定。如此,FACTERA包含了简单的运算法则 以任意调节一个读数(例如,读数2)中的断点使与另一个匹配(例如,读数1)。取决于读数方向,有两条方向这可发生,两者都在图8e中 例举。对各读数而言,FACTERA计算断点与相应于读数之间的第一 k-mer匹配的读数坐标之间的距离。例如,如图8e所示,x定义为读 数1的断点坐标和第一匹配k-mer索引j之间的距离,而y表示读数 2的相应距离。预计抵消为两个读数之间的距离(x,y)差(参见图8e)。
用计算机验证候选物融合。为了用计算机证实各候选物断 点,FACTERA对从.2bit对照基因组提取的模板融合序列(±500bp在 假定的断点周围)进行读数的局部重新比对。BLAST目前用于该目的, 虽然BLAT或其他快速比对器可以被替代。BLAST数据库通过收集所有定位至各候选物融合序列的读数构建,这些读数包括不一致读数 和软-剪的读数,以及在原始输入.bam文件中所有未定位的读数。保 留定位于特定融合坐标的、具有至少95%同一性和最小长度为90% 的输入读数长度(默认)的所有读数,并计数跨越或位于断点侧面的 读数。作为最后的步骤,通过除去任何具有更大的读数支持和相同序 列方向(以避免除去相互融合)的任何融合序列20bp间隔内的融合 序列使输出过剩最小化。
FACTERA产生了简单的输出文本文件,对各融合序列而言该 文件包括基因对,断点的染色体序列坐标,融合方向(例如,正-正 或正-反),50bp的断点内的基因组序列,及跨越该断点和在其侧面的 读数的深度统计数字。表3、20和21中提供了在该工作中分析的患者中识别的融合。
FACTERA的试验验证。为了在试验上评价FACTERA的性能, 我们从两个NSCLC细胞系中产生了NGS数据,这两个细胞系是 HCC78(21.5M x 100bp配对末端读数)和NCI-H3122(19.4M x 100bp 配对末端读数),每个都有已知的重排(分别是ROS1和ALK),并有断 点,据我们所知,该断点之前还未发表。FACTERA很容易地揭示了 前者SLC34A2-ROS1相互易位和后者EML4-ALK融合的迹象。 FACTERA预测的精确断点在试验上通过PCR扩增和Sanger测序验 证(图9,也可参见由CAPP-Seq检测的变体的验证)。重要的是, FACTERA在实际时间(~90sec)内完成了每次运行,仅在六芯3.4GHz Intel Xeon E5690芯片上采用单线程。这些最初的结果说明了 FACTERA作为CAPP-Seq分析流程一部分的用途。
模板融合发现。我们实施了用户导向的选项以在期望的候选 物基因中“猎取”融合。融合可能被FACTERA遗失,如果由FACTERA 应用的融合检测标准不完全地令人满意—例如如果识别出不一致的 读数,而不是软-剪的读数-当肿瘤中的融合等位基因频率极其低时 将最可能发生。作为输入,该方法供给候选物融合基因序列作为“诱 饵”。所有在输入.bam文件中未定位的和软-剪的读数随后比对到这些 模板(采用blastn)以识别对两者具有足够相似性的读数(对各读数而 言,95%同一性,e-值<1.0e-5,及至少30%的读数长度必须定位于 该模板,默认)。此类读数是作为手工分析的用户清单的输出。
我们对发现含ALK融合的低纯度肿瘤样品用FISH而不是 FACTERA测试了该简单方法(例如,病例P9)。采用ALK模板和其 普通融合伴侣ELM4,在总深度为~1900x的区域中,我们识别了定位 于两者的4个读数。0.21%的估测等位基因频率与由FACS测定的 0.22%肿瘤纯度非常相似(图17),证实了该模板融合发现方法的用 途。我们随后用FACS-排空CD45+免疫种群并再测序该患者的肿瘤。 在该富集的肿瘤样品中,FACTERA识别了EML4-ALK融合,以及两 个新的ROS1融合(图4b,表3,20和21)。
突变回收:SNVs/插入/缺失。采用常规Perl脚本,将之前识别 的报道基因等位基因与为每个血浆cfDNA样品生成的SAMtools mpileup文件交叉,并对各报道基因等位基因计算支持读数的数和频 率。仅考虑适当配对的、在至少500x总深度(预复制除去)的读数中的报道基因(表4)。
突变回收:融合。对在所测序的血浆DNA中融合频率的枚举 而言,FACTERA用那组之前识别的融合模板执行发现阶段的最后步 骤(例如,用计算机验证候选物融合,见上)。将融合等位基因频率 计算为α/β,其中α是跨越断点的读数数,而β是该断点周围基因组 区域±5bps内的平均总深度。关于该工作中描述的NSCLC选择子,后 者的计算总是在该NSCLC选择子文库中含的单一基因上进行。如果 两个融合基因在选择子文库内被靶向,总深度则通过取所计算的两个 基因的平均深度估测。
尤其是,在某些情形中我们观察到比杂合等位基因预期的更 低的融合等位基因频率(例如,参见表3、20和21中的细胞系融合)。 这在细胞系中可见,在凭经验的加入试验中,及在一个患者的肿瘤和 血浆样品中(例如,P6),并且能潜在地由其伴侣不在选择子中的融 合的无效“下拉(pull-down)”产生。无论如何,融合体是有用的报道 基因-它们拥有事实上无背景信号并且在加入实验的规定浓度下显 示线性行为(图16d)。此外,通过将所测定的血浆中的频率除以相应 的肿瘤中的频率,对此类无效很容易地调节血浆等位基因频率。在所 测序的肿瘤组织不纯的情况下,肿瘤含量可用SNV(或插入/缺失) 频率作为对照框架估测,使得融合分数能够相应地标准化(表4)。
无肿瘤DNA的知识而筛选血浆cfDNA。我们设计下列统计学 运算法则作为面向无创肿瘤基因型分型和用CAPP-Seq筛查癌症的最 初步骤。该方法用下列的迭代模型识别候选物SNV:(i)配对种系DNA (在该工作中,为PBL)中的背景噪音,(ii)整个选择子的血浆cfDNA 中的碱基对分辨率背景频率,及(iii)cfDNA中的测序错误。图21提供 了实例。该运算法则以四个主要步骤工作,详述如下。
作为输入,该运算法则从单一血浆cfDNA样品中取等位基因 频率并分析高质量背景等位基因,第一步定义各基因组位置为具有最 高丰度分数的非显性碱基。仅分析深度至少500x和链偏差<90%(保 守的,默认)的等位基因。为了与变体呼唤一致,我们允许筛选方法 询问所定义的坐标的500bp内的选择子区域,将有效序列空间从 ~125kb扩展到~600kb。
第二,二项式分布用于测试给定的输入cfDNA等位基因是否 明显与相应配对种系等位基因不同(图21a-b)。在此成功的可能性被带 向PBL中背景等位基因的频率上,并且试验数是血浆cfDNA中的等位 基因的相应深度。为了避免等位基因在可能污染PBL的罕见循环肿瘤 细胞中的贡献,不再考虑配对PBL(默认)中丰度分数大于0.5%的或 Bonferroni调节的二项式概率大于2.08x10-8的输入等位基因(α为0.05/ [~600kb*4等位基因/位置])。
第三,组装cfDNA背景等位基因频率数据库。在此,我们使 用在本研究中分析的样品(例如,预处理NSCLC样品和来自健康志 愿者的1个样品),除了输入样品被省去以避免偏差外。基于所有背 景等位基因分数按正常分布的假设,采用Z-检验测试给定的输入等位基因是否明显与相同位置上的典型cfDNA背景不同(图21a-b)。评价了 选择子内的所有等位基因,未再进一步考虑平均背景频率为5%或更 大的(默认)或Bonferroni-调节的单一加尾Z-分数<5.6的那些(α为 0.05,如上调节)。
最后,测试了候选物等位基因的剩余的可能测序错误。该步 骤用杠杆撬动了观察:血浆cfDNA中的非肿瘤变体(例如,“错误”) 趋向于比在患者肿瘤中可检测的真实的变体具有更高的复制率(数据 未显示)。如此,对于非重复数据删除的(所有片段符合QC标准)和重复数据删除的数据(仅独特的片段符合QC标准)之间的各输入 等位基因,比较了支持读数数。然后将异常值分析用于区别候选物源 自于肿瘤的SNV与剩余背景噪音(图21a-c)。具体地说,为了揭示数 据中的异常值倾向,将鲁棒距离Rd(马氏距离)的平方根与开平方分布 的分位数Cs的平方根相比。该转换揭示了真实SNV和癌症患者假阳性 之间的自然分离(图21a,c),尤其是,揭示了在缺乏源自于肿瘤的SNV 的患者样品中异常值结构的缺少(图21b,c)。为了无之前的知识而自动 呼唤SNV,筛选方法由减少Rb反复通过数据点并重新计算点1-i的Rd 和Cs之间的Pearson相关系数Rho,其中Rdi是当前最大的Rd。运算法 则迭代地报告异常值(例如,候选物SNV)直到Rho≥0.85时结束。
实施例2:设计个体化选择子集合
在某些情形中,用“现有的”策略监控已知患有癌症的患者中 的肿瘤负荷可能是不切实际的,该策略应用来自相同肿瘤类型的患者 小组的知识,用CAPP-Seq选择性地捕获在该肿瘤类型中频发突变的 基因组区域。这些情况包括,但不限于下列病例,其中(1)肿瘤具有 未知的原组织学(例如,CUP);(2)组织学是已知的,但是太罕见以致 没有足够的之前描述的肿瘤类型的患者数来规定平均患者肿瘤体细 胞基因全景(例如,亚型的软组织肉瘤);(3)组织学是已知的,但 是在该肿瘤类型中的复发体细胞损害的平均值/中位数太低以致于不 能达到所预期的灵敏度水平(例如,儿科肿瘤等);或(4)组织学是 已知的,复发体细胞损害的平均值/中位数是合理的,但是平均肿瘤 体积的负荷如此之小以致于要采用更多的突变/肿瘤才能达到额外的 灵敏度(例如,早期恶性黑素瘤)。在此类情形中,监控肿瘤负荷的 个体化策略可能克服这些疾病监控上的障碍。
在此,已知患有癌症的患者的肿瘤通过描绘肿瘤基因组、外 显子组、或期望富集体细胞畸变的靶向区域的特征进行基因分型。可 将癌症的基因型与相同患者的种系基因型比较。所产生的损害然后被 分类并用于构建定制的、个体化的选择子,该选择子包含一组用于选 择性杂化亲和性捕获相应循环肿瘤DNA(ctDNA)分子的生物素化的 低聚核苷酸。在血液或体液中循环的和含有此类ctDNA分子的无细胞 DNA将被分离,并用于构建包括分子标签(“条形码”)的连接反应的 鸟枪基因组文库,这些分子标签能区别此类序列与其他序列,使得能 阻止在用耐热DNA聚合酶作为聚合酶链反应的一部分的cfDNA扩增 期间引入的假错误。该个体化的选择子然后将以与“现有”CAPP-Seq 工作流程相同的方式应用于捕获目标片段,测序和分析,使得能跟踪 和定量那些最初在相应cfDNA中原发瘤中发现的突变。作为 ctDNA/cfDNA的基于亲和性的杂化物捕获的备选,用分子条形码选择 性编入索引的此类片段,特定于相应区域的扩增子能被PCR查询,这 类似允许区别PCR期间引入的测序错误。
实施例3、选择子集合在诊断癌症上的用途
血浆样品从乳房中有异常肿块的女性受试者中获得。无细胞 DNA(cfDNA)从该血 浆样品中提取。通过在无菌微量离心管(或者其 他合适的无菌容器)中,混合各成分,如下 对该cfDNA进行末端修 复反应:
成分 体积(μL)
cfDNA 1-75
磷酸化反应缓冲液(10X) 10
T4DNA聚合酶 5
T4多核苷酸激酶 5
dNTPs 4
DNA聚合酶I,大的(Klenow) 1
无菌H<sub>2</sub>O -加至总体积为100μL
将该末端修复反应混合物于20℃、在热循环仪中孵育30分 钟。
末端修复的cfDNA的净化通过将160μL(1.6X)再悬浮的 AMPure XP珠加入到该末端修复反应混合物中进行。将AMPure珠在 涡旋混合器上或用移液管上下吸(例如,10次或更多)混合到溶液中。 将反应物室温孵育5分钟。将该反应物置于磁性支架上以从上清液中分离珠。溶液澄清后(大约5分钟),将上清液除去并弃去。通过将 200μL 80%新鲜配制的乙醇加入到还在磁性支架上的反应物中,洗涤 珠两次。对每次洗涤而言,乙醇溶液室温下加入30秒。将上清液除去 并弃去。将珠空气干燥10分钟,同时反应物仍在磁性支架上。通过加入40μL无菌水并涡旋或用移液管上下吸水从珠中洗脱cfDNA。将反 应物放回到磁性支架上。一旦溶液澄清,将32μL上清液转移到新鲜、 无菌容器中(例如,微量离心管)。
如下,通过在无菌微量离心管中混合下列成分,进行末端修 复cfDNA的加dA-尾:
成分 体积(μL)
末端修复cfDNA 32
NE缓冲液2(10X) 5
脱氧腺苷5’-三磷酸 10
Klenow片段(3’→5’exo-) 3
将加dA-尾反应物于37℃、在热循环中孵育30分钟。
加dA-尾的cfDNA的净化通过将90μL(1.8X)再悬浮的 AMPure XP珠加入到加dA-尾反应混合物中进行。将AMPure珠在涡旋 混合器上或用移液管上下吸(例如,10次或更多)混合到溶液中。将 反应物室温孵育5分钟。将反应物置于磁性支架上以从上清液中分离 珠。溶液澄清后(大约5分钟),将上清液除去并弃去。通过在磁性 支架上的时候,将200μL 80%新鲜配制的乙醇加入到反应物中,洗涤 珠两次。对每次洗涤而言,乙醇溶液室温下加入30秒。将上清液除去 并弃去。将珠空气干燥10分钟,同时反应物仍在磁性支架上。通过加 入15μL无菌水并涡旋或用移液管上下吸水从珠中洗脱cfDNA。将反 应物放回到磁性支架上。一旦溶液澄清,将10μL上清液转移到新鲜、 无菌容器中(例如,微量离心管)。
如下,通过在无菌微量离心管中混合下列成分进行加dA-尾 的cfDNA的衔接子连 接反应:
成分 体积(μL)
加dA-尾的cfDNA 10
快速连接反应缓冲液(2X) 25
Illumina衔接子 10
快速T4 DNA连接酶 5
[0860] 将衔接子连接反应物于16℃孵育16小时。通过用移液管上下 吸加入3μL的USERTM酶混合物并于37℃孵育终止衔接子连接反应。
衔接子连接的cfDNA的净化通过将90μL(1.8X)再悬浮的 AMPure XP珠加入到衔接子连接反应混合物中进行。将AMPure珠在 涡旋混合器上或用移液管上下吸(例如,10次或更多)混合到溶液中。 将反应物室温孵育5分钟。将反应物置于磁性支架上以从上清液中分离珠。溶液澄清后(大约5分钟),将上清液除去并弃去。通过在磁 性支架上的时候,将200μL80%新鲜配制的乙醇加入到反应物中,洗 涤珠两次。对每次洗涤而言,乙醇溶液室温下加入30秒。将上清液除 去并弃去。将珠空气干燥10分钟,同时反应物仍在磁性支架上。通过加入105μL无菌水并涡旋或用移液管上下吸水从珠中洗脱cfDNA。 将反应物放回到磁性支架上。一旦溶液澄清,将100μL上清液转移到 新鲜、无菌容器中(例如,微量离心管)。
一般的PCR扩增用靶向衔接子的引物,在衔接子连接的 cfDNA上进行。PCR扩增采用14个扩增周期进行。选择子集合探针 用于选择性地捕获衔接子连接的cfDNA的扩增产物的子集。在所捕 获的扩增产物上进行测序反应。所捕获的扩增cfDNA在Illumina HiSeq2000的配对末端100bp泳道上测序。
通过基于选择子集合,检测一个或多个基因组区域中的突变 分析测序信息。选择子集合含属于发生在一个或多个基因组区域中的 突变的信息,其中所述突变存在于至少约70%患乳腺癌受试者群体 中。为了确定样品中检测到突变的统计学意义,计算不同类型突变的 p-值。ctDNA检测指数用于评估检测两个或更多个类型突变的统计学 意义。
向医生提供在样品中检测到的突变和检测突变的统计学意 义的报告。基于在三个基因组区域的至少三个突变的检测,医生可诊 断受试者中的乳腺癌。
实施例4、用选择子集合确定癌症状态或结果
无细胞DNA(cfDNA)从被诊断患有前列腺癌的受试者样品 纯化。如下,通过在无菌 微量离心管(或者其他合适的无菌容器)中 混合各成分对cfDNA进行末端修复反应:
成分 体积(μL)
1-5μg cfDNA 1-85
10X末端修复缓冲液 10
末端修复酶混合物 5
无菌H<sub>2</sub>O -加至总体积为100μL
将末端修复反应混合物于20℃、在热循环仪中孵育30分钟。
末端修复的cfDNA的净化通过将160μL(1.6X)再悬浮的 AMPure XP珠加入到末端修复反应混合物中进行。将AMPure珠在涡 旋混合器上或用移液管上下吸(例如,10次或更多)混合到溶液中。 将反应物置于磁性支架上并在室温下孵育15分钟或直到溶液澄清。溶液澄清后,将上清液除去并弃去。通过在磁性支架上的时候,将200μL 80%新鲜配制的乙醇加入到反应物中,洗涤珠两次。对每次洗涤而言, 乙醇溶液室温下加入30秒。将上清液除去并弃去。将珠空气干燥15 分钟,同时反应物仍在磁性支架上。通过将珠彻底地再悬浮于32.5μL 洗脱缓冲液并在室温下孵育2分钟从珠中洗脱cfDNA。室温下将反应 物放回到磁性支架上,保持15分钟或直到溶液澄清。将30μL上清液 转移到新鲜、无菌容器中(例如,微量离心管)。
如下,通过在无菌微量离心管中混合下列成分进行末端修复 的cfDNA的加dA-尾:
成分 体积(μL)
末端修复的cfDNA 30
10X加A-尾缓冲液 5
加A-尾酶 3
无菌水 12
将加dA-尾反应物于30℃、在热循环中孵育30分钟。
加dA-尾的cfDNA的净化通过将90μL(1.8X)再悬浮的 AMPure XP珠加入到加dA-尾反应混合物中进行。将AMPure珠在涡旋 混合器上或用移液管上下吸(例如,10次或更多)混合到溶液中。将 反应物置于磁性支架上并在室温下孵育15分钟或直到溶液澄清。溶液 澄清后(大约5分钟),将上清液除去并弃去。通过在磁性支架上的 时候,将200μL 80%新鲜配制的乙醇加入到反应物中,洗涤珠两次。 对每次洗涤而言,乙醇溶液室温下加入30秒。将上清液除去并弃去。 将珠空气干燥15分钟,同时反应物仍在磁性支架上。通过将珠彻底地 再悬浮于32.5μL洗脱缓冲液并在室温下孵育2分钟从珠中洗脱 cfDNA。将反应物放回到磁性支架上,室温下保持15分钟或直到溶液 澄清。将30μL上清液转移到新鲜、无菌容器中(例如,微量离心管)。
如下,通过在无菌微量离心管中混合下列成分进行加dA-尾 的cfDNA的衔接子连 接反应:
成分 体积(μL)
加dA-尾的cfDNA 30
5X连接反应缓冲液 10
Illumina衔接子 5
DNA连接酶 5
将衔接子连接反应物于16℃孵育16小时。
衔接子连接的cfDNA的净化通过将50μL再悬浮的AMPure XP珠加入到衔接子连接反应混合物中进行。将AMPure珠在涡旋混合 器上或用移液管上下吸(例如,10次或更多)混合到溶液中。将反应 物置于磁性支架上并在室温下孵育15分钟或直到溶液澄清。溶液澄清后,将上清液除去并弃去。通过在磁性支架上的时候,将200μL 80% 新鲜配制的乙醇加入到反应物中,洗涤珠两次。对每次洗涤而言,乙 醇溶液室温下加入30秒。将上清液除去并弃去。将珠空气干燥15分钟, 同时反应物仍在磁性支架上。将珠再悬浮于52.5μL洗脱缓冲液。将 反应物放回到磁性支架上,室温下孵育15分钟或直到溶液澄清。将50 μL上清液转移到新鲜、无菌容器中(例如,微量离心管)。
衔接子连接的cfDNA的第二次净化通过将50μL再悬浮的 AMPure XP珠加入到衔接子连接反应混合物中进行。将AMPure珠 在涡旋混合器上或用移液管上下吸(例如,10次或更多)混合到溶 液中。将反应物置于磁性支架上并在室温下孵育15分钟或直到溶液 澄清。溶液澄清后,将上清液除去并弃去。通过在磁性支架上的时候, 将200μL 80%新鲜配制的乙醇加入到反应物中,洗涤珠两次。对每 次洗涤而言,乙醇溶液室温下加入30秒。将上清液除去并弃去。将 珠空气干燥15分钟,同时反应物仍在磁性支架上。将珠再悬浮于32.5 μL洗脱缓冲液并室温下孵育2分钟。将反应物放回到磁性支架上, 室温下孵育15分钟或直到溶液澄清。将30μL上清液转移到新鲜、 无菌容器中(例如,微量离心管)。
一般的PCR扩增用靶向衔接子的引物,在衔接子连接的 cfDNA上进行。PCR扩增采用16个扩增周期进行。选择子集合探针 用于选择性地捕获扩增的衔接子连接的cfDNA的子集。扩增的 cfDNA在Illumina HiSeq 2000的配对末端100bp泳道上测序。
通过基于选择子集合,检测一个或多个基因组区域中的突变 分析测序信息。选择子集合含属于发生在一个或多个基因组区域中的 突变的信息,其中所述突变存在于至少约70%患乳腺癌受试者群体 中。基于测序读数测定循环肿瘤DNA(ctDNA)的量。
向医生提供包含ctDNA的量的报告。基于ctDNA的量,医 生提供受试者中前列腺癌的预测。
实施例5、用选择子集合确定癌症治疗的治疗方案
无细胞DNA(cfDNA)从被诊断患有甲状腺癌的受试者样品 纯化。如下,通过在无菌微量离心管(或者其他合适的无菌容器)中 混合各成分对cfDNA进行末端修复反应:
Figure BDA0003053842340002481
Figure BDA0003053842340002491
将末端修复反应混合物于20℃、在热循环仪中孵育30分钟。
末端修复的cfDNA的净化通过将160μL(1.6X)再悬浮的 AMPure XP珠加入到末端修复反应混合物中进行。将AMPure珠在涡 旋混合器上或用移液管上下吸(例如,10次或更多)混合到溶液中。 将反应物置于磁性支架上并在室温下孵育15分钟或直到溶液澄清。溶液澄清后,将上清液除去并弃去。通过在磁性支架上的时候,将200μL 80%新鲜配制的乙醇加入到反应物中,洗涤珠两次。对每次洗涤而言, 乙醇溶液室温下加入30秒。将上清液除去并弃去。将珠空气干燥15 分钟,同时反应物仍在磁性支架上。通过将珠彻底地再悬浮于32.5μL 洗脱缓冲液并在室温下孵育2分钟从珠中洗脱cfDNA。室温下将反应 物放回到磁性支架上,保持15分钟或直到溶液澄清。将30μL上清液 转移到新鲜、无菌容器中(例如,微量离心管)。
如下,通过在无菌微量离心管中混合下列成分进行末端修复 的cfDNA的加dA-尾:
成分 体积(μL)
末端修复的cfDNA 30
10X加A-尾缓冲液 5
加A-尾酶 3
无菌水 12
将加dA-尾反应物于30℃、在热循环中孵育30分钟。
加dA-尾的cfDNA的净化通过将90μL(1.8X)再悬浮的 AMPure XP珠加入到加dA-尾反应混合物中进行。将AMPure珠在涡 旋混合器上或用移液管上下吸(例如,10次或更多)混合到溶液中。 将反应物置于磁性支架上并在室温下孵育15分钟或直到溶液澄清。 溶液澄清后(大约5分钟),将上清液除去并弃去。通过在磁性支架 上的时候,将200μL 80%新鲜配制的乙醇加入到反应物中,洗涤珠 两次。对每次洗涤而言,乙醇溶液室温下加入30秒。将上清液除去 并弃去。将珠空气干燥15分钟,同时反应物仍在磁性支架上。通过 将珠彻底地再悬浮于32.5μL洗脱缓冲液并在室温下孵育2分钟从珠 中洗脱cfDNA。将反应物放回到磁性支架上,室温下保持15分钟或 直到溶液澄清。将30μL上清液转移到新鲜、无菌容器中(例如,微 量离心管)。
如下,通过在无菌微量离心管中混合下列成分进行加dA-尾 的cfDNA的衔接子连 接反应:
成分 体积(μL)
加dA-尾的cfDNA 30
5X连接反应缓冲液 10
衔接子 5
DNA连接酶 5
衔接子连接反应物在16℃孵育16小时。在孵育期间增加衔接 子的浓度。衔接子是Y-型衔接子。Y-型衔接子裂开部分的5’链包含分 子条形码和样品索引。Y-型衔接子的双链的部分包含通用序列。通用 序列用于PCR富集和测序。
衔接子连接的cfDNA的净化通过将50μL再悬浮的AMPure XP珠加入到衔接子连接反应混合物中进行。将AMPure珠在涡旋混 合器上或用移液管上下吸(例如,10次或更多)混合到溶液中。将 反应物置于磁性支架上并在室温下孵育5分钟或直到溶液澄清。溶液 澄清后,将上清液除去并弃去。通过在磁性支架上的时候,将200μL 80%新鲜配制的乙醇加入到反应物中,洗涤珠两次。对每次洗涤而言, 乙醇溶液室温下加入30秒。将上清液除去并弃去。将珠空气干燥15 分钟,同时反应物仍在磁性支架上。将珠再悬浮于52.5μL洗脱缓冲液。将反应物放回到磁性支架上,室温下孵育5分钟或直到溶液澄 清。将50μL上清液转移到新鲜、无菌容器中(例如,微量离心管)。
衔接子连接的cfDNA的第二次净化通过将50μL再悬浮的 AMPure XP珠加入到衔接子连接反应混合物中进行。将AMPure珠 在涡旋混合器上或用移液管上下吸(例如,10次或更多)混合到溶 液中。将反应物置于磁性支架上并在室温下孵育5分钟或直到溶液澄 清。溶液澄清后,将上清液除去并弃去。通过在磁性支架上的时候, 将200μL 80%新鲜配制的乙醇加入到反应物中,洗涤珠两次。对每 次洗涤而言,乙醇溶液室温下加入30秒。将上清液除去并弃去。将 珠空气干燥10分钟,同时反应物仍在磁性支架上。将珠再悬浮于105 μL洗脱缓冲液并室温下孵育2分钟。将反应物放回到磁性支架上, 室温下孵育直到溶液澄清。将100μL上清液转移到新鲜、无菌容器 中(例如,微量离心管)。
衔接子连接的cfDNA的基于珠的大小选择通过将80μL AMPure XP珠加入到衔接子连接的cfDNA中进行。将反应物通过涡 旋反应物或用移液管上下吸溶液至少10次进行混合。将反应物在室 温下孵育5分钟。将反应物置于磁性支架上5分钟或直到溶液澄清。 一旦溶液澄清,将上清液转移到新管中。将20μL AMPure XP珠加入 到上清液中(涡旋或用移液管上下吸至混合)并室温孵育5分钟。将 反应物置于磁性支架上5分钟或直到溶液澄清。一旦溶液澄清,将上 清液除去并弃去。置于磁性支架上的同时,用200μL新鲜配制的80% 乙醇洗涤珠两次。将乙醇洗液室温下孵育30秒并除去和弃去。将珠 室温空气干燥10分钟。通过将珠再悬浮于25μL无菌水或0.1X TE 缓冲液从珠中洗脱cfDNA。将反应物放回到磁性支架上。一旦溶液 澄清,将20μL上清液转移到新的微量离心管中。
衔接子连接的cfDNA的PCR富集通过混合下列成分进行:
成分 体积(μL)
衔接子连接的cfDNA 20
通用PCR引物(25μM) 2.5
索引引物(25μM) 2.5
Phusion高保真PCR Master Mix 25
PCR富集采用循环条件进行,1个周期,98℃,30秒;17个 周期,98℃,10秒;65℃,30秒,及72℃,30秒,接着1个周 期,72℃,5分钟并在4℃下保持。
PCR富集的cfDNA的净化通过将50μL(1X)再悬浮的 AMPure XP珠加入到PCR富集的cfDNA反应混合物中进行。将 AMPure珠在涡旋混合器上或用移液管上下吸(例如,10次或更多) 混合到溶液中。将反应物置于磁性支架上并在室温下孵育5分钟或直 到溶液澄清。溶液澄清后,将上清液除去并弃去。通过在磁性支架上 的时候,将200μL 80%新鲜配制的乙醇加入到反应物中,洗涤珠两 次。对每次洗涤而言,乙醇溶液室温下加入30秒。将上清液除去并 弃去。将珠空气干燥10分钟,同时反应物仍在磁性支架上。将珠再 悬浮于30μL的0.1XTE。将反应物放回到磁性支架上,室温下孵育 直到溶液澄清。将25μL上清液转移到新鲜、无菌容器中(例如,微 量离心管)。加入无核酸酶的水将富集的cfDNA稀释20倍。
将富集的cfDNA与包含选择子集合探针的阵列杂交。用基于 阵列的杂交测定循环肿瘤DNA(ctDNA)的量。阵列的图像被获得并 且基于阵列上的强度信号计算ctDNA的量。
向医生提供包含ctDNA的量、发现的突变及抗癌疗法清单的 报告。基于ctDNA的量,所发现的突变的类型及抗癌疗法清单,医 生提供治疗受试者甲状腺癌的治疗方案。
Figure BDA0003053842340002521
Figure BDA0003053842340002531
Figure BDA0003053842340002532
Figure BDA0003053842340002541
Figure BDA0003053842340002551
Figure BDA0003053842340002561
Figure BDA0003053842340002571
Figure BDA0003053842340002581
Figure BDA0003053842340002591
Figure BDA0003053842340002601
Figure BDA0003053842340002611
Figure BDA0003053842340002621
Figure BDA0003053842340002631
Figure BDA0003053842340002641
Figure BDA0003053842340002651
Figure BDA0003053842340002661
Figure BDA0003053842340002662
Figure BDA0003053842340002671
Figure BDA0003053842340002681
Figure BDA0003053842340002691
Figure BDA0003053842340002701
Figure BDA0003053842340002711
Figure BDA0003053842340002721
Figure BDA0003053842340002731
Figure BDA0003053842340002741
Figure BDA0003053842340002751
Figure BDA0003053842340002761
Figure BDA0003053842340002771
Figure BDA0003053842340002781
Figure BDA0003053842340002791
Figure BDA0003053842340002801
Figure BDA0003053842340002811
Figure BDA0003053842340002821
Figure BDA0003053842340002831
Figure BDA0003053842340002841
Figure BDA0003053842340002851
Figure BDA0003053842340002852
Figure BDA0003053842340002861
Figure BDA0003053842340002871
Figure BDA0003053842340002881
Figure BDA0003053842340002891
Figure BDA0003053842340002901
Figure BDA0003053842340002911
Figure BDA0003053842340002921
Figure BDA0003053842340002931
Figure BDA0003053842340002941
Figure BDA0003053842340002951
Figure BDA0003053842340002961
Figure BDA0003053842340002971
Figure BDA0003053842340002981
Figure BDA0003053842340002991
Figure BDA0003053842340003001
Figure BDA0003053842340003011
Figure BDA0003053842340003021
Figure BDA0003053842340003031
Figure BDA0003053842340003041
Figure BDA0003053842340003051
Figure BDA0003053842340003061
Figure BDA0003053842340003062
Figure BDA0003053842340003071
Figure BDA0003053842340003081
Figure BDA0003053842340003091
Figure BDA0003053842340003101
Figure BDA0003053842340003111
Figure BDA0003053842340003121
Figure BDA0003053842340003131
Figure BDA0003053842340003141
Figure BDA0003053842340003151
Figure BDA0003053842340003161
Figure BDA0003053842340003171
Figure BDA0003053842340003172
Figure BDA0003053842340003181
Figure BDA0003053842340003191
Figure BDA0003053842340003201
Figure BDA0003053842340003211
Figure BDA0003053842340003221
Figure BDA0003053842340003231
Figure BDA0003053842340003241
Figure BDA0003053842340003251
Figure BDA0003053842340003261
Figure BDA0003053842340003271
Figure BDA0003053842340003281
Figure BDA0003053842340003291
Figure BDA0003053842340003301
Figure BDA0003053842340003311
Figure BDA0003053842340003321
Figure BDA0003053842340003331
Figure BDA0003053842340003341
Figure BDA0003053842340003351
Figure BDA0003053842340003361
Figure BDA0003053842340003371
Figure BDA0003053842340003381
Figure BDA0003053842340003391
Figure BDA0003053842340003401
Figure BDA0003053842340003411
Figure BDA0003053842340003421
Figure BDA0003053842340003431
Figure BDA0003053842340003432
Figure BDA0003053842340003441
Figure BDA0003053842340003451
Figure BDA0003053842340003461
Figure BDA0003053842340003471
Figure BDA0003053842340003481
Figure BDA0003053842340003491
Figure BDA0003053842340003501
Figure BDA0003053842340003511
Figure BDA0003053842340003521
Figure BDA0003053842340003531
Figure BDA0003053842340003541
Figure BDA0003053842340003551
Figure BDA0003053842340003561
Figure BDA0003053842340003571
Figure BDA0003053842340003581
Figure BDA0003053842340003591
Figure BDA0003053842340003601
Figure BDA0003053842340003611
Figure BDA0003053842340003621
Figure BDA0003053842340003631
Figure BDA0003053842340003641
Figure BDA0003053842340003651
Figure BDA0003053842340003661
Figure BDA0003053842340003671
Figure BDA0003053842340003681
Figure BDA0003053842340003691
Figure BDA0003053842340003701
Figure BDA0003053842340003711
Figure BDA0003053842340003721
Figure BDA0003053842340003731
Figure BDA0003053842340003741
Figure BDA0003053842340003751
Figure BDA0003053842340003761
Figure BDA0003053842340003771
Figure BDA0003053842340003781
Figure BDA0003053842340003791
Figure BDA0003053842340003801
Figure BDA0003053842340003811
Figure BDA0003053842340003812
Figure BDA0003053842340003821
Figure BDA0003053842340003831
Figure BDA0003053842340003841
Figure BDA0003053842340003851
Figure BDA0003053842340003861
Figure BDA0003053842340003871
Figure BDA0003053842340003881
Figure BDA0003053842340003891
Figure BDA0003053842340003901
Figure BDA0003053842340003911
Figure BDA0003053842340003921
Figure BDA0003053842340003931
Figure BDA0003053842340003941
Figure BDA0003053842340003951
Figure BDA0003053842340003961
Figure BDA0003053842340003971
Figure BDA0003053842340003981
Figure BDA0003053842340003991
Figure BDA0003053842340004001
Figure BDA0003053842340004011
Figure BDA0003053842340004012
Figure BDA0003053842340004021
Figure BDA0003053842340004031
Figure BDA0003053842340004041
Figure BDA0003053842340004051
Figure BDA0003053842340004061
Figure BDA0003053842340004071
Figure BDA0003053842340004081
Figure BDA0003053842340004091
Figure BDA0003053842340004101
Figure BDA0003053842340004111
Figure BDA0003053842340004121
Figure BDA0003053842340004131
Figure BDA0003053842340004132
Figure BDA0003053842340004141
Figure BDA0003053842340004151
Figure BDA0003053842340004161
Figure BDA0003053842340004171
Figure BDA0003053842340004181
Figure BDA0003053842340004191
Figure BDA0003053842340004201
Figure BDA0003053842340004211
Figure BDA0003053842340004221
Figure BDA0003053842340004231
Figure BDA0003053842340004241
Figure BDA0003053842340004251
Figure BDA0003053842340004261
Figure BDA0003053842340004271
Figure BDA0003053842340004281
Figure BDA0003053842340004291
Figure BDA0003053842340004301
Figure BDA0003053842340004311
Figure BDA0003053842340004321
Figure BDA0003053842340004331
Figure BDA0003053842340004341
Figure BDA0003053842340004351
Figure BDA0003053842340004361
Figure BDA0003053842340004371
Figure BDA0003053842340004381
Figure BDA0003053842340004391
Figure BDA0003053842340004401
Figure BDA0003053842340004411
Figure BDA0003053842340004421
Figure BDA0003053842340004431
Figure BDA0003053842340004441
Figure BDA0003053842340004451
Figure BDA0003053842340004461
Figure BDA0003053842340004471
Figure BDA0003053842340004481
Figure BDA0003053842340004482
Figure BDA0003053842340004491
Figure BDA0003053842340004501
Figure BDA0003053842340004511
Figure BDA0003053842340004521
Figure BDA0003053842340004531
Figure BDA0003053842340004541
Figure BDA0003053842340004551
Figure BDA0003053842340004561
Figure BDA0003053842340004571
Figure BDA0003053842340004581
Figure BDA0003053842340004591
Figure BDA0003053842340004601
Figure BDA0003053842340004611
Figure BDA0003053842340004621
Figure BDA0003053842340004631
Figure BDA0003053842340004641
Figure BDA0003053842340004651
Figure BDA0003053842340004661
Figure BDA0003053842340004671
Figure BDA0003053842340004681
Figure BDA0003053842340004691
Figure BDA0003053842340004701
Figure BDA0003053842340004711
Figure BDA0003053842340004721
Figure BDA0003053842340004731
Figure BDA0003053842340004741
Figure BDA0003053842340004751
Figure BDA0003053842340004761
Figure BDA0003053842340004771
Figure BDA0003053842340004781
Figure BDA0003053842340004791
Figure BDA0003053842340004792
Figure BDA0003053842340004801
Figure BDA0003053842340004811
Figure BDA0003053842340004821
Figure BDA0003053842340004831
Figure BDA0003053842340004832
Figure BDA0003053842340004841
Figure BDA0003053842340004851
Figure BDA0003053842340004861
Figure BDA0003053842340004871
Figure BDA0003053842340004881
Figure BDA0003053842340004891
Figure BDA0003053842340004901
Figure BDA0003053842340004911
Figure BDA0003053842340004921
Figure BDA0003053842340004931
Figure BDA0003053842340004941
Figure BDA0003053842340004951
Figure BDA0003053842340004961
Figure BDA0003053842340004971
Figure BDA0003053842340004981
Figure BDA0003053842340004991
Figure BDA0003053842340005001
Figure BDA0003053842340005011
Figure BDA0003053842340005021
Figure BDA0003053842340005031
Figure BDA0003053842340005041
Figure BDA0003053842340005051
Figure BDA0003053842340005061
Figure BDA0003053842340005071
Figure BDA0003053842340005081
Figure BDA0003053842340005091
Figure BDA0003053842340005101
Figure BDA0003053842340005111
Figure BDA0003053842340005121
Figure BDA0003053842340005131
Figure BDA0003053842340005141
Figure BDA0003053842340005151
Figure BDA0003053842340005161
Figure BDA0003053842340005171
Figure BDA0003053842340005181
Figure BDA0003053842340005191
Figure BDA0003053842340005201
Figure BDA0003053842340005211
Figure BDA0003053842340005221
Figure BDA0003053842340005231
Figure BDA0003053842340005241
Figure BDA0003053842340005251
Figure BDA0003053842340005261
Figure BDA0003053842340005271
Figure BDA0003053842340005281
Figure BDA0003053842340005291
Figure BDA0003053842340005301
Figure BDA0003053842340005311
Figure BDA0003053842340005321
Figure BDA0003053842340005331
Figure BDA0003053842340005341
Figure BDA0003053842340005342
Figure BDA0003053842340005351
Figure BDA0003053842340005361
Figure BDA0003053842340005371
Figure BDA0003053842340005381
Figure BDA0003053842340005391
Figure BDA0003053842340005401
Figure BDA0003053842340005411
Figure BDA0003053842340005421
Figure BDA0003053842340005431
Figure BDA0003053842340005441
Figure BDA0003053842340005451
Figure BDA0003053842340005461
Figure BDA0003053842340005471
Figure BDA0003053842340005481
Figure BDA0003053842340005491
Figure BDA0003053842340005501
Figure BDA0003053842340005511
Figure BDA0003053842340005521
Figure BDA0003053842340005531
Figure BDA0003053842340005541
Figure BDA0003053842340005551
Figure BDA0003053842340005561
Figure BDA0003053842340005571
Figure BDA0003053842340005581
Figure BDA0003053842340005591
Figure BDA0003053842340005601
Figure BDA0003053842340005602
Figure BDA0003053842340005611
Figure BDA0003053842340005621
Figure BDA0003053842340005631
Figure BDA0003053842340005641
Figure BDA0003053842340005651
Figure BDA0003053842340005661
Figure BDA0003053842340005671
Figure BDA0003053842340005681
Figure BDA0003053842340005691
Figure BDA0003053842340005701
Figure BDA0003053842340005711
Figure BDA0003053842340005721
Figure BDA0003053842340005731
Figure BDA0003053842340005741
Figure BDA0003053842340005742
Figure BDA0003053842340005751
Figure BDA0003053842340005761
Figure BDA0003053842340005771
Figure BDA0003053842340005781
Figure BDA0003053842340005791
Figure BDA0003053842340005801
Figure BDA0003053842340005811
Figure BDA0003053842340005821
Figure BDA0003053842340005831
Figure BDA0003053842340005841
Figure BDA0003053842340005842
Figure BDA0003053842340005851
Figure BDA0003053842340005861
Figure BDA0003053842340005871
Figure BDA0003053842340005881
Figure BDA0003053842340005882
Figure BDA0003053842340005891
Figure BDA0003053842340005901
Figure BDA0003053842340005911
所有专利、专利出版物和其他本文中提及的发表的参考文献 均通过引用而整体结合到本文中,好像各自已分别地和具体地通过引 用结合到本文中。
虽然提供了具体的实施例,但是上述描述是说明性的,不是 限制性的。前面所描述的实施方案的特征中的任一个或多个可以任何 方式与本发明中任一其他实施方案的一个或多个特征结合。此外,在 浏览了说明书后,本发明的许多变化对本领域技术人员而言将是显而 易见的。因此,本发明的范围应参照随附的权利要求以及其等同方案 的全部范围而定。
序列表
<110> 莱兰斯坦福初级大学评议会
M. 迪恩
A. A. 阿利扎德
A. M. 纽曼
S. V. 布拉特曼
<120> 循环核酸肿瘤标志物的鉴别和用途
<130> STAN-866WO
<140> PCT/US 14/025020
<141> 2014-03-12
<150> US 61/798,925
<151> 2013-03-15
<160> 32
<170> PatentIn version 3.5
<210> 1
<211> 101
<212> DNA
<213> 智人
<400> 1
agaaatacta ataaaatgat taaagaaggt gtgtctttaa ttgaagcatg atttaaagta 60
aatgcaaagc taaaaatcag accactgcac tccagcctgg g 101
<210> 2
<211> 101
<212> DNA
<213> 智人
<400> 2
tactaataaa atgattaaag aaggtgtgtc tttaattgaa gcatgattta aagtaaatgc 60
aaagctaaaa atcagaccac tgcactccag cctggggaac a 101
<210> 3
<211> 101
<212> DNA
<213> 智人
<400> 3
aaatgattaa agaaggtgtg tctttaattg aagcatgatt taaagtaaat gcaaagctaa 60
aaatcagacc actgcactcc agcctgggga acaagagtga a 101
<210> 4
<211> 101
<212> DNA
<213> 智人
<400> 4
gtgtgtcttt aattgaagca tgatttaaag taaatgcaaa gctaaaaatc agaccactgc 60
actccagcct ggggaacaag agtgaaaccc catctcaaaa a 101
<210> 5
<211> 100
<212> DNA
<213> 智人
<400> 5
gtgtctttaa ttgaagcatg atttaaagta aatgcaaagc taaaaatcag accactgcac 60
tccagcctgg ggaacaagag tgaaacccca tctcaaaaac 100
<210> 6
<211> 100
<212> DNA
<213> 智人
<400> 6
gtctttaatt gaagcatgat ttaaagtaaa tgcaaagcta aaaatcagac cactgcactc 60
cagcctgggg aacaagagtg aaaccccatc tcaaaaacaa 100
<210> 7
<211> 92
<212> DNA
<213> 智人
<400> 7
tgaagcatga tttaaagtaa atgcaaagct aaaaatcaga ccactgcact ccagcctggg 60
gaacaagagt gaaaccccat ctcaaaaaca aa 92
<210> 8
<211> 92
<212> DNA
<213> 智人
<400> 8
atgatttaaa gtaaatgcaa agctaaaaat cagaccactg cactccagcc tggggaacaa 60
gagtgaaacc ccatctcaaa aacaaacaaa ca 92
<210> 9
<211> 92
<212> DNA
<213> 智人
<400> 9
agtaaatgca aagctaaaaa tcagaccact gcactccagc ctggggaaca agagtgaaac 60
cccatctcaa aaacaaacaa acaaaacaaa ac 92
<210> 10
<211> 100
<212> DNA
<213> 智人
<400> 10
atgcaaagct aaaaatcaga ccactgcact ccagcctggg gaacaagagt gaaaccccat 60
ctcaaaaaca aacaaacaaa acaaaacaaa aaaaactaag 100
<210> 11
<211> 40
<212> DNA
<213> 智人
<400> 11
atgcaaagct aaaaatcaga ccactgcact ccagcctggg 40
<210> 12
<211> 101
<212> DNA
<213> 智人
<400> 12
tgtcagagta gtggtggttt ataagacggg agaaaatagc acctcacttc cagaaagctt 60
taagacaaaa ggtgagtact agagtaagat tcagtctcag a 101
<210> 13
<211> 101
<212> DNA
<213> 智人
<400> 13
gagtagtggt ggtttataag acgggagaaa atagcacctc acttccagaa agctttaaga 60
caaaaggtga gtactagagt aagattcagt ctcagatctg g 101
<210> 14
<211> 103
<212> DNA
<213> 智人
<400> 14
gtggtggttt ataagacggg agaaaatagc acctcacttc cagaaagctt taagacaaaa 60
ggtgagtact agagtaagat tcagtctcag atctgggtga cac 103
<210> 15
<211> 101
<212> DNA
<213> 智人
<400> 15
gtttataaga cgggagaaaa tagcacctca cttccagaaa gctttaagac aaaaggtgag 60
tactagagta agattcagtc tcagatctgg gtgacacaaa g 101
<210> 16
<211> 101
<212> DNA
<213> 智人
<400> 16
ataagacggg agaaaatagc acctcacttc cagaaagctt taagacaaaa ggtgagtact 60
agagtaagat tcagtctcag atctgggtga cacaaaggac c 101
<210> 17
<211> 101
<212> DNA
<213> 智人
<400> 17
agaaaatagc acctcacttc cagaaagctt taagacaaaa ggtgagtact agagtaagat 60
tcagtctcag atctgggtga cacaaaggac catggatttc t 101
<210> 18
<211> 101
<212> DNA
<213> 智人
<400> 18
aatagcacct cacttccaga aagctttaag acaaaaggtg agtactagag taagattcag 60
tctcagatct gggtgacaca aaggaccatg gatttctgca a 101
<210> 19
<211> 104
<212> DNA
<213> 智人
<400> 19
acctcacttc cagaaagctt taagacaaaa ggtgagtact agagtaagat tcagtctcag 60
atctgggtga cacaaaggac catggatttc tgcaaccctt ggtg 104
<210> 20
<211> 101
<212> DNA
<213> 智人
<400> 20
cagaaagctt taagacaaaa ggtgagtact agagtaagat tcagtctcag atctgggtga 60
cacaaaggac catggatttc tgcaaccctt ggtgcctttc t 101
<210> 21
<211> 101
<212> DNA
<213> 智人
<400> 21
aagacaaaag gtgagtacta gagtaagatt cagtctcaga tctgggtgac acaaaggacc 60
atggatttct gcaacccttg gtgcctttct tgggaaccca t 101
<210> 22
<211> 40
<212> DNA
<213> 智人
<400> 22
aagacaaaag gtgagtacta gagtaagatt cagtctcaga 40
<210> 23
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成多核苷酸
<400> 23
agacgggaga aaatagcacc 20
<210> 24
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成多核苷酸
<400> 24
accaagggtt gcagaaatcc 20
<210> 25
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 合成多核苷酸
<400> 25
gagatggagt ttcactcttg ttgc 24
<210> 26
<211> 27
<212> DNA
<213> 人工序列
<220>
<223> 合成多核苷酸
<400> 26
gaacctttcc atcatactta gaaatac 27
<210> 27
<211> 17
<212> DNA
<213> 人工序列
<220>
<223> 合成多核苷酸
<400> 27
tccatggaag ccagaac 17
<210> 28
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成多核苷酸
<400> 28
atgctaagat gtgtctgtca 20
<210> 29
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 合成多核苷酸
<400> 29
ccttaacaca gatggctctt gatgc 25
<210> 30
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成多核苷酸
<400> 30
tcctctttcc accttggctt tcc 23
<210> 31
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成多核苷酸
<400> 31
ggttcagaac taccaataac aag 23
<210> 32
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 合成多核苷酸
<400> 32
acctgatgtg tgacctgatt gatg 24

Claims (96)

1. 一种在有需要的受试者中检测、诊断、预测癌症或选择癌症疗法的方法,所述方法包括:
(a) 获得源自于受试者的无细胞DNA(cfDNA)样品的序列信息;及
(b) 用来自于(a)的序列信息检测所述样品中的循环肿瘤DNA (ctDNA),其中所述方法能够检测的ctDNA的百分比小于或等于总cfDNA的2%。
2.权利要求1所述的方法,其中所述方法能够检测的ctDNA的百分比小于或等于总cfDNA的1.75%、1.5%、1.25%、1%、0.75%、0.50%、0.25%、0.1%、0.9%、0.8%、0.7%、0.6%、0.5%、0.4%、0.3%、0.2%、0.1%、0.05%、0.01%、0.009%、0.008%、0.007%、0.006%、0.005%、0.004%、0.003%、0.002%、0.001%、0.0005%或0.00001%。
3.权利要求1所述的方法,其中所述样品是血浆、血清、汗、呼吸、眼泪、唾液、尿、大便、羊水或脑脊液样品。
4.权利要求1所述的方法,其中所述样品不是帕氏涂片、囊肿液或胰液样品。
5.权利要求1所述的方法,其中所述序列信息包含与至少2、3、5、8、10、20、30、40、100、200、或300个基因组区域相关的信息。
6.权利要求5所述的方法,其中所述基因组区域包含外显子区域、内含子区域和未翻译区域中的两个或更多个。
7. 权利要求5所述的方法,其中所述基因组区域包含小于1.5兆碱基(Mb)、1 Mb、500kb、350 kb、100 kb、75 kb、50 kb或25 kb的基因组。
8.权利要求1所述的方法,其中所述序列信息包含属于1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100或更多个基因组区域的信息,所述基因组区域来自含多个基因组区域的选择子集合。
9.权利要求8所述的方法,其中所述多个基因组区域基于包含基因组区域的选择子集合,所述基因组区域包含存在于癌症受试者群体的一个或多个受试者中的一个或多个突变。
10.权利要求8所述的方法,其中至少约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、或95%的所述多个基因组区域基于包含基因组区域的选择子集合,所述基因组区域包含存在于癌症受试者群体的一个或多个受试者中的一个或多个突变。
11.权利要求9或10所述的方法,其中所述选择子集合包含1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100或更多个选自表2和-18中任何一个的基因组区域。
12.权利要求1所述的方法,其中所述获得步骤(a)的序列信息包括进行大规模的平行测序。
13.权利要求1所述的方法,其中所述获得步骤(a)的序列信息包括使用一个或多个衔接子。
14.权利要求13所述的方法,其中所述一个或多个衔接子包括含随机序列的分子条形码。
15.权利要求1所述的方法,其中使用步骤(b)的序列信息包括检测受试者基因组的所选区域中的SNVs、插入/缺失、拷贝数变体和重排中的一个或多个。
16.权利要求1所述的方法,其中使用步骤(b)的序列信息包括检测受试者基因组的所选区域中的SNVs、插入/缺失、拷贝数变体和重排中的两个或更多个。
17. 权利要求1所述的方法,其中所述步骤(b)的检测不涉及进行数字PCR (dPCR)。
18.权利要求1所述的方法,其中所述步骤(b)的检测包括将运算法则应用于所述序列信息以确定选择子集合的一个或多个基因组区域的量。
19.权利要求1所述的方法,进一步包括基于ctDNA的检测,检测、诊断、预测受试者中的癌症或选择癌症的疗法。
20.权利要求19所述的方法,其中诊断或预测癌症的灵敏度为至少约50%、52%、55%、57%、60%、62%、65%、67%、70%、72%、75%、77%、80%、82%、85%、87%、89%、90%、91%、92%、93%、94%、95%、96%、97%、或99%。
21.权利要求19所述的方法,其中诊断或预测癌症的特异性为至少约50%、52%、55%、57%、60%、62%、65%、67%、70%、72%、75%、77%、80%、82%、85%、87%、89%、90%、91%、92%、93%、94%、95%、96%、97%或99%。
22.制备用于癌症的选择子集合的方法,所述方法包括:
(a) 识别患癌症受试者群体中的一个或多个受试者中的包含突变的基因组区域;
(b) 基于复发指数(RI)排列所述基因组区域的顺序,其中所述基因组区域的RI通过将在该基因组区域中有突变的受试者或肿瘤的数除以所述基因组区域的大小确定;及
(c) 基于所述RI制备选择子集合。
23.权利要求22所述的方法,其中所述基因组区域的至少一个子集是外显子区域、内含子区域、未翻译区域或其组合。
24.权利要求22所述的方法,其中基于RI制备选择子集合包括选择复发指数在百分位数前第70、第75、第80、第85、第90、或第95或更大的基因组区域。
25.权利要求22所述的方法,其中制备选择子集合包括将运算法则应用于排序的基因组区域的子集。
26.权利要求22所述的方法,其中制备选择子集合包括选择使所述选择子集合的突变中位数/受试者最大化的基因组区域。
27.权利要求22所述的方法,其中制备选择子集合包括选择使所述选择子集合的受试者数最大化的基因组区域。
28.权利要求22所述的方法,其中制备选择子集合包括选择使所述基因组区域的总大小最小化的基因组区域。
29.一种计算机可读媒介物,包含两个或更多个基因组区域的序列信息,其中:
(a) 所述两个或更多个基因组区域包含一个或多个突变,所述突变存在于患第一类型癌症的第一受试者群体中大于或等于80%肿瘤中;
(b) 所述两个或更多个基因组区域表示小于1.5 Mb的基因组;及
(c) 下述中的一个或多个:
(i) 所述病症不是毛细胞白血病、卵巢癌、瓦尔登斯特伦巨球蛋白血症;
(ii) 基因组区域包含在至少一个受癌症折磨的受试者中的至少一种突变;
(iii) 所述两个或更多个基因组区域包含一个或多个突变,所述突变存在于患第二类型癌症的第二受试者群体中;
(iv) 所述两个或更多个基因组区域源自于两个或更多个不同的基因;
(v) 所述基因组区域包含两个或更多个突变;或
(vi) 所述两个或更多个基因组区域包含至少10kb。
30.权利要求29所述的计算机可读媒介物,其中所述基因组区域包含一个或多个突变,所述突变存在于患第二类型癌症的第二受试者群体中大于或等于60%肿瘤中。
31.权利要求29所述的计算机可读媒介物,其中所述基因组区域源自于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100或更多个不同的基因。
32. 权利要求29所述的计算机可读媒介物,其中所述基因组区域包含至少1、5、10、15、20、25、30、35、40、45、或50 kb。
33.权利要求29所述的计算机可读媒介物,其中所述序列信息包含属于所述两个或更多个基因组区域的基因组坐标。
34.权利要求29所述的计算机可读媒介物,其中所述序列信息包含属于所述两个或更多个基因组区域的核酸序列。
35.权利要求29所述的计算机可读媒介物,其中所述序列信息包含所述两个或更多个基因组区域的长度。
36.一种包含一组低聚核苷酸的组合物,所述低聚核苷酸选择性地与多个基因组区域杂交,其中:
(a) 大于或等于80%的来自于癌症受试者群体的肿瘤包括在所述基因组区域中的一种或多种突变;
(b) 所述多个基因组区域表示小于1.5 Mb的基因组;及
(c) 所述低聚核苷酸组包含选择性地与多个基因组DNA区域杂交的5个或更多个不同的低聚核苷酸。
37.权利要求36所述的组合物,其中所述基因组DNA区域包含至少2个在表2和6-18中的任何一个中所识别那些中的区域。
38. 权利要求36所述的组合物,其中所述组的低聚核苷酸与约5 kb -1000kb之间的基因组杂交。
39.权利要求36所述的组合物,其中所述组的低聚核苷酸能够与5个或更多个不同的基因组区域杂交。
40.权利要求36所述的组合物,其中所述低聚核苷酸与固体支持物连接。
41.权利要求40所述的组合物,其中所述固体支持物是珠。
42.权利要求40所述的组合物,其中所述固体支持物是阵列。
43. 一种用于制备测序文库的方法,所述方法包括:
(a) 对源自于样品的无细胞DNA (cfDNA)进行扩增反应以产生多个扩增子,其中所述扩增反应包括20或更少的扩增周期;及
(b) 制备测序文库,所述文库包含多个扩增子。
44.权利要求43所述的方法,其中所述扩增反应包括15或更少的扩增周期。
45.权利要求43所述的方法,进一步包括将衔接子与所述无细胞DNA连接。
46.权利要求45所述的方法,其中所述衔接子包含分子条形码。
47.权利要求45所述的方法,其中所述衔接子包含样品索引。
48.权利要求45所述的方法,其中所述衔接子包含引物序列。
49.权利要求45所述的方法,其中所述衔接子包含Y-型衔接子。
50.权利要求43所述的方法,进一步包括将所述cfDNA分段。
51.权利要求43所述的方法,进一步包括末端修复所述cfDNA。
52.权利要求43所述的方法,进一步包括使所述cfDNA加A-尾。
53.一种确定选择子集合的统计学意义的方法,所述方法包括:
(a) 检测来自于受试者的一个或多个样品中的一种或多种突变的存在,其中所述一种或多种突变基于包含含所述一种或多种突变的基因组区域的选择子集合;
(b) 确定存在于该样品中的一种或多种突变的突变类型;及
(c) 通过基于存在于所述一个或多个样品中的突变的突变类型的p-值,计算ctDNA检测指数,确定所述选择子集合的统计学意义。
54.权利要求53所述的方法,其中如果在所述受试者的两个或更多个样品中观察到重排,那么该ctDNA检测指数为0。
55.权利要求54所述的方法,其中至少所述两个或更多个样品之一是血浆样品。
56.权利要求54所述的方法,其中至少所述两个或更多个样品之一是肿瘤样品。
57.权利要求54所述的方法,其中所述重排是融合或断点。
58.权利要求53所述的方法,其中如果存在一种类型的突变,那么该ctDNA检测指数为所述一种类型突变的p-值。
59.权利要求53所述的方法,其中如果:(i)在所述样品中存在两种或更多种类型的突变;(ii)所述两种或更多种类型突变的p-值为小于0.1;及(iii)重排不是所述突变类型之一,那么该ctDNA检测基于所述两种或更多种突变的合并p-值计算。
60.权利要求59所述的方法,其中所述两种或更多种突变的p-值按照Fisher法合并。
61.权利要求59所述的方法,其中所述两种或更多种类型突变之一是SNV。
62.权利要求61所述的方法,其中所述SNV的p-值按照蒙特卡洛取样法确定。
63.权利要求59所述的方法,其中所述两种或更多种类型突变之一是插入/缺失。
64.权利要求53所述的方法,其中如果:(i)在所述样品中存在两种或更多种类型的突变;(ii)至少所述两种或更多种类型突变之一的p-值为大于0.1;及(iii)重排不是所述突变类型之一,那么该ctDNA检测基于所述两种或更多种类型突变之一的p-值计算。
65.权利要求64所述的方法,其中所述两种或更多种类型突变之一是SNV。
66.权利要求65所述的方法,其中所述ctDNA检测指数基于所述SNV的p-值计算。
67.权利要求64所述的方法,其中所述两种或更多种类型突变之一是插入/缺失。
68.一种识别一个或多个核酸中重排的方法,所述方法包括:
(a) 获得属于多个基因组区域的测序信息;
(b) 制作基因组区域清单,其中所述基因组区域与一个或多个候选物重排位点相邻或所述基因组区域包含一个或多个候选物重排位点;
(c) 将运算法则应用于所述基因组区域清单以验证候选物重排位点,从而识别重排。
69.权利要求68所述的方法,其中所述测序信息包含比对文件。
70.权利要求69所述的方法,其中所述比对文件包含配对末端读数、外显子坐标和对照基因组的比对文件。
71.权利要求68所述的方法,其中所述测序信息从数据库获得。
72.权利要求68所述的方法,其中所述测序信息从一个或多个受试者的一个或多个样品获得。
73.权利要求68所述的方法,其中制作基因组区域清单包括基于所述测序信息识别不一致的读数对。
74.权利要求73所述的方法,其中制作基因组区域清单包括基于所述测序信息将所述不一致的读数对分类。
75.权利要求73所述的方法,其中制作基因组区域清单进一步包括将所述基因组区域排序。
76.权利要求75所述的方法,其中所述基因组区域按不一致的读数深度的递减顺序排序。
77.权利要求68所述的方法,其中制作基因组区域清单包括采用运算法则分析恰当配对的读数,其中截去所述配对的读数之一以形成软-剪的读数。
78.权利要求68所述的方法,其中所述运算法则基于一定的模式分析软-剪的读数。
79. 权利要求78所述的方法,其中所述模式基于跳过的碱基数x (Sx)及相邻的定位碱基数y (My)。
80.权利要求79所述的方法,其中所述模式为MySx或SxMy。
81.权利要求68所述的方法,其中将运算法则应用于验证候选物重排位点包括基于其读出频率将所述候选物重排排序。
82.权利要求68所述的方法,其中将运算法则应用于验证候选物重排位点包括比较所述候选物重排的两个或更多个读数。
83.权利要求82所述的方法,其中将运算法则应用于验证候选物重排位点包括如果所述两个或更多个读数具有序列比对,则将所述候选物重排识别为重排。
84.一种识别源自于肿瘤的单一核苷酸变异(SNVs)的方法,所述方法包括:
(a) 获得患癌症的或怀疑患癌症的受试者的样品;
(b) 对该样品进行测序反应以产生测序信息;
(c) 将运算法则应用于所述测序信息以基于步骤(b)的测序信息制作候选物肿瘤等位基因清单,其中候选物肿瘤等位基因包含不是种系SNP的非显性碱基;及
(d) 基于所述候选物肿瘤等位基因的清单识别源自于肿瘤的SNVs。
85.权利要求84所述的方法,其中制作候选物肿瘤等位基因清单包括按其丰度分数将所述肿瘤等位基因排序。
86.权利要求85所述的方法,其中制作候选物肿瘤等位基因清单包括基于测序深度将所述肿瘤等位基因排序。
87.权利要求86所述的方法,其中制作候选物肿瘤等位基因清单包括筛选满足最小测序深度的肿瘤等位基因。
88.权利要求87所述的方法,其中所述最小测序深度为至少100×、200×、300×、400×、500×、600×、700×、800×、900×、1000×或更多。
89.一种制备选择子集合的方法,所述方法包括:
(a) 从患癌症的受试者中获得肿瘤样品的测序信息;
(b) 将所述肿瘤样品的测序信息与该受试者的非肿瘤样品的测序信息比较以识别特定于该肿瘤样品测序信息的一种或多种突变;及
(c) 制备包含一个或多个基因组区域的选择子集合,所述基因组区域包含特定于该肿瘤样品测序信息的一种或多种突变。
90.权利要求89所述的方法,其中所述选择子集合包括属于一个或多个基因组区域的测序信息。
91.权利要求90所述的方法,其中所述选择子集合包括属于一个或多个基因组区域的基因组坐标。
92.权利要求90所述的方法,其中所述选择子集合包括多个选择性地杂交所述一个或多个基因组区域的低聚核苷酸。
93.权利要求92所述的方法,其中所述多个低聚核苷酸是生物素化的。
94.权利要求89所述的方法,所述一种或多种突变包括SNVs、插入/缺失、重排或其组合。
95.权利要求94所述的方法,其中制备选择子集合包括基于权利要求84-88中任一项所述的方法识别源自于肿瘤的SNVs。
96.权利要求94所述的方法,其中制备选择子集合包括基于权利要求68-83中任一项所述的方法识别源自于肿瘤的重排。
CN202110494880.2A 2013-03-15 2014-03-12 循环核酸肿瘤标志物的鉴别和用途 Pending CN113337604A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361798925P 2013-03-15 2013-03-15
US61/798925 2013-03-15
CN201480028360.0A CN105518151B (zh) 2013-03-15 2014-03-12 循环核酸肿瘤标志物的鉴别和用途

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480028360.0A Division CN105518151B (zh) 2013-03-15 2014-03-12 循环核酸肿瘤标志物的鉴别和用途

Publications (1)

Publication Number Publication Date
CN113337604A true CN113337604A (zh) 2021-09-03

Family

ID=51580891

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110494880.2A Pending CN113337604A (zh) 2013-03-15 2014-03-12 循环核酸肿瘤标志物的鉴别和用途
CN201480028360.0A Active CN105518151B (zh) 2013-03-15 2014-03-12 循环核酸肿瘤标志物的鉴别和用途

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201480028360.0A Active CN105518151B (zh) 2013-03-15 2014-03-12 循环核酸肿瘤标志物的鉴别和用途

Country Status (5)

Country Link
US (3) US20160032396A1 (zh)
EP (4) EP2971152B1 (zh)
CN (2) CN113337604A (zh)
ES (2) ES2831148T3 (zh)
WO (1) WO2014151117A1 (zh)

Families Citing this family (231)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11111544B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US10081839B2 (en) 2005-07-29 2018-09-25 Natera, Inc System and method for cleaning noisy genetic data and determining chromosome copy number
US10083273B2 (en) 2005-07-29 2018-09-25 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
PL2350075T3 (pl) 2008-09-22 2014-07-31 Array Biopharma Inc Podstawione związki imidazo[1,2b]pirydazynowe jako inhibitory kinaz Trk
BRPI0919873B8 (pt) 2008-10-22 2021-05-25 Array Biopharma Inc compostos de pirazol[1,5-a]pirimidina substituídos como inibidores da trk quinase, seus processos de preparação e composições farmacêuticas
US9085798B2 (en) 2009-04-30 2015-07-21 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
AR077468A1 (es) 2009-07-09 2011-08-31 Array Biopharma Inc Compuestos de pirazolo (1,5 -a) pirimidina sustituidos como inhibidores de trk- quinasa
ES2640776T3 (es) 2009-09-30 2017-11-06 Natera, Inc. Métodos para denominar de forma no invasiva ploidía prenatal
PT2556171E (pt) 2010-04-05 2015-12-21 Prognosys Biosciences Inc Ensaios biológicos codificados espacialmente
US10787701B2 (en) 2010-04-05 2020-09-29 Prognosys Biosciences, Inc. Spatially encoded biological assays
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
EP2854057B1 (en) 2010-05-18 2018-03-07 Natera, Inc. Methods for non-invasive pre-natal ploidy calling
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
LT3205654T (lt) 2010-05-20 2019-05-27 Array Biopharma, Inc. Makrocikliniai junginiai kaip trk kinazės slopikliai
CA2821906C (en) 2010-12-22 2020-08-25 Natera, Inc. Methods for non-invasive prenatal paternity testing
KR20190002733A (ko) 2010-12-30 2019-01-08 파운데이션 메디신 인코포레이티드 종양 샘플의 다유전자 분석의 최적화
JP6153874B2 (ja) 2011-02-09 2017-06-28 ナテラ, インコーポレイテッド 非侵襲的出生前倍数性呼び出しのための方法
WO2012129363A2 (en) 2011-03-24 2012-09-27 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
GB201106254D0 (en) 2011-04-13 2011-05-25 Frisen Jonas Method and product
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
US20140100126A1 (en) 2012-08-17 2014-04-10 Natera, Inc. Method for Non-Invasive Prenatal Testing Using Parental Mosaicism Data
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2014039556A1 (en) 2012-09-04 2014-03-13 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US11913065B2 (en) * 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
USRE50065E1 (en) 2012-10-17 2024-07-30 10X Genomics Sweden Ab Methods and product for optimising localised or spatial detection of gene expression in a tissue sample
WO2014093330A1 (en) 2012-12-10 2014-06-19 Clearfork Bioscience, Inc. Methods for targeted genomic analysis
US9128861B2 (en) 2013-01-17 2015-09-08 Personalis, Inc. Methods and systems for genetic analysis
CN113337604A (zh) 2013-03-15 2021-09-03 莱兰斯坦福初级大学评议会 循环核酸肿瘤标志物的鉴别和用途
DK3013984T3 (da) 2013-06-25 2023-06-06 Prognosys Biosciences Inc Metode til bestemmelse af spatiale mønstre i biologiske targets i en prøve
KR102160389B1 (ko) 2013-08-05 2020-09-28 트위스트 바이오사이언스 코포레이션 드 노보 합성된 유전자 라이브러리
EP3965111A1 (en) 2013-08-30 2022-03-09 Personalis, Inc. Methods and systems for genomic analysis
US10262755B2 (en) 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
US10577655B2 (en) 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
GB2535066A (en) 2013-10-03 2016-08-10 Personalis Inc Methods for analyzing genotypes
US10767222B2 (en) 2013-12-11 2020-09-08 Accuragen Holdings Limited Compositions and methods for detecting rare sequence variants
US11859246B2 (en) 2013-12-11 2024-01-02 Accuragen Holdings Limited Methods and compositions for enrichment of amplification products
US11286519B2 (en) 2013-12-11 2022-03-29 Accuragen Holdings Limited Methods and compositions for enrichment of amplification products
EP3087204B1 (en) 2013-12-28 2018-02-14 Guardant Health, Inc. Methods and systems for detecting genetic variants
CN106460070B (zh) 2014-04-21 2021-10-08 纳特拉公司 检测染色体片段中的突变和倍性
WO2016040901A1 (en) * 2014-09-12 2016-03-17 The Board Of Trustees Of The Leland Stanford Junior University Identification and use of circulating nucleic acids
EP4026913A1 (en) 2014-10-30 2022-07-13 Personalis, Inc. Methods for using mosaicism in nucleic acids sampled distal to their origin
PL3699181T3 (pl) 2014-11-16 2023-05-22 Array Biopharma, Inc. Postać krystaliczna wodorosiarczanu (s)-n-(5-((r)-2-(2,5-difluorofenylo) - pirolidyn-1-ylo)-pirazolo[1,5-a]pirimidyn-3-ylo)-3-hydroksypirolidyno-1-karboksyamidu
AU2015357573B2 (en) 2014-12-05 2022-04-07 Foundation Medicine, Inc. Multigene analysis of tumor samples
WO2016090584A1 (zh) * 2014-12-10 2016-06-16 深圳华大基因研究院 确定肿瘤核酸浓度的方法和装置
EP3766986B1 (en) * 2014-12-31 2022-06-01 Guardant Health, Inc. Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
US10364467B2 (en) 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
WO2016126882A1 (en) 2015-02-04 2016-08-11 Twist Bioscience Corporation Methods and devices for de novo oligonucleic acid assembly
EP3271472A1 (en) 2015-03-19 2018-01-24 3M Innovative Properties Company Devices, methods, kits, and systems for detecting microorganism strains or target cellular analytes in a fluid sample
FI3901281T3 (fi) 2015-04-10 2023-01-31 Biologisten näytteiden spatiaalisesti eroteltu moninkertainen nukleiinihappoanalyysi
US9981239B2 (en) 2015-04-21 2018-05-29 Twist Bioscience Corporation Devices and methods for oligonucleic acid library synthesis
US10844428B2 (en) * 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
EP4428863A2 (en) 2015-05-11 2024-09-11 Natera, Inc. Methods and compositions for determining ploidy
CA2986036C (en) 2015-05-18 2022-07-26 Karius, Inc. Compositions and methods for enriching populations of nucleic acids
EP3828292A1 (en) * 2015-07-21 2021-06-02 Guardant Health, Inc. Locked nucleic acids for capturing fusion genes
EP3350314A4 (en) 2015-09-18 2019-02-06 Twist Bioscience Corporation BANKS OF OLIGONUCLEIC ACID VARIANTS AND SYNTHESIS THEREOF
KR20180058772A (ko) 2015-09-22 2018-06-01 트위스트 바이오사이언스 코포레이션 핵산 합성을 위한 가요성 기판
JP6991134B2 (ja) * 2015-10-09 2022-01-12 ガーダント ヘルス, インコーポレイテッド 無細胞dnaを使用する集団ベースの処置レコメンダ
CN114807323A (zh) 2015-10-09 2022-07-29 安可济控股有限公司 用于富集扩增产物的方法及组合物
CN117012283A (zh) * 2015-10-10 2023-11-07 夸登特健康公司 无细胞dna分析中基因融合检测的方法和应用
EP3368039A1 (en) 2015-10-26 2018-09-05 The Regents of The University of Colorado, A Body Corporate Point mutations in trk inhibitor-resistant cancer and methods relating to the same
US11492670B2 (en) 2015-10-27 2022-11-08 The Broad Institute Inc. Compositions and methods for targeting cancer-specific sequence variations
WO2017075784A1 (zh) * 2015-11-05 2017-05-11 深圳华大基因研究院 肺腺癌生物标记物及其应用
MX2018005858A (es) 2015-11-11 2019-02-20 Resolution Bioscience Inc Construccion de alta eficacia de bibliotecas de adn.
US11034929B2 (en) * 2015-11-18 2021-06-15 Thrive Bioscience, Inc. Instrument resource scheduling
WO2017095632A1 (en) 2015-11-30 2017-06-08 Mayo Foundation For Medical Education And Research Heatr1 as a marker for chemoresistance
ES2972471T3 (es) * 2015-12-01 2024-06-12 Lgc Clinical Diagnostics Inc Materiales de referencia celulares multiplex
CN115920796A (zh) 2015-12-01 2023-04-07 特韦斯特生物科学公司 功能化表面及其制备
CN108603232A (zh) * 2015-12-03 2018-09-28 阿尔佛雷德医疗集团 监测骨髓瘤的治疗或进展
EP3390668A4 (en) 2015-12-17 2020-04-01 Guardant Health, Inc. METHODS OF DETERMINING THE NUMBER OF TUMOR GENE COPIES BY ACELLULAR DNA ANALYSIS
US10982286B2 (en) 2016-01-22 2021-04-20 Mayo Foundation For Medical Education And Research Algorithmic approach for determining the plasma genome abnormality PGA and the urine genome abnormality UGA scores based on cell free cfDNA copy number variations in plasma and urine
CN105543380B (zh) * 2016-01-27 2019-03-15 北京诺禾致源科技股份有限公司 一种检测基因融合的方法及装置
ES2924487T3 (es) * 2016-01-29 2022-10-07 Hoffmann La Roche Un adaptador de conformación en Y novedoso para secuenciación de ácidos nucleicos y procedimiento de uso
US11725247B2 (en) 2016-02-29 2023-08-15 Foundation Medicine, Inc. Methods of treating cancer
WO2017151502A1 (en) 2016-02-29 2017-09-08 Genentech, Inc. Therapeutic and diagnostic methods for cancer
EP3423828A4 (en) * 2016-02-29 2019-11-13 Foundation Medicine, Inc. METHODS AND SYSTEMS FOR EVALUATING THE MUTATIONAL CHARGE OF A TUMOR
US11514289B1 (en) * 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
US11479878B2 (en) 2016-03-16 2022-10-25 Dana-Farber Cancer Institute, Inc. Methods for genome characterization
EP3433373B1 (en) * 2016-03-22 2022-01-12 Myriad Women's Health, Inc. Combinatorial dna screening
US10045991B2 (en) 2016-04-04 2018-08-14 Loxo Oncology, Inc. Methods of treating pediatric cancers
GEP20227339B (en) 2016-04-04 2022-01-25 Loxo Oncology Inc Liquid formulations of (s)-n-(5-((r)-2-(2,5-difluorophenyl)-pyrrolidin-1-yl)- pyrazolo[1,5-a]pyrimidin-3-yl)-3-hydro-xypyrrolidine-1-carboxamide
CA3056212A1 (en) * 2016-04-07 2017-10-12 Bostongene Corporation Construction and methods of use of a therapeutic cancer vaccine library comprising fusion-specific vaccines
US11384382B2 (en) 2016-04-14 2022-07-12 Guardant Health, Inc. Methods of attaching adapters to sample nucleic acids
EP3443066B1 (en) * 2016-04-14 2024-10-02 Guardant Health, Inc. Methods for early detection of cancer
WO2017181202A2 (en) * 2016-04-15 2017-10-19 Natera, Inc. Methods for lung cancer detection
EP3458586B1 (en) 2016-05-16 2022-12-28 Accuragen Holdings Limited Method of improved sequencing by strand identification
CN106399477A (zh) * 2016-05-17 2017-02-15 程澎 肿瘤循环dna技术检测‑癌症早期易发风险评估数据法
CA3024603A1 (en) 2016-05-18 2017-11-23 Charles Todd Eary Process for the preparation of (s)-n-(5-((r)-2-(2,5-difluorophenyl)pyrrolidin-1-yl)-pyrazolo[1,5-a]pyrimidin-3-yl)-3-hydroxypyrrolidine-1-carboxamide and salts thereof
US11299783B2 (en) 2016-05-27 2022-04-12 Personalis, Inc. Methods and systems for genetic analysis
CN105950739A (zh) * 2016-05-30 2016-09-21 哈尔滨医科大学 用于人乳腺癌循环肿瘤dna检测的探针及其用途
US20170349953A1 (en) 2016-06-01 2017-12-07 Roche Sequencing Solutions, Inc. Novel mutations in anaplastic lymphoma kinase predicting response to alk inhibitor therapy in lung cancer patients
EP3485033B1 (en) 2016-07-12 2022-09-28 Qiagen Sciences, LLC Single end duplex dna sequencing
JP7048105B2 (ja) 2016-07-15 2022-04-05 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 核酸ライブラリを生成する方法
EP4074824A1 (en) * 2016-08-08 2022-10-19 Karius, Inc. Reduction of signal from contaminant nucleic acids
WO2018035170A1 (en) 2016-08-15 2018-02-22 Accuragen Holdings Limited Compositions and methods for detecting rare sequence variants
CA3034769A1 (en) 2016-08-22 2018-03-01 Twist Bioscience Corporation De novo synthesized nucleic acid libraries
WO2018039463A1 (en) 2016-08-25 2018-03-01 Resolution Bioscience, Inc. Methods for the detection of genomic copy changes in dna samples
CN106282356B (zh) * 2016-08-30 2019-11-26 天津诺禾医学检验所有限公司 一种基于扩增子二代测序点突变检测的方法及装置
CN106355045B (zh) * 2016-08-30 2019-03-15 天津诺禾致源生物信息科技有限公司 一种基于扩增子二代测序小片段插入缺失检测的方法及装置
JP7028862B2 (ja) * 2016-09-12 2022-03-02 エフ.ホフマン-ラ ロシュ アーゲー 二本鎖核酸を精製するための方法及び組成物
US10417457B2 (en) 2016-09-21 2019-09-17 Twist Bioscience Corporation Nucleic acid based data storage
CN106367512A (zh) * 2016-09-22 2017-02-01 上海序康医疗科技有限公司 一种鉴定样本中肿瘤负荷的方法和系统
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
AU2017336153B2 (en) 2016-09-30 2023-07-13 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
US11485996B2 (en) 2016-10-04 2022-11-01 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
CA3038712A1 (en) 2016-10-06 2018-04-12 Genentech, Inc. Therapeutic and diagnostic methods for cancer
US11667951B2 (en) 2016-10-24 2023-06-06 Geneinfosec, Inc. Concealing information present within nucleic acids
JOP20190092A1 (ar) 2016-10-26 2019-04-25 Array Biopharma Inc عملية لتحضير مركبات بيرازولو[1، 5-a]بيريميدين وأملاح منها
GB201618485D0 (en) * 2016-11-02 2016-12-14 Ucl Business Plc Method of detecting tumour recurrence
WO2018090298A2 (en) * 2016-11-17 2018-05-24 Genomicare Biotechnology (Shanghai) Co. Ltd. Systems and methods for monitoring lifelong tumor evolution
US20180142289A1 (en) * 2016-11-18 2018-05-24 Twist Bioscience Corporation Polynucleotide libraries having controlled stoichiometry and synthesis thereof
CN110446790B (zh) * 2016-11-30 2023-03-31 外来体诊断公司 使用外来体rna和无细胞dna检测血浆中的突变的方法和组合物
CN106755350A (zh) * 2016-12-02 2017-05-31 苏州首度基因科技有限责任公司 cfDNA文库qPCR定量标准品的制备方法
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
GB2573069A (en) 2016-12-16 2019-10-23 Twist Bioscience Corp Variant libraries of the immunological synapse and synthesis thereof
CA3048859A1 (en) * 2016-12-28 2018-07-05 Quest Diagnostics Investments Llc Compositions and methods for detecting circulating tumor dna
CN106701956A (zh) * 2017-01-11 2017-05-24 上海思路迪生物医学科技有限公司 ctDNA的数字化深度测序技术
CN106544341A (zh) * 2017-01-17 2017-03-29 上海亿康医学检验所有限公司 高效检测样本中的ctDNA的方法
EP3889962A1 (en) 2017-01-18 2021-10-06 Illumina, Inc. Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths
CA3049455C (en) 2017-01-20 2023-06-13 Sequenom, Inc. Sequencing adapter manufacture and use
WO2018144782A1 (en) * 2017-02-01 2018-08-09 The Translational Genomics Research Institute Methods of detecting somatic and germline variants in impure tumors
EP3580359B1 (en) 2017-02-07 2024-05-08 F. Hoffmann-La Roche AG Non-invasive test to predict recurrence of colorectal cancer
EP3580360A1 (en) * 2017-02-07 2019-12-18 H. Hoffnabb-La Roche Ag Non-invasive test to predict response to therapy in colorectal cancer patients
US10907211B1 (en) 2017-02-16 2021-02-02 Quantgene Inc. Methods and compositions for detecting cancer biomarkers in bodily fluids
AU2018225348A1 (en) 2017-02-21 2019-07-18 Natera, Inc. Compositions, methods, and kits for isolating nucleic acids
CN106834275A (zh) * 2017-02-22 2017-06-13 天津诺禾医学检验所有限公司 ctDNA超低频突变检测文库的构建方法、试剂盒及文库检测数据的分析方法
CA3054303A1 (en) 2017-02-22 2018-08-30 Twist Bioscience Corporation Nucleic acid based data storage
US10894959B2 (en) 2017-03-15 2021-01-19 Twist Bioscience Corporation Variant libraries of the immunological synapse and synthesis thereof
JOP20190213A1 (ar) 2017-03-16 2019-09-16 Array Biopharma Inc مركبات حلقية ضخمة كمثبطات لكيناز ros1
CN106978486A (zh) * 2017-03-24 2017-07-25 刘长胜 无细胞dna作为癌症免疫药物疗效评价的分子靶标及其应用
CN108315323A (zh) * 2017-03-31 2018-07-24 索真(北京)医学科技有限公司 尿液ctDNA中PIK3CA基因突变位点的检测
CN108315322A (zh) * 2017-03-31 2018-07-24 索真(北京)医学科技有限公司 尿液ctDNA中EGFR基因突变位点的检测
US11342047B2 (en) * 2017-04-21 2022-05-24 Illumina, Inc. Using cell-free DNA fragment size to detect tumor-associated variant
EP3630293A4 (en) * 2017-05-22 2021-06-02 The National Institute for Biotechnology in the Negev Ltd. LUNG CANCER DIAGNOSIS BIOMARKERS
KR102145417B1 (ko) * 2017-05-24 2020-08-19 지니너스 주식회사 무세포 핵산으로부터 수득된 서열 분석 데이터에 대한 배경 대립인자의 빈도 분포를 생성하는 방법 및 이를 이용하여 무세포 핵산으로부터 변이를 검출하는 방법
AU2018284227B2 (en) 2017-06-12 2024-05-02 Twist Bioscience Corporation Methods for seamless nucleic acid assembly
WO2018231864A1 (en) 2017-06-12 2018-12-20 Twist Bioscience Corporation Methods for seamless nucleic acid assembly
SG11201912429RA (en) * 2017-06-21 2020-01-30 Transgene Sa Personalized vaccine
MX2020000604A (es) 2017-07-21 2020-09-10 Genentech Inc Métodos terapéuticos y de diagnóstico para el cáncer.
CN111566125A (zh) 2017-09-11 2020-08-21 特韦斯特生物科学公司 Gpcr结合蛋白及其合成
US20200263170A1 (en) * 2017-09-14 2020-08-20 Grail, Inc. Methods for preparing a sequencing library from single-stranded dna
US20210125683A1 (en) * 2017-09-15 2021-04-29 The Regents Of The University Of California Detecting somatic single nucleotide variants from cell-free nucleic acid with application to minimal residual disease monitoring
US11447818B2 (en) 2017-09-15 2022-09-20 Illumina, Inc. Universal short adapters with variable length non-random unique molecular identifiers
US10368502B2 (en) 2017-09-25 2019-08-06 Multiple Energy Technologies Llc Bioceramic and carbon-based hydroponic systems, methods and devices
AU2018348249A1 (en) 2017-10-12 2020-04-16 Nantomics, Llc Cancer score for assessment and response prediction from biological fluids
GB2583590A (en) 2017-10-20 2020-11-04 Twist Bioscience Corp Heated nanowells for polynucleotide synthesis
EP3704268A4 (en) 2017-11-03 2021-08-11 Guardant Health, Inc. NORMALIZATION OF A TUMOR MUTATION LOAD
US11702703B2 (en) 2017-11-07 2023-07-18 Nanthealth Labs, Inc. Targeted cell free nucleic acid analysis
CN107944223B (zh) * 2017-11-10 2019-12-31 深圳裕策生物科技有限公司 基于二代测序的点突变检测过滤方法、装置和存储介质
US12084720B2 (en) 2017-12-14 2024-09-10 Natera, Inc. Assessing graft suitability for transplantation
AU2019205269A1 (en) 2018-01-04 2020-07-30 Twist Bioscience Corporation DNA-based digital information storage
US11584929B2 (en) 2018-01-12 2023-02-21 Claret Bioscience, Llc Methods and compositions for analyzing nucleic acid
EP3752642A1 (en) * 2018-02-13 2020-12-23 F. Hoffmann-La Roche AG Method of predicting response to therapy by assessing tumor genetic heterogeneity
CN112602156A (zh) * 2018-02-27 2021-04-02 康奈尔大学 用于检测残留疾病的系统和方法
WO2019170773A1 (en) * 2018-03-06 2019-09-12 Cancer Research Technology Limited Improvements in variant detection
CN110241209B (zh) * 2018-03-09 2022-11-29 浙江品级基因科技有限公司 一种引物、试剂盒及用途
US11203782B2 (en) 2018-03-29 2021-12-21 Accuragen Holdings Limited Compositions and methods comprising asymmetric barcoding
WO2019195268A2 (en) 2018-04-02 2019-10-10 Grail, Inc. Methylation markers and targeted methylation probe panels
CA3090426A1 (en) 2018-04-14 2019-10-17 Natera, Inc. Methods for cancer detection and monitoring by means of personalized detection of circulating tumor dna
CN112639130B (zh) 2018-05-18 2024-08-09 特韦斯特生物科学公司 用于核酸杂交的多核苷酸、试剂和方法
US11814750B2 (en) 2018-05-31 2023-11-14 Personalis, Inc. Compositions, methods and systems for processing or analyzing multi-species nucleic acid samples
US10801064B2 (en) 2018-05-31 2020-10-13 Personalis, Inc. Compositions, methods and systems for processing or analyzing multi-species nucleic acid samples
JP7537748B2 (ja) 2018-06-06 2024-08-21 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 核酸ライブラリを生成する方法ならびにそれを実施するための組成物およびキット
CA3102460A1 (en) * 2018-06-11 2019-12-19 Foundation Medicine, Inc. Compositions and methods for evaluating genomic alterations
CN109001456B (zh) * 2018-06-11 2021-07-06 南通大学 Ush1g基因在制备抗胃癌药物及其诊断试剂盒中的应用
US12049665B2 (en) 2018-06-12 2024-07-30 Accuragen Holdings Limited Methods and compositions for forming ligation products
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
CA3107983A1 (en) * 2018-07-23 2020-01-30 Guardant Health, Inc. Methods and systems for adjusting tumor mutational burden by tumor fraction and coverage
BR112021002189A2 (pt) 2018-08-08 2021-05-04 Inivata Ltd. método de sequenciamento que usa pcr multiplex de replicação variável
US11377698B2 (en) * 2018-09-05 2022-07-05 Inivata Ltd. Method of treating a cancer patient without the need for a tissue biopsy
WO2020069350A1 (en) 2018-09-27 2020-04-02 Grail, Inc. Methylation markers and targeted methylation probe panel
WO2020072954A1 (en) * 2018-10-04 2020-04-09 Juneau Biosciences, L.L.C. Endometriosis-associated genetic markers predict responsiveness to leuprolide acetate
AU2019372123A1 (en) * 2018-10-30 2021-06-17 Molecular Stethoscope, Inc. Cell-free RNA library preparations
CN111118610A (zh) * 2018-10-31 2020-05-08 深圳华大基因股份有限公司 用于基因突变高深度测序的基因芯片及其制备方法和应用
WO2020120675A1 (en) * 2018-12-12 2020-06-18 F. Hoffmann-La Roche Ag Monitoring mutations using prior knowledge of variants
AU2019403269A1 (en) 2018-12-18 2021-06-17 Grail, Llc Methods for detecting disease using analysis of RNA
CN109712671B (zh) * 2018-12-20 2020-06-26 北京优迅医学检验实验室有限公司 基于ctDNA的基因检测装置、存储介质及计算机系统
CN111383713B (zh) * 2018-12-29 2023-08-01 北京安诺优达医学检验实验室有限公司 ctDNA检测分析装置及方法
CN113661249A (zh) 2019-01-31 2021-11-16 夸登特健康公司 用于分离无细胞dna的组合物和方法
EP3927838A4 (en) * 2019-02-22 2022-11-16 AccuraGen Holdings Limited METHODS AND COMPOSITIONS FOR THE EARLY DETECTION OF CANCER
WO2020176678A1 (en) 2019-02-26 2020-09-03 Twist Bioscience Corporation Variant nucleic acid libraries for glp1 receptor
JP2022522668A (ja) 2019-02-26 2022-04-20 ツイスト バイオサイエンス コーポレーション 抗体を最適化するための変異体核酸ライブラリ
US11929148B2 (en) 2019-03-13 2024-03-12 Grail, Llc Systems and methods for enriching for cancer-derived fragments using fragment size
CN109943637A (zh) * 2019-04-12 2019-06-28 福建医科大学孟超肝胆医院(福州市传染病医院) 一种基于循环肿瘤dna突变检测的肝癌诊断及预后评估系统
US20220325268A1 (en) 2019-05-14 2022-10-13 Roche Sequencing Solutions, Inc Devices and methods for sample analysis
US20200392584A1 (en) * 2019-05-17 2020-12-17 Ultima Genomics, Inc. Methods and systems for detecting residual disease
WO2020243579A1 (en) 2019-05-30 2020-12-03 10X Genomics, Inc. Methods of detecting spatial heterogeneity of a biological sample
EP3976822A1 (en) 2019-05-31 2022-04-06 Guardant Health, Inc. Methods and systems for improving patient monitoring after surgery
CA3115513A1 (en) * 2019-06-03 2020-12-10 Illumina, Inc. Limit of detection based quality control metric
CN110379460B (zh) * 2019-06-14 2023-06-20 西安电子科技大学 一种基于多组学数据的癌症分型信息处理方法
CA3144644A1 (en) 2019-06-21 2020-12-24 Twist Bioscience Corporation Barcode-based nucleic acid sequence assembly
CN114599801A (zh) * 2019-09-08 2022-06-07 托莱多大学 用于测试肺癌风险的试剂盒和方法
AU2020356471A1 (en) 2019-09-23 2022-04-21 Twist Bioscience Corporation Variant nucleic acid libraries for CRTH2
GB2627085A (en) 2019-11-06 2024-08-14 Univ Leland Stanford Junior Methods and systems for analysing nucleic acid molecules
EP3826024A1 (en) * 2019-11-19 2021-05-26 Koninklijke Philips N.V. Apparatus for diagnostic image acquisition determination
EP4077711A4 (en) * 2019-12-16 2024-01-03 Ohio State Innovation Foundation NEXT GENERATION SEQUENCING DIAGNOSTIC PLATFORM AND ASSOCIATED METHODS
CN111172281B (zh) * 2019-12-31 2023-10-20 广州达安基因股份有限公司 非小细胞肺癌多重基因突变检测试剂盒及方法
EP4087942A4 (en) * 2020-01-08 2024-01-24 The Chinese University Of Hong Kong TYPES OF BITERMINAL DNA FRAGMENTS IN CELL SAMPLES AND THEIR USES
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US20230142955A1 (en) * 2020-02-27 2023-05-11 The Trustees Of The University Of Pennsylvania Methods of using a multi-analyte approach for diagnosis and staging a disease
WO2021202917A1 (en) * 2020-04-01 2021-10-07 The Board Of Trustees Of The Leland Stanford Junior University A noninvasive multiparameter approach for early identification of therapeutic benefit from immune checkpoint inhibition for lung cancer
WO2021209549A1 (en) 2020-04-17 2021-10-21 F. Hoffmann-La Roche Ag Devices and methods for urine sample analysis
EP4150117A4 (en) * 2020-05-12 2024-05-29 The Board of Trustees of the Leland Stanford Junior University SYSTEM AND METHOD FOR GENE EXPRESSION AND INFERENCE OF TISSUE ORIGIN FROM CELL DNA
EP4025692A2 (en) 2020-06-02 2022-07-13 10X Genomics, Inc. Nucleic acid library methods
AU2021283184A1 (en) 2020-06-02 2023-01-05 10X Genomics, Inc. Spatial transcriptomics for antigen-receptors
WO2021252499A1 (en) 2020-06-08 2021-12-16 10X Genomics, Inc. Methods of determining a surgical margin and methods of use thereof
CN112037859B (zh) * 2020-09-02 2023-12-19 迈杰转化医学研究(苏州)有限公司 一种微卫星不稳定性的分析方法和分析装置
CN112086129B (zh) * 2020-09-23 2021-04-06 深圳吉因加医学检验实验室 预测肿瘤组织cfDNA的方法及系统
CN112176066B (zh) * 2020-10-30 2022-07-01 中国科学院合肥物质科学研究院 一种宫颈病变早期筛查和诊断的分子标志物及其应用
US20240052424A1 (en) * 2020-12-18 2024-02-15 Medicover Biotech Ltd Methods for classifying a sample into clinically relevant categories
CN113151460B (zh) * 2021-01-29 2022-10-18 复旦大学附属中山医院 一种识别肺腺癌肿瘤细胞的基因标志物及其应用
US11783912B2 (en) 2021-05-05 2023-10-10 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules
EP4095267A1 (en) * 2021-05-26 2022-11-30 Siemens Healthcare GmbH Method and system for determining efficacy of cancer therapy
CN115497556A (zh) * 2021-06-18 2022-12-20 广州燃石医学检验所有限公司 一种用于区分体细胞突变和种系突变的方法
WO2023058100A1 (ja) * 2021-10-04 2023-04-13 国立大学法人 東京大学 構造多型の検出方法、プライマーセット及びプライマーセットの設計方法
WO2023183751A1 (en) * 2022-03-23 2023-09-28 Foundation Medicine, Inc. Characterization of tumor heterogeneity as a prognostic biomarker
CN114752672B (zh) * 2022-04-02 2024-02-20 广州医科大学附属肿瘤医院 基于循环游离DNA突变进行滤泡性淋巴瘤预后评估的检测panel、试剂盒及应用
CN116052768A (zh) * 2022-10-08 2023-05-02 南京世和基因生物技术股份有限公司 恶性肺结节筛查基因标志物、筛查模型的构建方法和检测装置
CN117025766B (zh) * 2023-07-07 2024-04-30 银丰基因科技有限公司 一种人类alk-e13;a20融合基因检测用dna标准品及其制备方法、应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100041048A1 (en) * 2008-07-31 2010-02-18 The Johns Hopkins University Circulating Mutant DNA to Assess Tumor Dynamics
US20120122701A1 (en) * 2010-05-18 2012-05-17 Gene Security Network, Inc. Methods for Non-Invasive Prenatal Paternity Testing
CN102482711A (zh) * 2009-01-07 2012-05-30 美瑞德生物工程公司 癌症生物标记
WO2012071621A1 (en) * 2010-11-30 2012-06-07 The Chinese University Of Hong Kong Detection of genetic or molecular aberrations associated with cancer

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6287850B1 (en) 1995-06-07 2001-09-11 Affymetrix, Inc. Bioarray chip reaction apparatus and its manufacture
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US20030022207A1 (en) 1998-10-16 2003-01-30 Solexa, Ltd. Arrayed polynucleotides and their use in genome analysis
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US7056661B2 (en) 1999-05-19 2006-06-06 Cornell Research Foundation, Inc. Method for sequencing nucleic acid molecules
US7211390B2 (en) 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
GB0002389D0 (en) 2000-02-02 2000-03-22 Solexa Ltd Molecular arrays
AU2001293163A1 (en) 2000-09-27 2002-04-08 Lynx Therapeutics, Inc. Method for determining relative abundance of nucleic acid sequences
JP2003101204A (ja) 2001-09-25 2003-04-04 Nec Kansai Ltd 配線基板及び配線基板の製造方法並びに電子部品
US20050124022A1 (en) 2001-10-30 2005-06-09 Maithreyan Srinivasan Novel sulfurylase-luciferase fusion proteins and thermostable sulfurylase
US6902921B2 (en) 2001-10-30 2005-06-07 454 Corporation Sulfurylase-luciferase fusion proteins and thermostable sulfurylase
EP2159285B1 (en) 2003-01-29 2012-09-26 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
EP1641809B2 (en) 2003-07-05 2018-10-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
WO2006047787A2 (en) * 2004-10-27 2006-05-04 Exact Sciences Corporation Method for monitoring disease progression or recurrence
EP2245198A1 (en) 2008-02-04 2010-11-03 Massachusetts Institute of Technology Selection of nucleic acids by solution hybridization to oligonucleotide baits
WO2010141955A2 (en) 2009-06-05 2010-12-09 Myriad Genetics, Inc. Methods of detecting cancer
US20120010085A1 (en) 2010-01-19 2012-01-12 Rava Richard P Methods for determining fraction of fetal nucleic acids in maternal samples
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
US20120237928A1 (en) 2010-10-26 2012-09-20 Verinata Health, Inc. Method for determining copy number variations
EP2536854B1 (en) 2010-02-18 2017-07-19 The Johns Hopkins University Personalized tumor biomarkers
DK3567124T3 (da) 2011-04-12 2022-03-07 Verinata Health Inc Opløsning af genomfraktioner ved anvendelse af polymorfisme-optællinger
US20130024127A1 (en) 2011-07-19 2013-01-24 John Stuelpnagel Determination of source contributions using binomial probability calculations
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
US20140066317A1 (en) 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
CN113337604A (zh) 2013-03-15 2021-09-03 莱兰斯坦福初级大学评议会 循环核酸肿瘤标志物的鉴别和用途

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100041048A1 (en) * 2008-07-31 2010-02-18 The Johns Hopkins University Circulating Mutant DNA to Assess Tumor Dynamics
CN102482711A (zh) * 2009-01-07 2012-05-30 美瑞德生物工程公司 癌症生物标记
US20120122701A1 (en) * 2010-05-18 2012-05-17 Gene Security Network, Inc. Methods for Non-Invasive Prenatal Paternity Testing
WO2012071621A1 (en) * 2010-11-30 2012-06-07 The Chinese University Of Hong Kong Detection of genetic or molecular aberrations associated with cancer

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AZEET NARAYAN等: "Ultrasensitive Measurement of Hotspot Mutations in Tumor DNA in Blood Using Error-Suppressed Multiplexed Deep Sequencing", 《CANCER RES》, vol. 72, no. 14, pages 3492 - 3498 *
FORSHEW.T等: "Noninvasive identification and monitoring of cancer mutations by targeted deep sequencing of plasma DNA", 《SCIENCE TRANSL MED》, vol. 4, no. 136, 30 May 2012 (2012-05-30), pages 1 - 3 *
FORSHEW.T等: "Noninvasive identification and monitoring of cancer mutations by targeted deep sequencing of plasma DNA", 《SCIENCE TRANSL MED》, vol. 4, no. 136, pages 2 - 3 *
JIAN HE等: "IgH gene rearrangements as plasma biomarkers in Non-Hodgkin’s Lymphoma patients", 《ONCOTARGET》, vol. 2, 8 March 2011 (2011-03-08), pages 180 *

Also Published As

Publication number Publication date
WO2014151117A1 (en) 2014-09-25
US20220195530A1 (en) 2022-06-23
EP3421613A1 (en) 2019-01-02
EP3795696B1 (en) 2023-04-26
EP4253558A1 (en) 2023-10-04
US20160032396A1 (en) 2016-02-04
CN105518151B (zh) 2021-05-25
EP3795696A1 (en) 2021-03-24
EP2971152A1 (en) 2016-01-20
EP3421613B1 (en) 2020-08-19
US20140296081A1 (en) 2014-10-02
EP2971152B1 (en) 2018-08-01
ES2946689T3 (es) 2023-07-24
CN105518151A (zh) 2016-04-20
EP2971152A4 (en) 2016-12-21
ES2831148T3 (es) 2021-06-07

Similar Documents

Publication Publication Date Title
CN105518151B (zh) 循环核酸肿瘤标志物的鉴别和用途
US20210363597A1 (en) Identification and use of circulating nucleic acids
US20230141527A1 (en) Methods for attaching adapters to sample nucleic acids
JP6921888B2 (ja) 遺伝的バリアントを検出するための方法およびシステム
JP6806854B2 (ja) 無細胞核酸の多重解像度分析のための方法
TWI708848B (zh) 使用不含細胞之dna片段大小以測定複製數變異之方法
KR102028375B1 (ko) 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
EP3636777A1 (en) System and methodology for the analysis of genomic data obtained from a subject
JP2017522866A (ja) 核酸配列の分析
CN110800063A (zh) 使用无细胞dna片段大小检测肿瘤相关变体
US20190309352A1 (en) Multimodal assay for detecting nucleic acid aberrations
US9663826B2 (en) System and method of genomic profiling
US11384382B2 (en) Methods of attaching adapters to sample nucleic acids
US20230335219A1 (en) Methods and systems for detecting insertions and deletions
JP2023526252A (ja) 相同組換え修復欠損の検出
Heider Detection of trace levels of circulating tumour DNA in early stage non-small cell lung cancer
CN118679267A (zh) 生成测序文库的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination