CN115087745A - 无细胞样品中的双末端dna片段类型及其用途 - Google Patents

无细胞样品中的双末端dna片段类型及其用途 Download PDF

Info

Publication number
CN115087745A
CN115087745A CN202180012217.2A CN202180012217A CN115087745A CN 115087745 A CN115087745 A CN 115087745A CN 202180012217 A CN202180012217 A CN 202180012217A CN 115087745 A CN115087745 A CN 115087745A
Authority
CN
China
Prior art keywords
sequence
cell
dna
fragments
dna fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180012217.2A
Other languages
English (en)
Inventor
卢煜明
赵慧君
韩小澄
倪梦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Greer LLC
Chinese University of Hong Kong CUHK
Original Assignee
Greer LLC
Chinese University of Hong Kong CUHK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Greer LLC, Chinese University of Hong Kong CUHK filed Critical Greer LLC
Publication of CN115087745A publication Critical patent/CN115087745A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Abstract

本公开描述了用于测量生物体的生物样本中的无细胞DNA片段的末端基序对的量(例如,相对频率)以测量样本的特性(例如,临床相关DNA的浓度分数)和/或基于此类测量来确定生物体病状的技术。不同的组织类型表现出末端基序对的相对频率的不同模式。本公开提供了用于测量例如在来自各种组织的无细胞DNA的混合物中的无细胞DNA的末端基序对的相对频率的各种用途。来自特定组织(多数)的DNA可以被称为临床相关DNA。

Description

无细胞样品中的双末端DNA片段类型及其用途
相关申请的引用
本申请是2020年1月8日提交的题为"用于癌症筛查的双末端分析"的美国临时专利申请号62/958,676的非临时申请并要求其权益,该申请出于所有目的而全文以引用的方式并入本文。
背景技术
游离DNA(cfDNA)是一种非侵入性生物标志物,可以为生理和病理状况(1-3)的诊断和预后提供信息。cfDNA自然地以短DNA片段的形式存在,通常<200bp长(4)。
血浆DNA被认为由从体内的多种组织脱落的无细胞DNA组成,所述多种组织包括但不限于造血组织、脑、肝、肺、结肠、胰腺等(Sun等人,Proc Natl Acad Sci USA.2015;112:E5503-12;Lehmann-Werman等人,Proc Natl Acad Sci USA.2016;113:E1826-34;Moss等人,Nat Commun.2018;9:5068)。血浆DNA分子(一种无细胞DNA分子)已被证明是通过非随机过程生成的,例如,其大小分布显示有166bp的主要峰和在较小峰中存在的10bp周期性(Lo等人,Sci Transl Med.2010;2:61ra91;Jiang等人,Proc Natl Acad Sci USA.2015;112:E1317-25)。
据报道人类基因组位置的子集(例如,参考基因组上的位置)被优先切割,从而生成血浆DNA片段,所述血浆DNA片段的终止位置与起源组织有关系(Chan等人,Proc NatlAcad Sci USA.2016;113:E8159-8168;Jiang等人,Proc Natl Acad Sci USA.2018;doi:10.1073/pnas.1814616115)。Chandrananda等人(BMC Med Genomics.2015;8:29)使用从头探索软件DREME(Bailey,Bioinformatics.2011;27:1653-9)来挖掘与核酸酶切割相关的基序的无细胞DNA数据,而与组织类型无关。
发明内容
本公开描述了使用cfDNA片段的两端作为生物标志物的科学基础和实际实施,例如,用于癌症(或其他病理学)检测、监测和预后以及用于区分不同类型的分子(例如,胎儿/母体分子、肿瘤/正常分子或移植/供体分子)。一些实施方式可用于癌症,包括但不限于肝细胞癌(HCC)、结肠直肠癌、肺癌、鼻咽癌、头颈部鳞状细胞癌等。各种实施方式可用于区分胎儿、肿瘤或捐赠的组织的cfDNA片段。
根据各种实施方式,本公开描述了用于测量生物体的生物样本中的无细胞DNA片段的末端基序对的量(例如,相对频率)以测量样本的特性(例如,临床相关DNA的浓度分数)和/或基于此类测量来确定生物体病状的技术。不同的组织类型表现出末端基序对的相对频率的不同模式。本公开提供了用于测量例如在来自各种组织的无细胞DNA的混合物中的无细胞DNA的末端基序对的相对频率的各种用途。来自此类组织中的一者的DNA可以被称为临床相关的DNA。在其他示例中,来自不止一种这样的组织的DNA可以被称为临床相关DNA。
各种例子可以量化代表DNA片段末端序列的末端基序对的量。例如,实施方式可以确定DNA片段的终止序列的一组末端基序对的相对频率。在各种实施方式中,可以使用基因型(例如,组织特异性等位基因)或表型方法(例如,使用具有相同病状的样本)来确定优选的末端基序对和/或末端基序对模式。优选集合或具有特定模式的相对频率可用于测量新样本或生物体的病状(例如,特定组织中的癌变或疾病程度)的特性(例如,临床相关DNA的浓度分数)的分类。因此,实施方式可以提供测量以告知生理改变,包括癌症、自体免疫性疾病、移植和怀孕。
作为进一步的示例,末端基序对可用于对生物样本进行临床相关的无细胞DNA片段的物理富集和/或计算机模拟富集。富集可以使用对临床相关组织(例如胚胎、肿瘤或移植物)优选的末端基序对。物理富集可以使用一种或多种探针分子,该一种或多种探针分子检测一组特定的末端基序对,使得生物学样本富集临床相关的DNA片段。对于计算机模拟富集,可以鉴定无细胞DNA片段的一组序列读段,所述片段具有临床相关DNA的一组优选终止序列中的一个终止序列。可以基于与临床相关DNA对应的可能性来存储某些序列读段,其中该可能性解释了包括优选的末端基序对的序列读段。可以分析所存储的序列读段以确定生物样本中的临床相关DNA的特性。
下文详细描述了本公开的这些和其它实施例。例如,其他实施例针对与本文所描述的方法相关联的系统、装置和计算机可读介质。
可以参考以下详细描述和附图来更好地了解本公开实施例的性质和优点。
附图说明
图1示出本公开实施方式的末端基序对的示例,包括在DNA片段末端的单个碱基。
图2示出本公开实施方式的A<>A片段的构造。
图3示出根据本发明一实施方式分析生物样品中的序列数据以确定末端基序对。
图4A-图4C显示了本公开实施方式的用于不同类别的末端基序的不同组合以对cfDNA片段进行双端分类。
图5A-图12D显示了本公开实施方式的所有可能的1-mer双末端片段类型的分类结果。在每个样本中计算每个1-mer双末端片段的比例,并绘制在相应的箱线图中。ROC曲线对应于片段类型百分比区分与AUC一起显示在箱线图左侧的非癌症(控制、HBV携带者(HBV)、肝硬化(cirr))和癌症(早期肝细胞癌(eHCC)、中期肝细胞癌(iHCC)、晚期肝细胞癌(aHCC)的能力。
图13A-18B显示了根据本公开的实施方式在区分非癌症和HCC方面具有AUC>0.9的2-mer双末端片段类型的分类结果。
图19A-19D显示了本公开的实施方式中,使用-1和+1位核苷酸的双末端分析在HCC区分中的性能。
图20A-20C提供了根据本公开的实施方式的CG<>AA在区分HBV和肝硬化控制中的性能。
图21A-21C提供了根据本公开的实施方式的GC<>TA在区分HBV和肝硬化控制中的性能。图21D-21F提供了根据本公开的实施方式的TA<>GC在区分HBV和肝硬化控制中的性能。
图22A-22C提供了根据本公开的实施方式的C<>C在区分HBV和肝硬化控制中的性能。图22D-22F提供了根据本公开的实施方式的C<>A在区分HBV和肝硬化控制中的性能。
图23-25B根据本公开的实施方式,显示了在区分控制和诸如结肠直肠癌(CRC)、肺鳞状细胞癌(LUSC)、鼻咽癌(NPC)和头颈部鳞状细胞癌(HNSCC)的其他癌症中CC<>CC片段比例和AUC值的ROC曲线。
图26A-28B显示了本公开的实施方式中,-1和+1位核苷酸的双末端片段的三个示例在区分其他癌症(CRC、LUSC、NPC、HNSCC)中的性能。
图29A-30B显示了本公开的实施方式中,-1和+1位核苷酸的各个双末端片段在区分各个CRC、LUSC、NPC、HNSCC中的最佳性能。
图31显示了根据本公开的实施方式的表格,该表格包括具有最高曲线下面积(AUC)的末端基序在区分癌症的不同阶段时的性能结果。
图32根据本公开的实施方式示出了在区分中期和晚期HCC方面具有100%准确度的所有2end:-2+2类型的列表3200以及在区分早期和晚期HCC方面具有100%准确度的所有2end:-2+2类型的列表3250。
图33A-33D提供了公开的实施方式中性能最佳双末端-1和+1位置基序在区分早期与中期HCC中的性能结果。
图34A-34D提供了公开的实施方式中性能最佳双末端-1和+1位置基序在区分中期与晚期HCC中的性能结果。
图35A-35D提供了公开的实施方式中性能最佳双末端-1和+1位置基序在区分早期与晚期HCC中的性能结果。
图36A-36D提供了公开的实施方式中性能最佳双末端-1和+1位置基序在区分早期与晚期HCC中的性能结果。
图37A-37D提供了根据本公开的实施方式的C<>C在区分不典型系统性红斑狼疮和典型系统性红斑狼疮控制中的性能。
图38A-38D提供了根据本公开的实施方式的A<>A在区分不典型系统性红斑狼疮和典型系统性红斑狼疮控制中的性能。
图39A-39D提供了根据本公开的实施方式的GT<>TG在区分不典型系统性红斑狼疮和典型系统性红斑狼疮控制中的性能。
图40A-40D提供了根据本公开的实施方式的TG<>CC在区分不典型系统性红斑狼疮和典型系统性红斑狼疮控制中的性能。
图41A-41D提供了根据本公开的实施方式的TG<>GG在区分不典型系统性红斑狼疮和典型系统性红斑狼疮控制中的性能。
图42A-42D提供了根据本公开的实施方式的c|A<>a|A在区分不典型系统性红斑狼疮和典型系统性红斑狼疮控制中的性能。
图43A-43D提供了根据本公开的实施方式的g|C<>g|C在区分不典型系统性红斑狼疮和典型系统性红斑狼疮控制中的性能。
图44A-44B示出了本公开的实施方式中,C<>C片段在各个样品中使用较少片段(2000万片段)区分非癌症和HCC方面的性能。
图45是本公开的实施方式中,描绘AUC的图表,所述AUC可通过使用CC<>CC片段作为通过降采样评估的片段序列总数的函数来实现。
图46是示出本公开实施方式的用于确定利用游离DNA片段的末端基序对水平的方法的流程图。
图47示出了本公开实施方式中来自对相同非HCC和HCC数据集的不同分析方法的多条ROC曲线。
图48-50B显示了本公开的实施方式中,来自对具有30个控制方法的数据集和40个诸如CRC、LUSC、NPC和HNSCC的其他癌症的不同分析方法的多条ROC曲线。
图51A-51B显示了根据本公开的实施方式区分胎儿特定分子和共有分子的双末端分析。
图52A显示了本公开的实施方式中,双末端C<>C%和胎儿DNA分数之间的函数关系。图52B显示了本公开的实施方式中,双末端CC<>CC%和胎儿DNA分数之间的函数关系。
图53显示了本公开的实施方式中,C<>G%和肿瘤浓度之间的函数关系。
图54A-55B显示了本公开的实施方式中,区分肝移植受试者的已完成-特定分子和共享分子方面的双末端分析。
图56A-56B显示了本公开的实施方式中,区分肾脏移植受试者的已完成-特定分子和共享分子方面的双末端分析。
图57是示出根据本公开的实施方式的估计受试者的生物样本中临床相关DNA的浓度分数的方法的流程图。
图58显示了根据本公开的实施方式使用-1和+1位核苷酸的末端基序对来区分非癌症和HCC对象的SVM建模的ROC曲线。
图59是示出本公开的实施方式中,在身体方面富集临床相关DNA生物样本的方法的流程图。
图60是示出本公开的实施方式中,以电脑模拟方式富集临床相关DNA生物样本的方法的流程图。
图61示出本发明实施方式的测量系统。
图62示出了本发明实施方式的可与系统和方法一起使用的示例性计算机系统的框图。
术语
"组织"对应于集合在一起作为功能单元的一组细胞。单个组织中可以存在超过一种类型的细胞。不同类型的组织可以由不同类型的细胞(例如,肝细胞、肺泡细胞或血细胞)组成,但也可以与来自不同生物体(母亲相对于胎儿)的组织相对应或与健康细胞相对于肿瘤细胞相对应。来自不同个体的相同组织类型的多个样本可以用于测定所述组织类型的组织特异性甲基化水平。
"生物样本"是指取自受试者(例如,人类(或其它动物),如孕妇、患有癌症或疾病的个人或疑似患有癌症或疾病的个人、器官移植接受者或疑似患有涉及器官的疾病过程(例如,心肌梗塞的心脏、中风的脑或贫血的造血系统)的受试者)且含有一个或多个感兴趣的核酸分子的任何样本。生物样本可以是体液,如血液、血浆、血清、尿液、阴道液、水囊肿(例如,睾丸)液、阴道冲洗液、胸膜液、腹水液、脑脊髓液、唾液、汗液、泪液、痰液、支气管肺泡灌洗液、乳头排出液、来自身体不同部位(例如,甲状腺、乳房)的抽吸液、眼内流体(例如房水)等。也可以使用粪便样本。在各个实施方式中,已经富集了无细胞DNA的生物样本(例如,通过离心方案获得的血浆样本)中的大部分DNA可以是无细胞的,例如,大于50%、60%、70%、80%、90%、95%或99%的DNA可以是无细胞的。离心方案可以包含例如在3,000g×10分钟下获得流体部分,并在例如30,000g下再离心另外10的分钟以去除残留的细胞。作为生物样本分析的一部分,可以分析统计上显着数量的无细胞DNA分子(例如,提供精确的测量)。在一些实施方式中,分析至少1,000个无细胞DNA分子。在其它实施方式中,可以分析至少10,000个、或50,000个、或100,000个、或500,000个、或1,000,000个、或5,000,000个无细胞DNA分子或更多。至少可以分析相同数量的序列读段。
"临床相关DNA"可以指待测量的特定组织来源的DNA,例如以确定此类DNA的浓度分数或对样本(例如,血浆)的表型进行分类。临床相关DNA的示例是母体血浆中的胎儿DNA,或患者血浆或其它具有无细胞DNA的样本中的肿瘤DNA。另一个示例包括对移植患者的血浆、血清或尿液中与移植物相关联的DNA的量的测量。另一个示例包括测量受试者血浆中造血DNA和非造血DNA的浓度分数,或样本中肝DNA片段(或其它组织)的浓度分数,或脑脊液中脑DNA片段的浓度分数。
"序列读段"是指从核酸分子的任何部分或全部进行测序的一串核苷酸。例如,序列读段可以是从核酸片段测序的短核苷酸串(例如,20-150个核苷酸)、核酸片段的一端或两端处的短核苷酸串或对存在于生物样本中的整个核酸片段进行的测序。序列读段可以通过各种方式获得,例如,使用测序技术或使用探针,例如,用于杂交阵列或可用于微阵列的捕获探针,或扩增技术,如聚合酶链反应(PCR)或使用单引物的线性扩增或等温扩增。作为生物样本分析的一部分,可以分析统计上显著数量的序列读段,例如,可以分析至少1,000个序列读段。作为其它示例,可以分析至少10,000个、或50,000个、或100,000个、或500,000个、或1,000,000个、或5,000,000个序列读段。
"切割点"可以指DNA被核酸酶切割从而形成DNA片段的位置。
序列读段可包括与片段的末端相关联的"终止序列"。终止序列可以对应于片段的最外N个碱基,例如,片段末端的1-30个碱基。如果序列读段对应于整个片段,则该序列读段可包含两个终止序列。当配对末端测序提供对应于片段的末端的两个序列读段时,每个序列读段可包含一个终止序列。
"序列基序"可以指DNA片段(例如,无细胞DNA片段)中的碱基的短反复出现模式。序列基序可以出现在片段的末端处,因此是终止序列的一部分或包含终止序列。"末端基序"可以指终止序列的序列基序,该序列基序优先出现在DNA片段的末端处,可能针对特定类型的组织。末端基序也可以恰好出现在片段的末端之前或之后,因此仍对应于终止序列。核酸酶可以对特定末端基序具有特定的切割偏好,以及对第二末端基序具有第二最优选的切割偏好。
"序列基序对"或"末端基序对"可以指特定DNA片段的一对末端基序。例如,在一条链的5'端具有A并且在另一链的5'端具有A的DNA片段可以定义为具有A<>A的序列基序对。作为另一示例,在一条链的5'端具有A并且在同一条链的3'端具有T的DNA片段可以定义为具有A<>T的序列基序对,其将对应于使用两条链的5'端定义的A<>A片段。可以使用其他长度的序列基序。末端基序的不同配对组合可以称为不同类型的片段。末端基序对可以包括长度相同的末端基序,例如所有1-mer或所有2-mer,但也可以包括不同长度的末端基序,例如一个末端是2-mer而另一末端由1-mer组成。末端基序对还可以包括DNA片段末端之后的一个或多个碱基,例如,通过与参照基因组比对来确定。这种情况可以使用命名法t|A,其中,T恰好出现在5'端的切割位点之前,而A出现在切割位点之后。
术语"等位基因"是指处于相同的物理基因位点处的替代DNA序列,其可能或不可能导致不同的表型性状。在任何特定的二倍体生物体中,使用每个染色体的两个拷贝(男性人类受试者中的性染色体除外),每个基因的基因型包括在该基因座处存在的一对等位基因,该一对等位基因在纯合子中是相同的,而在杂合子中是不同的。生物体的群体或物种通常在各个个体的每个基因座处包含多个等位基因。在群体中发现多于一个等位基因的基因组基因座被称为多态性位点。某一基因座处的等位基因变异可作为群体中存在的等位基因的数量(即,多态性程度)或杂合子比例(即,杂合率)来测量。如本文所用,术语"多态性"是指人类基因组中的任何个体间变异,无论所述变异的频率如何。此类变异的示例包括但不限于单核苷酸多态性,简单的串联重复多态性、插入缺失多态性、突变(其可能引起疾病)和拷贝数变异。如本文所用的术语"单倍型"是指在多个基因座处的等位基因的组合,所述等位基因在同一染色体或染色体区域上一起被传递。单倍型可指少至一对基因座或指染色体区域,或指整个染色体或染色体臂。
术语"胎儿DNA浓度分数"可与术语"胎儿DNA比例"和"胎儿DNA分数"互换使用,并且是指生物样本(例如,母体血浆或血清样本)中存在的来源于胎儿的胎儿DNA分子的比例(Lo等人,Am J Hum Genet.1998;62:768-775;Lun等人,Clin Chem.2008;54:1664-1672)。类似地,肿瘤分数或肿瘤DNA分数可以指生物学样本中的肿瘤DNA的浓度分数。
"相对频率"(还提及为"频率")可以指比例(例如,百分比、分数,或浓度)。特别地,特定末端基序对(例如,A<>A)的相对频率可以提供具有特定终止序列对的无细胞DNA片段比例。
"合计值"可以指例如一组末端基序的相对频率的集体特性。示例包括平均值、中值、相对频率的总和、相对频率之间的变化(例如,熵、标准偏差(standard deviation,SD)、变异系数(coefficient of variation,CV)、四分位差(interquartile range,IQR)或不同相对频率之间的某个百分位截止(例如,第95个百分位或第99个百分位))、或相对于相对频率的参考模式的差(例如,距离),如在聚类中可实现的。作为另一个示例,合计值可以包括相对频率的数组/向量,其可以与参考向量进行比较(例如,表示多维数据点)。
术语"测序深度"是指基因座被与该基因座比对的序列读段所覆盖的次数。所述基因座可以与核苷酸一样小,或者与染色体臂一样大,或者与整个基因组一样大。测序深度可以表示为50x、100x等,其中"x"是指基因座被序列读段覆盖的次数。测序深度也可以应用于多个基因座或整个基因组,在此情况下,x可以指分别对基因座或单倍体基因组或整个基因组进行测序的平均次数。超深测序可以指测序深度是至少100x。
"校准样本"可以对应于生物样本,所述生物样本的临床相关DNA的浓度分数(例如,组织特异性DNA分数)是已知的或通过校准方法确定的,例如使用对组织具有特异性的等位基因,例如在移植中,由此使供体基因组中存在但受体基因组中不存在的等位基因可以用作移植的器官的标记物。作为另一示例,校准样本可以对应于这样的样本,可以从所述样本确定末端基序。校准样本可同时用于这两个目的。
"校准数据点"包括"校准值"和临床相关DNA(例如,特定组织类型的DNA)的测量浓度或已知浓度分数。可以从针对校准样本所确定的相对频率(例如,合计值)确定校准值,所述校准样本的临床相关DNA的浓度分数是已知的。校准数据点可以以各种方式定义,例如作为离散点或作为校准函数(也被称为校准曲线或校准表面)。可以从校准数据点的附加数学变换导出校准函数。
"分离值"与涉及两个值(例如,两个分数贡献或两个甲基化水平)的差或比率相对应。分离值可以是简单的差或比率。作为示例,x/y以及x/(x+y)的直接比率是分离值。分离值可以包含其它因子,例如,乘法因子。作为其它示例,可以使用值的函数的差或比率,例如两个值的自然对数(ln)的差或比率。分离值可以包含差和比率。
(例如,相对频率的)"分离值"和"合计值"是参数(也称为度量)的两个示例,所述参数提供了在不同分类(状态)之间变化的样本度量,并且因此可以用于确定不同的分类。合计值可以是分离值,例如,当在样本的相对频率集合和相对频率参考集合之间取差值时,如可在聚类中所做的那样。
如本文所用的术语"分类"是指与样本的特定性质相关联的任何一个或多个数字或其它一个或多个字符。例如,符号"+"(或词语"正")可以表示样本被归类为具有缺失或扩增。分类可以是二进制的(例如,正或负)或具有更多的分类等级(例如,从1到10或0到1的标度)。
如本文所用,术语"参数"是指表征定量数据集和/或定量数据集之间的数值关系的数值。例如,第一核酸序列的第一量和第二核酸序列的第二量之间的比率(或比率的函数)是参数。
术语"截止值"和"阈值"是指在操作中使用的预定数量。例如,截止大小可以指超过一定大小则不包含片段的大小。阈值可以是高于或低于特定分类所应用的值。这些术语中的任一个可以在这些上下文中的任一种中使用。截止值或阈值可以是"参考值"或者可以从表示特定类别或区分两个或多个类别的参考值中得出。如本领域技术人员将理解的,可以以各种方式确定此类参考值。例如,可以针对具有不同已知分类的两个不同的受试者确定度量,并且可以选择参考值作为一个分类的代表(例如,平均值)或度量的两个集群之间的值(例如,选择以获得期望的灵敏度和特异性)。作为另一示例,可以基于样本的统计模拟来确定参考值。可以基于期望的准确度(例如,灵敏度和特异性)来确定截止值、阈值、参考值等的特定值。
术语"癌症水平"可以指是否存在癌症(即,存在或不存在)、癌症的阶段、肿瘤的尺寸、是否存在转移、身体的总肿瘤负荷、癌症对治疗的反应和/或癌症严重程度的其它度量(例如癌症复发)。癌症水平可以是数字或其它标记,如符号、字母和颜色。所述水平可以是零。癌症水平还可以包含恶化前或癌前病状(状态)。癌症水平可以以各种方式使用。例如,筛查可以检查癌症是否存在于以前不知道患有癌症的人身上。评估可以调查被诊断出患有癌症的人,以监测癌症随着时间的进展、研究治疗的有效性或确定预后。在一实施方式中,预后可以表示为患者死于癌症的可能性,或在特定持续时间或时间之后癌症进展的可能性,或癌症转移的可能性或程度。检测可以意指“筛查”或可以意指检查具有癌症暗示性特征(例如症状或其它阳性测试)的人是否患有癌症。
"病理学水平"可以指与生物体相关联的病理的量、程度或严重性,其中所述水平可以如以上针对癌症所描述的水平。病理的另一个示例是对移植器官的排斥。其它示例病理可以包含自身免疫攻击(例如,损害肾脏的狼疮性肾炎或损害中枢神经系统的多发性硬化症)、炎性疾病(例如,肝炎)、纤维化过程(例如,肝硬化)、脂肪浸润(例如,脂肪肝疾病)、退化过程(例如阿尔茨海默氏病)和缺血性组织损伤(例如,心肌梗塞或中风)。受试者的健康状态可以被认为是无病理分类。
术语"约"或"大约"可以意指在如由所属领域的一般技术人员测定的具体值的可接受的偏差范围内,其将部分取决于所述值如何测量或测定,即,测量系统的限制。例如,根据本领域的实践,"约"可以意指在1个或大于1个标准偏差内。可替代地,"约"可以意指给定值的最多20%、最多10%、最多5%或最多1%的范围。可替代地,特别是对于生物系统或过程,术语"约"或"大约"可以意指在值的数量级内、值的5倍内,并且更优选地,值的2倍内。当在本申请和权利要求书中描述特定值时,除非另外指出,否则应假设术语"约"表示所述特定值在可接受的误差范围内。术语"约"可以具有本领域普通技术人员通常理解的含义。术语"约"可以指±10%。术语"约"可以指±5%。
在提供了值的范围的情况下,应当理解的是,也具体地公开了所述范围的上限与下限之间的至下限的第十个单位(除非上下文明确另外指出)的每个中间值。涵盖在所陈述的范围内的任何所陈述的值或中间值与所陈述的范围内的任何其它所陈述的值或中间值之间的每个较小范围包括在本公开的实施方式内。这些较小范围的上限和下限可以独立地包含在所述范围内或排除在其外,并且每个范围(其中两个极限之一、没有一个、或都包含在所述较小范围内)也涵盖在本公开内,服从所述范围中任何特别排除的限值。在所陈述的范围包含所述限制中的一个或两个的情况下,排除所述包含的限制中的一个或两个的范围也包括在本公开。
可以使用标准缩写,例如,bp,(多数)碱基对;kb,(多数)千碱基;pi,(多数)微微升;或min,(几)秒;min,(几)分钟;h或hr,(几)小时;aa,(多数)氨基酸;nt,(多数)核苷酸等。
除非另外定义,否则本文中所用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常所理解相同的含义。尽管与本文描述的那些相似或等效的任何方法和材料可以用于本公开的实施方式的实践或测试,然而下面可以描述一些潜在的和示例性的方法和材料。
具体实施方式
本公开描述了用于测量生物体的生物样本中的无细胞DNA片段的末端基序对的量(例如,相对频率)以测量样本的特性和/或基于此类测量来确定生物体的病状的技术。不同的组织类型表现出末端基序对的相对频率的不同模式。本公开提供了用于测量例如在来自各种组织的无细胞DNA的混合物中的无细胞DNA的末端基序对的相对频率的各种用途。来自此类组织中的一者的DNA可以被称为临床相关DNA。
作为病理学的一个例子,可以使用样品中无细胞DNA片段中末端基序对的相对频率来确定癌症的水平。具有不同表型的生物体可表现出无细胞DNA片段的末端基序对相对频率的不同模式。可以将末端基序对的相对频率的合计值与参考值进行比较,以对表型进行分类。在各种实施方式中,合计值可以是相对频率的总和,或相对于相对频率的参考集合的差。
作为另一示例,特定组织(例如,胚胎、肿瘤或移植的器官)的临床相关DNA表现出相对频率的特定模式,所述特定模式可以作为合计值进行测量。样本中的其它DNA可以表现出不同的模式,从而允许测量样本中的临床相关DNA的量。因此,在一个示例中,可以基于末端基序对的相对频率来确定临床相关DNA的浓度分数(例如,百分比)。浓度分数可以是数字、数值范围或其它分类,例如高、中或低,或者浓度分数是否超过阈值。在各种实施方式中,合计值可以是末端基序对的集合的相对频率的总和或相对于参考模式,例如,具有已知的浓度分数的校准样本的相对频率的阵列(向量)的差(例如,总距离)。此类阵列可以被认为是相对频率的参考集合。可以在分类器中使用此类差,分层聚类、支持向量机和逻辑回归是所述分类器的示例。作为示例,临床相关DNA可以是胎儿、肿瘤、移植器官或其它组织(例如,造血或肝脏)DNA。
鉴于与其他组织(例如,胎儿与母体)相比,具有一组特定末端基序对的无细胞DNA片段在特定组织中的表现差异(通过相对频率量化),这些(多数)末端基序对可用于富集样本中来自特定组织的DNA(临床相关DNA)。可以通过物理操作执行此类富集以富集物理样本。一些实施方式可以例如使用引物或衔接子捕获和/或扩增具有与优选的末端基序对的集合匹配的终止序列的无细胞DNA片段。本文描述了其它示例。当一组(多数)末端基序对在临床相关DNA中的相对频率表示较高时,可以将其称为首选末端基序对。
在一些实施方式中,富集可以计算机模拟执行。例如,系统可以接收序列读段,然后基于末端基序对过滤所述读段,以获得具有更高浓度的来自临床相关DNA的对应DNA片段的序列读段子集。如果DNA片段具有优选的末端基序对的终止序列,则可以将所述DNA片段鉴定为具有更高的可能性来自感兴趣的组织。如本文所述,可以基于DNA片段的甲基化和大小来进一步确定可能性。
末端基序对的此类用途可以消除对参考基因组的需要,如当使用终止位置时可能需要的(Chan等人,Proc Natl Acad Sci USA.2016;113:E8159-8168;Jiang等人,ProcNatl Acad Sci USA.2018;doi:10.1073/pnas.1814616115)。此外,由于末端基序对的数目可能小于参考基因组中优选终止位置的数目,因此可以收集每个末端基序对的更多统计,从而潜在地提高准确性。
以上述方式使用末端基序对的这种能力是令人惊讶的,例如,如Chandrananda等人发现关于涉及片段起始位点周围51bp(上游/下游20bp)区域的单核苷酸频率的位点特异性核苷酸模式而言,母体片段与胎儿片段之间具有高度相似性(Chandrananda等人,BMCMed Genomics.2015;8:29),这意味着使用他们的基于末端周围的单核苷酸频率的方法无法通知无细胞DNA片段的来源组织。
在更详细地描述本发明之前,应当理解本发明不限于所描述的特定实施方式,因为这些实施例可以变化。还应理解,由于本发明的范围将仅由所附权利要求限制,因此本文中所用的术语仅出于描述具体实施方式的目的而并不旨在限制。已努力确保所用数字(例如量、温度等)的准确性,但应考虑一些实验误差和偏差。除非另有说明,份数是重量份数,分子量是重均分子量,温度是摄氏度,压力是大气压或接近大气压。
I.无细胞DNA末端基序对(双末端分析)
末端基序涉及无细胞DNA片段的终止序列,例如,该片段任一末端处的K个碱基的序列。另一方面,末端基序对与片段的两个终止序列有关。终止序列可以是具有各种碱基数(例如,1、2、3、4、5、6、7等)的k聚体。末端基序(或"序列基序")序列本身,而不是参考基因组中的特定位置。因此,在整个参考基因组中的许多位置处可能出现相同的末端基序。可以使用参考基因组来确定末端基序,例如以鉴定刚好在起始位置之前或刚好在终止位置之后的碱基。此类碱基仍将对应于无细胞DNA片段的末端,例如因为它们是基于片段的终止序列来鉴定的。
A.确定末端基序对的示例
图1示出了本公开实施方式的末端基序对的示例。图1描绘了定义待分析的4聚体末端基序的两种方式。在技术140中,从血浆DNA分子的每个末端上的前4bp序列直接构建4聚体末端基序。例如,可以使用经测序的片段的前4个核苷酸和后4个核苷酸作为末端基序对。在技术160中,通过使用来自片段的经测序的末端的2聚体序列和来自与该片段的末端相邻的基因组区域的另一2聚体序列,来共同构建4聚体末端基序。在其它实施方式中,可以使用其它类型的基序,例如1聚体、2聚体、3聚体、5聚体、6聚体、7聚体末端基序。
如图1所示,例如使用对血液样本的纯化处理,例如通过离心而获得无细胞DNA片段110。除了血浆DNA片段之外,还可以使用其它类型的无细胞DNA分子,例如来自血清、尿液、唾液或其他体液。DNA片段可以是平末端的。
在框120处,对DNA片段进行配对末端测序。在一些实施方式中,配对末端测序可以从DNA片段的两个末端产生两个序列读段,例如每个序列读段为30-120个碱基。这两个序列读段可形成DNA片段(分子)的一对读段,其中每个序列读段包含DNA片段的相应末端的终止序列。在其它实施方式中,可以对整个DNA片段进行测序,从而提供单个序列读段,所述单个序列读段包含所述DNA片段的两个末端的终止序列。两端的两个终止序列仍然可以被认为是成对的序列读段,即使是从单个测序操作中一起生成的。
在框130处,可以将序列读段与参考基因组进行比对。该比对用于说明限定序列基序的不同方式,并且在一些实施方式中可以不使用该比对。例如,片段末端的序列可以直接使用,无需与参考基因组进行比对。然而,可能需要进行比对以具有一致的终止序列,其不依赖于受试者中的变异(例如,SNP)。例如,终止碱基可能因变异或序列错误而与参考基因组不同,但参考组中的碱基可能是经计数的碱基。或者,可以使用序列读段末端的碱基,以便为个体定制。可以使用各种软件包执行比对程序,所述各种软件包为例如(但不限于)BLAST、FASTA、Bowtie、BWA、BFAST、SHRiMP、SSAHA2、NovoAlign和SOAP。
技术140显示了经测序的片段141的序列读段,并与参考基因组145进行了比对。以5'末端视为起点,第一末端基序142(CCCA)位于经测序的片段141的起点处。第二末端基序144(TCGA)处于经测序的片段141的尾部处。在分析cfDNA片段的末端优势时,此序列读段将有助于对5'末端的C端和3'末端的A末端进行计数(或者T末端,如果使用另一条链的5'末端)。在一实施方式中,当酶识别CCCA然后恰好在第一个C之前进行切割时,可能出现这种末端基序。如果是这种情况,则CCCA将优先处于血浆DNA片段的末端处。酶可以识别TCGA,然后在A之后进行切割。这样的末端基序对可以根据使用的惯例标记为CCCA<>TCGA。下面提供了不同惯例的各种示例。例如,可以从另一条链的5'末端读取第二末端基序的惯例。使用TCGA,补码是一样的;但如果3'末端序列是TTGA,那么5'惯例将是TCAA,因为序列从末端开始。示例中使用了两端的5'惯例。当确定对末端基序对的1-mer计数时,该序列读段将有助于使用5'惯例对C<>T进行计数。使用技术140,与参考基因组的比对可以是可选的。
技术160显示了经测序的片段161的序列读段,并与参考基因组165进行了比对。以5'末端视为起点,第一末端基序162(CGCC)具有恰好在经测序的片段161的起点之前出现的第一部分(CG)和作为经测序的片段161的起点的终止序列的一部分的第二部分(CC)。第二末端基序164(CCGA)具有恰好在经测序的片段161的尾部之后的出现的第一部分(GA)和作为经测序的片段161的尾部的终止序列的一部分的第二部分(CC)。在一实施方式中,当酶在G之后,仅在C之前进行切割时,可能会出现这种末端基序。如果是这种情况,则CC将优先处于血浆DNA片段的末端处,而CG恰好在所述CC之前出现,从而提供了CGCC的末端基序。至于第二末端基序164(CCGA),酶可以在C与G之间切割。如果是这种情况,则CC将优先处于血浆DNA片段的3’末端处。这样的末端基序对可以标记为cg|CC<>tc|GG,其中,TCGG是反向链5'端的CCGA基序,小写字母表示碱基位于切割位点的另一侧170,由虚线表示。切割位点是酶(例如,核酸酶)切割测序片段161的位置。对于技术160,来自相邻基因组区域和经测序的血浆DNA片段的碱基数可以变化,并且不必限于固定比率,例如代替2:2,所述比率可以是2:3、3:2、4:4、2:4等。
无细胞DNA末端对标记中包含的核苷酸的数量越高,则基序的特异性越高,因为在基因组中的两个位置((相隔~50-30bp)具有以确切构型排列的6个碱基的概率低于在基因组中的两个位置具有以确切构型排列的2个碱基的概率。因此,末端基序的长度的选择可以由预期用途应用的所需灵敏性和/或特异性支配。
当使用终止序列将序列读段与参考基因组(例如,在技术160)进行比对时,仍然可以从终止序列确定从终止序列确定的任何序列基序,或者恰好在终止序列之前/之后的任何序列基序。因此,技术160使终止序列与其它碱基相关联,其中参考被用作进行该关联的机制。技术140与技术160之间的差异是将特定的DNA片段分配给两个末端基序,这会影响相对频率的特定值。但是,总体结果(例如,确定分类或病理学、确定临床相关DNA的分数浓度等)不会受到DNA片段分配到末端基序对的影响,只要使用一致的技术,例如,任何训练数据以确定参考值,如使用机器学习模型确定参考值。
可以对具有对应于特定末端基序的终止序列的DNA片段的数量进行计数(例如,存储在存储器中的阵列中)以确定特定末端基序对的量。可以以各种方式测量数量,例如原始计数或频率,其中,数量被标准化。标准化可以使用(例如,除以)DNA片段的总数或DNA片段的特定组中的数量(例如,来自特定区域、具有特定大小或具有一个或多个特定末端基序)来完成。当存在癌症并且样本包含不同浓度的临床相关DNA时,已检测到末端基序对的数量差异。
B.在沃森链和克里克链上定义的末端基序对
末端基序对可以以各种方式定义,其中一些已在上文提及。在一些实施方式中,末端基序对使用沃森链和克里克链两者来定义。在这种方式中,使用了5'末端的序列。
图2示出本公开实施方式的A<>A片段的构造。图2显示了A端片段和A<>A片段。A端片段在沃森链的5'端或克里克链的5'端有一个A。另一端可以用N表示,因为碱基可以是任何碱基。A<>A片段在沃森链和克里克链的5'端有一个A。这样的命名法也适用于C<>C、G<>G和T<>T,所有这些都在整个公开中使用。
当对单链DNA进行测序时,仍然可以使用对应于两条链的这种命名法。例如,一条链(例如,沃森链)3'端的末端序列可以转化为另一条链5'端的互补末端序列。因此,按照惯例,末端序列可以是与3'末端处的碱基互补的序列。这种单链测序可以发生在亚硫酸氢盐测序中。为了在进行单链测序时区分A<>C或C<>A,可能会或可能不会与参考基因组对齐。但由于此类对称片段类型通常具有相同的反应,因此可能无需区分,它们可以作为单个组一起计算。
C.沃森/克里克链的测序和比对
图3示出根据本发明一实施方式分析生物样品中的序列数据以确定末端基序对。生物样品可获自疑似患有癌症(例如,肝细胞癌(HCC))的人。尽管使用HCC作为示例,但实施方式适用于其他癌症。
在步骤310中,接收来自疑似患有HCC的患者的生物样本311。生物样品可以来自任何体液,包括但不限于血浆、血清、尿液和唾液。样品含有无细胞核酸分子312。在一实施方式中,从患者的血浆中提取DNA。
在步骤320中,使用但不限于例如Illumina TruSeq Nano试剂盒从血浆DNA构建测序文库。也可以使用其他测序文库制备试剂盒。对包含在生物样品中的多个核酸分子的至少一部分进行测序。经测序的部分可以代表人类基因组的一小部分、人类基因组的整体(或其他动物、植物等的其他基因组),或者处于测序深度的多倍。可以对不同长度的两端或整个片段进行测序。可以对样品中的全部或仅一部分核酸分子进行测序。该子集可以随机选择或以靶向方法选择,例如,使用探针捕获特定序列(例如,对应于一个或多个特定基因座/区域)或使用引物扩增某些序列。在一实施方式中,测序是使用对端大规模平行测序完成的,例如,使用Illumina HiSeq 4000平台。可以使用其他测序平台。
根据片段的测序数据,确定片段末端的核苷酸。生物信息学程序可用于从后续分析中丢弃一部分测序数据,因为它们质量差或被认为是PCR重复。在使用双端测序的一实施方式中,读数1的5'末端和读数2的5'末端代表片段的末端。如果对完整分子进行测序,则可以从一次读数确定两端。
在步骤330中,测序数据可以与参考人类基因组350进行比对(映射),例如,以确定片段的大小。例如,读数1和读数2可以作为一对对齐在一起。通过比对,还可以获得-1、-2、-3、-4位的核苷酸信息。也可以获得片段大小信息。作为另一示例,可以在不进行比对的情况下获得大小,例如,当对整个DNA分子进行测序时。
可以根据两端的核苷酸对片段进行分类和计数。在一实施方式中,在每一端仅使用一个核苷酸来将片段分类为16种类型。可以在片段内使用更多核苷酸,例如2-mer、3-mer等来对片段进行分类。在切割位置(切割位点)365的另一侧,例如在位置-1、-2、-3、-4等处的核苷酸序列也可用于对片段进行分类。如图所示,参考基因组350在这些位置列出了N,因为CC末端被突出显示。在实际操作中,比对后可以得到实际的碱基。
在一些实施方式中,可以对测序数据施加规则以确定要计数的内容。例如,可以在生物信息学分析之后选择对应于特定大小范围的核酸片段的测序数据。大小范围的示例为<150bp、150–250bp、>250bp。
可以简单地计算片段类型的数量,或者可以从片段类别中确定一个参数。例如,该参数可以是特定片段类型的第一量(例如,具有特定末端基序对的片段的数量)与片段总量的简单比率。该参数可以在第一数量中包括一个以上的片段类型。
可以将该参数与一个或多个截止值进行比较,以区分不同的状况分类。可以从具有已知分类(例如,健康或患病)的样本训练集以任何数量的合适方式确定截止值。例如,可以将参数(例如,片段类型的分数表示)与在正常受试者中建立的参考范围(截止示例)进行比较。基于比较,确定对患者是否可能患有病症(例如,癌症)的分类。
D.末端基序对的组合
可能的片段类型的数量将取决于两个末端基序中的碱基数量。如果使用的碱基总数为M,则组合总数为M4。例如,如果两端使用1-mer,则M为2,组合的总数为24=16个不同的组合。如果两端使用2-mer,则M为4,组合的总数为44=256个不同的组合。如果一端使用1-mer,另一端使用2-mer,则M为3,组合总数为34=81种不同的组合。
图4A-4C显示了本公开实施方式的用于不同类别的末端基序的不同组合以对cfDNA片段进行双端分类。图4A显示了当在两端使用1-mer时的16种不同片段类型。A<>A、A<>G、C<>C(示出的示例)等的命名法在图4中使用,并贯穿本公开。如图所示,1-mer是在两个片段的5'末端确定的,但如本文所述,也可以使用其他惯例。
图4B说明在片段的两端使用2-mer,产生256种不同的片段类型。示例片段具有末端基序CT和GA,可以标记为CT<>GA。
图4C说明了2-mer基序的使用,一个碱基在片段上,另一个碱基在片段外(即,在切割位点的另一侧)。使用2-mers作为末端基序对仍然会产生256种不同的片段类型。但是命名法不同,考虑到使用了片段的碱基;这种碱基可以通过与参考基因组的比对来确定。示例片段具有末端基序TA(片段的末端为T)和CT(片段的末端为C)。在本公开中,示例片段的命名法是t|A<>c|T。
因此,片段两端的序列可用于定义片段类型。可以在片段切割位点周围的可变位置使用1-mer、2-mer、3-mer等进行分析。片段末端也可以仅由-1、-2、-3等位置处的核苷酸定义(即从切割位点的另一侧)。围绕切割位点分析的基序不必是对称的,例如,在切割之前可以有一个核苷酸,在切割之后可以有两个核苷酸,并且核苷酸可以在切割前后不同。片段末端的序列可以通过测序技术或通过基于探针/引物(例如,基于PCR)的方法来确定。使用基于PCR的方法的示例可包括但不限于为通常被切割的基序,例如,ct|CCCA设计引物/探针;和检测定量变化。作为另一示例,连接酶链式反应可在两个探针之间完全互补时用于仅发生连接反应和随后的扩增的位置处。探针可以设计成与末端基序序列互补。
II.肝脏病变筛查
对于不同的受试者群体,血浆和其他无细胞样品中的游离DNA的不同片段类型可能以不同的量出现。在本节中,我们展示了不同的片段类型可用于筛查不同的肝脏病变,例如癌症(如HCC)、乙肝病毒(HBV)或肝硬化。使用1-mers和2-mers作为末端基序显示区分患有HCC和未患HCC的受试者的能力,以及区分早期、中期和晚期HCC的能力。
为了测试双末端分析的潜力,我们使用了数据集包括20名健康对照受试者(对照)、22名慢性乙型肝炎携带者(HBV)、12名肝硬化受试者(Cirr)、24名早期HCC(eHCC)、11名中期HCC(iHCC)和7名晚期HCC(aHCC)进行了测序,其中配对读段的中值为2.15亿(范围:0.97-16.81亿)。这一测序量大致对应于10-100x的测序深度。因此,使用了来自6个不同受试者队列的血浆样本,可能具有四种癌症水平,包括无癌症和三种癌症阶段。总共使用了96个受试者样本。在本节中,分析了1-mer末端基序对的全部16种类型。我们使用了基于Illumina的测序,但也可以使用其他测序平台。使用了亚硫酸氢盐测序,但也可以使用其他测序(例如,未经亚硫酸氢盐处理的DNA的DNA,即DNA-seq)。癌症的分类基于巴塞罗那临床肝癌分期系统,该系统基于许多临床参数。
A.HCC中的1-mer末端基序对
在仅使用1-mer的双末端分析中,片段由片段每端的1-mer末端核苷酸定义,而不是在切割位点的另一侧使用1-mer。在每个样本中计算每个片段类型(特定末端基序对)的比例(相对频率的示例)。例如,C<>C片段的比例(C<>C%)计算为C<>C片段的数量/所有片段类型的总数。
使用这种片段类型比例,我们分析了受试者操作特征(ROC)曲线的曲线下面积(AUC)及其在可能使用1-mer双末端的16种片段类型的每一种中区分非癌症样本(对照,HBV、Cirr)和癌症样本(eHCC、iHCC、aHCC)的可能性。
图5A-图12D显示了本公开实施方式的所有可能的1-mer双末端片段类型的分类结果。在每个样本中计算每个1-mer双末端片段的比例,并将其绘制在6组受试者的相应箱线图中。ROC曲线对应于片段类型百分比区分与AUC一起显示在箱线图左侧的非癌症(控制、HBV携带者(HBV)、肝硬化(cirr))和癌症(早期肝细胞癌(eHCC)、中期肝细胞癌(iHCC)、晚期肝细胞癌(HCC)的能力。在16种类型中,C<>C%表现最好,AUC=0.91。
1.A的结果
图5A-5B显示了本公开实施方式中使用A<>A片段的96名受试者的分类结果。图5A显示了A<>A片段的受试者操作特征(ROC)曲线。图5B显示了六种类型受试者的A<>A片段百分比的箱线图。在图5B中,可知3个非癌症组和3个癌症组之间的差异不显着,导致图5A中的AUC小。
图5C-5D显示了本公开实施方式中使用A<>C片段的96名受试者的分类结果。图5C显示了A<>C片段的ROC曲线。图5D显示了六种类型受试者的A<>C片段百分比的箱线图。不同于图5B,非癌症受试者通常具有高于癌症受试者的A<>C比例。这种差异导致ROC曲线中的AUC更好。如图5D所示,具有A<>C末端的DNA片段比例的参数可以提供约0.8的灵敏度和约0.65的特异性,并具有区分癌症和非癌症受试者的参考值的合适选择。较高或较低的参考值可能导致灵敏度和特异性增加/减少之间的权衡。技术人员将理解灵敏度和特异性之间的权衡,并且能够为任何一组一个或多个末端基序对选择合适的参考(截止)值。
图6A-6B显示了本公开实施方式中使用A<>G片段的96名受试者的分类结果。图6A显示了A<>G片段的ROC曲线。图6B显示了六种类型受试者的A<>G片段百分比的箱线图。如图6B所示,3个非癌症组和3个癌症组之间存在差异,癌症受试者通常具有较高的A<>G百分比。此外,与早期和中期癌症受试者相比,晚期HCC在统计上差异(更高)显著。
图6C-6D显示了本公开实施方式中使用A<>T片段的96名受试者的分类结果。图6C显示了A<>T片段的ROC曲线。图6D显示了六种类型受试者的A<>T片段百分比的箱线图。如图6D所示,3个非癌症组和3个癌症组之间存在显著差异,癌症受试者通常具有较高的A<>T百分比。此外,中期HCC受试者通常具有比早期HCC受试者更高的A<>T百分比,而晚期HCC受试者通常具有比iHCC受试者更高的A<>T百分比。
2.C的结果
图7A-7B显示了本公开实施方式中使用C<>A片段的96名受试者的分类结果。图7A显示了C<>A片段的ROC曲线。图7B显示了六种类型受试者的C<>A片段百分比的箱线图。如图7B所示,3个非癌症组和3个癌症组之间存在差异,癌症受试者通常具有较低的C<>A百分比。
应注意,HBV受试者和肝硬化受试者具有比对照受试者和癌症受试者更高的C<>A百分比。图7B显示双末端分析可以更普遍地用于确定病状水平,而不仅仅是癌症。类似地,A<>C也可以用于这样的分类,例如,如A<>C中所示。稍后提供HBV和肝硬化的进一步检测结果。
图7C-7D显示了本公开实施方式中使用C<>C片段的96名受试者的分类结果。图7C显示了C<>C片段的ROC曲线。图7D显示了六种类型受试者的C<>C片段百分比的箱线图。如图7D所示,3个非癌症组和3个癌症组之间存在显著差异,癌症受试者通常具有较低的C<>C百分比。图7C中的ROC曲线显示了一实施方式可以实现约0.9的特异性同时仍实现约0.8的灵敏度。对于1-mer,C<>C提供最高的AUC。
在一些实施方式中,不同的片段类型可以一起使用,例如,以筛选不同的病状或阳性病状内的不同水平。例如,C<>C可用于筛查癌症,C<>A可用于筛查HBV/肝硬化。如果检测到癌症,则可以使用不同的片段类型(例如,A<>T)来确定癌症的阶段。
图8A-8B显示了本公开实施方式中使用C<>G片段的96名受试者的分类结果。图8A显示了C<>G片段的ROC曲线。图8B显示了六种类型受试者的C<>G片段百分比的箱线图。如图8B所示,非癌症受试者和癌症受试者之间存在一些差异。eHCC受试者的辨别力有些差,但eHCC、iHCC以及aHCC之间的辨别力很好。因此,在癌症检测之后(例如,使用C<>C),C<>G可用于确定癌症的阶段。
图8C-8D显示了本公开实施方式中使用C<>T片段的96名受试者的分类结果。图8C显示了C<>T片段的ROC曲线。图8D显示了六种类型受试者的C<>T片段百分比的箱线图。C<>T的结果很差。
应注意,C<>C在区分癌症和非癌症方面提供了较大的AUC,但C<>T表现不佳,同时A<>A表现不佳,而A<>T表现良好。
3.G的结果
图9A-9B显示了本公开实施方式中使用G<>A片段的96名受试者的分类结果。图9A显示了G<>A片段的ROC曲线。图9B显示了六种类型受试者的G<>A片段百分比的箱线图。不同的组之间的分离不如其他片段类型。
图9C-9D显示了本公开实施方式中使用G<>C片段的96名受试者的分类结果。图9C显示了G<>C片段的ROC曲线。图9D显示了六种类型受试者的G<>C片段百分比的箱线图。如图9D所示,非癌症受试者和癌症受试者之间存在一些差异。eHCC受试者的辨别力有些差,但eHCC、iHCC以及aHCC之间的辨别力很好。因此,在癌症检测之后(例如,使用C<>C),G<>C可用于确定癌症的阶段。图9D中G<>C的性能类似于图8B中C<>G的性能。
图10A-10B显示了本公开实施方式中使用G<>G片段的96名受试者的分类结果。图10A显示了G<>G片段的ROC曲线。图10B显示了六种类型受试者的G<>G片段百分比的箱线图。敏感性在特异性0.6左右发生显著增加。
图10C-10D显示了本公开实施方式中使用G<>T片段的96名受试者的分类结果。图10C显示了G<>T片段的ROC曲线。图10D显示了六种类型受试者的G<>T片段百分比的箱线图。G<>T百分比在癌症和非癌症之间提供合适的区分。
4.T的结果
图11A-11B显示了本公开实施方式中使用T<>A片段的96名受试者的分类结果。图11A显示了T<>A片段的ROC曲线。图11B显示了六种类型受试者的T<>A片段百分比的箱线图。T<>A百分比提供了癌症和非癌症之间的良好区分,其结果如图6D所示,可与A<>T百分比相比较。癌症、HBV以及肝硬化之间的区分特别好。因此,T<>A百分比参数可用于检测受试者是否患有HBV/肝硬化或癌症。下文提供了此类测量的结果。
图11C-11D显示了本公开实施方式中使用T<>C片段的96名受试者的分类结果。图11C显示了T<>C片段的ROC曲线。图11D显示了六种类型受试者的T<>C片段百分比的箱线图。T<>C的结果很差,类似于C<>T的结果,如图8D所示。
图12A-12B显示了本公开实施方式中使用T<>G片段的96名受试者的分类结果。图12A显示了T<>G片段的ROC曲线。图12B显示了六种类型受试者的T<>G片段百分比的箱线图。T<>G百分比在癌症和非癌症之间提供合适的区分。
图12C-12D显示了本公开实施方式中使用T<>T片段的96名受试者的分类结果。图12C显示了T<>T片段的ROC曲线。图12D显示了六种类型受试者的T<>T片段百分比的箱线图。T<>T百分比在癌症和非癌症之间提供了不错的区分,直到约0.8的敏感性,但敏感性的改善随着特异性的下降而停滞。
B.HCC中的2-mer末端基序对
类似的双末端分析也可以在每端使用2-mer进行。如上所述,这样的双末端分析将产生256种不同的组合。分析了2-mer末端基序对的所有256种组合,以确定为在HCC分析中使用的96名受试者提供AUC>0.9的组合。有提供AUC>0.9的11种片段类型(2-mer末端基序对)。
图13A-18B显示了根据本公开的实施方式在区分非癌症和HCC方面具有AUC>0.9的2-mer双末端片段类型的分类结果。在这些片段类型中,AG<>TA片段的AUC最高,为0.938。具有高频率和高AUC的示例片段类型是CC<>CC片段,对照中的中值频率为约3%,AUC=0.916。
AUC>0.9的2-mer双末端片段类型比1-mer双末端片段类型多。但给定组合越多,每种片段类型的出现频率就越低。给定类型的片段越少,可能会影响达到期望统计准确性所需的测序量和样本大小。
1.TA的结果
图13A-13B显示了本公开实施方式中使用AA<>TA片段的96名受试者的分类结果。图13A显示了AA<>TA片段的ROC曲线。图13B显示了六种类型受试者的AA<>TA片段百分比的箱线图。图13C-13D显示了本公开实施方式中使用TA<>AA片段的96名受试者的分类结果。图13C显示了TA<>AA片段的ROC曲线。图13D显示了六种类型受试者的TA<>AA片段百分比的箱线图。AA<>TA和TA<>AA的结果类似。很好区分癌症和非癌症受试者,但不好区分不同癌症阶段。
图14A-14B显示了本公开实施方式中使用AG<>TA片段的96名受试者的分类结果。图14A显示了AG<>TA片段的ROC曲线。图14B显示了六种类型受试者的AG<>TA片段百分比的箱线图。图14C-14D显示了本公开实施方式中使用TA<>AG片段的96名受试者的分类结果。图14C显示了TA<>AG片段的ROC曲线。图14D显示了六种类型受试者的TA<>AG片段百分比的箱线图。
AG<>TA和TA<>AG的结果类似。很好区分癌症和非癌症受试者。也很好区分aHCC与其他两种癌症分类(eHCC和iHCC)。因此,这些片段类型可用于准确识别aHCC受试者,以及筛查癌症。
图15A-15B显示了本公开实施方式中使用TA<>GT片段的96名受试者的分类结果。图15A显示了TA<>GT片段的ROC曲线。图15B显示了六种类型受试者的TA<>GT片段百分比的箱线图。图15C-15D显示了本公开实施方式中使用GT<>TA片段的96名受试者的分类结果。图15C显示了GT<>TA片段的ROC曲线。图15D显示了六种类型受试者的GT<>TA片段百分比的箱线图。
TA<>GT和GT<>TA的结果类似。很好区分癌症和非癌症受试者。尽管不如AG<>TA和TA<>AG,也很好区分aHCC与其他两种癌症分类(eHCC和iHCC)。因此,这些片段类型可用于鉴定aHCC受试者,以及筛查癌症。
2.CC的结果
图16A-16B显示了本公开实施方式中使用CG<>CC片段的96名受试者的分类结果。图16A显示了CG<>CC片段的ROC曲线。图16B显示了六种类型受试者的CG<>CC片段百分比的箱线图。图16C-16D显示了本公开实施方式中使用CC<>CG片段的96名受试者的分类结果。图16C显示了CC<>CG片段的ROC曲线。图16D显示了六种类型受试者的CC<>CG片段百分比的箱线图。
CG<>CC和CC<>GC的结果类似。很好区分癌症和非癌症受试者。也很好区分aHCC与其他两种癌症分类(eHCC和iHCC)。因此,这些片段类型可用于鉴定aHCC受试者,以及筛查癌症。
图17A-17B显示了本公开实施方式中使用CC<>CA片段的96名受试者的分类结果。图17A显示了CC<>CA片段的ROC曲线。图17B显示了六种类型受试者的CC<>CA片段百分比的箱线图。图17C-17D显示了本公开实施方式中使用CA<>CC片段的96名受试者的分类结果。图17C显示了CA<>CC片段的ROC曲线。图17D显示了六种类型受试者的CA<>CC片段百分比的箱线图。
CC<>CA和CA<>CC的结果类似。很好区分癌症和非癌症受试者。也很好区分aHCC与其他两种癌症分类(eHCC和iHCC)。因此,这些片段类型可用于鉴定aHCC受试者,以及筛查癌症。
图18A-18B显示了本公开实施方式中使用CC<>CC片段的96名受试者的分类结果。图18A显示了CC<>CC片段的ROC曲线。图18B显示了六种类型受试者的CC<>CC片段百分比的箱线图。很好区分癌症和非癌症受试者。也很好区分aHCC与其他两种癌症分类(eHCC和iHCC)。因此,这些片段类型可用于鉴定aHCC受试者,以及筛查癌症。
CC<>CC的一优点在于这些片段通常占血浆样品中所有cfDNA的1-5%,从而从相对较小的样品中提供大量DNA片段。例如,500,000个DNA片段可以提供足够的准确度,从而允许使用少量样品(例如,少于1ng的DNA或从血浆中提取的1微升DNA溶液)。例如,5000万个200bp的片段(通常在血浆中)相当于人类基因组的约0.3倍。1mL血浆相当于约1,000至5,000个基因组当量的DNA。平均而言,每个基因组被分割成数百万个DNA片段。即使对于较大的样本,也可以执行较少的测序。但即使对于频率较低的其他片段类型,此类片段在标准测序运行中仍然占多数,因为特定类型的片段可以来自基因组中的任何位置。片段数量和准确性的关系将在后面的部分中说明。
C.使用切割位点两侧的碱基的2-mer末端基序对
如上所述,可以使用位于切割位点任一侧的碱基。切割位点另一侧的碱基可以用小写字母标记,并且片段上的碱基可以用大写字母标记。片段外碱基的使用可以反映片段化依赖于切割位点两侧的碱基的情况。
-1、-2、-3等位置的核苷酸信息可以提供信息并提高双末端分析的性能。在对照测序片段与参考基因组后,可以获得核苷酸信息。在一实施方式中,每一端的-1和+1位的核苷酸用于片段类型分类。为清楚起见,此处以小写字母表示负位置的核苷酸。垂直线(|)表示片段末端的切割位点)。尽管使用了-1和+1位置,但这些位置不必是连续的,例如可以使用-2和+1。
图19A-19B显示了本公开的实施方式中,使用a-1和+1位核苷酸的双末端分析在HCC区分中的性能。图19A-19B显示了本公开实施方式中使用t|C<>c|C片段的分类结果。图19A显示了t|C<>c|C片段的ROC曲线。图19B显示了六种类型受试者的t|C<>c|C片段百分比的箱线图。图19C-19D显示了本公开实施方式中使用c|C<>t|C片段的分类结果。图19C显示了c|C<>t|C片段的ROC曲线。图19D显示了六种类型受试者的c|C<>t|C片段百分比的箱线图。
t|C<>c|C和c|C<>t|C的结果类似,并且是性能最好的-1、+1类型。在HCC数据集的双末端分析中包括-1和+1位置以t|C<>c|C和c|C<>t|C片段中的AUC=0.917实现HCC和非癌症的区分。当碱基在片段上时,此类片段的频率也略高于大多数2-mer片段类型。
D.乙肝和肝硬化
如上所述,一些实施方式可以检测除癌症之外的其他病状水平。对于肝脏,此类病状包括由乙肝病毒(HBV)引起的慢性肝炎和肝硬化。下表1中提供了在区分对照物与由HBV引起的慢性肝炎和对照物与肝硬化方面具有最高AUC的基序。下面是一些示例ROC曲线。
Figure BDA0003775890100000241
表1:在区分对照物与HBV、对照物与肝硬化中具有最高AUC的末端基序对
图20A-20C提供了根据本公开的实施方式的CG<>AA在区分HBV和肝硬化控制中的性能。图20A是CG<>AA的箱线图,显示了对照物和HBV以及肝硬化之间的分离。图20B显示了区分对照物与HBV的CG<>AA的ROC曲线,AUC为0.864,这是HBV的最佳2末端:+2末端基序对。图20C显示了区分对照物与肝硬化的CG<>AA的ROC曲线,AUC为0.804。
图21A-21C提供了根据本公开的实施方式的GC<>TA在区分HBV和肝硬化控制中的性能。图21A是GC<>TA的箱线图,显示了对照物与肝硬化以及HBV之间的分离。图21B显示了区分对照物与HBV的GC<>TA的ROC曲线,AUC为0.766。图21C显示了区分对照物与肝硬化的GC<>TA的ROC曲线,AUC为0.871,与肝硬化的最佳2末端:+2末端基序对一致。
图21D-21F提供了根据本公开的实施方式的TA<>GC在区分HBV和肝硬化控制中的性能。图21D是TA<>GC的箱线图,显示了对照物与肝硬化以及HBV之间的分离。图21E显示了区分对照物与HBV的TA<>GC的ROC曲线,AUC为0.77。图21F显示了区分对照物与肝硬化的TA<>GC的ROC曲线,AUC为0.871,与肝硬化的最佳2末端:+2末端基序对一致。
图22A-22C提供了根据本公开的实施方式的C<>C在区分HBV和肝硬化控制中的性能。图22A是C<>C的箱线图,显示了对照物与肝硬化以及HBV之间的分离。图22B显示了区分对照物与HBV的C<>C的ROC曲线,AUC为0.777。图22C显示了区分对照物与肝硬化的C<>C的ROC曲线,AUC为0.867。
图22D-22F提供了根据本公开的实施方式的C<>A在区分HBV和肝硬化控制中的性能。图22D是C<>A的箱线图,显示了对照物与肝硬化以及HBV之间的分离。图22F显示了区分对照与HBV的C<>A的ROC曲线,AUC为0.761。图22F显示了区分对照与肝硬化的C<>A的ROC曲线,AUC为0.862。
E.其他末端基序对和参数的示例(总值)
如上不同片段类型的末端基序对所示,不同N-mer的不同组合可能产生更好的性能。其他一些示例可以是tt|CC<>ct|CC或a|CCC<>ct|CG。
此外,可以组合不同片段类型的比例,例如,通过对各个值求和、确定统计值(例如,中数、平均值、加权平均值、中值或众数),或用作机器学习模型的输入。例如,一组片段类型中的每一个可以形成表示多维数据点的向量的一个维度。不同分类的数据点可以形成集群,其中,新样本的新数据点可以基于与每个集群质心的向量距离(例如,片段类型比例的差异)分配给集群。可以使用各种其他模型,例如支持向量机、决策树、神经网络等。
III.其他组织的病状
末端基序对也可用于筛选其他癌症。作为其他癌症的例子,使用结肠直肠癌(CRC)、肺鳞状细胞癌(LUSC)、鼻咽癌(NPC)和头颈部鳞状细胞癌(HNSCC)。这些癌症很好地代表了可以检测到的常见癌症。
我们对另外30个对照样本和40个其他癌症类型(10个结直肠癌(CRC)、10个肺鳞状细胞癌(LUSC)、10个鼻咽癌(NPC)以及10个头颈部鳞状细胞癌(HNSCC))的血浆DNA样本到4200万(范围:1900万-6500万)的中位配对读数。
A.CC<>CC
鉴于CC<>CC表现良好且这种片段类型在血浆样本中普遍存在,我们测试了CC<>CC%双末端分析在其他类型癌症中的可能性。
图23-25B根据本公开的实施方式,显示了在区分控制和诸如结肠直肠癌(CRC)、肺鳞状细胞癌(LUSC)、鼻咽癌(NPC)和头颈部鳞状细胞癌(HNSCC)的其他癌症中CC<>CC片段比例和AUC值的ROC曲线。如图23所示,在将非癌症与这四种癌症类型的组合分开方面,AUC为0.77。确定包括AUC的ROC曲线的准确性以区分受试者是否患有癌症。
我们还分别分析了这四种癌症中的每一种。提供ROC曲线和AUC以区分对照物和特定类型的癌症。
图24A显示了本公开实施方式中区分对照物和CRC方面的CC<>CC片段比例和AUC值的ROC曲线。图24B显示了本公开实施方式中区分对照物和LUSC方面的CC<>CC片段比例和AUC值的ROC曲线。图25A显示了本公开实施方式中区分对照物和NPC方面的CC<>CC片段比例和AUC值的ROC曲线。图25B显示了本公开实施方式中区分对照物和HNSCC方面的CC<>CC片段比例和AUC值的ROC曲线。当由各种癌症类型区分时,区分HNSCC的AUC为0.913,NPC为0.833,CRC为0.697,LUSC为0.663。
B.-1和+1位置
我们还分析了片段外碱基的使用,特别是与+1位置组合的-1位置。下面提供了用于区分这四种其他癌症的双末端分析中包括-1位核苷酸的示例。
1.t|C的结果
图26A-28B显示了本公开的实施方式中,-1和+1位核苷酸的双末端片段的三个示例在区分其他癌症(CRC、LUSC、NPC、HNSCC)中的性能。这三个示例中的每一个都在一端或两端包含t|C。对于t|C<>t|C%,AUC为0.827。对于t|C<>a|C,AUC为0.83。对于a|C<>t|C%,AUC为0.83。这是这种类型中表现最好的三个末端基序对。在双末端分析中包括-1位,从而对其他癌症类型的区分增强。在区分非癌症与其他四种癌症类型(CRC、LUSC、NPC、HNSCC)时,一些片段类型的比例比使用CC<>CC%表现更好。
图26A示出了本公开实施方式中,对照物、CRC、LUSC、NPC以及HNSCC的t|C<>t|C百分比的箱线图。这四种癌症中的每一种通常具有较低的t|C<>t|C百分比值。图26B显示了t|C>t|C片段的ROC曲线和AUC(0.827)。
图27A示出了本公开实施方式中,对照物、CRC、LUSC、NPC以及HNSCC的t|C<>a|C百分比的箱线图。这四种癌症中的每一种通常具有较低的t|C<>a|C百分比值。图27B显示了t|C<>a|C片段的ROC曲线和AUC(0.83)。
图28A示出了本公开实施方式中,对照物、CRC、LUSC、NPC以及HNSCC的a|C<>t|C百分比的箱线图。这四种癌症中的每一种通常具有较低的a|C<>t|C百分比值。图28B显示了a|C<>t|C片段的ROC曲线和AUC(0.83)。
2.每种癌症的最佳结果
当单独分析每种癌症类型时,不同的片段类型可以针对不同的癌症实现最高性能。
图29A-30B显示了本公开的实施方式中,-1和+1位核苷酸的各个双末端片段在区分各个CRC、LUSC、NPC、HNSCC中的最佳性能。图29A显示本公开实施方式的CRC的g|G<>a|T片段的ROC曲线和AUC。图29B显示本公开实施方式的LUSC的a|G<>g|T片段的ROC曲线和AUC。图30A显示本公开实施方式的NPC的g|T<>t|G片段的ROC曲线和AUC。图30B显示本公开实施方式的HNSCC的a|T<>a|G片段的ROC曲线和AUC。
g|G<>a|T片段的百分比以0.928的AUC区分CRC与非癌症(图29A);a|G<>g|T片段的百分比以0.953的AUC将LUSC与非癌症区分开来(图29B);g|T<>t|G片段的百分比以0.943的AUC将NPC与非癌症区分开来(图30A);a|T<>a|G片段的百分比以0.953的AUC将HNSCC与非癌症区分开来(图30B)。
IV.区分病状的不同阶段
一些实施方式可以区分不同的病理阶段(例如,癌症)。可以使用第二组末端基序对(多个)来在二次处理中进行这种区分,例如,在执行一次处理以区分受试者是否患有病状的情况下。例如,C<>C可用于确定癌症是否存在的一次处理。然后,A<>T可用于区分癌症的早期、中期和晚期。此外,不同组的末端基序对可用于区分不同阶段的癌症。因此,各种模型(例如,每个模型具有不同的末端基序对)可以共同使用或作为单个模型(例如,决策树)来确定病状的阶段。
A.HCC
图31显示了根据本公开的实施方式的表格,该表格包括具有最高曲线下面积(AUC)的末端基序在区分癌症的不同阶段时的性能结果。结果显示了区分癌症的三个阶段的准确性,即(a),区分早期与中期HCC;(b),区分中期与晚期HCC;(c),区分早期与晚期HCC。基序类型列出了四种不同类别的片段类型:(1),2末端:-1+1;(2),2末端:-2+2;(3),2末端:+2;(4),2末端:+1。为每个基序类型和癌症阶段之间的各个成对区分提供了表现最好的末端基序对。一些AUC为1,显示100%的准确度。早期/中期以及晚期HCC之间的区别可以100%准确度完成,有许多选项可用于区分中期和晚期HCC。图32中提供了一些末端基序对。
图32示出了在区分中期和晚期HCC方面具有100%准确度的所有2end:-2+2类型的列表3200以及在区分早期和晚期HCC方面具有100%准确度的所有2end:-2+2类型的列表3250。
下面提供了一些性能最好的2末端:-1+1末端基序类型的性能图表。
图33A-33D提供了性能最佳双末端-1和+1位基序在区分早期与中期HCC中的性能结果。图33A显示了三个HCC阶段的t|G<>a|C%的箱线图。如图所示,t|G<>a|C%随着癌症的阶段而逐渐降低。在一些实施方式中,可以使用每个分类的中值或平均值来确定校准函数,从而允许更多分类,例如,作为阶段之间的连续统。这样的校准函数可以与任何末端基序对(多数)一起使用。图33B显示了使用t|G<>a|C来区分eHCC和iHCC的ROC曲线。图33C显示了使用t|G<>a|C来区分iHCC和aHCC的ROC曲线。图33D显示了使用t|G<>a|C来区分eHCC和aHCC的ROC曲线。
图34A-34D提供了性能最佳双末端-1和+1位置基序在区分中期与晚期HCC中的性能结果。图34A显示了三个HCC阶段的c|G<>a|T%的箱线图。如图所示,c|G<>a|T%随着癌症的阶段而逐渐增加。图34B显示了使用c|G<>a|T来区分eHCC和iHCC的ROC曲线。图34C显示了使用c|G<>a|T来区分iHCC和aHCC的ROC曲线,实现了AUC为1。图34D显示了使用c|G<>a|T来区分eHCC和aHCC的ROC曲线。
图35A-35D提供了性能最佳双末端-1和+1位置基序在区分早期与晚期HCC中的性能结果。图35A显示了三个HCC阶段的c|T<>a|A%的箱线图。如图所示,c|T<>a|A%随着癌症的阶段而逐渐增加。图35B显示了使用c|T<>a|A来区分eHCC和iHCC的ROC曲线。图35C显示了使用c|T<>a|A来区分iHCC和aHCC的ROC曲线。图35D显示了使用c|T<>a|A来区分eHCC和aHCC的ROC曲线,实现了AUC为1。
图36A-36D提供了性能最佳双末端-1和+1位置基序在区分早期与晚期HCC中的性能结果。图36A显示了三个HCC阶段的a|A<>c|T%的箱线图。如图所示,a|A<>c|T%随着癌症的阶段而逐渐增加。图36B显示了使用a|A<>c|T来区分eHCC和iHCC的ROC曲线。图36C显示了使用a|A<>c|T来区分iHCC和aHCC的ROC曲线。图36D显示了使用a|A<>c|T来区分eHCC和aHCC的ROC曲线,实现了AUC为1。
B.SLE
一些实施方式还可以将自身免疫性疾病作为病状分类水平(例如,系统性红斑狼疮,SLE)。对34个样本(10个对照物,10个非活动性SLE,14个活动性SLE)进行了亚硫酸氢盐测序。SLE的活动性由SLEDAI(系统性红斑狼疮疾病活动指标)确定。
1.+1末端基序对
图37A-37D提供了根据本公开的实施方式的C<>C在区分不典型系统性红斑狼疮和典型系统性红斑狼疮控制中的性能。片段类型C<>C是区分对照物与活动性SLE的最佳双末端+1位置基序。
图38A-38D提供了根据本公开的实施方式的A<>A在区分不典型系统性红斑狼疮和典型系统性红斑狼疮控制中的性能。片段类型A<>A是区分对照物与非活动性SLE以及非活动性SLE与活动性SLE的最佳双末端+1位置基序。
2.+2末端基序对
表2中提供了性能最佳的双端+2片段类型,用于区分对照物、非活动性SLE以及活动性SLE。还提供了特定片段类型的箱线图和ROC曲线。
Figure BDA0003775890100000291
Figure BDA0003775890100000301
表2:在区分对照物与非活动性SLE;对照物与活动性SLE;非活动性SLE与活动性SLE中具有最高AUC的末端基序对。这些数字代表受试者操作特征曲线分析的曲线下面积(AUC)。
图39A-39D提供了根据本公开的实施方式的GT<>TG在区分不典型系统性红斑狼疮和典型系统性红斑狼疮控制中的性能。片段类型GT<TG是区分对照物与非活动性SLE的最佳双末端+2位置基序。如图所示,图39A显示了对照物(CTR)和非活动性SLE之间的良好分隔,导致用于区分CTR和非活动性SLE的AUC为0.95。
图40A-40D提供了根据本公开的实施方式的TG<>CC在区分不典型系统性红斑狼疮和典型系统性红斑狼疮控制中的性能。片段类型TG<CC与用于区分对照物与活动性SLE的最佳双末端+2位置基序一致。如图所示,图40A显示了所有三个分类之间的良好分隔,并且在CTR和活动性SLE之间具有100%的准确度。
图41A-41D提供了根据本公开的实施方式的TG<>GG在区分不典型系统性红斑狼疮和典型系统性红斑狼疮控制中的性能。片段类型TG<GG是用于区分非活动性SLE与活动性SLE的最佳双末端+2位置基序。如图所示,图41A以类似中值显示了CTR和非活动性SLE。然而,图41A显示了非活动性SLE和活动性SLE之间的良好分隔,导致用于区分非活动性SLE和活动性SLE的AUC为0.929。
3.-1和+1末端基序对
表3中提供了用于区分对照物、非活动性SLE以及活动性SLE的性能最佳的双末端-1、+1片段类型。还提供了特定片段类型的箱线图和ROC曲线。
双端+2基 对照物与非活动 对照物与活动 非活动性SLE与活
t|C<>t|C 0.79 1 0.857
t|C<>a|C 0.79 1 0.857
a|C<>t|C 0.79 1 0.857
a|A<>c|A 0.94 1 0.764
c|A<>a|A 0.95 1 0.75
g|C<>g|C 0.86 0.757 0.921
表3:在区分对照物与非活动性SLE;对照物与活动性SLE;非活动性SLE与活动性SLE中具有最高AUC的-1和+1末端基序对。这些数字代表受试者操作特征曲线分析的曲线下面积(AUC)。
图42A-42D提供了根据本公开的实施方式的c|A<>a|A在区分不典型系统性红斑狼疮和典型系统性红斑狼疮控制中的性能。片段类型c|A<>a|A是用于区分对照物与非活动性SLE的最佳双末端-1和+1位置基序。如图所示,图42A显示了对照物(CTR)和非活动性SLE之间的良好分隔,导致用于区分CTR和非活动性SLE的AUC为0.95(图42B)。片段类型c|A<>a|A也与用于区分对照物与活动性SLE的最佳的双末端-1和+1位置基序一致。如图所示,图42C显示了CTR和活动性SLE之间的100%准确度。
图43A-43D提供了根据本公开的实施方式的g|C<>g|C在区分不典型系统性红斑狼疮和典型系统性红斑狼疮控制中的性能。片段类型g|C<>g|C是用于区分非活动性SLE与活动性SLE的最佳双末端-1和+1位置基序。如图所示,图43A显示了非活动性SLE和活动性SLE之间的良好分隔,导致用于区分非活动性SLE和活动性SLE的AUC为0.921(图43D)。
可以组合使用不同的片段类型来确定正确的分类。例如,性能最佳的片段类型(或准确度足够高的片段类型)可以用于三个成对比较中的每一个,例如,与在两个分类之间进行区分的参考值的比较。然后,如果三个比较中的两个提供了相同的分类,则可以使用该分类。作为另一示例,只需要进行两次比较。例如,首先可以执行对照物与非活动性的比较。然后,如果第一个分类是对照物,则可以执行对照物与活动性的比较来确认对照物分类。如果第一个分类是非活动性的,则可以执行非活动性与活动性的比较来确认非活动性分类。如果第二分类不同于第一分类,则可以执行第三成对比较来确定第三分类是否与第二分类一致。其他示例可以使用决策树、SVMS或其他机器学习技术。
V.测序深度对准确度的影响
在本节中,我们将讨论测序深度对准确度的影响。第二部分中的分析使用了2.15亿的配对读段中位数(范围:0.97-16.81亿)。然而,较少的读取可以提供足够的准确性,从而实现更少的测序和更小的样本。
图44A-44B示出了本公开的实施方式中,C<>C片段在各个样品中使用较少片段(2000万片段)区分非癌症和HCC方面的性能。图44A中的箱线图类似于图7D中的箱线图,尽管分析了较少的DNA片段,但图44B中的ROC曲线类似于图7C中的ROC曲线。因此,图44A-44B显示即使使用较浅的测序深度,仍然可以获得良好的准确度。例如,使用2000万个片段可实现0.909的AUC。
我们使用不同数量的片段对性能进行了进一步调查。我们增加了读段数量,从而提高了测试的性能,例如,通过AUC测量。我们通过执行降采样分析来说明双端CC<>CC%在测序深度较浅的样本中的性能。
图45是本公开的实施方式中,描绘AUC的图表,所述AUC可通过使用CC<>CC片段作为通过降采样评估的片段序列总数的函数来实现。从每个样品的测序片段中,随机抽取较小的读段子集,并进行了CC<>CC%分析以获得AUC。对于每个较小的读段子集,进行了20次随机抽样。对逐次变小的读段子集进行采样,以说明CC<>CC%分析所需的测序读段的下限。
在图45中,对5,000个片段进行了测序,所实现的中间AUC高于0.9。随着测序片段数量增加,通过CC<>CC%分析实现的AUC的变化减少。因此,当有5,000个片段时,实施方式可以以合理的准确度区分癌症的不同分类。如上所述,可以使用小于1微升的样品,甚至可以使用1纳升左右的5,000个片段。此外,对5,000个片段进行测序时的时间和成本可以相对较低,例如,与在无创产前非整倍体检测中的500万个典型测序片段相比。
VI.使用末端基序对进行病状筛查
根据以上描述,一些实施方式可以提供一种通过分析受试者的生物样品来确定病状水平的方法,其中,生物样品包括无细胞DNA,例如,存在于血浆或血清中的DNA。病状示例包括肝脏病状(例如,由HBV或肝硬化或HCC引起的慢性肝炎),以及其他器官的其他病变,例如,其他癌症。另一示例包括自身免疫失调,例如SLE。
A.病状筛查方法
图46是示出本公开实施方式的用于确定利用游离DNA(cfDNA)片段的末端基序对水平的方法的流程图。病状水平可以从受试者的生物样品中确定,其中,生物样品包括源自正常组织(即不受病状影响的细胞)的cfDNA片段和可能源自受病状(例如,当病状存在于受试者中时)影响的病变组织的cfDNA片段的混合。来自病变组织的cfDNA片段可以看作是临床相关DNA,而正常组织可以看作是其他DNA。方法4600和本文所述的任何其它方法的各方面可以由计算机系统执行。
在框4610处,分析来自生物样本的多个无细胞DNA片段以获得序列读段。序列读段包括与多个无细胞DNA片段的末端对应的终止序列。作为示例,可以使用测序或基于探针的技术获得序列读段,这两种技术都可以包括例如经由扩增或捕获探针进行富集。
可以按多种方式进行测序,例如使用大规模平行测序或下一代测序、使用单分子测序和/或使用双链或单链DNA测序文库制备方案。所属领域的技术人员将了解可以使用的各种测序技术。作为测序的一部分,一些序列读段可以对应于细胞核酸。测序可以是如本文中所描述的靶向测序。例如,可以富集生物样本中来自特定区域的DNA片段。富集可以包括使用捕获探针,所述捕获探针与例如入通过参考基因组定义的基因组的一部分或整个基因组结合。
可以分析统计上显著数量的无细胞DNA分子,以提供浓度分数的准确测定。在一些实施方式中,分析至少1,000个无细胞DNA分子。在其它实施方式中,可以分析至少10,000个、或50,000个、或100,000个、或500,000个、或1,000,000个、或5,000,000个无细胞DNA分子或更多。
在框4620处,对于多个无细胞DNA片段中的每一个无细胞DNA片段,确定无细胞DNA片段的终止序列的一对序列基序。这些末端基序对可以对应于本文所述的不同类型的片段,例如,对于1-mers、2-mers等。末端基序对可以在一端包括K个碱基位置(例如,1、2、3、4、5、6等),并且在另一端包括M个碱基位置(例如,1、2、3、4、5、6等),总共K+M=N个碱基。如本文所述,特定的末端基序可以包括在切割位点的另一侧上的包含位置。因此,一组一个或多个序列基序对可以包括N个碱基位置,由一端的K个碱基和另一端的M个碱基组成。例如,末端基序对可以通过如下方法确定:分析DNA片段末端处的序列(例如,使用一对序列读段或整个片段的单个序列读段),将(多数)信号与特定基序对(例如,当使用(多数)探针时)相关联,和/或将序列读段(多数)与参考基因组进行比对,例如,如图1或图4的技术160中所述。
例如,在通过测序设备进行测序之后,序列读段可以由计算机系统接收,所述计算机系统可以与进行测序的测序装置以可通信的方式耦合,例如通过有线或无线通信或通过可拆卸的存储器装置。在一些实施方式中,可以接收包括核酸片段的两个末端的一个或多个序列读段。DNA分子的位置可以通过将DNA分子的一个或多个序列读段定位(比对)至人基因组的相应部分,例如特定区域来确定。在其它实施方式中,特定探针(例如,在PCR或其它扩增之后)可以例如通过特定的荧光颜色来指示位置或特定的末端基序。两种颜色(信号示例)的特定组合可以表示一对特定的末端基序。鉴定可以是无细胞DNA分子对应于序列基序的集合中的一个序列基序对。
在框4630处,确定与多个无细胞DNA片段的终止序列对应的一个或多个序列基序对的集合的一个或多个相对频率。序列基序对的相对频率可以提供具有与所述序列基序对对应的一对终止序列的所述多个无细胞DNA片段的比例。在整个公开内容中描述了相对频率的示例。
该组一个或多个序列基序对可以使用具有已知的病状水平的参考(训练)样本的参考(训练)组来识别。参考样本的示例组是第II部分中使用的96个样本,可用于确定用于训练模型的特定末端基序对,例如,确定满足灵敏度和特异性标准的(多个)参考值。可以基于用于区分类别的差异来选择特定的末端基序对(例如,以选择具有最高绝对值或百分比差异的末端基序对)。例如,一个或多个序列基序对的集合可以是在在两个分类的参考样本之间具有最大差异的前L个序列基序对,例如,显示出最大正差异的基序(例如,前1、2、3等或其他数字)或显示最大的负差异。M可以是等于或大于1的整数。使用前序列基序对(即末端基序对)是使用特定片段类型的所有可能的组合的子集的示例。
可以使用特定类型序列基序对的组合的全部或子集,或甚至可以使用各种类型的组合(全部或子集)。因此,一组一个或多个序列基序对可以包括N个碱基(一端为K,另一端为M)的所有组合,其中,N是等于或大于2的整数。作为另一示例,一个或多个序列基序对的集合可以是在一个或多个参考样品中出现的前J个最频繁的序列基序对,其中,J是等于或大于1的整数。
在框4640处,确定一个或多个序列基序对的集合的相对频率的合计值。在整个公开内容中描述了示例性合计值,例如,仅包括一个相对频率本身、相对频率的总和以及参考数据点(从参考样本确定的参考模式)与对应于一组K末端基序对的相对频率的向量的多维数据点之间的距离。因此,当一个或多个序列基序对的集合包括多个序列基序时,合计值可以包括该集合的相对频率的和。该总和可以是加权总和,例如,提供更高辨别力(例如,由AUC确定)的相对频率可以被加权更高。
作为另一示例,合计值可以包括多维数据点与相对频率的参考图案(数据点)的差值(例如,距离)。因此,确定多个相对频率的合计值可以包括确定多个相对频率中的每一个与参考图案的参考频率之间的差值,其中合计值包括差值的总和。参考图案的参考频率可以从一个或多个具有已知分类的参考样本中确定。
该距离可以是欧几里得距离或针对不同维度加权,例如针对提供更高辨别力的末端基序的维度。此距离可用于聚类、支持向量机(SVM)或其他机器学习模型。参考模式可以从参考样本的训练集中建立。病状水平的给定分类的参考图案可以确定为具有该分类的数据点聚类中的质心。可以从这样的距离导出聚合值,例如,从差异确定的可能性或机器学习模型中的最终或中间输出(例如,神经网络中的中间或最终层)。这样的值可以与两个分类之间的截止值(下一个块中的参考值)进行比较,或者与给定分类的代表值进行比较。在各种具体实现中,机器学习模型使用聚类、神经网络、支持向量机或逻辑回归。
在框4650处,基于聚合值与参考值的比较来确定受试者的病状水平的分类。作为示例,水平可以是没有病状(例如,癌症)、早期、中期或晚期。然后,分类法可以选择所述水平中的一种水平。因此,可以根据包括多个病状时期(例如,癌症或SLE)的多个病状水平确定分类。参考值可以从参考样品确定,例如,使用本文所述的ROC曲线。作为病状为癌症的示例,癌症可以是肝细胞癌、肺癌、乳腺癌、胃癌、多形性成胶质细胞瘤、胰腺癌、结直肠癌、鼻咽癌、和头颈鳞状细胞癌,或本文提及的其他癌症。由于疾病(例如,癌症)的阶段可以与结果、预后、缓解、存活或对治疗的反应相关,因此实施方式在医疗保健中具有有价值的效用。
在一些实施方式中,使用一个或多个标准过滤无细胞DNA以鉴定多个无细胞DNA片段。本文提供了过滤的示例。例如,过滤可以基于甲基化(密度或特定位点是否被甲基化)、大小、或DNA片段所来源于的区域。可以过滤无细胞DNA中来自特定组织的开放染色质区域的DNA片段。
如上所述,结合多于一个末端基序对的相对频率来确定一个合计值可以实现更好的性能。附加地或替代地,一个或多个末端基序对的不同组的分类可以例如组合在整体技术中。示例性集成技术包括投票(例如,多数投票、与可以在bagging中完成的投票权重相同,以及在训练集或总体中按分类的可能性进行加权)、平均和提升。
在一些实施方式中,第一组一个或多个末端基序对可用于确定第一分类,例如,是否存在病状。例如,C<>C可用于确定癌症是否存在的一次处理。然后,可以针对第二组一个或多个末端基序对重复块4630-4650,以区分病状的不同阶段(例如,癌症)。例如,A<>T可用于区分癌症的早期、中期和晚期。因此,可以确定对应于多个无细胞DNA片段的终止序列的一组一个或多个附加序列基序对的一个或多个附加相对频率。并且可以确定一组一个或多个附加序列基序对的一个或多个附加相对频率的附加总值。可以基于附加总值与附加参考值的比较来确定受试者的癌症阶段。在第IV.A节中提供了区分癌症阶段的示例。
可以对多组序列基序对(多数)执行多重分类,每组提供一个分类。这些分类可以组合起来(例如,在集成技术中)。因此,框4650中的分类可以是第一分类,并且可以为一组或多组额外的序列基序对确定一个或多个额外的分类。然后可以使用第一分类和一个或多个附加分类来确定最终分类,例如,通过多数表决,或者可以从各种分类中确定给定分类的概率。
此外,此类双末端分析可以与其他分类结合,例如拷贝数异常、甲基化特征或序列突变,以提高性能。这样的分类可以结合在一个集成技术中。
B.与其他技术的比较
其他工作也分析了cfDNA以区分HCC和非HCC。江等人使用HCC患者血浆的高深度测序来确定肿瘤相关的优选末端坐标(9)。肿瘤相关与非肿瘤相关优选终点的比率用于区分非HCC和HCC,AUC为0.88。姜等人的操作与方法4600在以下几个方面不同:1)它们需要对HCC患者和HBV携带者的cfDNA进行高深度测序,以获得特定的肿瘤和非肿瘤相关基因组坐标;2)需要将片段对齐回参考基因组坐标,并且3)他们将与特定基因组坐标对齐的片段的任一端计为结束。
另一种技术可以使用5'端的4-mer基序来区分癌症和非癌症。可以通过分别考虑片段的每个读段的5'末端(每个片段中的两个)来计算4-mer基序频率。例如,可以使用特定基序,或从4-mer基序派生的熵值,称为基序多样性值(MDS),可用于区分HCC和非HCC,AUC为0.856。MDS是变化的一个示例。为了分析基序的频率分布(例如,对于4-mer的总共256个基序),MDS的一种定义使用以下方程式:
Figure BDA0003775890100000361
其中Pi是特定基序的频率;较高的熵值表示较高的多样性(即较高的随机度)。
图47示出了本公开实施方式中来自对相同非HCC和HCC数据集的不同分析方法的多条ROC曲线。还显示了每种方法的AUC。与MDS相比,P值检验各种AUC的真实差异。数据集与第二节中使用的相同。
箱线图中的每一行对应于一种不同的技术,例如,不同的基序,是使用两端还是只使用一端,以及MDS。4710行对应于c|T<>c|C。4720行对应于CC<>CC。4730行对应于C<>C。4740行对应于一端的C。4750行对应于一端的CC。4760行对应于一端的CCCA。4770行对应于MDS。
与MDS和分别使用每个末端进行分析(表示为1末端分析)相比,使用相对数量的一种或多种类型(具有指定的一组末端基序对的片段)的双末端分析在HCC数据集中表现更好。c|T<>c|C%的AUC为0.917;CC<>CC%的AUC为0.916;C<>C%的AUC为0.910。C%的1末端分析的AUC为0.882;CC%为0.881%;CCCA%为0.876;并且MDS为0.856。从c|T<>c|C%、CC<>CC%以及C<>C%分析获得的AUC与MDS(p值分别为0.02、0.0009以及0.0178)的AUC显着不同。
还在其他类型癌症中的双末端分析、MDS以及1末端分析之间进行了比较。
图48-50B显示了本公开的实施方式中,来自对具有30个控制方法的数据集和40个诸如CRC、LUSC、NPC和HNSCC的其他癌症的不同分析方法的多条ROC曲线。还显示了每种方法的AUC。数据集与第三节中使用的相同。
图48显示了各种方法共同区分癌症与非癌症的性能。4810行对应于g|G<>a|T。4820行对应于a|C<>t|C。4830行对应于MDS。4840行对应于C<>C。4850行对应于一端的CCCA。4860行对应于CC<>CC。在这个包含其他40种癌症的数据集中,g|G<>a|T和a|C<>t|C片段百分比是具有良好性能的示例片段类型,AUC分别为0.914和0.830。CC<>CC%的AUC为0.777,而MDS为0.773。
图49A示出了本公开实施方式的区分对照物与NPC的各种方法的性能。4910行对应于MDS。4920行对应于C<>C。4930行一端对应CCCA。4940行对应于CC<>CC。对于NPC,使用CC<>CC%区分癌症和非癌症的能力具有0.833的AUC。
图49B示出了本公开实施方式的区分对照物与HNSCC的各种方法的性能。4950行对应于MDS。4960行对应于C<>C。4970行一端对应CCCA。4980行对应于CC<>CC。对于HNSCC,使用CC<>CC%区分癌症和非癌症的能力具有0.913的AUC。
图50A示出了本公开实施方式的区分对照物与CRC的各种方法的性能。5010行对应于MDS。5020行对应于C<>C。5030行一端对应CCCA。5040行对应于CC<>CC。对于CRC,MDS表现最好,AUC为0.76。
图50B示出了本公开实施方式的区分对照物与LUSC的各种方法的性能。5050行对应于MDS。5060行对应于C<>C。5070行一端对应CCCA。5080行对应于CC<>CC。对于HNSCC,MDS表现最好,AUC为0.77。对于CRC和LUSC,虽然用CC<>CC%区分癌症和非癌症是可能的,但AUC小于MDS。
VII.临床相关DNA的分数浓度
双末端分析的另一个应用是区分胎儿和母体的DNA分子。为了评估双末端分析在区分胎儿和母体分子方面的可能性,我们探索是否可以在已知的胎儿和母体分子之间检测到片段类型百分比的差异。其他实施方式可以确定其他临床相关DNA的分数浓度,例如肿瘤和移植物。
A.胎儿浓度
使用母亲为纯合(AA)而胎儿为杂合(AB)的信息性单核苷酸多态性(SNP)位点鉴定胎儿和母体分子。胎儿特异性分子携带胎儿特异性等位基因(B)。携带共享等位基因(A)的分子代表主要是母源的DNA分子,因为胎儿DNA分子通常在母体血浆DNA中是少数。
从妊娠早期(12-14周,n=10)、妊娠中期(20-23周,n=10)以及妊娠晚期(38-40周,n=10)血浆和母系血沉棕黄层样品。从总共30名孕妇(每三个月10名)获得血浆和血沉棕黄层样品。使用微阵列平台(Human Omni2.5,Illumina)对母体血沉棕黄层和胎儿样品进行基因分型,并对匹配的血浆DNA样品进行测序。技术人员将理解可以使用其他基因分型技术和平台。我们获得了195,331个信息性SNP(范围:146,428-202,800)的中值,其中母亲是纯合的(AA)并且胎儿是杂合(AB)的。对于每种情况,获得了中值为1.03亿(范围:5200万-1.86亿)的经定位的配对末端读段。在那些样本中的中值胎儿DNA分数是17.1%(范围:7.0%-46.8%)。
1.区分共享等位基因和胎儿等位基因
从这个数据集中,我们测试了双末端分析在区分胎儿(Spec)和母体(共享)分子方面的性能。分析特定双末端片段类型的百分比以检测在任何信息位点处具有共享等位基因(Shared)的DNA片段与具有胎儿特异性等位基因(Spec)的DNA片段之间的比例差异。使用具有共享等位基因的DNA片段的总数来确定共享等位基因的任何给定片段类型的百分比。胎儿特异性等位基因的任何给定片段类型的百分比是使用具有胎儿特异性SNP的DNA片段的总数来确定的。
图51A-51B显示了根据本公开的实施方式区分胎儿特定分子和共有分子的双末端分析。图51A显示具有CC<>CC的片段在具有共享等位基因(Shared)的所有片段中的百分比和具有CC<>CC的片段在具有胎儿特异性等位基因(Spec)的所有片段中的百分比。这些线连接同一样本的两个数据点。可以看出,百分比通常从共享等位基因增加到胎儿特异性等位基因。图51B显示具有C<>C的片段在具有共享等位基因(Shared)的所有片段中的百分比和具有C<>C的片段在具有胎儿特异性等位基因(Spec)的所有片段中的百分比。CC<>CC的性能优于C<>C。
使用2-mers的双末端分析,可以区分胎儿特异性分子和共享分子。使用CC<>CC%的实施方式在胎儿特异性分子中显着高于共享分子(配对Wilcoxon符号秩U检验,P值=0.002)。因此,片段上CC<>CC的存在表明片段来自胎儿的更高可能性。各种实施方式可以以各种方式使用这种增加的可能性,例如,测量胎儿DNA片段的浓度或滤除母体DNA片段,例如,富集cfDNA片段的样品(序列读段)以用于胎儿来源的那些片段。这种富集可以允许更准确的测量,例如,检测一个区域的非整倍性或缺失/扩增。
2.与胎儿cfDNA分数的关系
鉴于特定双末端片段类型来自胎儿细胞的可能性更高,实施方式可以利用这种关系来测量无细胞DNA样品中的胎儿DNA分数。例如,如上所述,可知特定样品类型的胎儿DNA分数,例如,胎儿是男性,从而来自Y染色体的DNA片段是胎儿特有的,或者胎儿特异性等位基因已被鉴定。然后,一旦确定已知(校准)样品中的胎儿DNA分数与特定片段类型(多数)的比例之间的对应关系,则新样品中片段类型比例的新测量可以提供胎儿DNA分数。
图52A显示了本公开的实施方式中,双末端C<>C%和胎儿DNA分数之间的函数关系。横轴是胎儿DNA分数,使用前一节中描述的胎儿特异性SNP测量。纵轴是样品中C<>C片段的百分比。可以看出,如果每种类型的片段均等表示,则C<>C片段的百分比高于1/16。因此,与具有较低含量范围的其他片段类型相比,可以用相对较小的样本进行足够数量的DNA片段在统计上稳定的测量。图52A中的C<>C%是使用具有共享和胎儿特异性等位基因的DNA片段确定的。
C<>C片段百分比随着胎儿DNA分数而增加,如校准函数的正斜率所表示,校准函数是适合校准数据点3605的线性函数。每个校准数据点包括胎儿DNA分数的测量值(例如,使用胎儿特异性等位基因)和作为校准值的一示例的C<>C片段%的测量值。如果C<>C片段百分比更高,则胎儿DNA分数将更高。使用校准功能3610,约11%的C<>C测量值可用于估计胎儿DNA分数为约30%。因此,用C<>C%的双末端分析是估计胎儿分数的有效指标。胎儿分数与C<>C%的相关性为R=0.38(P值=0.0373)。
图52B显示了本公开的实施方式中,双末端CC<>CC%和胎儿DNA分数之间的函数关系。这种函数关系可以以与图52A相似的方式使用。较高比例的C<>C片段可以为胎儿DNA分数提供更稳定的功能关系,即使CC<>CC可以提供更好的DNA片段区分。在这方面,当比较C<>C与CC<>CC片段的比例时,分子的数量减少了约3倍。
可以对其他类型的临床相关DNA进行类似的分析,例如肿瘤DNA或来自移植器官的DNA。
B.其他临床相关DNA的浓度
临床相关的DNA也可以包括肿瘤DNA。一些实施方式可以以与上文确定胎儿浓度类似的方式确定样品中的肿瘤DNA浓度。
图53显示了本公开的实施方式中,C<>G%和肿瘤浓度之间的函数关系。在HCC样本中,IchorCNA(Adalsteinsson等,Nat Commun.2017;8:1324)用于根据拷贝数的改变(CNA)独立地估计肿瘤浓度。在HCC样本中,只有12个样本具有足够的CNA,用于IchorCNA以估计肿瘤浓度。显示了与IchorCNA肿瘤分数具有最佳相关性的双末端1-mer片段百分比。随着肿瘤浓度增加,C<>G%降低。R值为0.74。对肿瘤浓度的依赖性非常好。在图53中,校准函数作为线性函数提供。
C.区分移植DNA和宿主DNA
临床相关的DNA也可以包括肿瘤DNA。一些实施方式可以以与上文确定胎儿与肿瘤浓度类似的方式确定样品中的移植DNA浓度。
1.肝脏
对12例肝移植病例进行了双末端分析。供体特异性SNP用于鉴定肝脏特异性片段。在供体特异性片段和具有共享SNP的片段之间比较片段类型百分比。下面提供了差异最显著的五种片段类型。P值由Wilcoxon符号秩检验提供。
图54A显示具有A<>T的片段在具有共享等位基因(Shared)的所有片段中的百分比和具有A<>T的片段在具有供体特异性等位基因(Spec)的所有片段中的百分比。可以看出,百分比通常从共享等位基因增加到供体特异性等位基因。两个数据集之间P=0.001(目前数据中最好)的统计差异显示了两种类型组织的A<>T%值之间的区别:宿主和移植物。
图54B显示具有C<>G的片段在具有共享等位基因(Shared)的所有片段中的百分比和具有C<>G的片段在具有供体特异性等位基因(Spec)的所有片段中的百分比。可以看出,百分比通常从共享等位基因减少到供体特异性等位基因。两个数据集之间P=0.002的统计差异显示了两种类型组织的C<>G%值之间的区别:宿主和移植物。
图54C显示具有T<>T的片段在具有共享等位基因(Shared)的所有片段中的百分比和具有T<>T的片段在具有供体特异性等位基因(Spec)的所有片段中的百分比。可以看出,百分比通常从共享等位基因减少到供体特异性等位基因。两个数据集之间P=0.007的统计差异显示了两种类型组织的T<>T%值之间的区别:宿主和移植物。
图55A显示具有C<>C的片段在具有共享等位基因(Shared)的所有片段中的百分比和具有C<>C的片段在具有供体特异性等位基因(Spec)的所有片段中的百分比。可以看出,百分比通常从共享等位基因减少到供体特异性等位基因。两个数据集之间P=0.01的统计差异显示了两种类型组织的C<>C%值之间的区别:宿主和移植物。
图55B显示具有G<>G的片段在具有共享等位基因(Shared)的所有片段中的百分比和具有G<>G的片段在具有供体特异性等位基因(Spec)的所有片段中的百分比。可以看出,百分比通常从共享等位基因减少到供体特异性等位基因。两个数据集之间P=0.007的统计差异显示了两种类型组织的G<>G%值之间的区别:宿主和移植物。
2.肾脏
对12例肾移植病例进行了双末端分析。在供体特异性片段和具有共享SNP的片段之间比较片段类型百分比。下面提供了差异最显著的二种片段类型。P值由Wilcoxon符号秩检验提供。
图56A显示具有A<>A的片段在具有共享等位基因(Shared)的所有片段中的百分比和具有A<>A的片段在具有供体特异性等位基因(Spec)的所有片段中的百分比。可以看出,百分比通常从共享等位基因减少到供体特异性等位基因。两个数据集之间P=0.07的统计差异显示了两种类型组织的A<>A%值之间的区别:宿主和移植物。
图56B显示具有T<>T的片段在具有共享等位基因(Shared)的所有片段中的百分比和具有T<>T的片段在具有供体特异性等位基因(Spec)的所有片段中的百分比。可以看出,百分比通常从共享等位基因减少到供体特异性等位基因。两个数据集之间P=0.09的统计差异显示了两种类型组织的T<>T%值之间的区别:宿主和移植物。
D.浓度确定方法
根据以上描述,一些实施方式可以估计受试者的生物样品中临床相关DNA(例如,胎儿或肿瘤DNA)的分数浓度,其中,生物样品包括临床相关DNA和其他无细胞DNA的混合物。在其它示例中,生物样本可不包含临床相关DNA,并且估计的浓度分数可以指示临床相关DNA的零或低百分比。
图57是示出根据本公开的实施方式的估计受试者的生物样本中临床相关DNA的浓度分数的方法5700的流程图。方法5700和本文所述的任何其它方法的各方面可以由计算机系统执行。
在框5710处,分析来自生物样本的多个无细胞DNA片段,以获得序列读段。序列读段可包括与多个无细胞DNA片段的末端对应的终止序列。可以以与框4610类似的方式执行框5710。
在框5720处,对于多个无细胞DNA片段中的每一个无细胞DNA片段,确定无细胞DNA片段的终止序列的一对序列基序。可以以与框5720类似的方式执行框4620。
在框5730处,确定与多个无细胞DNA片段的终止序列对应的一个或多个序列基序对的集合的一个或多个相对频率。序列基序对的相对频率可以提供具有与所述序列基序对对应的一对终止序列的所述多个无细胞DNA片段的比例。可以以与框4630类似的方式执行框5730。
可以使用一个或多个参考样本的分数浓度已知的参考集合来鉴定一个或多个序列基序对的集合。可以使用基因型差异来确定临床相关DNA的分数浓度。可以确定临床相关DNA的末端基序对与其他DNA(例如,来自健康个体的DNA、来自孕妇的DNA(也称为母体DNA)或接受移植器官的受试者的DNA)之间的差异,并与分数浓度结合使用。可以基于与参考样品的分数浓度差异相关的相对频率的差异来选择特定的末端基序对。可以使用相关性最好的末端基序对(例如,通过拟合优度来测量,例如R)。如果末端基序对的频率较低,则可以将更多末端基序对添加到集合中,以提高给定样本大小(例如,DNA片段数)的统计准确性。如果组合末端基序对,则它们都应该具有相同的相关性,例如,成比例或成反比。
在框5740处,确定一个或多个序列基序对的集合的相对频率的合计值。如果仅使用一个序列基序对,则合计值可以是该一个序列基序对的相对频率。在框4640和整个本公开中描述了其他示例合计值。
在框5750处,通过将合计值与一个或多个校准值进行比较来确定生物样本中的临床相关DNA的浓度分数的分类。可以从临床相关DNA的浓度分数是已知(例如,经测量)的一个或多个校准样本确定一个或多个校准值。比较可以是对多个校准值的比较。可以通过将合计值输入到与校准数据拟合的校准函数(例如,图52A中线5210或图53中线5310)中来进行比较,所述校准函数提供合计值相对于样本中的临床相关DNA的浓度分数的变化的变化。作为另一示例,一个或多个校准值可对应于使用一个或多个校准样本中的无细胞DNA片段测量的一个或多个序列基序对的集合的相对频率的一个或多个合计值。
可以将校准值计算为每个校准样本的合计值。可以确定每个样本的校准数据点,其中所述校准数据点包括样本的校准值和所测量的浓度分数。这些校准数据点可以在方法5700中使用,或者可以用于确定最终校准数据点(例如,如通过函数拟合所定义的)。例如,线性函数可以作为浓度分数的函数与校准值拟合。线性函数可以定义要在方法5700中使用的校准数据点。作为比较的一部分,可以将新样本的新合计值用作函数的输入,以提供输出浓度分数。因此,一个或多个校准值可以是使用多个校准样本的临床相关DNA的浓度分数确定的校准函数的多个校准值。
作为另一示例,可以将新合计值与具有相同浓度分数分类(例如,在相同范围内)的样本的平均合计值进行比较。如果与校准值与另一分类的平均值的接近度相比,新合计值=更接近该平均值,则可以确定新样本具有与最接近的校准值相同的浓度。当执行聚类时可以使用此类技术。例如,校准值可以是与浓度分数的特定分类对应的聚类的代表值。
校准数据点的确定可以包括例如如下测量浓度分数。对于一个或多个校准样本中的每个校准样本,可以测量校准样本中的临床相关DNA的浓度分数。可以通过作为获得校准数据点的一部分分析来自校准样本的无细胞DNA片段,从而确定一个或多个合计值,来确定一个或多个序列基序对的集合的相对频率的合计值。每个校准数据点可以指定校准样本中所测量的临床相关DNA的浓度分数以及针对校准样本确定的合计值。一个或多个校准值可以是一个或多个合计值,或者可以使用一个或多个合计值来确定(例如,当使用校准函数时)。
浓度分数的测量可以如本文所述以各种方式进行,例如通过使用特异于临床相关DNA的等位基因。在各种实施方式中,可以使用组织特异性等位基因或表观遗传标记物,或使用DNA片段的大小来测量临床相关DNA的浓度分数,例如如美国专利公开2013/0237431中所述,该美国专利公开的全文以引用方式并入。组织特异性表观遗传标记物可以包括样本中表现出组织特异性DNA甲基化模式的DNA序列。
在各种实施方式中,临床相关DNA可以选自由以下项组成的组:胎儿DNA、肿瘤DNA、来自移植器官的DNA、和特定组织类型(例如,来自特定器官)。临床相关DNA可以是特定组织类型的,例如,特定组织类型是肝或造血系统的。当受试者是怀孕的女性时,临床相关DNA可以是胎盘组织,所述胎盘组织对应于胎儿DNA。作为另一示例,临床相关DNA可以是来源于患有癌症的器官的肿瘤DNA。
VIII.分类和校准
临床相关DNA的病状分类和分数浓度可以通过各种方式进行。下面提供另外细节。并且提供了用于校准参考值、具有已知分类(例如,分数浓度或已知病状水平)的样本的参考模式以及这些在机器学习模型中的使用的更多细节。
A.分类技术
如上所述,可以使用各种分类技术,并且可以以各种方式确定合计值。例如,可以确定包括不同末端基序对的相对频率的向量,其例如,被指定为(0.8%、4%、2%、…),其形成N个不同末端基序对(多数)集合的N个相对频率的模式。训练集合中的每个样本均可以对应于定义多维数据点或参考模式的向量。示例性聚类技术包括但不限于分层聚类、基于质心的聚类、基于分布的聚类、基于密度的聚类。不同的聚类可以对应于样本中临床相关DNA的不同病状水平或量,因为由于DNA片段的两种类型之间末端基序对频率的差异,这些聚类将具有相对频率的不同模式。
因此,可以使用机器学习(例如,深度学习)模型以通过使用包含N个血浆DNA末端基序对的相对频率的N维向量来训练分类器,包括但不限于支持向量机(SVM)、决策树、朴素贝叶斯分类、逻辑回归、聚类算法、PCA、奇异值分解(SVD)、t分布随机邻居嵌入(tSNE)、人工神经网络,以及构造分类器集合和然后通过对它们的预测进行加权投票来对新数据点进行分类的集成方法。一旦基于包括一系列癌症患者和非癌症患者的"基于N维向量的矩阵"对分类器进行了训练,就能够预测新患者患癌症的可能性。
在机器学习算法的这种使用中,合计值可以对应于可以与参考值进行比较的概率或距离(例如,当使用SVM时)。在其它实施方式中,合计值可以对应于模型中的较早输出(例如,神经网络中较早的层),该输出与两个分类之间的截止值进行比较或者与给定分类的代表值进行比较。
图58显示了根据本公开的实施方式使用-1和+1位核苷酸的末端基序对来区分非癌症和HCC对象的SVM建模的ROC曲线。使用与第II节相同的数据集。实现了0.92的AUC,其刚好高于C<>C的AUC(图7C中的0.91),刚好低于AG<>TA的AUC(图14A中的0.938),并且与AUC大致相同t|C<>c|C(在图19A和19C中为0.0917)
SVM模型的特征向量包括末端2:-1+1的片段类型的256种组合中的每一种的相对频率。支持向量机用于分离非癌症和HCC受试者。在其他实施方式中,可以使用所有可能的组合中的仅一部分。例如,可以使用前20、30、50等末端基序对(例如,通过AUC测量)。
B.校准功能
如本文所述,可以使用具有已知分类的一个或多个参考(校准)样本来确定参考值。例如,可以知道参考样品是健康的或已知有病状。作为其他示例,参考/校准样品对于给定校准值(例如,包括本文所述的任何量的参数)可以具有已知或测量的临床相关DNA的分数浓度。
一个或多个校准值可以是一个或多个参考值或者用于确定参考值。参考值可以对应于用于进行分类的特定数值。例如,校准数据点(校准值和测得的性能,例如核酸酶活性或效率水平)可以通过插值或回归分析来确定校准函数(例如,线性函数)。然后,可以使用校准函数的一个点来确定数值分类作为基于测量量或其他参数的输入(例如,两个量之间或测量量与参考值之间的分离值)的输入。这样的技术可以应用于本文描述的任何方法。
对于方法5700的示例,参考值可以分别使用具有已知或测量的病状或分数浓度的分类的一个或多个参考样品来确定。可以在一个或多个参考样本中测量相应的合计值(例如,框4640或5740中的值),从而提供包括参考/校准样本的两个测量值的校准数据点。一个或多个参考样品可以是多个参考样品。可以确定校准函数,该校准函数近似对应于多个参考样品的测量功效和测量量的校准数据点,例如通过内插或回归。
IX.过滤和富集
来自特定组织的DNA片段表现出特定的末端基序对集合的偏好可用于富集样本中来自该特定组织的DNA。因此,实施方式可以富集样本中的临床相关DNA。例如,可以使用测定来仅对具有特定终止序列对的DNA片段进行测序,扩增和/或捕获。作为另一示例,可以进行序列读段的过滤。
A.过滤以提高区分能力
某些标准可用于过滤特定的DNA片段(除末端基序对外)以提供更高的准确性,例如灵敏性和特异性。作为示例,双末端分析可限于源自特定组织的开放染色质区域的DNA片段,例如,如通过完全在多个开放染色质区域中的一个开放染色质区域内进行读段比对或部分地与多个开放染色质区域中的一个开放染色质区域进行读段比对所确定的。例如,具有至少一个核苷酸与开放染色质区域重叠的任何读段可以被定义为开放染色质区域内的读段。根据DNA酶I超敏性位点,典型的开放染色质区域为约300bp。开放染色质区域的大小可为可变的,具体取决于用于定义开放染色质区域的技术,例如,ATAC-seq(用于转座酶可及染色质测序的测定)与DNA酶I-Seq。
作为另一个示例,可以选择特定大小的DNA片段来执行末端基序分析。这可以增加末端基序的相对频率的合计值的分离,从而提高准确性。例如,可以保留小于指定长度、质量或重量的DNA片段,并且可以丢弃更大/更长的片段。例如,大小截断可以是150bp、200bp、250bp、300bp等。这种大小采样可以在计算机中或通过物理过程(例如电泳)进行。
另一个示例可以使用DNA片段的甲基化特性。胎儿DNA和肿瘤DNA分子通常是低甲基化的。胎儿分析可用于确定临床相关DNA的分数浓度。实施方式可以确定DNA片段的甲基化度量(例如,密度)(例如,作为在DNA片段上甲基化的位点的比例或绝对数目)。可以基于所测量的甲基化密度来选择DNA片段用于双末端分析。例如,仅当甲基化密度高于阈值时才可以使用DNA片段。
DNA片段是否包括相对于参考基因组的序列变异(例如碱基取代、插入或缺失)也可以用于过滤。
各种过滤标准可以组合在一起使用。例如,可能需要满足每个标准,或者可能需要满足至少特定数量的标准。在另一个具体实施中,可以确定片段对应于临床相关DNA(例如,胚胎、肿瘤或移植物)的概率,并针对该概率确定阈值,DNA片段在用于双末端分析之前要满足该阈值。作为另一示例,可以基于概率来加权DNA片段对特定末端基序对的频率计数器的贡献(例如,加上具有小于一的值的概率,而不是加一)。因此,具有特定末端基序对(多数)的DNA片段将被加权更高和/或具有更高的概率。这种富集在下面进一步描述。
B.物理富集
可以通过多种方式进行物理富集,例如通过靶向测序或PCR,如可以使用特定的引物或衔接子执行的。如果检测到特定末端基序对,则可以将衔接子添加至片段的末端。然后,当执行测序时,仅对具有衔接子的DNA片段进行测序(或至少主要对其进行测序),从而提供靶向测序。
作为另一示例,可以使用与特定的末端基序对集合杂交的引物。然后,可以使用这些引物执行测序或扩增。与特定末端基序对对应的捕获探针也可用于捕获具有那些末端基序对的DNA分子以用于进一步分析。一些实施方式可以将短寡核苷酸连接至血浆DNA分子的末端。然后,探针可以经设计为使得其仅识别部分为末端基序并且部分为连接的寡核苷酸的序列,其中特定的探针对对应于特定的末端基序对
一些实施方式可以使用基于规律间隔性成簇短回文重复序列(CRISPR)的诊断技术,例如使用指导RNA来定位与临床相关DNA的优选末端基序对应的位点,然后使用核酸酶切割DNA片段,如使用CRISPR相关蛋白9(Cas9)或CRISPR相关蛋白12(Cas12)可以进行的。例如,可以使用衔接子识别末端基序对中的每个末端基序,然后使用CRISPR/Cas9或Cas12切割末端基序/衔接子杂合体并创建通用的可识别末端,以进一步富集具有所需末端的分子。
图59是示出根据本公开的实施方式的物理富集生物学样本的临床相关DNA的方法5900的流程图。生物样本包含临床相关DNA分子和其它无细胞DNA分子。方法5900可以使用特定测定来执行富集。
在框5910处,接收来自生物样本的多个无细胞DNA片段。临床相关DNA片段(例如,胎儿或肿瘤)具有序列基序对的终止序列,所述序列基序对以比其它DNA(例如,母体DNA、健康DNA或血细胞)更大的相对频率出现。作为示例,可以使用来自图3和图13的数据)。因此,序列基序可用于富集临床相关DNA。
在框5920处,使多个无细胞DNA片段经受一个或多个探针分子,该一个或多个探针分子检测多个无细胞DNA片段的终止序列中的序列基序对。探针分子的这种使用可以导致获得检测到的DNA片段。在一示例中,所述一个或多个探针分子可包含一种或多种酶,所述一种或多种酶询问所述多个无细胞DNA片段并附加用于扩增所述检测到的DNA片段的新序列。在另一示例中,一个或多个探针分子可附着至表面,以用于通过杂交检测终止序列中的序列基序对。
在框5930处,使用检测到的DNA片段来富集生物样本中的临床相关DNA片段。例如,使用检测到的DNA片段来富集生物样本中的临床相关DNA片段可包括扩增检测到的DNA片段。作为另一示例,可以捕获检测到的DNA片段,并且可以丢弃未检测到的DNA片段。
C.计算机模拟富集
计算机模拟富集可以使用各种标准来选择或丢弃某些DNA片段。此类标准可包括末端基序对、开放染色质区域、大小、序列变异、甲基化、和其它表观遗传特征。表观遗传特征包括基因组的所有修饰,所述修饰不涉及DNA序列的变化。该标准可以指定截止值,例如要求某些特性,例如特定的大小范围,高于或低于一定量的甲基化度量、多于一个CpG位点的甲基化状态(甲基化或未甲基化)的组合(例如,甲基化单倍型(Guo等人,NatGenet.2017;49:635-42))等,或具有的组合概率高于阈值。这种富集还可涉及基于这种概率对DNA片段进行加权。
作为示例,富集的样本可用于对病理学进行分类(如上所述),以及鉴定肿瘤或胎儿突变或用于标记计数以用于染色体或染色体区域的扩增/缺失检测。例如,如果特定末端基序对与肝癌相关联(即,相对频率高于非癌症或其它癌症),则用于执行癌症筛查的实施方式可将此类DNA片段加权为高于不具有该优选的末端基序或该优选的末端基序集合的DNA片段。
图60是示出本公开的实施方式中,以电脑模拟方式富集临床相关DNA生物样本的方法的流程图。
生物样本包含临床相关DNA分子和其它无细胞DNA分子。方法6000可以使用序列读段的特定标准来执行富集。
在框6010处,分析来自生物样本的多个无细胞DNA片段以获得序列读段。序列读段包括与多个无细胞DNA片段的末端对应的终止序列。可以以与图46的框4610类似的方式执行框6010。
在框6020处,对于多个无细胞DNA片段中的每一个无细胞DNA片段,确定无细胞DNA片段的终止序列的序列基序对。可以以与图46的框4620类似的方式执行框6020。
在框6030处,鉴定在临床相关DNA中以比其它DNA更大的相对频率出现的一个或多个序列基序的集合。序列基序对(多数)的集合可以通过本文所述的基因型或表型技术鉴定。校准或参考样本可用于对临床相关DNA具有选择性的序列基序对进行排名和选择。
在框6040处,鉴定具有一个或多个序列基序对的集合的一组多个无细胞DNA片段。这可以看作是过滤的第一阶段。
在框6050处,可以存储具有与临床相关DNA超过阈值对应的可能性的无细胞DNA片段。可以使用末端基序对(多数)的集合来确定该可能性。例如,对于无细胞DNA片段组中的每个无细胞DNA片段,可以基于包括序列基序对(多数)组中的序列基序对的终止序列来确定无细胞DNA片段对应于临床相关DNA的可能性。可以将可能性与阈值进行比较。作为示例,可以凭经验确定合适的阈值。例如,可以针对具有临床相关DNA的已知标记的样品测试各种阈值。可以针对每个阈值确定临床相关DNA的最终浓度。
最佳阈值可以使浓度最大化,与此同时保持一定百分比的序列读段总数。所述阈值可以由在暴露于类似的病因风险因素但无疾病的健康对照或对照组中存在的一个或多个末端基序对的浓度的一个或多个给定的百分位(第5个、第10个、第90个、或第95个)确定。该阈值可以是回归或概率得分。
当可能性超过阈值时,可以将序列读段(多数)存储在存储器中(例如,在文件、表或其它数据结构中),从而获得存储的序列读段。具有低于阈值的可能性的cfDNA的序列读段可以被丢弃或不存储在保留的读段的存储位置中,或者数据库的字段可以包括标志,所述标志指示该读段具有较低的阈值,以便以后的分析可以排除此类读段。作为示例,可以使用各种技术来确定可能性,所述各种技术为例如比值比、z得分或概率分布。
在框6060处,可以分析所存储的序列读段以确定生物学样本中的临床相关DNA的特性,例如,如本文所述,例如在其它流程图中所述。方法4600和5700就是此类示例。例如,生物样本中的临床相关DNA的特性可以是临床相关DNA的浓度分数。作为另一示例,该特性可以是从其获得生物样本的受试者的病状水平,其中所述病状水平与临床相关DNA相关联。
其它标准可以用来确定可能性。可以使用序列读段来测量多个无细胞DNA片段的大小。特定序列读段对应于临床相关DNA的可能性可以进一步基于对应于特定序列读段的无细胞DNA片段的大小。
也可以使用甲基化。因此,实施方式可以测量在无细胞DNA片段的与特定序列读段对应的一个或多个位点处的一种或多种甲基化状态。特定的序列读段对应于临床相关DNA的可能性可以进一步基于一种或多种甲基化状态。作为进一步的示例,读段是否在所鉴定的开放染色质区域的集合内可以用作过滤器。
对于本文所述的方法中的任何方法,无细胞DNA片段的序列基序对可以使用参考基因组来执行(例如,经由图1的技术160)。此类技术可包括:将与无细胞DNA片段对应的一个或多个序列读段与参考基因组进行比对,鉴定参考基因组中与终止序列相邻的一个或多个碱基,以及使用所述终止序列和所述一个或多个碱基来确定序列基序对。
X.治疗
实施方式还可以包括在确定受试者的分类之后治疗患者的病状。可以根据确定的病状水平、临床相关DNA的分数浓度或起源组织来提供治疗。例如,可以用特定药物或化学疗法靶向经过鉴定的突变。起源组织可以用于指导手术或任何其它形式的治疗。并且,病状水平可用于确定任何类型的治疗的影响程度,所述任何类型的治疗也可以基于病状水平来确定。病状(例如癌症)可以通过化学疗法、药物、饮食、疗法和/或手术来治疗。在一些实施方式中,参数(例如,量或大小)的值超过参考值越多,治疗可能越积极。
治疗可以包括切除。对于膀胱癌,治疗可能包括经尿道膀胱肿瘤切除术(TURBT)。该程序用于诊断、分期和治疗。在TURBT期间,外科医生将膀胱镜通过尿道插入膀胱。然后使用带有小线环、激光或高能电的工具去除肿瘤。对于患有非肌肉浸润性膀胱癌(NMIBC)的患者,TURBT可用于治疗或消除癌症。另一种治疗可能包括根治性膀胱切除术和淋巴结清扫术。根治性膀胱切除术是切除整个膀胱并且可能切除周围组织和器官。治疗还可以包括尿流改道。尿流改道是当作为治疗的一部分切除膀胱时,医生为尿液排出体外创造了一条新的路径。
治疗可能包括化学疗法,即使用药物破坏癌细胞,通常是通过阻止癌细胞生长和分裂。药物可包括,例如但不限于丝裂霉素-C(可作为仿制药)、吉西他滨(Gemzar)以及用于膀胱内化疗的噻替帕(Tepadina)。全身化疗可涉及例如但不限于顺铂吉西他滨、甲氨蝶呤(Rheumatrex,Trexall)、长春碱(Velban)、阿霉素和顺铂。
在一些实施方式中,治疗可以包括免疫疗法。免疫疗法可以包括阻断称为PD-1的蛋白质的免疫检查点抑制剂。抑制剂可以包括但不限于阿替利珠单抗(Tecentriq)、纳武单抗(Opdivo)、阿维单抗(Bavencio)、德瓦鲁单抗(Imfinzi)以及帕博利珠单抗(Keytruda)。
治疗的实施方式还可以包括靶向治疗。靶向治疗是一种针对有助于癌症生长和存活的癌症特定基因和/或蛋白质的治疗方法。例如,厄达替尼是一种口服药物,被批准用于治疗具有FGFR3或FGFR2基因突变且癌细胞持续生长或扩散的局部晚期或转移性尿路上皮癌患者。
一些治疗可能包括放射治疗。放射疗法是使用高能X射线或其他粒子来破坏癌细胞。除了每个单独的治疗之外,可以使用本文所述的这些治疗的组合。在一些实施方式中,当参数的值超过阈值,即其本身超过参考值时,可以使用治疗的组合。参考文献中关于治疗的信息通过引用并入本文。
XI.示例性系统
图61示出了根据本发明实施方式的测量系统6100。如图所示的系统包括样品6105,例如,试验装置6110内的无细胞DNA分子,其中可以对样品6105进行化验6108。例如,样品6105可以与化验6108的试剂接触以提供物理特性6115的信号。化验装置的示例可以是包括测定物的探针和/或引物的流动池或液滴移动通过的管(其中液滴包含所述测定物)。检测器6120检测来自样本的物理特性6115(例如,荧光强度、电压或电流)。检测器6120可以间隔地(例如,周期性间隔)进行测量以获得构成数据信号的数据点。在一个实施方式中,模数转换器多次将来自检测器的模拟信号转换为数字形式。化验装置6110和检测器6120可以形成化验系统,例如,根据本文所述的实施方式执行测序的测序系统。将数据信号6125从检测器6120发送到逻辑系统6130。例如,数据信号6125可用于确定DNA分子参考基因组中的序列和/或位置。数据信号6125可以包括同时进行的各种测量,例如不同颜色的荧光染料或样品6105的不同分子的不同电信号,因此数据信号6125可以对应于多个信号。数据信号6125可以存储在本地存储器6135、外部存储器6140或存储设备6145中。
逻辑系统6130可以是或可以包含计算机系统、ASIC、微处理器、图形处理单元(GPU)等。其还可以包含显示器(例如,监视器、LED显示器等)和用户输入装置(例如,鼠标、键盘、按钮等)或与所述显示器和用户输入装置耦接。逻辑系统6130和其它部件可以是独立的或网络连接的计算机系统的一部分,或者逻辑系统可以直接附接到或结合在包括检测器6120和/或化验装置6110的设备(例如,测序设备)中。逻辑系统6130还可以包括在处理器6150中执行的软件。逻辑系统6130可以包括存储用于控制测量系统6100以执行本文所述的方法中的任何方法的指令的计算机可读介质。例如,逻辑系统6130可以向包括化验装置6110的系统提供命令,使得测序或其它物理操作得以执行。可以按特定的顺序执行此类物理操作,例如,按特定的顺序添加和去除试剂。此类物理操作可以由如可用于获得样本并执行测定的机器人系统(例如,包括机械臂的机器人系统)执行。
测量系统6100还可以包括治疗装置6160,其可以为受试者提供治疗。治疗装置6160可以确定治疗和/或用于执行治疗。这种治疗的示例可以包括手术、放射疗法、化学疗法、免疫疗法、靶向疗法、激素疗法和干细胞移植。逻辑系统6130可以连接到治疗装置6160,例如,以提供本文描述的方法的结果。治疗装置可以接收来自其他装置的输入,例如成像装置和用户输入(例如,以控制治疗方法,例如对机器系统的控制)。
本文提到的计算机系统中的任何计算机系统都可以利用任何合适数量的子系统。在图62中,在计算机系统10中示出了此类子系统的示例。在一些实施方式中,计算机系统包括单个计算机装置,其中子系统可以是计算机装置的部件。在其它实施方式中,计算机系统可以包括具有内部部件的多个计算机装置,每个计算机装置是子系统。计算机系统可包括台式计算机和膝上型计算机、平板电脑、移动电话和其它移动设备。
图63中示出的子系统通过系统总线75互连。示出了附加的子系统,例如打印机74、键盘78、一个或多个存储设备79、耦接到显示适配器82的监视器76(例如,显示屏,例如LED)等。耦接到I/O控制器71的外围设备和输入/输出(I/O)设备可以通过任何数量的例如输入/输出(I/O)端口77(例如,USB、
Figure BDA0003775890100000511
)等本领域已知的装置连接到计算机系统。例如,I/O端口77或外部接口81(例如以太网、Wi-Fi等)可以用于将计算机系统10连接到广域网(例如因特网)、鼠标输入设备、或扫描仪。通过系统总线75的互连允许中央处理器73与每个子系统通信并控制来自系统存储器72或一个或多个存储设备79(例如,固定盘,例如硬盘驱动器或光盘)的多个指令的执行,以及子系统之间信息的交换。系统存储器72和/或一个或多个存储设备79可以体现为计算机可读介质。另一子系统是数据收集设备85,例如相机、麦克风、加速计等。本文提及的数据中的任何数据可以从一个部件输出到另一个部件并且可以输出到用户。
计算机系统可以包括例如通过外部接口81、通过内部接口或经由可以从一个部件连接到另一个部件和移除的可移除存储设备连接在一起的多个相同的部件或子系统。在一些实施方式中,计算机系统、子系统或设备可经由网络通信。在此类情况下,一个计算机可以视为客户端并且另一个计算机视为服务器,其中每一个计算机可以是同一个计算机系统的一部分。客户端和服务器可以各自包括多个系统、子系统或部件。
实施方式的方面可使用硬件电路(例如,专用集成电路或现场可编程门阵列)和/或以模块化或集成方式使用具有大体上可编程处理器的计算机软件以控制逻辑的形式实现。如本文所使用,处理器可包含单核处理器、同一集成芯片上的多核处理器或单个电路板上或联网的多个处理单元,以及专用硬件。基于本公开和本文中所提供的教示,所属领域的一般技术人员将知道且理解使用硬件和硬件与软件的组合来实施本披露的实施方式的其他方式和/或方法。
本申请中描述的软件组件或功能中的任何一个可实现为使用例如Java、C、C++、C#、Objective-C、Swift的任何合适的计算机语言或如Perl或Python的脚本语言使用例如常规或面向对象的技术的由处理器执行的软件代码。软件代码可存储为计算机可读媒体上用于存储和/或传输的一连串指令或命令。合适的非暂时性计算机可读媒体可以包含随机存取存储器(RAM)、只读存储器(ROM)、如硬盘驱动器或软盘的磁性媒体、或如光盘(CD)或DVD(数字通用光盘)或蓝光光盘的光学媒体、闪存等。计算机可读媒体可是此类存储或传输装置的任何组合。
此类程序也可使用载波信号来编码和传输,所述载波信号适合于经由包括因特网的符合多种协议的有线、光学和/或无线网络来传输。因此,计算机可读媒体可使用以此类程序编码的数据信号产生。以程序代码编码的计算机可读媒体可与兼容装置一起封装或与其他装置分开地提供(例如,经由因特网下载)。任何此类计算机可读媒体可存在于单个计算机产品(例如硬盘驱动器、CD或整个计算机系统)上或内部,且可存在于系统或网络内的不同计算机产品上或内部。计算机系统可包含监视器、打印机,或用于向用户提供本文所提及的任何结果的其他合适的显示器。
本文所描述的任何方法可完全或部分地用计算机系统执行,所述计算机系统包括可配置成执行所述步骤的一个或多个处理器。因此,实施例可涉及配置成执行本文所述的任何方法的步骤的计算机系统,所述计算机系统可能具有执行相应步骤或相应步骤群组的不同组件。虽然呈现为编号的步骤,但本文的方法的步骤可同时或在不同时间或以不同次序,即逻辑上可行的次序执行。另外,这些步骤的部分可与其他方法的其他步骤的部分一起使用。而且,步骤的全部或部分可以是任选的。另外,任何方法的步骤中的任一个可利用用于执行这些步骤的系统的模块、单元、电路或其他构件来执行。
如本领域技术人员在阅读本公开后将显而易见的是,本文描述和说明的每个单独的实施方式具有单独的组件和特征,它们可以容易地与其他几个实施方式中的任何一个的特征分离或组合而不超出本公开的范围或精神。
出于说明和描述的目的,已经呈现了本公开的示例实施方式的上述描述,并且阐述以便为本领域的普通技术人员提供完整的公开内容以及如何制作和使用本公开内容的实施方式的描述。以上描述并非旨在穷举本公开或将本公开限制于所描述的精确形式,并且也不旨在表示这些实验是全部或唯一进行的实验。尽管出于清楚理解的目的,已通过说明和示例的方式对本公开进行了一些详细的描述,但是根据本公开的教导,对于本领域的普通技术人员来说显而易见的是可以在不脱离所附权利要求的精神或范围的情况下做出一些改变和修改。
因此,前面仅说明了本发明的原理。应当理解,本领域技术人员将能够设计出各种布置,尽管在此没有明确地描述或示出,但这些布置体现了本发明的原理并且包括在本发明的精神和范围内。此外,本文引用的所有示例和条件语言主要旨在帮助读者理解本公开的原理,但不限于这些具体引用的示例和条件。此外,本文中引用本发明的原理、方面和实施方式以及其具体示例的所有陈述旨在涵盖其结构和功能的等同物。此外,这些等同物旨在包括当前已知的等同物和未来开发的等同物,即开发的执行相同功能的任何元件,无论结构如果。因此,本发明的范围不旨在限于本文所示和描述的示例性实施方式。相反,本发明的范围和精神由所附权利要求来体现。
除非特别指出相反的情况,否则对"一个(种)/一(a/an)"或"所述(the)"的叙述旨在表示"一个或多个"。除非明确指示为相反情况,否则"或"的使用旨在表示"包含性的或",而不是"排除性的或"。对"第一"部件的引用不一定要求提供第二部件。此外,除非明确说明,否则对"第一"或"第二"部件的引用并不将所引用的部件限制到特定位置。术语"基于"旨在表示"至少部分地基于。"
可以设计权利要求以排除可选的任何要素。同样,声明旨在作为在引用权利要求要素或使用"否定"限制时使用"单独地"、"仅"等排他性术语的先行基础。
本文所提及的所有专利、专利申请、公开案以及描述出于所有目的通过引用并入本文,即每个单独的公开案或专利都被具体地和单独地指出以通过引用并入,以公开和描述与引用该公开案相关的方法和/或材料。并非承认它们是现有技术。
XII.参考文献
1.Chan KCA,Woo JKS,King A,Zee BCY,Lam WKJ,Chan SL,et al.Analysis ofPlasma Epstein-Barr Virus DNA to Screen for Nasopharyngeal Cancer.N Engl JMed[Internet].2017/08/10.2017;377(6):513–22.Available from:https://www.nejm.org/doi/pdf/10.1056/NEJMoa1701717
2.Chiu RWK,Chan KCA,Gao Y,Lau VYM,Zheng W,Leung TY,et al.Noninvasiveprenatal diagnosis of fetal chromosomal aneuploidy by massively parallelgenomic sequencing of DNA in maternal plasma.Proc Natl Acad Sci U S A[Internet].2008;105(51):20458–63.Available from:http://www.pnas.org/content/105/51/20458.abstract
3.Lo YMD,Corbetta N,Chamberlain PF,Rai V,Sargent IL,Redman CWG,etal.Presence of fetal DNA in maternal plasma and serum.Lancet[Internet].1997;350(9076):485–7.Available from:http://dx.doi.org/10.1016/S0140-6736(97)02174-0
4.Lo YMD,Chan KCA,Sun H,Chen EZ,Jiang P,Lun FMF,et al.Maternal PlasmaDNA Sequencing Reveals the Genome-Wide Genetic and Mutational Profile of theFetus.Sci Transl Med[Internet].2010;2(61):61ra91-61ra91.Available from:http://stm.sciencemag.org/content/scitransmed/2/61/61ra91.full.pdf
5.Chandrananda D,Thorne NP,Bahlo M.High-resolution characterizationof sequence signatures due to non-random cleavage of cell-free DNA.BMC MedGenomics[Internet].2015/06/18.2015[cited 2019 Dec 31];8(1):29.Available from:https://doi.org/10.1186/s12920-015-0107-z
6.Ivanov M,Baranova A,Butler T,Spellman P,Mileyko V.Non-randomfragmentation patterns in circulating cell-free DNA reflect epigeneticregulation.BMC Genomics[Internet].2015;16(13):S1.Available from:https://doi.org/10.1186/1471-2164-16-S13-S1
7.Snyder MW,Kircher M,Hill AJ,Daza RM,Shendure J.Cell-free DNAComprises an In Vivo Nucleosome Footprint that Informs Its Tissues-Of-Origin.Cell[Internet].2016/01/16.2016;164(1–2):57–68.Available from:https://ac.els-cdn.com/S009286741501569X/1-s2.0-S009286741501569X-main.pdf?_tid=7ad5c682-f178-4148-9ef5-5155f3622c97&acdnat=1544003447_49d657134037d6cfe06c891e02a8b96e
8.Sun K,Jiang P,Cheng SH,Cheng THT,Wong J,Wong VWS,et al.Orientation-aware plasma cell-free DNA fragmentation analysis in open chromatin regionsinforms tissue of origin.Genome Res[Internet].2019;29(3):418–27.Availablefrom:http://genome.cshlp.org/content/29/3/418.abstract
9.Jiang P,Sun K,Tong YK,Cheng SH,Cheng THT,Heung MMS,et al.Preferredend coordinates and somatic variants as signatures of circulating tumor DNAassociated with hepatocellular carcinoma.Proc Natl Acad Sci U S A[Internet].2018/10/31.2018;115(46):E10925-e10933.Available from:http://www.pnas.org/content/pnas/115/46/E10925.full.pdf

Claims (46)

1.一种分析受试者的生物样本的方法,其中,所述生物样本包含无细胞DNA,所述方法包括:
分析来自所述生物样本的多个无细胞DNA片段以获得序列读段,其中所述序列读段包括与所述多个无细胞DNA片段的末端对应的终止序列;
对于多个所述无细胞DNA片段中的每一个所述无细胞DNA片段,确定所述无细胞DNA片段的所述终止序列的一对序列基序;
确定与所述多个无细胞DNA片段的所述终止序列对应的一个或多个所述序列基序对的集合的一个或多个相对频率,其中,所述序列基序对的相对频率提供了具有与所述序列基序对对应的所述终止序列对的所述多个无细胞DNA片段的比例;
确定一个或多个所述序列基序对的集合的一个或多个相对频率的合计值;和
基于所述合计值与参考值的比较来确定所述受试者的病状水平的分类。
2.根据权利要求1所述的方法,所述方法还包括:
使用一个或多个标准来过滤所述无细胞DNA以鉴定所述多个无细胞DNA片段。
3.权利要求1-2中任一项所述的方法,其中,病状是HBV或肝硬化。
4.根据权利要求1-2中的任一项所述的方法,其中,所述病状是自身免疫失调。
5.根据权利要求4所述的方法,其中,所述自身免疫失调是系统性红斑狼疮。
6.根据权利要求1-2中任一项所述的方法,其中,所述病状是癌症。
7.根据权利要求6所述的方法,其中,所述癌症是肝细胞癌、肺癌、乳腺癌、胃癌、多形性成胶质细胞瘤、胰腺癌、结直肠癌、鼻咽癌以及头颈鳞状细胞癌。
8.根据权利要求6-7中任一项所述的方法,其中,所述分类是根据包括多个癌症时期的多个癌症水平确定的。
9.根据权利要求6-8中任一项所述的方法,其中,所述分类为所述受试者患有癌症,其中,所述方法还包括:
确定对应于多个所述无细胞DNA片段的所述终止序列的一组一个或多个附加的所述序列基序对的一个或多个附加相对频率;
确定一组一个或多个所述附加序列基序对的一个或多个所述附加相对频率的附加总值;以及
基于所述附加总值与附加参考值的比对确定所述受试者的癌症阶段。
10.根据权利要求1-9中任一项所述的方法,其中,所述一个或多个序列基序对的集合包括多个所述序列基序,其中,所述一个或多个相对频率包括多个相对频率,并且其中,确定所述多个相对频率的合计值包括确定多个所述相对频率中的每个所述相对频率之间的差异和参考模式的参考频率,并且其中所述合计值包括所述差的总和。
11.根据权利要求10所述的方法,其中,所述参考模式的所述参考频率是从一个或多个具有已知分类的参考样本中确定的。
12.一种估计受试者的生物学样本中的临床相关DNA浓度分数的方法,其中,所述生物学样本包含临床相关DNA和其它无细胞DNA,所述方法包括:
分析来自所述生物样本的多个无细胞DNA片段以获得序列读段,其中所述序列读段包括与所述多个无细胞DNA片段的末端对应的终止序列;
对于多个所述无细胞DNA片段中的每一个所述无细胞DNA片段,确定所述无细胞DNA片段的所述终止序列的一对序列基序;
确定与所述多个无细胞DNA片段的所述终止序列对应的一个或多个所述序列基序对的集合的一个或多个相对频率,其中,所述序列基序对的相对频率提供了具有与所述序列基序对对应的所述终止序列对的所述多个无细胞DNA片段的比例;
确定一个或多个所述序列基序对的集合的相对频率的合计值;以及
通过将所述合计值与从临床相关DNA浓度分数已知的一个或多个校准样本中确定的一个或多个校准值进行比较,来确定所述生物样本中的所述临床相关DNA浓度分数的分类。
13.根据权利要求12所述的方法,其中,所述临床相关DNA选自由以下项组成的组:胎儿DNA、肿瘤DNA、来自移植器官的DNA以及特定组织类型。
14.根据权利要求12所述的方法,其中,所述临床相关DNA具有特定的组织类型。
15.根据权利要求14所述的方法,其中,所述特定组织类型是肝脏或造血系统的。
16.根据权利要求12所述的方法,其中,所述受试者是怀孕的女性,并且其中所述临床相关DNA是胎盘组织。
17.根据权利要求12所述的方法,其中,所述临床相关DNA是来源于患有癌症的器官的肿瘤DNA。
18.根据权利要求12-17中任一项所述的方法,其中,所述一个或多个校准值是使用多个所述校准样本的所述临床相关DNA的浓度分数确定的校准函数的多个校准值。
19.根据权利要求12-18中任一项所述的方法,其中,所述一个或多个校准值对应于使用所述一个或多个校准样本中的无细胞DNA片段测量的所述一个或多个序列基序对的集合的所述相对频率的一个或多个合计值。
20.根据权利要求12-19中任一项所述的方法,其中,还包括:
针对所述一个或多个校准样本中的每个校准样本:
测量所述校准样本中的所述临床相关DNA浓度分数;以及
通过作为获得校准数据点的一部分分析来自所述校准样本的无细胞DNA片段,从而确定一个或多个合计值,来确定所述一个或多个序列基序对的集合的所述相对频率的所述合计值,其中每个校准数据点指定所述校准样本中的所述测量的临床相关DNA浓度分数和针对所述校准样本确定的合计值,并且其中所述一个或多个校准值是所述一个或多个合计值或者是使用所述一个或多个合计值确定的。
21.根据权利要求20所述的方法,其中,使用特定于所述临床相关DNA的等位基因来执行测量所述校准样本中所述临床相关DNA浓度分数。
22.根据权利要求1-21中任一项所述的方法,其中,所述一个或多个序列基序对的集合包括N个碱基位置,其中所述一个或多个序列基序对的集合包括N个碱基的所有组合,并且其中N是等于或大于2的整数。
23.根据权利要求1-21中任一项所述的方法,其中,所述一个或多个序列基序对的集合是具有如在一个或多个参考样本中确定的两种类型的DNA之间的最大差异的前L个序列基序对,M是等于或大于1的整数。
24.根据权利要求23所述的方法,其中,所述两种类型的DNA是所述临床相关DNA和另一种DNA。
25.根据权利要求23所述的方法,其中,所述两种类型的DNA来自具有所述病状水平的不同分类的两个参考样本。
26.根据权利要求1-21中任一项所述的方法,其中,所述一个或多个序列基序对的集合是在一个或多个所述参考样本中出现的前J个最频繁的序列基序对,J是等于或大于1的整数。
27.根据权利要求22-26中任一项所述的方法,其中,所述一个或多个序列基序对的集合包括多个序列基序对,并且其中所述合计值包括所述集合的所述相对频率的总和。
28.根据权利要求27所述的方法,其中,所述和是加权的和。
29.权利要求1-28中任一项所述的方法,其中,所述分类是第一分类,其中所述方法还包括:
确定一组或多组附加序列基序对的一个或多个附加分类;和
使用所述第一分类和所述一个或多个附加分类确定最终分类。
30.根据权利要求1-29中任一项所述的方法,其中,所述合计值包括机器学习模型的最终或中间输出。
31.根据权利要求30所述的方法,其中,所述机器学习模型使用聚类、支持向量机或逻辑回归。
32.一种富集生物样本中的临床相关DNA的方法,其中,所述生物样本包括所述临床相关DNA和其它无细胞DNA,所述方法包括:
分析来自所述生物样本的多个无细胞DNA片段以获得序列读段,其中所述序列读段包括与所述多个无细胞DNA片段的末端对应的终止序列;
对于多个所述无细胞DNA片段中的每一个所述无细胞DNA片段,确定所述无细胞DNA片段的所述终止序列的序列基序对;
鉴定在所述临床相关DNA中以比所述其它DNA更大的相对频率出现的一个或多个序列基序对的集合;
鉴定具有一组所述一个或多个序列基序对的一组多个所述无细胞DNA片段;
对于每组所述无细胞DNA片段:
基于包括所述一个或多个序列基序对的集合的所述序列基序对的终止序列确定所述无细胞DNA片段对应于所述临床相关DNA的可能性;
将所述可能性与阈值进行比较;以及
当所述可能性超过所述阈值时,存储所述无细胞DNA片段的所述序列读段(多数),从而获得存储的所述序列读段;以及
分析所述存储的序列读段以确定所述生物样本中的所述临床相关DNA的特性。
33.根据权利要求32所述的方法,其中,所述生物样本中的所述临床相关DNA的所述特性是(1)所述临床相关DNA的浓度分数,或(2)从中获得所述生物学样本的受试者的病状水平,所述病状水平与所述临床相关DNA。
34.根据权利要求32-33中任一项所述的方法,其中,还包括:
使用所述序列读段测量所述多个无细胞DNA片段的大小,并且其中确定特定序列读段对应于所述临床相关DNA的所述可能性还基于与所述特定序列读段对应的所述无细胞DNA片段的大小。
35.根据权利要求32-34中任一项所述的方法,其中,还包括:
在对应于特定序列读段的无细胞DNA片段的一个或多个位点处测量一种或多种甲基化状态,其中确定所述特定序列读段对应于所述临床相关DNA的所述可能性进一步基于所述一种或多种甲基化状态。
36.根据权利要求1-35中任一项所述的方法,其中,确定所述无细胞DNA片段的所述终止序列的所述序列基序对包括:
将与所述无细胞DNA片段对应的一个或多个序列读段与参考基因组进行比对;
鉴定所述参考基因组中与所述终止序列相邻的一个或多个碱基;以及
使用所述终止序列和所述一个或多个碱基来确定所述序列基序对。
37.一种富集生物样本中的临床相关DNA的方法,所述生物样本包括所述临床相关DNA和其它无细胞DNA,所述方法包括:
从所述生物样本中接收多个无细胞DNA片段,其中,临床相关DNA片段具有序列基序对的终止序列,所述序列基序对以比其它DNA更大的相对频率出现;
使所述多个无细胞DNA片段经受一个或多个探针分子,所述一个或多个探针分子检测所述多个无细胞DNA片段的所述终止序列中的所述序列基序对,从而获得检测到的DNA片段;以及
使用所述检测到的DNA片段来丰富所述生物样本中的所述临床相关DNA片段。
38.根据权利要求37所述的方法,其中,使用所述检测到的DNA片段来富集所述生物样本中的所述临床相关DNA片段包括:
扩增所述检测到的DNA片段。
39.根据权利要求38所述的方法,其中,所述一个或多个探针分子包含一种或多种酶,所述一种或多种酶询问所述多个无细胞DNA片段并附加用于扩增所述检测到的DNA片段的新序列。
40.根据权利要求37所述的方法,其中,使用所述检测到的DNA片段来富集所述生物样本中的所述临床相关DNA片段包括:
捕获所述检测到的DNA片段;以及
丢弃未检测到的DNA片段。
41.根据权利要求40所述的方法,其中,一个或多个探针分子附着于表面并且通过杂交检测所述终止序列中的所述序列基序对。
42.一种计算机产品,其中,包括存储多个指令的非暂时性计算机可读介质,所述多个指令在被执行时控制计算机系统来执行根据前述权利要求中任一项所述的方法。
43.一种系统,其中,包括:
根据权利要求42所述的计算机产品;以及
用于执行存储在所述计算机可读介质上的指令的一个或多个处理器。
44.一种系统,其中,包括用于执行以上方法中的任何方法的装置。
45.一种系统,其中,包括被配置成执行以上方法中的任何方法的一个或多个处理器。
46.一种系统,其中,包括分别执行以上方法中的任何方法的步骤的模块。
CN202180012217.2A 2020-01-08 2021-01-07 无细胞样品中的双末端dna片段类型及其用途 Pending CN115087745A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062958676P 2020-01-08 2020-01-08
US62/958,676 2020-01-08
PCT/CN2021/070628 WO2021139716A1 (en) 2020-01-08 2021-01-07 Biterminal dna fragment types in cell-free samples and uses thereof

Publications (1)

Publication Number Publication Date
CN115087745A true CN115087745A (zh) 2022-09-20

Family

ID=76788437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180012217.2A Pending CN115087745A (zh) 2020-01-08 2021-01-07 无细胞样品中的双末端dna片段类型及其用途

Country Status (7)

Country Link
US (1) US20210238668A1 (zh)
EP (1) EP4087942A4 (zh)
JP (1) JP2023510318A (zh)
CN (1) CN115087745A (zh)
AU (1) AU2021205853A1 (zh)
CA (1) CA3162089A1 (zh)
WO (1) WO2021139716A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110241198A (zh) * 2019-05-30 2019-09-17 成都吉诺迈尔生物科技有限公司 一种表征hHRD同源重组缺陷的基因组重组指纹及其鉴定方法
US20230279498A1 (en) * 2021-11-24 2023-09-07 Centre For Novostics Limited Molecular analyses using long cell-free dna molecules for disease classification
CN114091608B (zh) * 2021-11-24 2024-02-20 国网河南省电力公司许昌供电公司 一种基于数据挖掘的户变关系辨识方法
WO2023220390A2 (en) * 2022-05-13 2023-11-16 The Johns Hopkins University Methods for identifying cancer in a subject
US20240011105A1 (en) * 2022-07-08 2024-01-11 The Chinese University Of Hong Kong Analysis of microbial fragments in plasma

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT2557517T (pt) * 2007-07-23 2023-01-04 Univ Hong Kong Chinese Determinação de um desequilíbrio de sequências de ácido nucleico
ES2946689T3 (es) * 2013-03-15 2023-07-24 Univ Leland Stanford Junior Identificación y uso de marcadores tumorales de ácido nucleico circulante
US10017807B2 (en) * 2013-03-15 2018-07-10 Verinata Health, Inc. Generating cell-free DNA libraries directly from blood
AU2014369841B2 (en) * 2013-12-28 2019-01-24 Guardant Health, Inc. Methods and systems for detecting genetic variants
WO2016015058A2 (en) * 2014-07-25 2016-01-28 University Of Washington Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same
TWI730973B (zh) * 2015-07-23 2021-06-21 香港中文大學 游離dna(cell-free dna)之片段化模式分析
WO2018031808A1 (en) * 2016-08-10 2018-02-15 Cirina, Inc. Methods of analyzing nucleic acid fragments
CN110100013A (zh) * 2016-10-24 2019-08-06 香港中文大学 用于肿瘤检测的方法和系统
WO2019210873A1 (en) * 2018-05-03 2019-11-07 The Chinese University Of Hong Kong Size-tagged preferred ends and orientation-aware analysis for measuring properties of cell-free mixtures
WO2020006370A1 (en) * 2018-06-29 2020-01-02 Grail, Inc. Nucleic acid rearrangement and integration analysis
WO2020125709A1 (en) * 2018-12-19 2020-06-25 The Chinese University Of Hong Kong Cell-free dna end characteristics

Also Published As

Publication number Publication date
EP4087942A4 (en) 2024-01-24
AU2021205853A1 (en) 2023-11-23
JP2023510318A (ja) 2023-03-13
US20210238668A1 (en) 2021-08-05
EP4087942A1 (en) 2022-11-16
CA3162089A1 (en) 2021-07-15
WO2021139716A1 (en) 2021-07-15

Similar Documents

Publication Publication Date Title
TWI822789B (zh) 用於資料分類之卷積神經網路系統及方法
JP6829211B2 (ja) 癌スクリーニング及び胎児分析のための変異検出
CN108026572B (zh) 游离dna的片段化模式的分析
CN113366122B (zh) 游离dna末端特征
WO2021139716A1 (en) Biterminal dna fragment types in cell-free samples and uses thereof
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
US11869661B2 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
EP4004238A1 (en) Systems and methods for determining tumor fraction
US20210115520A1 (en) Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition
JP2021531016A (ja) 無細胞dna損傷分析およびその臨床応用
JP2023516633A (ja) メチル化シークエンシングデータを使用したバリアントをコールするためのシステムおよび方法
US20230279498A1 (en) Molecular analyses using long cell-free dna molecules for disease classification
TW202237856A (zh) 使用尿液及其他dna特徵之方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40080623

Country of ref document: HK