CN112203648A - 用于产前检查的基于深度学习的方法、设备和系统 - Google Patents

用于产前检查的基于深度学习的方法、设备和系统 Download PDF

Info

Publication number
CN112203648A
CN112203648A CN201980036539.3A CN201980036539A CN112203648A CN 112203648 A CN112203648 A CN 112203648A CN 201980036539 A CN201980036539 A CN 201980036539A CN 112203648 A CN112203648 A CN 112203648A
Authority
CN
China
Prior art keywords
cases
nucleic acid
cell
sample
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980036539.3A
Other languages
English (en)
Inventor
马蒂亚斯·埃里克
劳伦斯·杜
迪尔克·万登博姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Juno Diagnostics Inc
Original Assignee
Juno Diagnostics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Juno Diagnostics Inc filed Critical Juno Diagnostics Inc
Priority claimed from PCT/US2019/024416 external-priority patent/WO2019191319A1/en
Publication of CN112203648A publication Critical patent/CN112203648A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P25/00Drugs for disorders of the nervous system
    • A61P25/28Drugs for disorders of the nervous system for treating neurodegenerative disorders of the central nervous system, e.g. nootropic agents, cognition enhancers, drugs for treating Alzheimer's disease or other forms of dementia
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

描述了将机器学习算法应用于基于核酸测序的诊断测试以检测拷贝数变异和其他基因组异常的方法。

Description

用于产前检查的基于深度学习的方法、设备和系统
交叉引用
本申请要求于2018年3月30日提交的美国临时申请号62/650,879以及于2019年3月27日提交的美国临时申请号62/824,757的权益,两个临时申请通过引用并入本文。
背景技术
本公开内容涉及体外诊断领域,尤其涉及用于确定拷贝数变异和检测相关基因组异常的核酸测序领域。特别地,本公开内容描述了将机器学习技术应用于核酸序列数据的分析以确定拷贝数变异和检测相关基因组异常的方法。
由于核酸测序方法的最新进展已大大降低了成本和时间要求,因此核酸测序已被用于与基因概况和基因组变异的检测有关的各种生物医学研究和临床诊断应用中。实例包括靶向基因组测序和全基因组测序;点突变、插入、缺失和拷贝数变异的检测;基因表达谱分析和转录组分析。某些类型的基因组变异,例如点突变、插入、缺失、倒位、易位和拷贝数变异,已与特定的遗传病症或疾病相关。
短语“拷贝数变异”是指特定基因组区域的拷贝数在个体之间变化的情况。例如,人类基因组由23对染色体(从父母双方各继承的一组染色体)组成,因此平均而言,预期在个体的给定细胞中存在每一个基因的两个拷贝。实际上,如从全基因组测序研究中变得显而易见的,基因组物质的获得和/或损失可以从头发生,可以是遗传的,或者可以随着时间积累,使得特定个体(或给定个体内的不同细胞)可以包含多于或少于两个拷贝的每个基因。在一些情况下,这些差异可能是由于特定基因组区域、基因或基因片段的复制或缺失。在一些情况下,这些差异可能是由于整个染色体或部分染色体的复制或缺失。目前,拷贝数变异对人类疾病的影响程度是一个活跃的研究领域,已经确定了拷贝数与疾病之间强相关性的具体实例。例如,早就认识到某些癌症与特定基因的拷贝数升高有关。
最初使用细胞遗传学技术研究拷贝数变异,例如荧光原位杂交(FISH)、多重FISH、光谱核型分析或比较基因组杂交(CGH),这些技术可使人们观察染色体的物理结构。这些技术的基因组分辨率相对较低(例如,从千碱基到兆碱基级),从而通常只能检测到相当大的结构变异。最近,高通量全基因组测序技术已经实现了拷贝数变异和其他基因组异常的高基因组分辨率检测。通常使用的方法包括以下步骤:(i)从受试者收集生物样品,(ii)提取DNA或其他核酸分子,(iii)制备测序文库,(iv)对样品中的核酸分子进行测序以及(v)分析所得序列数据,其中分析还包括:(vi)将测序读取集与参考序列进行比对;(vii)计数与所述参考序列的子部分的指定组中的每一个相关联的测序读取的数目;(viii)应用偏差校正以校正系统扩增和/或测序错误,例如,由于参考序列子部分的指定组的GC含量变化而引起,以及(ix)确定所得到的计数是否对应于一个或多个参考序列子部分的正常表现度或高表现度或低表现度。
计算机技术在处理速度和数据存储能力方面的最新进展,以及机器学习算法的开发进展,都导致了新的问题解决方法和“大数据”应用程序的开发。在这里,我们描述了将机器学习技术应用于核酸序列数据的分析以确定拷贝数变异和检测相关基因组异常的新颖方法。所公开的方法具有替代拷贝数变异检测的常规方法中的全部或部分过程步骤的潜力,并且可以在将测试结果跨测试实验室标准化、同时监测几个基因组标志物的多重测试能力等方面展现优势。在一个优选的实施方案中,所公开的用于将机器学习技术应用于核酸序列数据分析的方法可以应用于产前检查领域,例如非侵入性产前检查(NIPT)。
发明内容
本文公开的方法包括:a)从受试者获得生物样品,其中所述生物样品包含核酸分子;b)对至少一部分所述核酸分子进行测序以产生测序读取集;c)处理所述测序读取集中的每个测序读取以产生一个或多个值,从而产生包含代表所述测序读取集的一组值的输入数据集;以及d)基于使用机器学习算法对所述输入数据集的分析,检测所述测序读取的子集的正常表现度、高表现度或低表现度。
在一些实施方案中,步骤(c)的所述处理不包括所述测序读取集的比对。在一些实施方案中,步骤(c)的所述处理包括相对于参考序列对所述测序读取集进行比对,以及对与所述参考序列的一系列预定义子部分中的每一个对齐的测序读取的数目进行计数,从而产生形成所述输入数据集的全部或部分的一组数值。在一些实施方案中,步骤(c)的所述处理包括使用机器学习算法将所述测序读取集相对于参考序列进行比对,其中所述机器学习算法被用于确定所述比对步骤所需的所述参考序列的子部分的最佳数目,以及对与所述参考序列的每个子部分对齐的测序读取的数目进行计数,从而产生形成所述输入数据集的全部或部分的一组值。在一些实施方案中,该方法还包括向对参考序列的每个子部分计得的测序读取数目施加偏差校正。在一些实施方案中,步骤(c)的所述处理包括使用机器学习算法将所述测序读取集相对于彼此进行比对,并且其中所述机器学习算法被用于确定表示完整测序读取集并且形成所述输入数据集的全部或部分的一组值或特征。在一些实施方案中,步骤(c)的所述处理包括使用机器学习算法来确定表示完整测序读取集并且形成所述输入数据集的全部或部分的一组值或特征。在一些实施方案中,步骤(c)的所述处理包括计算每个序列读取的长度、每个测序读取的GC含量、与每个测序读取中的核苷酸碱基的数目和顺序相对应的值、特征加权因子或其任何组合。在一些实施方案中,步骤(c)的处理由机器学习算法执行,所述机器学习算法不同于执行步骤(d)的分析的机器学习算法。在一些实施方案中,步骤(c)的处理由执行步骤(d)的分析的相同机器学习算法执行。在一些实施方案中,机器学习算法是深度学习算法。在一些实施方案中,深度学习算法包括具有输入层、两个或更多个隐藏层以及输出层的人工神经网络架构。在一些实施方案中,人工神经网络是前馈神经网络。在一些实施方案中,前馈神经网络是卷积神经网络。在一些实施方案中,人工神经网络是递归神经网络。在一些实施方案中,人工神经网络包括5个或更多个隐藏层。在一些实施方案中,人工神经网络包括10个或更多个隐藏层。在一些实施方案中,人工神经网络包括15个或更多个隐藏层。在一些实施方案中,输入数据集包括针对输入层中的一个或多个输入节点中的每一个的值。在一些实施方案中,输入层包括至少1,000个输入节点。在一些实施方案中,输入层包括至少10,000个输入节点。在一些实施方案中,输入层包括至少100,000个输入节点。在一些实施方案中,使用训练数据集来训练深度学习算法,所述训练数据集包括来自一个或多个对照受试者的一个或多个测序读取集。在一些实施方案中,一个或多个对照受试者是已知的整倍体受试者、已知的非整倍体受试者或其任何组合。在一些实施方案中,使用包括从公共可用数据库、私人机构数据库、商业数据库或其任何组合获得的计算机序列数据的训练数据集来训练所述深度学习算法。在一些实施方案中,使用包括用于正常受试者、异常受试者或其任何组合的模拟序列数据的训练数据集来训练所述深度学习算法。在一些实施方案中,使用包括一个或多个对照受试者的个人健康数据的训练数据集来训练所述深度学习算法,其中所述个人健康数据选自受试者年龄、胎龄、性别、体重、血压、先前子女的数目(如果是女性)、超声标志物、生化筛查结果、吸烟史、饮酒史、疾病家族史或其任何组合。在一些实施方案中,使用训练数据集来训练深度学习算法,所述训练数据集包括一个或多个测序读取集、计算机序列数据、模拟序列数据、个人健康数据或其任何组合。在一些实施方案中,所述输入数据集还包括与所述受试者的个人健康数据相对应的值,所述个人健康数据选自受试者年龄、胎龄、性别、体重、血压、先前子女的数目(如果是女性)、超声标志物、生化筛查结果、吸烟史、饮酒史、疾病家族史或其任何组合。在一些实施方案中,至少一个训练数据集存留在基于云的数据库中,所述基于云的数据库利用本地或远程产生的测序读取集、输入数据集和先前执行的深度学习分析结果来周期性地或连续地更新。在一些实施方案中,所述测序读取子集的高表现度或低表现度的检测对应于所述受试者中至少一个基因组异常的检测。在一些实施方案中,至少一个基因组异常包括拷贝数变异、至少一个染色体臂的全部或部分重复、至少一个染色体臂的全部或部分缺失或其任何组合。在一些实施方案中,至少一个基因组异常的检测至少95%准确。在一些实施方案中,至少一个基因组异常的检测至少98%准确。在一些实施方案中,至少一个基因组异常的检测至少99%准确。在一些实施方案中,测序步骤使用全基因组测序方法。在一些实施方案中,测序步骤使用靶向测序方法。在一些实施方案中,测序步骤还包括用分子条形码标记待测序的核酸分子。在一些实施方案中,所述方法还包括在测序之前扩增条形码标记的核酸分子。在一些实施方案中,所述受试者是动物或植物。在一些实施方案中,所述受试者是哺乳动物。在一些实施方案中,所述受试者是人类。在一些实施方案中,所述受试者是孕妇。在一些实施方案中,生物样品是血液、血浆、血清、尿液、组织液、阴道细胞、阴道液、颊细胞或唾液。在一些实施方案中,生物样品的体积小于约100μl。在一些实施方案中,核酸分子是无细胞核酸分子。在一些实施方案中,无细胞核酸分子是无细胞胎儿核酸分子。在一些实施方案中,生物样品包含至多约109个无细胞胎儿核酸分子。在一些实施方案中,生物样品包含少于3ng的总无细胞核酸分子。在一些实施方案中,测序读取集包括至少107个测序读取。在一些实施方案中,测序读取集包括至少106个测序读取。在一些实施方案中,测序读取集包括至少105个测序读取。在一些实施方案中,步骤(ii)中的测序读取的子集的正常表现度、高表现度或低表现度的检测不是相对于特定的靶染色体确定的。
本文公开了计算机软件产品,其包括:a)包括处理器可执行代码的机器可读介质,其中处理器可执行代码包括用于控制计算机系统执行以下方法的多个指令:i)使用第一机器学习算法处理测序读取集中的每个测序读取以产生一个或多个概率值,从而产生包含代表所述测序读取集的一组概率值的输入数据集;以及ii)基于使用第二机器学习算法对所述输入数据集的分析,检测所述测序读取的子集的正常表现度、高表现度或低表现度。
本文还公开了计算机软件产品,其包括:a)包括处理器可执行代码的机器可读介质,其中处理器可执行代码包括用于控制计算机系统执行以下方法的多个指令:i)处理测序读取集中的每个测序读取,并基于使用机器学习算法的分析,检测所述测序读取的子集的正常表现度、高表现度或低表现度。
在一些实施方案中,所述处理不包括测序读取与参考序列的比对。在一些实施方案中,所述测序读取的子集的正常表现度、高表现度或低表现度的检测不是相对于特定的靶染色体确定的。在一些实施方案中,一个或多个机器学习算法是深度学习算法。在一些实施方案中,使用存留在基于云的数据库中的至少一个训练数据集来训练一个或多个机器学习算法,该基于云的数据库利用本地或远程产生的训练数据来周期性地或连续地更新。在一些实施方案中,使用训练数据集来训练一种或多种机器学习算法,该训练数据集包括已知整倍体或非整倍体受试者的一个或多个测序读取集或模拟序列数据;从公共可用数据库、私人机构数据库或商业数据库获得的计算机序列数据;一个或多个对照受试者的个人健康数据,其中该个人健康数据选自受试者年龄、胎龄、性别、体重、血压、先前子女的数目(如果是女性)、超声标志物、生化筛查结果、吸烟史、饮酒史和疾病家族史;或其任何组合。
在一些实施方案中,所公开的用于分析核酸序列数据的基于机器学习的方法可以应用于各种基于测序的测定中的任何一种,其中即使在非常低体积的样品或包含非常少量的核酸分子的样品中也能可靠地检测至少一个靶序列的正常表现度、高表现度或低表现度的能力对于测定的性能是至关重要的。
因此,本文公开的方法包括:从受试者获得生物样品,其中所述生物样品包含无细胞核酸;任选地标记至少一部分所述无细胞核酸以产生任选地标记的无细胞核酸的文库;任选地扩增所述任选地标记的无细胞核酸;对至少一部分所述任选地标记的无细胞核酸进行测序;以及使用基于机器学习的核酸测序数据分析,在至少一部分所述任选地标记的无细胞核酸中检测至少一个靶序列的正常表现度、高表现度或低表现度。
本文还公开了产前亲子鉴定方法,其包括:从怀有胎儿的受试者获得生物样品,其中所述生物样品包含无细胞核酸;任选地标记至少一部分所述无细胞核酸以产生任选地标记的无细胞核酸的文库;任选地扩增所述任选地标记的无细胞核酸;对至少一部分所述任选地标记的无细胞核酸进行测序;从怀疑是胎儿父亲的个体获得父亲基因型信息;以及将父亲基因型信息与通过基于机器学习的测序数据分析而鉴定的无细胞核酸的胎儿组分进行比较,以确定胎儿组分与父亲基因型之间是否存在基因型匹配。
本文公开了分析获自受试者的生物样品的方法,该方法包括:从受试者获得生物样品,其中所述生物样品包含无细胞核酸;任选地,标记至少一部分所述无细胞核酸以产生标记的无细胞核酸的文库;通过大规模多重扩增测定来扩增所述任选地标记的无细胞核酸;任选地,合并扩增的任选地标记的无细胞核酸;对至少一部分所述扩增的任选地标记的无细胞核酸进行测序;以及使用基于机器学习的核酸序列数据分析,在至少一部分所述任选地标记的无细胞核酸中检测至少一个靶序列的正常表现度、高表现度或低表现度。
在这些方法的一些实施方案中,生物样品包含血液、血浆、血清、尿液、组织液、阴道细胞、阴道液、宫颈细胞、颊细胞或唾液。在一些实施方案中,血液包含毛细血管血液。在一些实施方案中,毛细血管血液包含不超过1毫升的血液。在一些实施方案中,毛细血管血液包含不超过100微升的血液。在一些实施方案中,毛细血管血液包含不超过40微升的血液。在一些实施方案中,该方法还包括合并两个或更多个生物样品,每个样品获自不同的受试者。在一些实施方案中,该方法还包括在从受试者获得生物样品之后使生物样品与白细胞稳定剂接触。在一些实施方案中,通过透皮穿刺收集获自受试者的生物样品。在一些实施方案中,不通过透皮穿刺收集获自受试者的生物样品。在一些实施方案中,使用被配置为裂解受试者表皮的胞间连接点的设备收集获自受试者的生物样品。在一些实施方案中,通过以下方法收集获自受试者的生物样品:(a)诱导第一次经皮穿刺以产生第一部分生物样品;(b)丢弃第一部分生物样品;以及(c)收集第二部分生物样品,从而减少或消除由于白细胞裂解引起的生物样品污染。在一些实施方案中,(c)的标记包括:通过一个或多个步骤产生连接感受态的无细胞DNA,所述步骤包括:产生无细胞DNA的平端,其中使用一种或多种聚合酶和一种或多种使无细胞DNA的平端去磷酸化的核酸外切酶来除去5’突出端或3’凹陷端;使无细胞DNA与群集剂接触,从而增强一种或多种聚合酶、一种或多种核酸外切酶与无细胞DNA之间的反应;或使用连接酶修复或去除无细胞DNA中的DNA损伤;以及通过在连接酶、群集剂和/或小分子增强剂的存在下使连接感受态的无细胞DNA与衔接子寡核苷酸接触,将连接感受态的无细胞DNA与衔接子寡核苷酸连接。在一些实施方案中,一种或多种聚合酶包含T4 DNA聚合酶或DNA聚合酶I。在一些实施方案中,一种或多种核酸外切酶包含T4多核苷酸激酶或核酸外切酶III。在一些实施方案中,连接酶包含T3 DNA连接酶、T4 DNA连接酶、T7DNA连接酶、Taq连接酶、扩增连接酶、大肠杆菌连接酶或Sso7-连接酶融合蛋白。在一些实施方案中,群集剂包括聚乙二醇(PEG)、糖原或葡聚糖或其组合。在一些实施方案中,小分子增强剂包含二甲基亚砜(DMSO)、聚山梨酯20、甲酰胺或二醇或其组合。在一些实施方案中,(b)中的连接包括平端连接或单核苷酸突出端连接。在一些实施方案中,衔接子寡核苷酸包括Y形衔接子、发夹衔接子、茎环衔接子、可降解衔接子、封闭的自连接衔接子或条形码衔接子或其组合。在一些实施方案中,产生的步骤(c)中的文库具有至少0.5的效率。在一些实施方案中,靶无细胞核酸是来自肿瘤的无细胞核酸。在一些实施方案中,靶无细胞核酸是来自胎儿的无细胞核酸。在一些实施方案中,靶无细胞核酸是来自移植组织或器官的无细胞核酸。在一些实施方案中,靶无细胞核酸是来自一种或多种病原体的基因组核酸。在一些实施方案中,病原体包含细菌或其组分。在一些实施方案中,病原体包含病毒或其组分。在一些实施方案中,病原体包含真菌或其组分。在一些实施方案中,无细胞核酸包含一个或多个单核苷酸多态性(SNP)、插入或缺失(indel)或其组合。在一些实施方案中,大规模多重扩增测定是等温扩增。在一些实施方案中,大规模多重扩增测定是聚合酶链反应(mmPCR)。在一些实施方案中,生物样品包括其中胎儿无细胞核酸与外周血相比较低的细胞类型或组织类型。
本文公开的方法包括:从受试者获得约1-100微升(μl)的包含脱氧核糖核酸(DNA)的生物样品;以及使用基于机器学习的DNA序列数据分析来检测DNA的表观遗传修饰。
在一些实施方案中,表观遗传修饰包括遗传基因座处的DNA甲基化、组蛋白甲基化、组蛋白、泛素化、组蛋白乙酰化、组蛋白磷酸化、微小RNA(miRNA)。在一些实施方案中,DNA甲基化包含CpG甲基化或CpH甲基化。在一些实施方案中,遗传基因座包含基因的启动子或调控元件。在一些实施方案中,遗传基因座包含可变长末端重复序列(LTR)。在一些实施方案中,遗传基因座包含无细胞DNA或其片段。在一些实施方案中,遗传基因座包含单核苷酸多态性(SNP)。在一些实施方案中,组蛋白乙酰化由组蛋白脱乙酰基酶的存在或水平指示。在一些实施方案中,组蛋白修饰是在选自组蛋白2A(H2A)、组蛋白2B(H2B)、组蛋白3(H3)和组蛋白4(H4)的组蛋白处。在一些实施方案中,组蛋白甲基化是H3赖氨酸4的甲基化(H3K4me2)。在一些实施方案中,组蛋白乙酰化是在H4处的脱乙酰作用。在一些实施方案中,miRNA选自miR-21、miR-126、mi-R142、mi-R146a、mi-R12a、mi-R181a、miR-29c、miR-29a、miR-29b、miR-101、miRNA-155和miR-148a。在一些实施方案中,生物样品包含血液、血浆、血清、尿液、组织液、阴道细胞、阴道液、宫颈细胞、颊细胞或唾液。在一些实施方案中,血液包含毛细血管血液。在一些实施方案中,毛细血管血液包含不超过40微升的血液。在一些实施方案中,该方法还包括合并两个或更多个生物样品,每个样品获自不同的受试者。在一些实施方案中,通过透皮穿刺收集获自受试者的生物样品。在一些实施方案中,不通过透皮穿刺收集获自受试者的生物样品。在一些实施方案中,使用被配置为裂解受试者表皮的胞间连接点的设备收集获自受试者的生物样品。在一些实施方案中,通过以下方法收集获自受试者的生物样品:(a)诱导第一次经皮穿刺以产生第一部分生物样品;(b)丢弃第一部分生物样品;以及(c)收集第二部分生物样品,从而减少或消除由于白细胞裂解引起的生物样品污染。在一些实施方案中,该方法还包括在从受试者获得生物样品之后使生物样品与白细胞稳定剂接触。
本文公开的方法包括:从受试者获得生物样品,其中所述生物样品包含至多约109个无细胞核酸分子;对至少一部分所述无细胞核酸分子进行测序以产生测序读取;使用基于机器学习的方法分析对应于至少一个染色体区域的测序读取的至少一部分;以及检测所述至少一个染色体区域的正常表现度、高表现度或低表现度。
本文公开了产前亲子鉴定方法,其包括:从怀有胎儿的受试者获得生物样品,其中所述生物样品包含至多约109个无细胞核酸分子;对至少一部分所述无细胞核酸分子进行测序以产生测序读取;使用基于机器学习的方法分析对应于至少一个染色体区域的测序读取的至少一部分;从怀疑是胎儿父亲的个体获得父亲基因型信息;以及将父亲基因型信息与通过基于机器学习的分析而鉴定的无细胞核酸的胎儿组分进行比较,以确定胎儿组分与父亲基因型之间是否存在基因型匹配。
在一些实施方案中,这些方法还包括扩增无细胞核酸。在一些实施方案中,这些方法还包括标记至少一部分所述无细胞核酸以产生标记的无细胞核酸的文库。
本文还公开了方法,其包括:从受试者获得生物样品,其中所述生物样品包含至多约109个无细胞核酸分子;扩增所述无细胞核酸;任选地标记至少一部分所述无细胞核酸以产生标记的无细胞核酸的文库;通过大规模多重扩增测定来扩增所述任选地标记的无细胞核酸;任选地,合并所述扩增的任选地标记的无细胞核酸;对至少一部分所述扩增的任选标记的无细胞核酸分子进行测序以产生测序读取;使用基于机器学习的方法分析对应于至少一个染色体区域的测序读取的至少一部分;以及检测所述至少一个染色体区域的正常表现度、高表现度或低表现度。
在一些实施方案中,标记包括:通过一个或多个步骤产生连接感受态的无细胞DNA,所述步骤包括:产生无细胞DNA的平端,其中使用一种或多种聚合酶和一种或多种核酸外切酶来除去5’突出端或3’凹陷端;使无细胞DNA的平端去磷酸化;使无细胞DNA与群集剂接触,从而增强一种或多种聚合酶、一种或多种核酸外切酶与无细胞DNA之间的反应;或使用连接酶修复或去除无细胞DNA中的DNA损伤;以及通过在连接酶、群集剂和/或小分子增强剂的存在下使连接感受态的无细胞DNA与衔接子寡核苷酸接触,将连接感受态的无细胞DNA与衔接子寡核苷酸连接。在一些实施方案中,该方法还包括合并两个或更多个生物样品,每个样品获自不同的受试者。在一些实施方案中,该方法还包括在从受试者获得生物样品之后使生物样品与白细胞稳定剂接触。在一些实施方案中,一种或多种聚合酶包含T4 DNA聚合酶或DNA聚合酶I。在一些实施方案中,一种或多种核酸外切酶包含T4多核苷酸激酶或核酸外切酶III。在一些实施方案中,连接酶包含T3 DNA连接酶、T4 DNA连接酶、T7 DNA连接酶、Taq连接酶、扩增连接酶、大肠杆菌连接酶或Sso7-连接酶融合蛋白。在一些实施方案中,群集剂包括聚乙二醇(PEG)、糖原或葡聚糖或其组合。在一些实施方案中,小分子增强剂包含二甲基亚砜(DMSO)、聚山梨酯20、甲酰胺或二醇或其组合。在一些实施方案中,(b)中的连接包括平端连接或单核苷酸突出端连接。在一些实施方案中,衔接子寡核苷酸包括Y形衔接子、发夹衔接子、茎环衔接子、可降解衔接子、封闭的自连接衔接子或条形码衔接子或其组合。在一些实施方案中,生物样品是体积小于约500μl的生物样品。在一些实施方案中,生物样品是体积为约1μl至约100μl的生物样品。在一些实施方案中,生物样品是体积为约5μl至约80μl的生物样品。在一些实施方案中,生物样品包含血液、血浆、血清、尿液、组织液、阴道细胞、阴道液、宫颈细胞、颊细胞或唾液。在一些实施方案中,生物样品是血清或血浆。在一些实施方案中,该方法还包括从血液样品中分离血浆或血清。在一些实施方案中,分离包括过滤血液样品以从血液样品中去除细胞、细胞碎片、微泡或其组合以产生血浆样品。在一些实施方案中,获得血液样品包括对手指进行针刺。在一些实施方案中,使用被配置为裂解受试者表皮的胞间连接点的设备收集获自受试者的生物样品。在一些实施方案中,通过以下方法收集获自受试者的生物样品:(a)诱导第一次经皮穿刺以产生第一部分生物样品;(b)丢弃第一部分生物样品;以及(c)收集第二部分生物样品,从而减少或消除由于白细胞裂解引起的生物样品污染。在一些实施方案中,生物样品包含约104至约109个无细胞核酸分子。在一些实施方案中,生物样品包含约104至约107个无细胞核酸分子。在一些实施方案中,生物样品包含少于300pg的无细胞核酸分子。在一些实施方案中,生物样品包含少于3ng的无细胞核酸分子。在一些实施方案中,受试者是妊娠受试者,并且无细胞核酸分子包括无细胞胎儿核酸分子。在一些实施方案中,无细胞核酸包括来自组织中的肿瘤的核酸。在一些实施方案中,靶无细胞核酸是来自胎儿的无细胞核酸。在一些实施方案中,靶无细胞核酸是来自移植组织或器官的无细胞核酸。在一些实施方案中,靶无细胞核酸是来自一种或多种病原体的基因组核酸。在一些实施方案中,病原体包含细菌或其组分。在一些实施方案中,病原体包含病毒或其组分。在一些实施方案中,病原体包含真菌或其组分。在一些实施方案中,无细胞核酸包含一个或多个单核苷酸多态性(SNP)、插入或缺失(indel)或其组合。在一些实施方案中,大规模多重扩增测定是等温扩增。在一些实施方案中,大规模多重扩增测定是聚合酶链反应(mmPCR)。在一些实施方案中,生物样品包括其中胎儿无细胞核酸与外周血相比较低的细胞类型或组织类型。
本文公开的系统包含:样品收集器,其被配置为收集受试者的生物样品;样品处理器,其被配置为从生物样品中分离样品组分;核酸检测器,其被配置为检测生物样品或样品组分中的核酸;以及核酸信息输出。在一些实施方案中,核酸信息输出基于核酸序列数据的基于机器学习的分析。在一些实施方案中,该系统还包括白细胞稳定剂。在一些实施方案中,样品收集器包含经皮穿刺设备。在一些实施方案中,经皮穿刺设备包含针头、刺血针、微针、真空和微针阵列中的至少一个。在一些实施方案中,样品收集器包括被配置为裂解受试者的表皮的胞间连接点的设备。在一些实施方案中,样品组分选自细胞、碳水化合物、磷脂、蛋白质、核酸和微泡。在一些实施方案中,样品组分是血细胞。在一些实施方案中,样品组分不包含无细胞核酸。在一些实施方案中,样品组分包含无细胞核酸。在一些实施方案中,无细胞核酸来自肿瘤。在一些实施方案中,无细胞核酸来自胎儿。在一些实施方案中,无细胞核酸来自移植的组织或器官。在一些实施方案中,无细胞核酸来自一种或多种病原体。在一些实施方案中,病原体包含细菌或其组分。在一些实施方案中,病原体包含病毒或其组分。在一些实施方案中,病原体包含真菌或其组分。在一些实施方案中,无细胞核酸来自与外周血相比具有低无细胞核酸丰度的细胞类型或组织类型。在一些实施方案中,样品组分包含一种或多种单核苷酸多态性(SNP)、一种或多种插入缺失或其组合。在一些实施方案中,核酸检测器被配置为执行基因分型测定。在一些实施方案中,基因分型测定包括定量实时聚合酶链反应(qPCR)、基因型阵列或自动测序。在一些实施方案中,qPCR包括多重聚合酶链反应(mmPCR)。在一些实施方案中,样品组分是血浆或血清。在一些实施方案中,样品纯化器被配置为从少于1毫升的血液中分离血浆。在一些实施方案中,样品纯化器被配置为从少于250μl的血液中分离血浆。在一些实施方案中,生物样品的体积不大于50μl。在一些实施方案中,生物样品的所述体积为约10μl至约40μl。在一些实施方案中,生物样品含有约25pg至约250pg的总循环无细胞DNA。在一些实施方案中,样品包含生物样品或样品组分中感兴趣的序列的约5至约100个拷贝数。在一些实施方案中,生物样品包含约104至约109个无细胞核酸分子。在一些实施方案中,生物样品包含约104至约107个无细胞核酸分子。在一些实施方案中,生物样品包含少于300pg的无细胞核酸分子。在一些实施方案中,生物样品包含少于3ng的无细胞核酸分子。在一些实施方案中,核酸检测器包含核酸测序仪。在一些实施方案中,系统包含至少一种核酸扩增试剂和至少一种群集剂。在一些实施方案中,系统包含至少一种用于从生物样品产生无细胞核酸文库的第一标签,以及至少一种扩增试剂。在一些实施方案中,至少一种核酸扩增试剂包含引物、聚合酶及其组合。在一些实施方案中,核酸检测器进一步被配置为通过以下方式标记核酸:通过一个或多个步骤产生连接感受态的核酸,所述步骤包括:产生核酸的平端,其中使用一种或多种聚合酶和一种或多种核酸外切酶除去5’突出端或3’凹陷端;使核酸的平端去磷酸化;使核酸与群集剂接触,从而增强一种或多种聚合酶、一种或多种核酸外切酶与核酸之间的反应;或使用连接酶修复或去除核酸中的受损核酸;以及通过在连接酶、群集剂和/或小分子增强剂的存在下使连接感受态的核酸与衔接子寡核苷酸接触,将连接感受态的核酸与衔接子寡核苷酸连接。在一些实施方案中,一种或多种聚合酶包含T4 DNA聚合酶或DNA聚合酶I。在一些实施方案中,一种或多种核酸外切酶包含T4多核苷酸激酶或核酸外切酶III。在一些实施方案中,连接酶包含T3 DNA连接酶、T4 DNA连接酶、T7 DNA连接酶、Taq连接酶、扩增连接酶、大肠杆菌连接酶或Sso7-连接酶融合蛋白。在一些实施方案中,群集剂包括聚乙二醇(PEG)、糖原或葡聚糖或其组合。在一些实施方案中,小分子增强剂包含二甲基亚砜(DMSO)、聚山梨酯20、甲酰胺或二醇或其组合。在一些实施方案中,(b)中的连接包括平端连接或单核苷酸突出端连接。在一些实施方案中,衔接子寡核苷酸包括Y形衔接子、发夹衔接子、茎环衔接子、可降解衔接子、封闭的自连接衔接子或条形码衔接子或其组合。在一些实施方案中,核酸检测器还被配置为对标签计数以检测样品中感兴趣的核酸的表现度。在一些实施方案中,核酸序列输出选自无线通信设备、有线通信设备、电缆端口和电子显示器。在一些实施方案中,系统的所有组件都位于单个位置。在一些实施方案中,系统的所有组件都容纳在单个设备中。在一些实施方案中,样品收集器位于第一位置,并且样品纯化器和核酸检测器中的至少一个位于第二位置。在一些实施方案中,样品收集器以及样品纯化器和核酸检测器中的至少一个在同一位置。在一些实施方案中,样品纯化器包括过滤器。在一些实施方案中,过滤器具有约0.05微米至约2微米的孔径。在一些实施方案中,系统还包含用于运输或储存至少一部分生物样品的运输隔室或储存隔室。在一些实施方案中,运输隔室或储存隔室包含吸收垫、流体容器、样品防腐剂或其组合。在一些实施方案中,该系统还包括配置为扩增来自样品组分或生物样品的核酸的核酸扩增仪,并且其中核酸检测器还配置为检测生物样品或样品组分中的扩增核酸。在一些实施方案中,核酸扩增仪是聚合酶链反应(PCR)设备。在一些实施方案中,PCR设备是大规模多重PCR设备(mmPCR)。
本文公开的系统包括:样品收集器,其被配置为收集约1-100微升(μl)的受试者生物样品;样品处理器,其被配置为从所述生物样品中分离样品组分;检测器,其被配置为检测生物样品或样品组分中的表观遗传修饰;以及信息输出。在一些实施方案中,信息输出基于对源自生物样品的核酸序列数据的基于机器学习的分析。在一些实施方案中,表观遗传修饰包括遗传基因座处的DNA甲基化、组蛋白甲基化、组蛋白、泛素化、组蛋白乙酰化、组蛋白磷酸化、微小RNA(miRNA)。在一些实施方案中,DNA甲基化包含CpG甲基化或CpH甲基化。在一些实施方案中,遗传基因座包含基因的启动子或调控元件。在一些实施方案中,遗传基因座包含可变长末端重复序列(LTR)。在一些实施方案中,遗传基因座包含无细胞DNA或其片段。在一些实施方案中,遗传基因座包含单核苷酸多态性(SNP)。在一些实施方案中,组蛋白乙酰化由组蛋白脱乙酰基酶的存在或水平指示。在一些实施方案中,组蛋白修饰是在选自组蛋白2A(H2A)、组蛋白2B(H2B)、组蛋白3(H3)和组蛋白4(H4)的组蛋白处。在一些实施方案中,组蛋白甲基化是H3赖氨酸4的甲基化(H3K4me2)。在一些实施方案中,组蛋白乙酰化是在H4处的脱乙酰作用。在一些实施方案中,miRNA选自miR-21、miR-126、mi-R142、mi-R146a、mi-R12a、mi-R181a、miR-29c、miR-29a、miR-29b、miR-101、miRNA-155和miR-148a。在一些实施方案中,生物样品包含血液、血浆、血清、尿液、组织液、阴道细胞、阴道液、宫颈细胞、颊细胞或唾液。在一些实施方案中,血液包含毛细血管血液。在一些实施方案中,毛细血管血液包含不超过40微升的血液。在一些实施方案中,通过透皮穿刺收集获自受试者的生物样品。在一些实施方案中,不通过透皮穿刺收集获自受试者的生物样品。在一些实施方案中,使用被配置为裂解受试者表皮的胞间连接点的设备收集获自受试者的生物样品。在一些实施方案中,通过以下方法收集获自受试者的生物样品:(a)诱导第一次经皮穿刺以产生第一部分生物样品;(b)丢弃第一部分生物样品;以及(c)收集第二部分生物样品,从而减少或消除由于白细胞裂解引起的生物样品污染。在一些实施方案中,该系统还包括白细胞稳定剂。
本文还公开了一种设备,其包括:样品收集器,用于从有需要的受试者获得生物样品;样品纯化器,用于从生物样品去除细胞以产生细胞去除样品;以及核酸检测器,其被配置为检测细胞去除样品中的多个无细胞DNA片段。
在一些实施方案中,无细胞DNA片段的检测包括使用核酸序列数据的基于机器学习的分析。在一些实施方案中,该设备还包括白细胞稳定剂。在一些实施方案中,样品收集器被配置为裂解受试者表皮的胞间连接点。在一些实施方案中,样品收集器被配置为从经皮穿刺收集样品。在一些实施方案中,第一序列存在于多个无细胞DNA片段中的第一无细胞DNA片段上,并且第二序列存在于多个无细胞DNA片段中的第二无细胞DNA片段上,并且其中第一序列与第二序列至少80%相同。在一些实施方案中,第一序列和第二序列中的至少一种在受试者的基因组中重复至少两次。在一些实施方案中,第一序列和第二序列的长度各自为至少10个核苷酸。在一些实施方案中,第一序列在第一染色体上,并且第二序列在第二染色体上。在一些实施方案中,第一序列和第二序列在同一染色体上,但被至少1个核苷酸隔开。在一些实施方案中,第一序列和第二序列功能连接。在一些实施方案中,核酸检测器包含至少一种检测试剂。在一些实施方案中,至少一种检测试剂包括能够检测多个无细胞DNA片段中的至少一个无细胞DNA片段的寡核苷酸探针。在一些实施方案中,设备还包括配置为扩增来自样品组分或生物样品的核酸的核酸扩增仪,并且其中核酸检测器还配置为检测生物样品或样品组分中的扩增核酸。在一些实施方案中,核酸扩增仪是等温聚合酶链反应(PCR)设备。在一些实施方案中,等温PCR设备是大规模多重PCR设备(mmPCR)。在一些实施方案中,该设备还包括基因型分析仪,其配置为将检测到的多个无细胞DNA片段与已知基因型进行比较。在一些实施方案中,多个无细胞DNA片段包含胎儿组分,并且已知基因型是父亲基因型。在一些实施方案中,核酸扩增仪包含至少一种核酸扩增试剂和单对引物以扩增第一序列和第二序列。在一些实施方案中,核酸检测器包含核酸测序仪。在一些实施方案中,核酸测序仪包括信号检测器。在一些实施方案中,核酸检测器是侧流条。在一些实施方案中,无细胞DNA包含一个或多个单核苷酸多态性(SNP)、插入或缺失(indel)或其组合。在一些实施方案中,无细胞DNA来自肿瘤。在一些实施方案中,无细胞DNA来自胎儿。在一些实施方案中,无细胞DNA来自移植的组织或器官。在一些实施方案中,无细胞核酸来自与外周血相比具有低无细胞核酸丰度的细胞类型或组织类型。在一些实施方案中,无细胞DNA来自一种或多种病原体。在一些实施方案中,病原体包含细菌或其组分。在一些实施方案中,病原体包含病毒或其组分。在一些实施方案中,病原体包含真菌或其组分。在一些实施方案中,样品纯化器包括过滤器,并且其中过滤器具有约0.05微米至约2微米的孔径。在一些实施方案中,过滤器是垂直过滤器。在一些实施方案中,样品纯化器包含结合部分,该结合部分选自抗体、抗原结合抗体片段、配体、受体、肽、小分子及其组合。在一些实施方案中,结合部分能够与细胞外囊泡结合。在一些实施方案中,核酸检测器被配置为通过以下方式产生标记的无细胞DNA片段文库:通过一个或多个步骤产生连接感受态的无细胞DNA片段,步骤包括:产生无细胞DNA片段的平端,其中使用一种或多种聚合酶和一种或多种核酸外切酶除去5’突出端或3’凹陷端;使无细胞DNA片段的平端去磷酸化;使无细胞DNA片段与群集剂接触,从而增强一种或多种聚合酶、一种或多种核酸外切酶与无细胞DNA片段之间的反应;或使用连接酶修复或去除无细胞DNA片段中的DNA损伤;通过在连接酶、群集剂和/或小分子增强剂的存在下使连接感受态的无细胞DNA片段与衔接子寡核苷酸接触,将连接感受态的无细胞DNA片段与衔接子寡核苷酸连接。在一些实施方案中,一种或多种聚合酶包含T4DNA聚合酶或DNA聚合酶I。在一些实施方案中,一种或多种核酸外切酶包含T4多核苷酸激酶或核酸外切酶III。在一些实施方案中,连接酶包含T3 DNA连接酶、T4 DNA连接酶、T7 DNA连接酶、Taq连接酶、扩增连接酶、大肠杆菌连接酶或Sso7-连接酶融合蛋白。在一些实施方案中,群集剂包括聚乙二醇(PEG)、糖原或葡聚糖或其组合。在一些实施方案中,小分子增强剂包含二甲基亚砜(DMSO)、聚山梨酯20、甲酰胺或二醇或其组合。在一些实施方案中,(b)中的连接包括平端连接或单核苷酸突出端连接。在一些实施方案中,衔接子寡核苷酸包括Y形衔接子、发夹衔接子、茎环衔接子、可降解衔接子、封闭的自连接衔接子或条形码衔接子或其组合。在一些实施方案中,该设备还被配置为合并两个或多个生物样品,每个样品获自不同的受试者。在一些实施方案中,核酸检测器还被配置为对标签计数以检测样品中感兴趣的核酸的表现度。在一些实施方案中,该设备还包括核酸序列输出,该核酸序列输出包括无线通信设备、有线通信设备、电缆端口或电子显示器。在一些实施方案中,设备包含在单个壳体中。在一些实施方案中,设备在室温下运行。在一些实施方案中,设备能够在接收生物流体的约五分钟至约二十分钟内检测细胞去除样品中的多种生物标志物。在一些实施方案中,设备包含通信连接。在一些实施方案中,生物样品包含血液、血浆、血清、尿液、组织液、阴道细胞、阴道液、宫颈细胞、颊细胞或唾液。在一些实施方案中,血液包含毛细血管血液。在一些实施方案中,样品纯化器被配置为从少于250μl的血液中分离血浆。在一些实施方案中,生物样品的体积不大于50μl。在一些实施方案中,生物样品的体积为约10μl至约40μl。在一些实施方案中,生物样品含有约25pg至约250pg的总循环无细胞DNA。在一些实施方案中,生物样品包含生物样品或样品组分中感兴趣的序列的约5至约100个拷贝数。在一些实施方案中,生物样品包含约104至约109个无细胞核酸分子。在一些实施方案中,生物样品包含约104至约107个无细胞核酸分子。在一些实施方案中,生物样品包含少于300pg的无细胞核酸分子。在一些实施方案中,生物样品包含少于3ng的无细胞核酸分子。
本文公开的设备包括:样品收集器,其配置为收集约1-100微升(μl)的受试者生物样品;样品处理器,其被配置为从生物样品中分离样品组分;检测器,其被配置为检测生物样品或样品组分中的表观遗传修饰;以及信息输出。
在一些实施方案中,信息输出基于对源自生物样品的核酸序列数据的机器学习分析。在一些实施方案中,样品收集器被配置为从经皮穿刺收集样品。在一些实施方案中,样品收集器被配置为裂解受试者表皮的胞间连接点。在一些实施方案中,表观遗传修饰包括遗传基因座处的DNA甲基化、组蛋白甲基化、组蛋白、泛素化、组蛋白乙酰化、组蛋白磷酸化、微小RNA(miRNA)。在一些实施方案中,DNA甲基化包含CpG甲基化或CpH甲基化。在一些实施方案中,遗传基因座包含基因的启动子或调控元件。在一些实施方案中,遗传基因座包含可变长末端重复序列(LTR)。在一些实施方案中,遗传基因座包含无细胞DNA或其片段。在一些实施方案中,遗传基因座包含单核苷酸多态性(SNP)。在一些实施方案中,组蛋白乙酰化由组蛋白脱乙酰基酶的存在或水平指示。在一些实施方案中,组蛋白修饰是在选自组蛋白2A(H2A)、组蛋白2B(H2B)、组蛋白3(H3)和组蛋白4(H4)的组蛋白处。在一些实施方案中,组蛋白甲基化是H3赖氨酸4的甲基化(H3K4me2)。在一些实施方案中,组蛋白乙酰化是在H4处的脱乙酰作用。在一些实施方案中,miRNA选自miR-21、miR-126、mi-R142、mi-R146a、mi-R12a、mi-R181a、miR-29c、miR-29a、miR-29b、miR-101、miRNA-155和miR-148a。在一些实施方案中,生物样品包含血液、血浆、血清、尿液、组织液、阴道细胞、阴道液、宫颈细胞、颊细胞或唾液。在一些实施方案中,血液包含毛细血管血液。在一些实施方案中,毛细血管血液包含不超过40微升的血液。在一些实施方案中,通过透皮穿刺收集获自受试者的生物样品。在一些实施方案中,不通过透皮穿刺收集获自受试者的生物样品。在一些实施方案中,通过以下方法收集获自受试者的生物样品:(a)诱导第一次经皮穿刺以产生第一部分生物样品;(b)丢弃第一部分生物样品;以及(c)收集第二部分生物样品,从而减少或消除流体的污染。在一些实施方案中,该设备还包括白细胞稳定剂。
援引并入
说明书中提及的所有出版物、专利和专利申请均通过引用全文并入本文,程度如同具体地和个别地指出要通过引用全文来并入每一个出版物、专利或专利申请。在本文中的术语与并入的参考文献中的术语之间存在冲突的情况下,以本文中的术语为准。
附图说明
本发明的新颖特征在所附权利要求中具体阐述。通过参考以下对其中利用到本发明的原理的说明性实施方式加以阐述的详细描述和附图,将会获得对本发明的特征和优点的更好理解,在这些附图中:
图1提供了典型的基于核酸测序的筛选/诊断测试程序的工作流程的示意图。
图2提供了图1中所示的基于核酸测序的筛选/诊断测试程序的数据处理部分的示意图,并且还指示了可以通过使用本文所公开的机器学习算法来增加或替换的不同步骤或步骤的组合。
图3提供了用于基于核酸测序的诊断测试程序的测序读取数据的非限制性实例。
图4提供了用于比对测序读取数据以确定每个序列片段的染色体来源的常规方法的非限制性实例。没有唯一来源的测序读取通常会从数据集中丢弃。
图5提供了对测序读取数据进行分箱以确定针对参考序列的一系列预定义区段中的每一个所鉴定的测序读取数目的常规过程的非限制性实例。
图6A提供了在缩放或标准化之前,箱计数变化的原始数据与GC含量的关系的非限制性实例。
图6B提供了在缩放后,箱计数变化的数据与GC含量的关系的非限制性实例。
图6C提供了在标准化后,箱计数变化的数据与GC含量的关系的非限制性实例。
图6D提供了在首先缩放然后对数据进行标准化之后,箱计数变化的数据与GC含量的关系的非限制性实例。
图7A-B提供了箱计数数据相对于基因组位置的非限制性实例。图7A:在针对GC含量标准化之前,箱计数数据与基因组位置的关系。图7B:在针对GC含量标准化之后,箱计数数据与基因组位置的关系。
图8提供了在针对GC含量标准化之前和之后,不同测序读取箱的箱计数数据的非限制性实例。
图9提供了整倍体群体中测序读取计数相对于21号染色体百分比的分布的非限制性实例。
图10提供了包括具有一个隐藏层的人工神经网络的机器学习架构的示意图。
图11提供了人工神经网络或深度学习算法架构的一层内的节点的示意图。
图12提供了包括深度学习算法(例如,包括多个隐藏层的人工神经网络)的机器学习架构的示意图。
图13提供了诸如深度学习算法的机器学习算法的使用的示意图,所述机器学习算法用于处理包括一个或多个输入值(例如,测序读取数据或从其导出的数据)的输入数据集中的数据,并且将其映射到包括一个或多个输出值(例如,属于给定箱/类别的给定测序读取的概率数据以及整个测序读取数据集在整个箱/类别集合上的概率分布)的输出数据集。
图14提供了对与预定数目的基因组序列箱中的每一个对齐的测序读取的数目进行计数以产生箱计数数据的常规过程的图示。虚线表示其值不会因增加代表当前测序读取的值而改变的箱。
图15提供了用于根据测序读取来自特定基因组区域的概率对测序读取进行分类的概率向量数据总和的图示。在这种方法中,不需要将各个测序读取与参考序列进行比对。许多箱的值可能会因增加表示当前测序读取的概率值而发生变化。
图16提供了使用第一深度学习神经网络(DNN)对测序读取数据进行分类并产生类别概率向量,然后使用第二DNN将类别概率向量集映射到样品分类结果的示意图。
图17提供了使用单个深度学习神经网络将测序读取数据的输入集直接映射到样品分类结果的示意图。
图18示出了使用8-10ml静脉血作为起始量进行的低覆盖全基因组测序的不同处理步骤中预期的cfDNA片段的典型量。
图19示出了提高测序文库效率对于显著提高使用超低cfDNA输入量的应用的灵敏度的重要性。
图20示出了未针对超低cfDNA输入量进行优化的标准方案数据集的中位数箱计数和每箱中位数绝对偏差(MAD)之间的关系。
图21示出了针对超低cfDNA输入量进行优化的优化方案数据集的中位数箱计数和每箱中位数绝对偏差(MAD)之间的关系。
图22示出了一种矩阵,其允许人们对于不同的文库制备效率,将序列读取和基因组当量关联。
图23以黄色示出了优化的方案数据点,以蓝色示出了标准方案点。与本公开内容的优化方案相比,标准方案的文库制备和测序在测序中产生的有效采样基因组当量较少(标准方案的中位数为1.355,优化方案的中位数为6.065)。
图24示出了标准方案数据示出了良好的特异性(0个假阳性,100%特异性),但灵敏度较差(2个假阴性,50%灵敏度)。
图25示出了从标准方案文库制备和测序中得到的数据是有噪声的,并且不能容易地划分怀有男性与女性胎儿的样品。
图26示出了使用标准方案(左)和优化方案(右),所有样品的组合胎儿部分测量结果与由chr21引入的观察到的效果良好相关。
图27示出了与标准方案相比,优化方案产生了更高的有效拷贝数,对于标准方案,甚至导致对胎儿性别的错误结果。
图28提供了标准方案灵敏度低(2个假阴性)的解释,其中红线使用90%的估计PCR效率、仅5%的文库效率和36M序列读取模拟了50%的灵敏度,与用标准方案分析的4个样品绘制的实际数据一致。
图29示出了“擦除的”和“未擦除的”毛细管血液收集样品在DNA片段大小分布的差异方面的比较。
图30A-B提供了人类测序计数数据的实例。两个图像中的每个点代表每个基因组箱的计数值。图30A:箱GC比例与每个箱的序列计数数目的关系。图30B:基因组箱数目与每个箱的序列计数数目的关系。
图31提供了核苷酸序列的“独热(one-hot)”编码方式的非限制性实例。
图32A-C示出了针对780万个PhiX174测序读取的基于神经网络的箱分配与经处理的序列比对的比较。图32A:从PhiX174测序读取创建的计数标准化softmax概率总和向量示出了跨基因组箱/类别的均匀分布。前10个箱/类别的宽度为500bp,而最后一个箱/类别的宽度仅为386bp。图32B:基于神经网络的箱分配所得的每个箱映射的测序读取百分比与使用常规Bowtie比对过程并随后进行箱分配所得的每个箱映射的读取百分比相匹配。图32C:来自基于神经网络的箱分配与常规Bowtie比对过程并随后进行箱分配的计数标准化softmax概率总和的对比图。
图33示出了用于胎儿部分计算的β分布实例。垂直线表示0.01和0.99分位数。
图34提供了18单体(蓝色)和21三体(红色)样品的模拟器输出实例。
图35A-C示出了人类基因组的模拟测序计数数据的实例。图35A:在没有GC标准化的情况下,将数据绘制为每个箱的测序计数数目与箱的GC比例的关系。红线表示每个箱的种子(seeded)多项式值,较高的线表示模拟的21三体箱计数。图35B:使用非三体性箱进行GC标准化之后的与图35A相同的数据。图35C:将GC标准化数据绘制为每个箱的GC标准化计数数目与基因组箱的关系。
图36A-B示出了针对模拟测试数据集的三体性分类,受试者工作特征曲线下面积(auROC)(图36A)和精确度召回率曲线下面积(auPRC)(图36B)的图。
图37示出了一种过程,通过该过程可以通过使用神经网络和概率向量来替换用于基于核酸测序的拷贝数变异(CNV)测试的标准工作流程中的不同步骤。
具体实施方式
本文公开了将机器学习算法应用于基于核酸测序的研究方法和诊断测试的新颖方法。特别地,描述了将机器学习技术应用于核酸序列数据分析以确定拷贝数变异和检测相关基因组异常的新颖方法。还公开了可用于实施所公开的方法的设备、系统和试剂盒。在一些方面,所公开的方法、设备、系统和试剂盒被优化以用于超低体积样品。例如,在一些情况下,公开的方法、设备、系统和试剂盒可以应用于“超低体积液体活检”应用中的无细胞DNA分析。在一些情况下,所公开的基于机器学习的方法的实施能够改善分析性能,用于检测和表征小体积样品和/或包含非常少量核酸分析物的样品中的基因组异常。
在本发明的第一方面,本文公开了用于使用机器学习算法(例如,深度学习神经网络)以基于概率的分类方法来代替基于常规核酸测序的诊断测试程序中的比对步骤的方法,该概率是给定的测序读取来自给定的基因组区域(即“箱”或“类列”)的概率,其中本领域技术人员已知的多种不同标准中的任何一种(除基因组序列外)均可用于定义箱或类别。
在本发明的第二方面,本文公开了用于使用机器学习算法(例如,深度学习神经网络)来将源自核酸测序读取集的输入数据(例如,如使用第一基于机器学习的方法产生的测序读取类别概率数据)映射到包括样品分类结果(例如,样品分类包括三体性、单体性或其它基因组异常)的输出数据的方法,其中用于样品分类的机器学习算法与用于对测序读取的数据分类的机器学习算法分别训练。
在本发明的第三方面,本文公开了用于使用机器学习算法(例如,深度学习神经网络)将源自核酸测序读取集的输入数据(例如,原始测序读取数据)直接映射到包括样品分类结果(例如,三体、单体或其他基因组异常)的输出数据的方法。
所公开的方法具有通过使用机器学习方法来替代拷贝数变异检测的常规方法中的全部或部分过程步骤的潜力,并且可以在跨测试实验室的测试结果标准化、同时监测若干个遗传标志物的多重测试能力等方面展现优势。在一个优选的实施方案中,所公开的用于将机器学习技术应用于核酸序列数据分析的方法可以应用于产前检查领域,例如非侵入性产前检查(NIPT)。
所公开的发明的各个方面可以应用于以下阐述的任何特定实施方案,或者应用于基于核酸测序的任何其他类型的生物医学研究、农业诊断或临床诊断应用。应当理解,本发明的不同方面可以单独地、共同地或彼此组合地进行理解。
定义:除非另有定义,否则本文使用的所有技术术语都与本公开内容所属领域中的普通技术人员普遍理解的含义相同。
如说明书和所附权利要求书中所使用的,除非上下文另有明确指示,否则单数形式“一个”、“一种”和“该”包括复数指代物。本文对“或”的任何提及旨在包含“和/或”,除非另有说明。
如本文所用,当提及数值时,术语“约”是指该数字加上或减去该数字的20%。在数值范围的情景中使用术语“约”是指该范围的最低值减去20%到最大值加上20%。
如本文所用,短语“基因组区域”是指生物体完整基因组的任何部分,包括外显子、内含子、重复序列区域、调节区域或其任何组合。在一些情况下,基因组区域可以通过本领域技术人员已知的许多标准来定义,包括但不限于基因组序列位置、序列组成、核小体模式、表观遗传标志物等。
如本文所用,短语“基因组变异”或“基因组异常”分别指个体之间在一个或多个基因组区域上的差异,或指一个个体的一个或多个基因组区域相对于群体的差异。在一些情况下,这些差异可包括点突变、插入、缺失、倒位、易位和/或拷贝数变异或其任何组合,其中基因组差异可发生在一个或多个外显子区域、内含子区域、重复序列区域、调控区域或其任何组合中。在一些情况下,可以被检测的基因组变异或异常可以包括整个染色体、部分染色体、染色体的两个臂、染色体的一个臂或染色体的任一或两个臂的一部分的插入、缺失、倒位、易位和/或拷贝数变异或其任何组合。在一些情况下,基因组变异或异常可以与或可以不与表现出基因组变异或异常的给定个体中的已知疾病状态相关。在一些情况下,基因组变异或异常在本文中可以称为“基因组标志物”。
在一些情况下,使用公开的基于机器学习的核酸测序数据分析可以检测到的基因组变异或异常的大小范围可以为从约1,000个碱基对至约500,000个碱基对。在一些情况下,基因组变异或异常可以是长度至少1,000个碱基对、长度至少10,000个碱基对、长度至少50,000个碱基对、长度至少100,000个碱基对、长度至少200,000个碱基对、长度至少300,000个碱基对、长度至少400,000个碱基对或者长度至少500,000个碱基对。在一些情况下,基因组变异或异常可以是长度至多500,000个碱基对、长度至多400,000个碱基对、长度至多300,000个碱基对、长度至多200,000个碱基对、长度至多100,000个碱基对、长度至多50,000个碱基对、长度至多10,000个碱基对或长度至多1,000个碱基对。该段落中描述的下限值和上限值中的任何一个可以组合形成本公开内容中包括的范围,例如,基因组变异或异常的长度可以在约10,000个碱基对至约400,000个碱基对的范围内。本领域技术人员将认识到,基因组变异或异常的长度可以具有该范围内的任何值,例如,约265,000个碱基对。
在一些情况下,使用公开的基于机器学习的核酸测序数据分析可以检测到的基因组变异或异常的长度大小范围可以为从约500千碱基至约1000千碱基。在一些情况下,基因组变异或异常可以是至少500千碱基、至少600千碱基、至少700千碱基、至少800千碱基、至少900千碱基或至少1,000千碱基。在一些情况下,基因组变异或异常可以是至多1,000千碱基、至多900千碱基、至多800千碱基、至多700千碱基、至多600千碱基或至多500千碱基。该段落中描述的下限值和上限值中的任何一个可以组合形成本公开内容中包括的范围,例如,基因组变异或异常的长度可以在约600千碱基对至约900千碱基的范围内。本领域技术人员将认识到,基因组变异或异常的长度可以具有该范围内的任何值,例如,约865千碱基。
在一些情况下,使用公开的基于机器学习的核酸测序数据分析可以检测到的基因组变异或异常的长度大小范围可以为从约1兆碱基至约3兆碱基。在一些情况下,基因组变异或异常可以是至少1兆碱基、至少1.5兆碱基、至少2兆碱基、至少2.5兆碱基或至少3兆碱基。在一些情况下,基因组变异或异常可以是至多3兆碱基、至多2.5兆碱基、至多2兆碱基、至多1.5兆碱基或至多1兆碱基。该段落中描述的下限值和上限值中的任何一个可以组合形成本公开内容中包括的范围,例如,基因组变异或异常的长度可以在约1.5兆碱基至约2.5兆碱基的范围内。本领域技术人员将认识到,基因组变异或异常的长度可以具有该范围内的任何值,例如,约2.85兆碱基。
在一些情况下,使用公开的基于机器学习的核酸测序数据分析可以检测到的基因组变异或异常的长度大小范围可以为从约3兆碱基至约10兆碱基。在一些情况下,基因组变异或异常可以是至少3兆碱基、至少4兆碱基、至少5兆碱基、至少6兆碱基、至少7兆碱基、至少8兆碱基、至少9兆碱基或至少10兆碱基。在一些情况下,基因组变异或异常可以是至多10兆碱基、至多9兆碱基、至多8兆碱基、至多7兆碱基、至多6兆碱基、至多5兆碱基、至多4兆碱基或至多3兆碱基。该段落中描述的下限值和上限值中的任何一个可以组合形成本公开内容中包括的范围,例如,基因组变异或异常的长度可以在约5兆碱基至约9兆碱基的范围内。本领域技术人员将认识到,基因组变异或异常的长度可以具有该范围内的任何值,例如,约8.6兆碱基。
在一些情况下,使用公开的基于机器学习的核酸测序数据分析可以检测到的基因组变异或异常的长度大小范围可以为从约10兆碱基至约100兆碱基。在一些情况下,基因组变异或异常可以是至少10兆碱基、至少20兆碱基、至少30兆碱基、至少40兆碱基、至少50兆碱基、至少60兆碱基、至少70兆碱基、至少80兆碱基、至少90兆碱基或至少100兆碱基。在一些情况下,基因组变异或异常可以是至多100兆碱基、至多90兆碱基、至多80兆碱基、至多70兆碱基、至多60兆碱基、至多50兆碱基、至多40兆碱基、至多30兆碱基、至多20兆碱基或至多10兆碱基。该段落中描述的下限值和上限值中的任何一个可以组合形成本公开内容中包括的范围,例如,基因组变异或异常的长度可以在约30兆碱基至约70兆碱基的范围内。本领域技术人员将认识到,基因组变异或异常的长度可以具有该范围内的任何值,例如,约95兆碱基。
如本文所用,短语“拷贝数变异”是指给定个体中特定基因组区域的拷贝数与总体群体的拷贝数不同的情况。这是基因组异常的一个实例。在一些情况下,这些差异可能是由于特定基因组区域(包括非编码区域)、基因或基因片段的复制或缺失。在一些情况下,这些差异可能是由于整个染色体或部分染色体的复制或缺失,在这种情况下,它可以被称为“染色体异常”。在一些情况下,拷贝数变异的范围从整个染色体的复制或缺失到小至例如一千个碱基对的基因组区域的复制或缺失,可以允许区分在同一组织或生物体内的异常细胞和正常细胞,或者可以允许检测源自不同来源(例如,移植物、感染原、妊娠女性受试者中的胎儿等)的细胞、细胞衍生的核酸(例如,DNA、RNA或其修饰形式)或循环无细胞核酸(例如,DNA、RNA或其修饰形式)。在一些情况下,拷贝数变异可以与给定个体中的已知疾病状态相关或不相关。
如本文所用,短语“测序读取”可以不仅指特定核酸片段的碱基序列(例如,DNA片段的A(腺嘌呤)、G(鸟嘌呤)、C(胞嘧啶)或T(胸腺嘧啶)的序列),还可以指从核酸分子分析中获得的任何信息单元。例如,在一些情况下,信息单元可以包括碱基组成而不是碱基序列,或者是否存在特定碱基和/或它们之间的间隔距离。在一些情况下,例如,“测序读取”可以指在基于纳米孔的单分子测序中各自具有可识别的电信号或“签名”的一系列三核苷酸,指一系列序列特异性光学标签(在基于荧光的测序中)或质量标签(在基于质谱的测序中),或指核酸片段的质量(作为基于
Figure BDA0002806587060000281
的测试中的碱基组成的指标)。
如本文中所用,短语“输入数据”(或“输入数据集”)可以指单个数据或用作本公开内容的机器学习算法的输入的一组数据。在一些情况下,输入数据可以包括单值数据点、向量(例如,长度为n的一维阵列,其包括与n个线性独立单位向量的给定基础集中的每个单位向量相对应的标量坐标值)、矩阵(例如,相对于给定基础的标量坐标值的二维m x n阵列)、张量(例如,相对于给定基础的标量坐标值的多维阵列)或其任何组合。
如本文中所用,短语“输出数据”(或“输出数据集”)可类似地指单个数据或由本公开内容的机器学习算法输出的一组数据。在一些情况下,输出数据可以包括单值数据点、向量(例如,长度为n的一维阵列,其包括与n个线性独立单位向量的给定基础集中的每个单位向量相对应的标量坐标值)、矩阵(例如,相对于给定基础的标量坐标值的二维m x n阵列)、张量(例如,相对于给定基础的标量坐标值的多维阵列)或其任何组合。
基于常规核酸测序的筛查/诊断测试程序:典型的基于核酸测序的诊断测试程序的工作流程如图1所示。该过程从样品收集和处理步骤开始,然后:(i)提取样品中包含的全部或部分核酸分子,以及(ii)构建测序文库,其以与要使用的特定测序系统兼容的格式展示各个核酸分子。在核酸测序步骤之后,对所产生的测序读取数据进行处理,以提取与测试目标相关的信息,并且在汇总报告中提供测试结果。在本公开中,机器学习方法被用于增加或替换该工作流中的全部或部分数据处理步骤,如将在下面更详细地讨论的。
获得样品:在一些情况下,本文公开的方法包括获得本文所述的生物样品。可以直接获得样品(例如,医生从受试者收集血液样品)。样品可以间接获得(例如,通过运输,由技术人员从医生或受试者获得)。在一些情况下,生物样品是生物流体。在一些情况下,生物样品是拭子样品(例如,颊拭子、阴道和/或宫颈拭子)。在一些情况下,本文公开的方法包括获得全血、血浆、血清、尿液、唾液、组织液或阴道液。在一些情况下,本文公开的方法包括通过手指针刺获得血液样品。在一些情况下,本文公开的方法包括通过单次手指针刺获得血液样品。在一些情况下,本文公开的方法包括通过不超过单次手指针刺获得血液样品。在一些情况下,仅在丢弃初始灌注的血液之后,才通过手指针刺获得血液样品(例如,手指针刺,擦净初始血液样品并收集第二次血液样品)。在一些情况下,本文公开的方法包括获得毛细血管血液(例如,从手指或皮肤针刺获得的血液)。在一些情况下,方法包括从针刺处挤压或挤出血液以获得期望的血液体积。在其他情况下,方法不包括从针刺处挤压或挤出血液以获得期望的血液体积。尽管手指针刺是获得毛细血管血液的常用方法,但身体上的其他部位也将是合适的,例如,脚趾、脚后跟、手臂、手掌、耳垂。在一些情况下,本文公开的方法包括不经静脉切开术获得血液样品。在一些情况下,本文公开的方法包括获得毛细血管血液。在一些情况下,本文公开的方法包括获得静脉血。在一些情况下,本文公开的方法不包括获得静脉血(例如,从静脉获得的血液)。在一些情况下,方法包括通过活检获得生物样品。在一些情况下,方法包括通过液体活检获得生物流体。
在一些情况下,本文所述的方法、系统和设备包括获得包含可靠遗传信息的生物样品,而无需经皮穿刺。在一些实施方案中,裂解受试者皮肤中的紧密连接,使它们可渗透流体,该流体可被推入细胞间空间并在毛细管中重新吸收,并且可在不经皮穿刺的情况下从可渗透的皮肤中提取。
在一些情况下,所公开内容的方法包括获得具有片段化核酸的样品。样品可能已经经历不利于保留核酸完整性的条件。举非限制性实例而言,样品可以是法医样品。法医样品经常被污染,暴露在空气、热、光等中。样品可能已经冷冻并解冻。样品可能已暴露于降解核酸的化学物质或酶。在一些情况下,方法包括获得组织样品,其中组织样品包含片段化的核酸。在一些情况下,方法包括获得组织样品,其中组织样品包含核酸,以及将核酸片段化以产生片段化的核酸。在一些情况下,组织样品是冷冻样品。在一些情况下,样品是保存的样品。在一些情况下,组织样品是固定样品(例如甲醛固定的)。方法可以包括从样品中分离(片段化的)核酸。方法可以包括在溶液中提供片段化的核酸用于遗传分析。
在一些实施方案中,本文公开了基于机器学习的方法、设备和系统,其可以分析任何体积或拷贝数的“生物样品”或“生物流体样品”(例如,静脉切开术、手指针刺等)。在一些情况下,本文公开的方法用不超过50μl的生物流体样品执行。在一些情况下,本文公开的方法用不超过75μl的生物流体样品执行。在一些情况下,本文公开的方法用不超过100μl的生物流体样品执行。在一些情况下,本文公开的方法用不超过125μl的生物流体样品执行。在一些情况下,本文公开的方法用不超过150μl的生物流体样品执行。在一些情况下,本文公开的方法用不超过200μl的生物流体样品执行。在一些情况下,本文公开的方法用不超过300μl的生物流体样品执行。在一些情况下,本文公开的方法用不超过400μl的生物流体样品执行。在一些情况下,本文公开的方法用不超过500μl的生物流体样品执行。
在一些情况下,本文公开的方法包含获得超低体积的生物流体样品,其中超低体积落入样品体积的范围内。在一些情况下,样品体积的范围为约5μl至约1毫升。在一些情况下,样品体积的范围为约5μl至约900μl。在一些情况下,样品体积的范围为约5μl至约800μl。在一些情况下,样品体积的范围为约5μl至约700μl。在一些情况下,样品体积的范围为约5μl至约600μl。在一些情况下,样品体积的范围为约5μl至约500μl。在一些情况下,样品体积的范围为约5μl至约400μl。在一些情况下,样品体积的范围为约5μl至约300μl。在一些情况下,样品体积的范围为约5μl至约200μl。在一些情况下,样品体积的范围为约5μl至约150μl。在一些情况下,样品体积的范围为5μl至约100μl。在一些情况下,样品体积的范围为约5μl至约90μl。在一些情况下,样品体积的范围为约5μl至约85μl。在一些情况下,样品体积的范围为约5μl至约80μl。在一些情况下,样品体积的范围为约5μl至约75μl。在一些情况下,样品体积的范围为约5μl至约70μl。在一些情况下,样品体积的范围为约5μl至约65μl。在一些情况下,样品体积的范围为约5μl至约60μl。在一些情况下,样品体积的范围为约5μl至约55μl。在一些情况下,样品体积的范围为约5μl至约50μl。在一些情况下,样品体积的范围为约15μl至约150μl。在一些情况下,样品体积的范围为约15μl至约120μl。在一些情况下,样品体积的范围为15μl至约100μl。在一些情况下,样品体积的范围为约15μl至约90μl。在一些情况下,样品体积的范围为约15μl至约85μl。在一些情况下,样品体积的范围为约15μl至约80μl。在一些情况下,样品体积的范围为约15μl至约75μl。在一些情况下,样品体积的范围为约15μl至约70μl。在一些情况下,样品体积的范围为约15μl至约65μl。在一些情况下,样品体积的范围为约15μl至约60μl。在一些情况下,样品体积的范围为约15μl至约55μl。在一些情况下,样品体积的范围为约15μl至约50μl。
在一些情况下,本文公开的方法包含获得超低体积的生物流体样品,其中超低体积为约100μl至约500μl。在一些情况下,本文公开的方法包含获得超低体积的生物流体样品,其中超低体积为约100μl至约1000μl。在一些情况下,超低体积为约500μl至约1ml。在一些情况下,超低体积为约500μl至约2ml。在一些情况下,超低体积为约500μl至约3ml。在一些情况下,超低体积为约500μl至约5ml。
在一些情况下,本文公开的方法包括获得超低体积的生物样品,其中生物样品是全血。超低体积可以为约1μl至约250μl。超低体积可以为约5μl至约250μl。超低体积可以为约10μl至约25μl。超低体积可以为约10μl至约35μl。超低体积可以为约10μl至约45μl。超低体积可以为约10μl至约50μl。超低体积可以为约10μl至约60μl。超低体积可以为约10μl至约80μl。超低体积可以为约10μl至约100μl。超低体积可以为约10μl至约120μl。超低体积可以为约10μl至约140μl。超低体积可以为约10μl至约150μl。超低体积可以为约10μl至约160μl。超低体积可以为约10μl至约180μl。超低体积可以为约10μl至约200μl。
在一些情况下,本文公开的方法包括获得超低体积的生物样品,其中生物样品是血浆或血清。超低体积可以为约1μl至约200μl。超低体积可以为约1μl至约190μl。超低体积可以为约1μl至约180μl。超低体积可以为约1μl至约160μl。超低体积可以为约1μl至约150μl。超低体积可以为约1μl至约140μl。超低体积可以为约5μl至约15μl。超低体积可以为约5μl至约25μl。超低体积可以为约5μl至约35μl。超低体积可以为约5μl至约45μl。超低体积可以为约5μl至约50μl。超低体积可以为约5μl至约60μl。超低体积可以为约5μl至约70μl。超低体积可以为约5μl至约80μl。超低体积可以为约5μl至约90μl。超低体积可以为约5μl至约100μl。超低体积可以为约5μl至约125μl。超低体积可以为约5μl至约150μl。超低体积可以为约5μl至约175μl。超低体积可以为约5μl至约200μl。
在一些情况下,本文公开的方法包括获得超低体积的生物样品,其中生物样品是尿液。通常,尿液中DNA的浓度为约40ng/ml至约200ng/ml。在一些情况下,尿液的超低体积约为0.25μl至1毫升。在一些情况下,尿液的超低体积约为0.25μl至约1毫升。在一些情况下,尿液的超低体积至少约为0.25μl。在一些情况下,尿液的超低体积至多约为1毫升。在一些情况下,尿液的超低体积为约0.25μl至约0.5μl、约0.25μl至约0.75μl、约0.25μl至约1μl、约0.25μl至约5μl、约0.25μl至约10μl、约0.25μl至约50μl、约0.25μl至约100μl、约0.25μl至约150μl、约0.25μl至约200μl、约0.25μl至约500μl、约0.25μl至约1毫升、约0.5μl至约0.75μl、约0.5μl至约1μl、约0.5μl至约5μl、约0.5μl至约10μl、约0.5μl至约50μl、约0.5μl至约100μl、约0.5μl至约150μl、约0.5μl至约200μl、约0.5μl至约500μl、约0.5μl至约1毫升、约0.75μl至约1μl、约0.75μl至约5μl、约0.75μl至约10μl、约0.75μl至约50μl、约0.75μl至约100μl、约0.75μl至约150μl、约0.75μl至约200μl、约0.75μl至约500μl、约0.75μl至约1毫升、约1μl至约5μl、约1μl至约10μl、约1μl至约50μl、约1μl至约100μl、约1μl至约150μl、约1μl至约200μl、约1μl至约500μl、约1μl至约1毫升、约5μl至约10μl、约5μl至约50μl、约5μl至约100μl、约5μl至约150μl、约5μl至约200μl、约5μl至约500μl、约5μl至约1毫升、约10μl至约50μl、约10μl至约100μl、约10μl至约150μl、约10μl至约200μl、约10μl至约500μl、约10μl至约1毫升、约50μl至约100μl、约50μl至约150μl、约50μl至约200μl、约50μl至约500μl、约50μl至约1毫升、约100μl至约150μl、约100μl至约200μl、约100μl至约500μl、约100μl至约1毫升、约150μl至约200μl、约150μl至约500μl、约150μl至约1毫升、约200μl至约500μl、约200μl至约1毫升或约500μl至约1毫升。在一些情况下,所用尿液的体积为约0.25μl、约0.5μl、约0.75μl、约1μl、约5μl、约10μl、约50μl、约100μl、约150μl、约200μl、约500μl或约1毫升。
在一些情况下,本文公开的方法包括获得至少约5μL血液从而以至少约90%的置信度或准确性提供测试结果。在一些情况下,本文公开的方法包括获得至少约10μL血液从而以至少约90%的置信度或准确性提供测试结果。在一些情况下,本文公开的方法包括获得至少约15μL血液从而以至少约90%的置信度或准确性提供测试结果。在一些情况下,本文公开的方法包括获得至少约20μL血液从而以至少约90%的置信度或准确性提供测试结果。在一些情况下,本文公开的方法包括获得至少约20μL血液从而以至少约90%的置信度或准确性提供测试结果。在一些情况下,本文公开的方法包括获得至少约20μL血液从而以至少约95%的置信度或准确性提供测试结果。在一些情况下,本文公开的方法包括获得至少约20μL血液从而以至少约98%的置信度或准确性提供测试结果。在一些情况下,本文公开的方法包括获得至少约20μL血液从而以至少约99%的置信度或准确性提供测试结果。在一些情况下,本文公开的方法包括仅获得约20μL至约120μL血液从而以至少约90%的置信度或准确性提供测试结果。在一些情况下,本文公开的方法包括仅获得约20μL至约120μL血液从而以至少约95%的置信度或准确性提供测试结果。在一些情况下,本文公开的方法包括仅获得约20μL至约120μL血液从而以至少约97%的置信度或准确性提供测试结果。在一些情况下,本文公开的方法包括仅获得约20μL至约120μL血液从而以至少约98%的置信度或准确性提供测试结果。在一些情况下,本文公开的方法包括仅获得约20μL至约120μL血液从而以至少约99%的置信度或准确性提供测试结果。在一些情况下,本文公开的方法包括仅获得约20μL至约120μL血液从而以至少约99.5%的置信度或准确性提供测试结果。
在一些情况下,生物流体样品是血浆或血清。血浆或血清约占全血的55%。在一些情况下,本文公开的方法包括获得至少约10μL的血浆或血清从而以至少约90%的置信度或准确度提供测试结果。在一些情况下,本文公开的方法包括获得至少约10μL的血浆或血清从而以至少约98%的置信度或准确度提供测试结果。在一些情况下,本文公开的方法包括获得至少约12μL的血浆或血清从而以至少约90%的置信度或准确度提供测试结果。在一些情况下,本文公开的方法包括获得至少约12μL的血浆或血清从而以至少约95%的置信度或准确度提供测试结果。在一些情况下,本文公开的方法包括获得至少约12μL的血浆或血清从而以至少约98%的置信度或准确度提供测试结果。在一些情况下,本文公开的方法包括获得至少约12μL的血浆或血清从而以至少约99%的置信度或准确度提供测试结果。在一些情况下,本文公开的方法包括仅获得约10μL至约60μL的血浆或血清从而以至少约90%的置信度或准确度提供测试结果。在一些情况下,本文公开的方法包括仅获得约10μL至约60μL的血浆或血清从而以至少约95%的置信度或准确度提供测试结果。在一些情况下,本文公开的方法包括仅获得约10μL至约60μL的血浆或血清从而以至少约97%的置信度或准确度提供测试结果。在一些情况下,本文公开的方法包括仅获得约10μL至约60μL的血浆或血清从而以至少约98%的置信度或准确度提供测试结果。在一些情况下,获得仅约10μL至约60μL的血浆或血清从而以至少约99%的置信度或准确度提供测试结果。在一些情况下,本文公开的方法包括仅获得约10μL至约60μL的血浆或血清从而以至少约99.5%的置信度或准确度提供测试结果。
在一些情况下,本文公开的方法包括从受试者获得生物样品,其中生物样品含有一定量的无细胞核酸分子。在一些情况下,获得生物样品导致破坏或裂解生物样品中的细胞。因此,在一些情况下,生物样品包含细胞核酸分子。在一些情况下,细胞核酸分子占生物样品中总细胞核酸分子的少于约1%。在一些情况下,细胞核酸分子占生物样品中总细胞核酸分子的少于约5%。在一些情况下,细胞核酸分子占生物样品中总细胞核酸分子的少于约10%。在一些情况下,细胞核酸分子占生物样品中总细胞核酸分子的少于约20%。在一些情况下,细胞核酸分子占生物样品中总细胞核酸分子的超过约50%。在一些情况下,细胞核酸分子占生物样品中总细胞核酸分子的少于约90%。
在一些情况下,本文公开的方法包括从受试者获得超低体积的生物流体样品,其中生物流体样品包含超低量的无细胞核酸。在一些情况下,超低量在约4pg至约100pg之间。在一些情况下,超低量在约4pg至约150pg之间。在一些情况下,超低量在约4pg至约200pg之间。在一些情况下,超低量在约4pg至约300pg之间。在一些情况下,超低量在约4pg至约400pg之间。在一些情况下,超低量在约4pg至约500pg之间。在一些情况下,超低量在约4pg至约1ng之间。在一些情况下,超低量在约10pg至约100pg之间。在一些情况下,超低量在约10pg至约150pg之间。在一些情况下,超低量在约10pg至约200pg之间。在一些情况下,超低量在约10pg至约300pg之间。在一些情况下,超低量在约10pg至约400pg之间。在一些情况下,超低量在约10pg至约500pg之间。在一些情况下,超低量在约10pg至约1ng之间。在一些情况下,超低量在约20pg至约100pg之间。在一些情况下,超低量在约20pg至约200pg之间。在一些情况下,超低量在约20pg至约500pg之间。在一些情况下,超低量在约20pg至约1ng之间。在一些情况下,超低量在约30pg至约150pg之间。在一些情况下,超低量在约30pg至约180pg之间。在一些情况下,超低量在约30pg至约200pg之间。在一些情况下,超低量在约30pg至约300pg之间。在一些情况下,超低量在约30pg至约400pg之间。在一些情况下,超低量在约30pg至约500pg之间。在一些情况下,超低量在约30pg至约1ng之间。在一些情况下,受试者是妊娠受试者,并且无细胞核酸包括无细胞胎儿DNA。在一些情况下,受试者患有肿瘤,并且无细胞核酸包括无细胞肿瘤DNA。在一些情况下,受试者是器官移植接受者,并且无细胞核酸包括器官供体DNA。
在一些情况下,方法包括获得少于约1ng的无细胞胎儿核酸。在一些情况下,方法包括获得少于约500pg的无细胞胎儿核酸。在一些情况下,方法包括获得少于约100pg的无细胞胎儿核酸。在一些情况下,方法包括获得至少3.5pg的无细胞胎儿核酸。在一些情况下,方法包括获得至少10pg的无细胞胎儿核酸。在一些情况下,方法包括获得不超过约100pg的无细胞胎儿核酸。在一些情况下,方法包括获得不超过约500pg的无细胞胎儿核酸。在一些情况下,方法包括获得不超过约1ng的无细胞胎儿核酸。
在一些情况下,本文公开的方法包括从受试者获得生物流体样品,其中生物流体样品包含至少1个基因组当量的无细胞DNA。本领域技术人员理解,基因组当量是样品中需要存在以保证所有基因都将存在的DNA量。本文公开的超低体积的生物流体样品可以包含超低数目的基因组当量。在一些情况下,生物流体样品包含少于1个基因组当量的无细胞核酸。在一些情况下,生物流体样品包含至少5个基因组当量的无细胞核酸。在一些情况下,生物流体样品包含至少10个基因组当量的无细胞核酸。在一些情况下,生物流体样品包含至少15个基因组当量的无细胞核酸。在一些情况下,生物流体样品包含至少20个基因组当量的无细胞核酸。在一些情况下,生物流体样品包含约5至约50个基因组当量。在一些情况下,生物流体样品包含约10至约50个基因组当量。在一些情况下,生物流体样品包含约10至约100个基因组当量。在一些情况下,生物流体样品包含不超过50个基因组当量的无细胞核酸。在一些情况下,生物流体样品包含不超过60个基因组当量的无细胞核酸。在一些情况下,生物流体样品包含不超过80个基因组当量的无细胞核酸。在一些情况下,生物流体样品包含不超过100个基因组当量的无细胞核酸。
本文公开的超低体积的生物流体样品可以包含超低数目的细胞当量。在一些情况下,本文公开的方法包括从受试者获得生物流体样品,其中生物流体样品包含至少1个细胞当量的无细胞DNA。在一些情况下,生物流体样品包含至少2个细胞当量的无细胞核酸。在一些情况下,生物流体样品包含至少5个细胞当量的无细胞核酸。在一些情况下,生物流体样品包含约5个细胞当量至约40个细胞当量的无细胞核酸。在一些情况下,生物流体样品包含至少5个细胞当量至约100个细胞当量的无细胞核酸。在一些情况下,生物流体样品包含不超过30个细胞当量的无细胞核酸。在一些情况下,生物流体样品包含不超过50个细胞当量的无细胞核酸。在一些情况下,生物流体样品包含不超过80个细胞当量的无细胞核酸。在一些情况下,生物流体样品包含不超过100个细胞当量的无细胞核酸。
在一些情况下,本文公开的方法包括从受试者获得生物样品,其中生物样品包含至少一种感兴趣的无细胞核酸。举非限制性实例而言,感兴趣的无细胞核酸可以是无细胞胎儿核酸、无细胞肿瘤DNA或来自移植器官的DNA。在一些情况下,本文公开的方法包括从受试者获得生物样品,其中生物样品包含约1至约5种无细胞核酸。在一些情况下,本文公开的方法包括从受试者获得生物样品,其中生物样品包含约1至约15种无细胞核酸。在一些情况下,本文公开的方法包括从受试者获得生物样品,其中生物样品包含约1至约25种无细胞核酸。在一些情况下,本文公开的方法包括从受试者获得生物样品,其中生物样品包含约1至约100种无细胞核酸。在一些情况下,本文公开的方法包括从受试者获得生物样品,其中生物样品包含约5至约100种无细胞核酸。在一些情况下,至少一种无细胞核酸是由对于本文公开的靶染色体而言独特的序列来表示。
在一些情况下,本文公开的方法包括从受试者获得生物样品,其中生物样品包含约102个无细胞核酸至约1010个无细胞核酸。在一些情况下,生物样品包含约102个无细胞核酸至约109个无细胞核酸。在一些情况下,生物样品包含约102个无细胞核酸至约108个无细胞核酸。在一些情况下,生物样品包含约102个无细胞核酸至约107个无细胞核酸。在一些情况下,生物样品包含约102个无细胞核酸至约106个无细胞核酸。在一些情况下,生物样品包含约102个无细胞核酸至约105个无细胞核酸。
在一些情况下,本文公开的方法包括从受试者获得生物样品,其中生物样品包含约103个无细胞核酸至约1010个无细胞核酸。在一些情况下,生物样品包含约103个无细胞核酸至约109个无细胞核酸。在一些情况下,生物样品包含约103个无细胞核酸至约108个无细胞核酸。在一些情况下,生物样品包含约103个无细胞核酸至约107个无细胞核酸。在一些情况下,生物样品包含约103个无细胞核酸至约106个无细胞核酸。在一些情况下,生物样品包含约103个无细胞核酸至约105个无细胞核酸。
在一些情况下,本文公开的方法包括从受试者获得生物样品,其中生物样品具有对应于典型样品类型体积的许多无细胞核酸。举非限制性实例而言,来自妊娠受试者的4ml人血液通常包含约1010个无细胞胎儿核酸。但是,样品中无细胞胎儿核酸的浓度将取决于样品类型,因此提供有关胎儿遗传学的信息所需的样品体积也将取决于样品类型。
样品处理:在一些情况下,本文公开的方法包括从生物样品分离或纯化无细胞核酸分子。在一些情况下,本文公开的方法包括从生物样品分离或纯化无细胞胎儿核酸分子。在一些情况下,本文公开的方法包括从本文所述的生物样品去除非核酸组分。在一些情况下,分离或纯化包括从生物样品减少不需要的非核酸组分。在一些情况下,分离或纯化包括从生物样品去除不需要的非核酸组分。在一些情况下,分离或纯化包括从生物样品去除至少5%、至少10%、至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%或至少90%的不需要的非核酸组分。在一些情况下,分离或纯化包括从生物样品去除至少95%的不需要的非核酸组分。在一些情况下,分离或纯化包括从生物样品去除至少97%的不需要的非核酸组分。在一些情况下,分离或纯化包括从生物样品去除至少98%的不需要的非核酸组分。在一些情况下,分离或纯化包括从生物样品去除至少99%的不需要的非核酸组分。在一些情况下,分离或纯化包括从生物样品去除至少95%的不需要的非核酸组分。在一些情况下,分离或纯化包括从生物样品去除至少97%的不需要的非核酸组分。在一些情况下,分离或纯化包括从生物样品去除至少98%的不需要的非核酸组分。在一些情况下,分离或纯化包括从生物样品去除至少99%的不需要的非核酸组分。
在一些情况下,本文公开的方法包括从生物样品的一种或多种非核酸组分分离或纯化核酸。非核酸组分也可以被认为是不需要的物质。非核酸组分的非限制性实例包括细胞(例如,血细胞)、细胞片段、细胞外囊泡、脂质、蛋白质或其组合。另外的非核酸组分在本文和全文中描述。应当注意,尽管方法可以包括分离/纯化核酸,但它们也可以包括分析在核酸纯化步骤中被认为是不需要的物质的样品的非核酸组分。分离或纯化可以包括去除将会抑制、干扰或以其他方式对诸如核酸扩增或检测等后续处理步骤有害的生物样品的组分。
分离或纯化可以用本文公开的设备或系统进行。分离或纯化可以在本文公开的设备或系统内进行。分离和/或纯化可以通过使用本文公开的样品纯化器进行。在一些情况下,分离或纯化核酸包括从本文所述的生物样品去除非核酸组分。在一些情况下,分离或纯化核酸包括从生物样品丢弃非核酸组分。在一些情况下,分离或纯化包括收集、处理和分析非核酸组分。在一些情况下,非核酸组分可以被认为是生物标志物,因为它们提供了有关受试者的附加信息。
在一些情况下,分离或纯化核酸包括裂解细胞。在一些情况下,分离或纯化核酸避免细胞裂解。在一些情况下,分离或纯化核酸不包括裂解细胞。在一些情况下,分离或纯化核酸不包括旨在裂解细胞的主动步骤。在一些情况下,分离或纯化核酸不包括有意裂解细胞。有意裂解细胞可以包括机械破坏细胞膜(例如,剪切)。有意裂解细胞可以包括使细胞与裂解试剂接触。本文描述了示例性裂解试剂。
在一些情况下,分离或纯化核酸包括在溶液中裂解并用“诱饵”执行靶核酸的序列特异性捕获,然后将“诱饵”结合至固体支持物如磁珠,例如,Legler等人,Specificmagnetic bead-based capture of free fetal DNA from maternal plasma,Transfusion and Apheresis Science 40(2009),153-157。在一些情况下,方法包括在重组酶或解旋酶存在下执行序列特异性捕获。重组酶或解旋酶的使用可以避免核酸热变性的需要,并且加快检测步骤。
在一些情况下,分离或纯化包括分离本文公开的生物样品的组分。举非限制性实例而言,分离或纯化可以包括从血液分离血浆。在一些情况下,分离或纯化包括离心生物样品。在一些情况下,分离或纯化包括过滤生物样品,以分离生物样品的组分。在一些情况下,分离或纯化包括过滤生物样品,以从生物样品去除非核酸组分。在一些情况下,分离或纯化包括过滤生物样品,以从生物样品捕获核酸。
在一些情况下,生物样品是血液,并且分离或纯化核酸包括从血液获得或分离血浆。获得血浆可以包括从血液样品的细胞组分分离血浆。获得血浆可以包括离心血液、过滤血液或其组合。获得血浆可以包括使血液经受重力(例如,沉降)。获得血浆可以包括使血液经历从血液的非核酸组分芯吸走血液的一部分的材料。在一些情况下,方法包括使血液经历垂直过滤。在一些情况下,方法包括使血液经历样品纯化器,该纯化器包含用于接收全血的过滤基质,该过滤基质具有阻止细胞通过的孔径,而血浆可以不受抑制地通过该过滤基质。针对本文公开的设备描述了这样的垂直过滤和过滤基质。
在一些情况下,分离或纯化包括使生物样品或其部分或其修饰形式经历结合部分。结合部分可以能够结合生物样品的组分并将其去除以产生修饰的样品,该样品去除了不需要或不感兴趣的细胞、细胞片段、核酸或蛋白质。在一些情况下,分离或纯化包括使生物样品经历结合部分,以减少生物样品中不需要的物质或非核酸组分。在一些情况下,分离或纯化包括使生物样品经历结合部分,以产生富集了靶细胞、靶细胞片段、靶核酸或靶蛋白质的修饰的样品。举非限制性实例而言,分离或纯化可以包括使生物样品经历用于捕获胎盘培养的血小板的结合部分,该血小板可以含有胎儿DNA或RNA片段。所得的细胞结合的结合部分可以用抗体或其他方法捕获/富集,例如,低速离心。
分离或纯化可以包括用结合部分捕获生物样品中的细胞外囊泡或细胞外微粒。在一些情况下,细胞外囊泡含有DNA和RNA中的至少一种。在一些情况下,细胞外囊泡起源于胎儿/胎盘。方法可以包括捕获来自母体细胞的生物样品中的细胞外囊泡或细胞外微粒。在一些情况下,本文公开的方法包括从母体细胞捕获和丢弃细胞外囊泡或细胞外微粒,以富集样品的胎儿/胎盘核酸。
在一些情况下,方法包括捕获生物样品中的核小体并分析附接至核小体的核酸。在一些情况下,方法包括捕获生物样品中的外来体并分析附接至外来体的核酸。捕获核小体和/或外来体可以排除对裂解步骤或试剂的需要,从而简化方法并减少从样品收集到检测的时间。
在一些情况下,方法包括使生物样品经历细胞结合部分,以捕获胎盘培养的血小板,其可含有胎儿DNA或RNA片段。捕获可以包括使胎盘培养的血小板与结合部分(例如,针对细胞表面标志物的抗体)接触,使生物样品经受低速离心,或其组合。在一些情况下,结合部分附接至本文公开的固体支持物,并且方法包括在结合部分与生物样品接触后,将固体支持物与其余的生物样品分离。
在一些情况下,本文公开的方法包括从生物样品去除不需要的非核酸组分。在一些情况下,本文公开的方法包括从生物样品去除和丢弃非核酸组分。非核酸组分的非限制性实例包括细胞(例如,血细胞)、细胞片段、细胞外囊泡、脂质、蛋白质或其组合。在一些情况下,去除非核酸组分可以包括离心生物样品。在一些情况下,去除非核酸组分可以包括过滤生物流体样品。在一些情况下,去除非核酸组分可以包括使生物样品与本文所述的结合部分接触。
在一些实施方案中,本文公开的方法包括纯化样品中的核酸。在一些情况下,纯化不包括用洗涤缓冲液洗涤核酸。在一些情况下,核酸是无细胞胎儿核酸。在一些实施方案中,纯化包括用核酸捕获部分捕获核酸以产生捕获的核酸。核酸捕获部分的非限制性实例是二氧化硅颗粒和顺磁性颗粒。在一些实施方案中,纯化包括使含有捕获的核酸的样品通过疏水相(例如,液体或蜡)。疏水相将杂质保留在样品中,否则该杂质将抑制核酸的进一步操作(例如,扩增、测序)。
在一些情况下,本文公开的方法包括从本文所述的生物样品去除核酸组分。在一些情况下,丢弃去除的核酸组分。举非限制性实例而言,方法可以包括仅分析DNA。因此,RNA是不需要的,并且产生不期望的背景噪音或对DNA的污染。在一些情况下,本文公开的方法包括从生物样品去除RNA。在一些情况下,本文公开的方法包括从生物样品去除mRNA。在一些情况下,本文公开的方法包括从生物样品去除微小RNA。在一些情况下,本文公开的方法包括从生物样品去除母体RNA。在一些情况下,本文公开的方法包括从生物样品去除DNA。在一些情况下,本文公开的方法包括从妊娠受试者的生物样品去除母体DNA。在一些情况下,去除核酸组分包括使核酸组分与能够与核酸杂交的寡核苷酸接触,其中所述寡核苷酸缀合、附接或结合至捕获设备(例如,珠子、柱、基质、纳米颗粒、磁性颗粒等)。在一些情况下,丢弃去除的核酸组分。
在一些情况下,去除核酸组分包括按大小在凝胶上分离核酸组分。例如,循环无细胞胎儿DNA片段的长度通常小于200个碱基对。在一些情况下,本文公开的方法包括从生物样品去除无细胞DNA。在一些情况下,本文公开的方法包括从生物样品捕获无细胞DNA。在一些情况下,本文公开的方法包括从生物样品选择无细胞DNA。在一些情况下,无细胞DNA具有最小长度。在一些情况下,最小长度为约50个碱基对。在一些情况下,最小长度为约100个碱基对。在一些情况下,最小长度为约110个碱基对。在一些情况下,最小长度为约120个碱基对。在一些情况下,最小长度为约140个碱基对。在一些情况下,无细胞DNA具有最大长度。在一些情况下,最大长度为约180个碱基对。在一些情况下,最大长度为约200个碱基对。在一些情况下,最大长度为约220个碱基对。在一些情况下,最大长度为约240个碱基对。在一些情况下,最大长度为约300个碱基对。基于大小的分离对于具有有限的大小范围的其他类别的核酸将是有用的,这些核酸是本领域公知的(例如,微小RNA)。
在一些情况下,本文公开的方法包括从包含母体细胞与胎儿滋养层细胞混合物的生物样品中去除核酸组分,在一些情况下,胎儿滋养层含有胎儿的遗传信息(例如,RNA、DNA)。在一些情况下,生物样品富含胎儿滋养层细胞。在生物样品中富集胎儿滋养层细胞的方法的非限制性实例包括通过形态(例如,大小)和标志物抗原(例如,细胞表面抗原)的富集。在一些情况下,滋养层细胞的富集是使用按上皮肿瘤细胞大小分离(ISET)方法进行的。在一些情况下,生物样品中滋养层细胞的富集包括使生物样品与对胎儿滋养层细胞的细胞表面抗原具有特异性的抗体或抗原结合片段接触。滋养层细胞表面抗原的非限制性实例包括原肌球蛋白-1(Tropl)、原肌球蛋白-2(Trop2)、细胞和合体滋养层标志物、GB25、人胎盘催乳素(HPL)和α人绒毛膜促性腺激素(αHCG)。有许多使用本文所述的单克隆抗体从生物样品中纯化滋养层细胞的合适技术,包括但不限于荧光激活细胞分选术(FACS)、柱色谱法、磁分选法(例如,Dynabeads)。在一些情况下,使用任何合适的DNA提取方法从富集和/或纯化的滋养层细胞中提取胎儿遗传信息。
在一些情况下,(1)胎儿滋养层细胞从生物样品中分离;(2)裂解分离的滋养层细胞;(3)从裂解的胎儿滋养层细胞中分离出胎儿细胞核;(4)裂解分离的胎儿细胞核;以及(5)从分离的胎儿细胞核中纯化基因组DNA。在一些情况下,在裂解分离之前,用DNA酶处理胎儿细胞核。在一些情况下。在非限制性实例中,将含有胎儿和母体细胞(例如,滋养层细胞)的生物样品离心并重悬于介质中。接下来,使用磁分离程序(例如,与细胞表面抗原特异性单克隆抗体缀合的磁性纳米颗粒)机械分离细胞。洗涤细胞并将其悬浮在培养基中。使用DynaMagTM Spin磁体(Life Technologies)将母体细胞(例如,细胞表面抗原阴性)与磁化(细胞表面抗原阳性)胎儿滋养层细胞分离。使用磁体将胎儿滋养层细胞洗涤多次,以去除残留的母体细胞。分离出的胎儿滋养层细胞重悬于溶液中。通过添加裂解缓冲液裂解分离的胎儿滋养层细胞,然后低速离心以沉淀完整的胎儿滋养层细胞核。除去上清液,并洗涤细胞核多次。通过向胎儿滋养层细胞细胞核中添加25微升3X浓缩DNA提取缓冲液来从胎儿滋养层细胞细胞核中提取基因组DNA,并将其温育约3小时。任选地,例如使用商业DNA纯化和浓缩试剂盒进一步纯化DNA。
扩增核酸:在一些情况下,本文公开的方法包括扩增样品中的至少一种核酸以产生至少一种扩增产物。所述至少一种核酸可以是无细胞核酸。样品可以是本文公开的生物样品或者其级分或部分。在一些情况下,方法包括产生样品中核酸的拷贝并且扩增该拷贝以产生至少一种扩增产物。在一些情况下,方法包括产生样品中核酸的逆转录物并且扩增该逆转录物以产生至少一种扩增产物。
在一些情况下,方法包括执行全基因组扩增。在一些情况下,方法不包括执行全基因组扩增。术语“全基因组扩增”可以指扩增生物样品中的所有无细胞核酸。术语“全基因组扩增”可以指扩增生物样品中的至少90%的无细胞核酸。全基因组可以指多个基因组。全基因组扩增可以包括扩增来自受试者的生物样品的无细胞核酸,其中生物样品包含来自受试者和外来组织的无细胞核酸。例如,全基因组扩增可以包括扩增来自受试者(宿主基因组)和已经移植到受试者中的器官或组织(供体基因组)的无细胞核酸。同样举非限制性实例而言,全基因组扩增可以包括扩增来自妊娠受试者的生物样品的无细胞核酸,其中生物样品包含来自妊娠受试者及其胎儿的无细胞核酸。全基因组扩增可以包括扩增来自患有癌症的受试者的生物样品的无细胞核酸,其中生物样品包含来自受试者的良性组织和受试者中的肿瘤的无细胞核酸。全基因组扩增可以包括扩增来自患有感染的受试者的生物样品的无细胞核酸,其中生物样品包含来自受试者和病原体的无细胞核酸。
在一些情况下,本文公开的方法包括扩增核酸,其中扩增包括对核酸进行等温扩增。等温扩增的非限制性实例如下:环介导等温扩增(LAMP)、链置换扩增(SDA)、解旋酶依赖性扩增(HDA)、切口酶扩增反应(NEAR)和重组酶聚合酶扩增(RPA)。在一些情况下,等温扩增是包括并行样品处理的高通量的。在一些情况下,高通量等温扩增包括并行扩增12、24、36、48、60、72、84、96、108或更多个样品中的核酸。在一些情况下,高通量等温扩增包括并行扩增12-24、24-36、36-48、48-60、70-72、72-84、84-96、96-108、108-120、120-132、132-144、144-156、156-168、168-180、180-192、192-204、204-216、216-228、228-240、240-252或252-264个样品中的核酸。在一些情况下,高通量等温扩增包括并行扩增至少90、100、200、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400或1,500个样品中的核酸。
考虑到将本领域已知的任何适当的核酸扩增方法用于本文所述的设备和方法。在一些情况下,使用等温扩增。在一些情况下,除了等温扩增开始之前的初始加热步骤之外,扩增是等温的。许多等温扩增方法是本领域已知的,每种方法具有不同的考虑因素并提供不同的优势,并且在文献中进行了讨论,例如,Zanoli和Spoto,2013,“IsothermalAmplification Methods for the Detection of Nucleic Acids in MicrofluidicDevices,”Biosensors 3:18-43,以及Fakruddin,等人,2013,“Alternative Methods ofPolymerase Chain Reaction(PCR),”Journal of Pharmacy and Bioallied Sciences 5(4):245-252,其各自通过引用整体并入本文。在一些情况下,使用任何适当的等温扩增方法。在一些情况下,所用的等温扩增方法选自:环介导等温扩增(LAMP);基于核酸序列的扩增(NASBA);多重置换扩增(MDA);滚环扩增(RCA);解旋酶依赖性扩增(HDA);链置换扩增(SDA);切口酶扩增反应(NEAR);分支扩增法(RAM);以及重组酶聚合酶扩增(RPA)。
在一些情况下,所用的扩增方法是LAMP(参见例如,Notomi,等人,2000,“LoopMediated Isothermal Amplification”NAR 28(12):e63 i-vii,以及美国专利号6,410,278,“Process for synthesizing nucleic acid”,其各自通过引用整体并入本文)。LAMP是使用自动循环链置换脱氧核糖核酸(DNA)合成的一步扩增系统。在一些情况下,LAMP在热稳定的聚合酶例如嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)(Bst)DNA聚合酶I、脱氧核糖核苷三磷酸(dNTP)、特异性引物和靶DNA模板的存在下于60-65℃执行45-60min。在一些情况下,模板是RNA,并且使用具有逆转录酶活性和链置换型DNA聚合酶活性的聚合酶,例如Bca DNA聚合酶,或者将具有逆转录酶活性的聚合酶用于逆转录酶步骤,并且将不具有逆转录酶活性的聚合酶用于链置换-DNA合成步骤。
在一些情况下,扩增方法是基于核酸序列的扩增(NASBA)。NASBA(也称为3SR和转录介导扩增)是基于等温转录的RNA扩增系统。使用三种酶(禽成髓细胞瘤病毒逆转录酶、RNA酶H和T7 DNA依赖性RNA聚合酶)产生单链RNA。在某些情况下,NASBA可以用于扩增DNA。扩增反应在41℃下进行,维持恒温,通常持续约60至约90分钟(参见例如,Fakruddin,等人,2012,“Nucleic Acid Sequence Based Amplification(NASBA)Prospects andApplications,”Int.J.of Life Science and Pharma Res.2(1):L106-L121,通过引用并入本文)。
在一些情况下,NASBA反应在约40℃至约42℃下进行。在一些情况下,NASBA反应在41℃下进行。在一些情况下,NASBA反应在至多约42℃下进行。在一些情况下,NASBA反应在约40℃至约41℃、约40℃至约42℃或约41℃至约42℃下进行。在一些情况下,NASBA反应在约40℃、约41℃或约42℃下进行。
在一些情况下,扩增方法是链置换扩增(SDA)。SDA是使用四种不同引物的等温扩增方法。将含有限制酶切位点(HincII外切核酸酶的识别序列)的引物退火至DNA模板。大肠杆菌DNA聚合酶1的外切核酸酶缺陷片段(exo-Klenow)能延长引物。每个SDA循环由以下组成:(1)引物与置换的靶片段结合,(2)通过exo-Klenow延伸引物/靶复合物,(3)切开产生的半硫代磷酸酯HincII位点,(4)HincII与切口解离,以及(5)切口延伸和通过exo-Klenow置换下游链。
在一些情况下,方法包括使样品中的DNA与解旋酶接触。在一些情况下,扩增方法是解旋酶依赖性扩增(HDA)。HDA是等温反应,因为使用解旋酶使DNA变性,而不是加热。
在一些情况下,扩增方法是多重置换扩增(MDA)。MDA是一种等温的链置换方法,其基于使用来自噬菌体
Figure BDA0002806587060000471
的高度加工和链置换的DNA聚合酶,结合修饰的随机引物,以高保真性扩增整个基因组。其已被开发用于从非常少量的起始材料扩增样品中的所有DNA。在MDA
Figure BDA0002806587060000472
中,将DNA聚合酶与dNTP、随机六聚体和变性的模板DNA在30℃下温育16至18小时,并且酶必须在高温(65℃)下灭活10分钟。不需要重复循环,但需要短的初始变性步骤、扩增步骤和酶的最终灭活。
在一些情况下,扩增方法是滚环扩增(RCA)。RCA是一种等温核酸扩增方法,允许在单个温度(通常约30℃)下将探针DNA序列扩增109倍以上。多轮的等温酶促合成由
Figure BDA0002806587060000473
DNA聚合酶进行,该聚合酶通过在环状DNA探针周围不断前进来延伸环-杂交引物。在一些情况下,扩增反应使用RCA在约28℃至约32℃下进行。
可以在本领域中发现可以并入本文公开的设备和方法的附加扩增方法。理想地,扩增方法是等温的,并且相对于传统PCR而言是快速的。在一些情况下,扩增包括进行指数扩增反应(EXPAR),这是等温分子链反应,因为一个反应的产物催化产生相同产物的进一步反应。在一些情况下,扩增在内切核酸酶存在下发生。内切核酸酶可以是切口内切核酸酶。参见例如,Wu等人,“Aligner-Mediated Cleavage of Nucleic Acids,”Chemical Science(2018)。在一些情况下,扩增不需要靶DNA的初始热变性。参见例如,Toley等人,“Isothermal strand displacement amplification(iSDA):a rapid and sensitivemethod of nucleic acid amplification for point-of-care diagnosis,”The Analyst(2015)。超快速扩增方法中的脉冲控制扩增由GNA Biosolutions GmbH开发。
在一些情况下,方法包括用一对引物进行多个核酸扩增循环。扩增循环的数目很重要,因为扩增可能会将偏差引入区域表现度中。输入量极低时,扩增甚至更容易产生偏差,因此在扩增之前提高效率对于高准确度至关重要。并非所有区域都以相同的效率扩增,因此总体表现度可能不均匀,这会影响分析的准确度。如果需要扩增,通常较少的循环是理想的。在一些情况下,方法包括执行少于30个扩增循环。在一些情况下,方法包括执行少于25个扩增循环。在一些情况下,方法包括执行少于20个扩增循环。在一些情况下,方法包括执行少于15个扩增循环。在一些情况下,方法包括执行少于12个扩增循环。在一些情况下,方法包括执行少于11个扩增循环。在一些情况下,方法包括执行少于10个扩增循环。在一些情况下,方法包括执行至少3个扩增循环。在一些情况下,方法包括执行至少5个扩增循环。在一些情况下,方法包括执行至少8个扩增循环。在一些情况下,方法包括执行至少10个扩增循环。
在一些情况下,扩增反应进行约30 5至约90分钟。在一些情况下,扩增反应进行至少约30分钟。在一些情况下,扩增反应进行至多约90分钟。在一些情况下,扩增反应进行约30分钟至约35分钟、约30分钟至约40分钟、约30分钟至约45分钟、约30分钟至约50分钟、约30分钟至约55分钟、约30分钟至约60分钟、约30分钟至约65分钟、约30分钟至约70分钟、约30分钟至约75分钟、约30分钟至约80分钟、约30分钟至约90分钟、约35分钟至约40分钟、约35分钟至约45分钟、约35分钟至约50分钟、约35分钟至约55分钟、约35分钟至约60分钟、约35分钟至约65分钟、约35分钟至约70分钟、约35分钟至约75分钟、约35分钟至约80分钟、约35分钟至约90分钟、约40分钟至约45分钟、约40分钟至约50分钟、约40分钟至约55分钟、约40分钟至约60分钟、约40分钟至约65分钟、约40分钟至约70分钟、约40分钟至约75分钟、约40分钟至约80分钟、约40分钟至约90分钟、约45分钟至约50分钟、约45分钟至约55分钟、约45分钟至约60分钟、约45分钟至约65分钟、约45分钟至约70分钟、约45分钟至约75分钟、约45分钟至约80分钟、约45分钟至约90分钟、约50分钟至约55分钟、约50分钟至约60分钟、约50分钟至约65分钟、约50分钟至约70分钟、约50分钟至约75分钟、约50分钟至约80分钟、约50分钟至约90分钟、约55分钟至约60分钟、约55分钟至约65分钟、约55分钟至约70分钟、约55分钟至约75分钟、约55分钟至约80分钟、约55分钟至约90分钟、约60分钟至约65分钟、约60分钟至约70分钟、约60分钟至约75分钟、约60分钟至约80分钟、约60分钟至约90分钟、约65分钟至约70分钟、约65分钟至约75分钟、约65分钟至约80分钟、约65分钟至约90分钟、约70分钟至约75分钟、约70分钟至约80分钟、约70分钟至约90分钟、约75分钟至约80分钟、约75分钟至约90分钟或约80分钟至约90分钟。在一些情况下,扩增反应进行约30分钟、约35分钟、约40分钟、约45分钟、约50分钟、约55分钟、约60分钟、约65分钟、约70分钟、约75分钟、约80分钟或约90分钟。
在一些情况下,本文公开的方法包括至少在一个温度下扩增核酸。在一些情况下,本文公开的方法包括在单个温度下扩增核酸(例如,等温扩增)。在一些情况下,本文公开的方法包括扩增核酸,其中所述扩增发生在不超过两个温度下。扩增可以发生在一个步骤或多个步骤中。扩增步骤的非限制性实例包括双链变性、引物杂交和引物延伸。
在一些情况下,扩增的至少一个步骤发生在室温下。在一些情况下,扩增的所有步骤发生在室温下。在一些情况下,扩增的至少一个步骤发生在温度范围内。在一些情况下,扩增的所有步骤发生在温度范围内。在一些情况下,温度范围为约0℃至约100℃。在一些情况下,温度范围为约15℃至约100℃。在一些情况下,温度范围为约25℃至约100℃。在一些情况下,温度范围为约35℃至约100℃。在一些情况下,温度范围为约55℃至约100℃。在一些情况下,温度范围为约65℃至约100℃。在一些情况下,温度范围为约15℃至约80℃。在一些情况下,温度范围为约25℃至约80℃。在一些情况下,温度范围为约35℃至约80℃。在一些情况下,温度范围为约55℃至约80℃。在一些情况下,温度范围为约65℃至约80℃。在一些情况下,温度范围为约15℃至约60℃。在一些情况下,温度范围为约25℃至约60℃。在一些情况下,温度范围为约35℃至约60℃。在一些情况下,温度范围为约15℃至约40℃。在一些情况下,温度范围为约-20℃至约100℃。在一些情况下,温度范围为约-20℃至约90℃。在一些情况下,温度范围为约-20℃至约50℃。在一些情况下,温度范围为约-20℃至约40℃。在一些情况下,温度范围为约-20℃至约10℃。在一些情况下,温度范围为约0℃至约100℃。在一些情况下,温度范围为约0℃至约40℃。在一些情况下,温度范围为约0℃至约30℃。在一些情况下,温度范围为约0℃至约20℃。在一些情况下,温度范围为约0℃至约10℃。在一些情况下,温度范围为约15℃至约100℃。在一些情况下,温度范围为约15℃至约90℃。在一些情况下,温度范围为约15℃至约80℃。在一些情况下,温度范围为约15℃至约70℃。在一些情况下,温度范围为约15℃至约60℃。在一些情况下,温度范围为约15℃至约50℃。在一些情况下,温度范围为约15℃至约30℃。在一些情况下,温度范围为约10℃至约30℃。在一些情况下,本文公开的方法在室温下执行,不需要冷却、冷冻或加热。在一些情况下,扩增包括使样品与随机寡核苷酸引物接触。在一些情况下,扩增包括使本文公开的无细胞核酸分子与随机寡核苷酸引物接触。在一些情况下,扩增包括使本文公开的无细胞胎儿核酸分子与随机寡核苷酸引物接触。在一些情况下,扩增包括使本文公开的标记的核酸分子与随机寡核苷酸引物接触。用多个随机引物扩增通常导致不同序列的多个核酸的非靶向扩增或样品中大多数核酸的整体扩增。
在一些情况下,扩增包括靶向扩增(例如,选择器方法(在US6558928中描述)、分子倒置探针)。在一些情况下,扩增核酸包括使核酸与具有与靶染色体序列相对应的序列的至少一种引物接触。本文公开了示例性的染色体序列。在一些情况下,扩增包括使核酸与至少一种具有与非靶染色体序列相对应的序列的引物接触。在一些情况下,扩增包括使核酸与不超过一对引物接触,其中该对引物中的每个引物包含与本文公开的靶染色体上的序列相对应的序列。在一些情况下,扩增包括使核酸与多组引物接触,其中第一组中的第一对中的每一个和第二组中的对中的每一个均不同。
在一些情况下,扩增包括使样品与至少一种引物接触,所述引物具有与本文公开的靶染色体上的序列相对应的序列。在一些情况下,扩增包括使样品与至少一种引物接触,所述引物具有与本文公开的非靶染色体上的序列相对应的序列。在一些情况下,扩增包括使样品与不超过一对引物接触,其中该对引物中的每个引物包含与本文公开的靶染色体上的序列相对应的序列。在一些情况下,扩增包括使样品与多组引物接触,其中第一组中的第一对中的每一个和第二组中的对中的每一个均不同。
在一些情况下,扩增包括多重化(在一个反应中对多个核酸进行核酸扩增)。在一些情况下,多重化包括使生物样品的核酸与多个寡核苷酸引物对接触。在一些情况下,多重化包括接触第一核酸和第二核酸,其中第一核酸对应于第一序列,第二核酸对应于第二序列。在一些情况下,第一序列和第二序列是相同的。在一些情况下,第一序列和第二序列是不同的。在一些情况下,扩增不包括多重化。在一些情况下,扩增不需要多重化。在一些情况下,扩增包括嵌套式引物扩增。方法可以包括多个区域的多重PCR,其中每个区域包含单核苷酸多态性(SNP)。多重化可以单个管中发生。在一些情况下,方法包括超过100个区域的多重PCR,其中每个区域包含SNP。在一些情况下,方法包括超过500个区域的多重PCR,其中每个区域包含SNP。在一些情况下,方法包括超过1000个区域的多重PCR,其中每个区域包含SNP。在一些情况下,方法包括超过2000个区域的多重PCR,其中每个区域包含SNP。在一些情况下,方法包括超过300个区域的多重PCR,其中每个区域包含SNP。
在一些情况下,方法包括扩增样品中的核酸,其中扩增包括使样品与至少一种寡核苷酸引物接触,其中所述至少一种寡核苷酸引物直到与样品接触才是活性的或可延伸的。在一些情况下,扩增包括使样品与至少一种寡核苷酸引物接触,其中所述至少一种寡核苷酸引物直到暴露于选定温度才是活性的或可延伸的。在一些情况下,扩增包括使样品与至少一种寡核苷酸引物接触,其中所述至少一种寡核苷酸引物直到与活化试剂接触才是活性的或可延伸的。举非限制性实例而言,至少一种寡核苷酸引物可以包含封闭基团。使用这样的寡核苷酸引物可以使引物二聚体最小化,允许识别未使用的引物,以及/或者避免未使用的引物造成的错误结果。在一些情况下,扩增包括使样品与至少一种寡核苷酸引物接触,所述寡核苷酸引物包含与本文公开的靶染色体上的序列相对应的序列。
在一些情况下,本文公开的方法包括使用一个或多个标签。一个或多个标签的使用可以增加本文公开的方法的有效性、速度和准确性中的至少一种。在一些情况下,寡核苷酸引物包含标签,其中标签对靶序列不是特异性的。这样的标签可以被称为通用标签。在一些情况下,方法包括用对靶序列非特异性的标签标记样品中的靶序列或其片段。在一些情况下,标签对人类染色体上的序列不具有特异性。备选地或附加地,方法包括使样品与标签和包含与靶序列相对应的序列的至少一种寡核苷酸引物接触,其中标签与寡核苷酸引物分离。在一些情况下,在寡核苷酸引物与靶序列杂交后,通过延伸寡核苷酸引物将标签掺入扩增产物中。标签可以是寡核苷酸、小分子或肽。在一些情况下,标签不包含核苷酸。在一些情况下,标签不包含寡核苷酸。在一些情况下,标签不包含氨基酸。在一些情况下,标签不包含肽。在一些情况下,标签不是序列特异性的。在一些情况下,标签包含不对应于任何特定靶序列的通用序列。在一些情况下,当产生扩增产物时,无论扩增的序列如何,标签都是可检测的。在一些情况下,寡核苷酸引物和标签中的至少一种包含肽核酸(PNA)。在一些情况下,寡核苷酸引物和标签中的至少一种包含锁核酸(LNA)。
在一些情况下,本文公开的方法包括多个标签的使用,从而增加方法的准确性、方法的速度和通过该方法获得的信息中的至少一种。在一些情况下,本文公开的方法包括使用多个标签,从而减少获得可靠结果所需的样品体积。在一些情况下,多个标签包括至少一个捕获标签。在一些情况下,多个标签包括至少一个检测标签。在一些情况下,多个标签包括至少一个捕获标签和至少一个检测标签的组合。捕获标签通常用于将特定序列或区域与其他区域分离或分开。捕获标签的典型实例是生物素(可以使用例如链霉亲和素包被的表面捕获生物素)。检测标签的实例是洋地黄毒苷和荧光标签。检测标签可以直接检测(例如,激光照射和/或测量发射的光)或者通过携带次级检测系统如发光测定或酶促测定或与之相互作用的抗体间接检测。在一些情况下,多个标签包括至少一个捕获标签(用于分离分析物的标签)和至少一个检测标签(用于检测分析物的标签)的组合。在一些情况下,单个标签作为检测标签和捕获标签。
在一些情况下,方法包括使样品中的至少一种循环无细胞核酸与第一标签和第二标签接触,其中所述第一标签包含与循环无细胞核酸的有义链互补的第一寡核苷酸,并且第二捕获标签包含与循环无细胞核酸的反义链互补的第二寡核苷酸。在一些情况下,方法包括使样品中的至少一种循环细胞无细胞核酸与第一标签和第二标签接触,其中所述第一标签携带与第二标签相同的标记。在一些情况下,方法包括使样品中的至少一种循环细胞无细胞核酸与第一标签和第二标签接触,其中所述第一标签携带与第二标签不同的标记。在一些情况下,标签是相同的,并且存在单个定性或定量信号,所述信号是检测到的所有探针/区域的集合。在一些情况下,标签是不同的。一种标签可以用于纯化,并且一种标签可以用于检测。在一些情况下,第一寡核苷酸标签对区域(例如,cfDNA片段)具有特异性且携带荧光标记,而第二寡核苷酸对相邻区域具有特异性且携带相同的荧光标记,因为仅需要集合信号。在其他情况下,第一寡核苷酸标签对区域(例如,cfDNA片段)具有特异性的且携带荧光标记,而第二寡核苷酸对相邻区域具有特异性且携带不同的荧光标记,以检测两个不同的区域。
在一些情况下,方法包括检测扩增产物,其中所述扩增产物通过扩增本文公开的靶染色体的至少一部分或其片段而产生。靶染色体的部分或片段可以包含至少5个核苷酸。靶染色体的部分或片段可以包含至少约10个核苷酸。靶染色体的部分或片段可以包含至少约15个核苷酸。在一些情况下,检测本文公开的扩增产物不包括对扩增产物加标签或标记。在一些情况下,方法基于扩增产物的量检测扩增产物。例如,该方法可以检测样品中双链DNA量的增加。在一些情况下,检测扩增产物至少部分基于其大小。在一些情况下,扩增产物具有约50个碱基对至约500个碱基对的长度。
在一些情况下,检测扩增产物包括使扩增产物与标签接触。在一些情况下,标签包含与扩增产物的序列互补的序列。在一些情况下,标签不包含与扩增产物的序列互补的序列。标签的非限制性实例在前述和以下公开内容中描述。
在一些情况下,检测标记的或未标记的扩增产物包括使扩增产物经历本文公开的设备、系统或试剂盒的信号检测器或测定组装件。在一些情况下,方法包括在本文公开的设备、系统或试剂盒的测定组装件上扩增和检测。在一些情况下,测定组装件包含扩增试剂。在一些情况下,方法包括将仪器或试剂应用于本文公开的测定组装件(例如,侧流测定),以通过侧流测定来控制生物样品、溶液或其组合的流动。在一些情况下,仪器是真空、移液管、泵或其组合。
文库制备:在一些情况下,本文公开的方法包括修饰生物样品中的无细胞核酸以产生用于检测的无细胞核酸文库。在一些情况下,方法包括修饰用于核酸测序的无细胞核酸。在一些情况下,方法包括修饰用于检测的无细胞核酸,其中检测不包含核酸测序。在一些情况下,方法包括修饰用于检测的无细胞核酸,其中检测包含基于标签检测的发生对标记的无细胞核酸进行计数。在一些情况下,本文公开的方法包括修饰生物样品中的无细胞核酸,以产生无细胞核酸文库,其中方法包括扩增无细胞核酸。在一些情况下,修饰发生在扩增之前。在一些情况下,修饰发生在扩增之后。
在一些情况下,修饰无细胞核酸包括修复作为核酸片段的无细胞核酸的末端。举非限制性实例而言,修复末端可以包括将5’磷酸基团、3’羟基基团或其组合恢复成无细胞核酸。在一些情况下,修复包括5’磷酸化、A加尾、缺口填充、闭合切口位点或其组合。在一些情况下,修复可以包括去除突出端。在一些情况下,修复可以包括用互补核苷酸填充突出端。在一些情况下,为制备文库而修饰无细胞核酸包括衔接子的使用。衔接子在本文也可以称为测序衔接子。在一些情况下,衔接子有助于测序。通常,衔接子包括寡核苷酸。举非限制性实例而言,衔接子可以简化方法中的其他步骤,如扩增、纯化和测序,因为它是对样品中修饰后的多种(如非全部)无细胞核酸通用的序列。在一些情况下,修饰无细胞核酸包括将衔接子与无细胞核酸连接。连接可以包括平端连接。在一些情况下,修饰无细胞核酸包括使衔接子与核酸杂交。在一些情况下,测序衔接子包含发夹或茎环衔接子。在一些情况下,修饰无细胞核酸包括使发夹或茎环衔接子与核酸杂交,从而产生被测序或分析的环状文库产物。在一些情况下,测序衔接子包括封闭的5’末端,在3’末端留下缺口。这种配置的优点包括但不限于提高文库效率和减少不需要的副产物,诸如衔接子二聚体。在其他情况下,衔接子具有可切割的复制终止以将模板线性化。
文库制备步骤(例如,末端修复、加尾和衔接子的连接)和扩增的效率可受益于向样品或扩增反应中添加群集剂。在其自然环境中的酶促过程(例如,细胞中的DNA复制)通常在稠密环境中进行。这些酶促过程中的一些在稠密环境中更有效。例如,稠密环境可以增强DNA解旋酶的活性和DNA聚合酶的敏感性。因此,可以添加群集剂以模仿稠密环境。群集剂可以是聚合物。群集剂可以是蛋白质。群集剂可以是多糖。群集剂的非限制性实例是聚乙二醇、葡聚糖和Ficoll。通常需要模拟体内稠密的浓度。例如,4%(40mg/ml)PEG 1kDa提供体内发现的近似稠密效果。在一些情况下,在扩增反应中群集剂的浓度为约2%至约20%w/v。在一些情况下,在扩增反应中群集剂的浓度为约2%至约15%w/v。在一些情况下,在扩增反应中群集剂的浓度为约2%至约10%w/v。在一些情况下,在扩增反应中群集剂的浓度为约2%至约8%w/v。在一些情况下,在扩增反应中群集剂的浓度为约3%至约6%w/v。
在一些情况下,为制备文库而修饰无细胞核酸包括标签的使用。标签在本文也可以称为条形码。在一些情况下,本文公开的方法包括用对应于感兴趣的染色体区域的标签修饰无细胞核酸。在一些情况下,本文公开的方法包括用对不感兴趣的染色体区域具有特异性的标签修饰无细胞核酸。在一些情况下,本文公开的方法包括用对应于至少一个感兴趣的染色体区域的第一标签修饰无细胞核酸的第一部分,并且用对应于至少一个不感兴趣的染色体区域的第二标签修饰无细胞核酸的第二部分。在一些情况下,修饰无细胞核酸包括将标签与无细胞核酸连接。连接可以包括平端连接。在一些情况下,修饰无细胞核酸包括使标签与核酸杂交。在一些情况下,标签包括寡核苷酸。在一些情况下,标签包括可以通过除核酸分析以外的手段检测的非寡核苷酸标志物或标记。举非限制性实例而言,非寡核苷酸标志物或标记可以包括荧光分子、纳米颗粒、染料、肽或其他可检测/可量化的小分子。
在一些情况下,为制备文库而修饰无细胞核酸包括样品索引的使用,在本文也简称为索引。举非限制性实例而言,索引可以包括寡核苷酸、小分子、纳米颗粒、肽、荧光分子、染料或其他可检测/可定量的部分。在一些情况下,来自第一生物样品的第一组无细胞核酸用第一索引标记,并且来自第一生物样品的第一组无细胞核酸用第二索引标记,其中第一索引和第二索引不同。因此,当一次分析多个样品时,多个索引允许区分来自多个样品的无细胞核酸。在一些情况下,方法公开了扩增无细胞核酸,其中用于扩增无细胞核酸的寡核苷酸引物包含索引。
虽然DNA丢失可能发生在DNA分离和分析的每个步骤中,但最大的丢失通常出现在文库制备步骤中。传统方法显示出80%到90%的材料丢失。通常,通过后续的扩增步骤使DNA的浓度达到下一代测序所需的必要水平可以补偿这种损失,但是扩增不能补偿先前步骤中发生的信息丢失。样品中的原始DNA丢失80%的文库可以描述为效率为20%或效率为0.2的文库。在一些情况下,本文公开的方法包括获得效率为至少约0.2、至少约0.3、至少约0.4、至少约0.5、至少约0.6或至少约0.8的文库。在一些情况下,本文公开的方法包括获得效率为至少约0.4的文库。在一些情况下,本文公开的方法包括获得效率为至少约0.5的文库。如本文所述,通过使用群集剂和修复无细胞DNA片段末端、连接方法、纯化方法、循环参数和化学计量比,产生具有这样的效率的文库的方法可以达到这些效率。
在一些实施方案中,本文公开了针对超低输入量而优化的文库制备方法,该方法包括:(a)通过一个或多个步骤产生连接感受态的无细胞DNA,该步骤包括:(i)产生无细胞DNA的平端,在一些实施方案中,使用一种或多种聚合酶和一种或多种核酸外切酶除去5’突出端或3’凹陷端;(ii)使无细胞DNA的平端去磷酸化;(iii)使无细胞DNA与群集剂接触,从而增强一种或多种聚合酶、一种或多种核酸外切酶与无细胞DNA之间的反应;或(iv)使用连接酶修复或去除无细胞DNA中的DNA损伤;以及(b)通过在连接酶、群集剂和/或小分子增强剂的存在下使连接感受态的无细胞DNA与衔接子寡核苷酸接触,将连接感受态的无细胞DNA与衔接子寡核苷酸连接。在一些实施方案中,一种或多种聚合酶包含T4 DNA聚合酶或DNA聚合酶I。在一些实施方案中,一种或多种核酸外切酶包含T4多核苷酸激酶或核酸外切酶III。在一些实施方案中,连接酶包含T3 DNA连接酶、T4 DNA连接酶、T7 DNA连接酶、Taq连接酶、扩增连接酶、大肠杆菌连接酶或Sso7-连接酶融合蛋白。在一些实施方案中,群集剂包括聚乙二醇(PEG)、糖原或葡聚糖或其组合。在一些实施方案中,小分子增强剂包含二甲基亚砜(DMSO)、聚山梨酯20、甲酰胺或二醇或其组合。在一些实施方案中,(b)中的连接包括平端连接或单核苷酸突出端连接。在一些实施方案中,衔接子寡核苷酸包括Y形衔接子、发夹衔接子、茎环衔接子、可降解衔接子、封闭的自连接衔接子或条形码衔接子或其组合。在一些实施方案中,产生的(c)中的文库具有至少0.5的效率。
测序:在一些情况下,本文公开的方法包括对核酸进行测序。核酸可以是本文公开的核酸,诸如标记的核酸或扩增的核酸或其组合。在一些情况下,核酸是DNA。在一些情况下,核酸是RNA。在一些情况下,DNA选自循环无细胞DNA(cf-DNA)、基因组DNA(gDNA)、线粒体DNA和病原体DNA(例如,病毒基因组DNA(vgDNA)、真菌DNA、细菌DNA)。在一些情况下,无细胞核酸是RNA(例如,cf-RNA)。在一些情况下,无细胞核酸是来自胎儿细胞的核酸,在本文中称为无细胞胎儿核酸。在一些情况下,无细胞胎儿核酸是无细胞胎儿DNA(cff-DNA)或无细胞胎儿RNA(cff-RNA)。在一些情况下,无细胞核酸为互补DNA(cDNA)的形式,其通过cf-RNA或cff-RNA的逆转录产生。在一些情况下,cf-RNA或cff-RNA是信使RNA(mRNA)、微小RNA(miRNA)、线粒体RNA或天然反义RNA(NAS-RNA)。在一些情况下,无细胞核酸序列包含选自以下RNA分子或片段化RNA分子(RNA片段):小干扰RNA(siRNA)、微小RNA(miRNA)、pre-miRNA、pri-miRNA、mRNA、pre-mRNA、病毒RNA、类病毒RNA、拟病毒RNA、环状RNA(circRNA)、核糖体RNA(rRNA)、转移RNA(tRNA)、pre-tRNA、长非编码RNA(lncRNA)、小核RNA(snRNA)、循环RNA、无细胞RNA、外来体RNA、表达载体的RNA、RNA转录物及其组合。在一些情况下,无细胞核酸、无细胞胎儿核酸、具有对应于靶染色体的序列的核酸、具有对应于靶染色体区域的序列的核酸、具有对应于非靶染色体的序列的核酸或其组合。
在一些情况下,测序包括靶向测序。在一些情况下,测序包括全基因组测序。在一些情况下,测序包括靶向测序和全基因组测序。在一些情况下,全基因组测序包括大规模平行测序,在本领域也称为下一代测序或第二代测序。在一些情况下,全基因组测序包括随机大规模平行测序。在一些情况下,测序包括从整个基因组文库捕获的靶区域的随机大规模平行测序。
在一些情况下,方法包括对本文公开的扩增核酸进行测序。在一些情况下,扩增的核酸通过靶向扩增产生(例如,使用对感兴趣的靶序列具有特异性的引物)。在一些情况下,扩增的核酸通过非靶向扩增产生(例如,使用随机寡核苷酸引物)。在一些情况下,方法包括对扩增的核酸进行测序,其中所述测序包含大规模平行测序。
在一些实施方案中,核酸测序可包括对核酸分子序列的至少约10、20、30、40、50、60、70、80、90、100或更多个核苷酸或碱基对进行测序。在一些实施方案中,测序可包括对核酸分子序列的至少约200、300、400、500、600、700、800、900、1,000或更多个核苷酸或碱基对进行测序。在其他实施方案中,测序可包括对核酸分子序列的至少约1,500、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000或10,000或更多个核苷酸或碱基对进行测序。
在一些实施方案中,核酸测序可每次运行包含至少约200、300、400、500、600、700、800、900、1,000或更多的测序读取。在一些实施方案中,测序可每次运行包含至少约1,500、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000或10,000或更多的测序读取。在一些实施方案中,核酸测序可每次运行包含至少约10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000或100,000或更多的测序读取。在一些实施方案中,核酸测序可每次运行包含至少约250,000、500,000、1,000,000、10,000,000、100,000,000或1,000,000,000或更多的测序读取。在一些实施方案中,核酸测序可每次运行包含小于或等于约1,600,000,000个测序读取。在一些实施方案中,核酸测序可每次运行包含小于或等于约200,000,000个读取。在一些情况下,方法包括使用算法进行基因组序列比对。举非限制性实例而言,算法可以被设计为识别染色体拷贝数。算法可以被设计为揭示在各个SNP基因座处与每个相关等位基因相关联的观察到的序列读取数目。算法可以使用母体基因型和交叉频率数据通过计算机在测量的基因座处创建单体、二体和三体胎儿基因型,然后将其用于预测每种基因型的测序数据。使用贝叶斯模型,选择具有最大似然率的测序数据作为拷贝数和胎儿部分,并且似然率是计算出的准确度。对于每个SNP的两个可能的等位基因中的每一个,可能预期会有不同的概率分布,并比较观察到的等位基因。Zimmermann等人在PrenatDiagn(2012)32:1233-1241中对此进行了描述。但是,Zimmermann等人认为,胎儿部分含量低于4.0%的样品不能提供有用的信息,至少需要有20ml血液才能获得足够的无细胞DNA来进行此类分析。相反,本申请的方法可以用胎儿部分少于4%的样品进行这种分析,并且几乎不需要如此多的样品。
用于诊断筛选和测试程序的常规序列数据处理:如图2所示,典型的基于核酸测序的诊断测试程序的数据处理阶段可以包括多个步骤,包括但不限于:相对于参考序列对测序读取数据的比对和分箱(其中分箱包括计数与预定数目的序列区段中的每一区段对齐的测序读取的数目,这些序列区段跨越感兴趣的基因组的整个基因组或区域),对箱计数数据进行标准化以校正测序过程中的系统性偏差(例如,GC含量偏差),以及对所得标准化的箱计数数据进行分类,以检测例如基因组的一个或多个基因特异性或染色体特异性区域的正常表现度、高表现度或低表现度。
将在执行非侵入性产前检查(NIPT)以确定拷贝数变异的上下文更详细地描述所公开的新颖方法,但是本领域技术人员将理解,所公开的方法具有更广泛的适用性。实例包括但不限于通过分析任何类型的DNA或cDNA(包括但不限于基因组DNA、无细胞DNA、循环肿瘤DNA等,或其中包含的标志物,例如,结构突变或表观遗传/表观基因组改变,诸如胞嘧啶甲基化)来筛查和诊断癌症、自身免疫性疾病、神经退行性疾病等,以及监测移植排斥反应或监测治疗反应。
典型的NIPT工作流程包括几个步骤:(i)从受试者抽取血液,(ii)将血液样品运送到测试实验室,(iii)从血细胞中分离血浆,(iv)从血浆中分离无细胞DNA(cfDNA),(v)产生测序文库,(vi)对该文库进行测序以产生每个样品约一千万个cfDNA分子的短测序读取(例如,约25个碱基对(bp)至约100bp的读取),(vii)进行数据分析,以及(viii)报告结果。本公开内容主要涉及该过程的数据分析部分,因为可以使用常规方法来执行所有其他方面。
图3提供了通过对生物样品中包含的全部或部分核酸分子进行核酸测序而获得的测序读取数据的非限制性实例。如上所述,典型的基于NIPT测序的测定产生每个样品约一千万个cfDNA分子的测序读取集合(例如,长度约25bp至约100bp)。然后在常规方法中,将各个测序读取相对于参考序列进行比对(图4),以确定测序片段的染色体来源。具体而言,测序读取相对于基因组的一组定义的区域或区段(即“箱”)进行比对,其中箱的数目及其在基因组中的位置通常是预先定义的。通常会从数据集中丢弃可以与多个箱(即基因组中的多个位置)对齐的测序读取,并且计数唯一地对应于该集中的每个箱的测序读取的数目,该集例如包含跨越整个基因组(人类基因组有30亿个碱基对长)的具有约50,000个连续碱基对的60,000个箱(图5)。因此,完整的箱计数集可以看作是长度为60,000的向量,其中向量中的每个值表示唯一地与预定义区域对齐的序列读取的数目。
由于各种因素中的任何一种而产生的在文库制备和/或测序过程中(例如在扩增步骤中)的系统性偏差的来源可能导致测序读取数据集中的一些序列区域与其在样品基因组中的实际存在相比具有高表现度或低表现度,从而导致某些序列区域的箱计数错误。导致序列偏差的最强因素之一是序列区域的GC含量。具有平衡GC含量(约50%)的序列区域大部分是稳定的,而具有极端GC含量(小于40%或大于60%)的区域可显示较大的变异性,如图6A所示。在一些情况下,这种变异性可能导致与例如染色体三体性不相关的基因组区域的虚假高表现度。在富含GC的区域的存在导致过度扩增的样品中,这些区域将在测序读取数据集中高表现。例如,与人类基因组的中位GC含量相比,13号染色体具有更高的总GC含量。因此,在这样的样品中,虽然已知生物样品是整倍体,但是13号染色体序列的存在可能会升高。
诸如归因于GC含量的系统偏差可以通过箱计数数据的标准化进行校正,例如,相对于每个箱的局部GC含量标准化,从而可以更精确地表示生物样品中存在的序列区域。图6A示出了原始箱计数数据的图,其示出了在缩放或标准化之前箱计数变化与GC含量的关系。基于比对的测序文件,具有位于由箱表示的基因组间隔中的起始位置的测序读取数目构成计数。在图6A中,虚线表示在整个箱计数数据集上平均的每个箱的计数的平均数。曲线表示每个箱的计数的平均数与箱数的关系。图6B示出了箱计数数据的图,其示出了缩放后箱计数变化与GC含量的关系。将原始计数值除以从所有可用箱中计算出的中位数箱计数。此缩放转换将数据的值以1为中心。图6C示出了箱计数数据的图,其示出了标准化后箱计数变化与GC含量的关系。采用LOESS标准化程序来校正不同GC富集区域的测序偏差。这种转换产生标准化的值,该值可以在测序过程中没有发生GC偏差时得到预期。图6D示出了箱计数数据的图,其示出了在首先缩放然后对数据进行标准化之后,箱计数变化与GC含量的关系,从而组合了图6B和图6C所示的数据转换。图7A-B提供了箱计数数据相对于基因组位置的非限制性实例。图7A示出了在针对GC含量标准化之前,箱计数数据相对于基因组位置的图。图7B示出了在针对GC含量标准化之后,箱计数数据相对于基因组位置的图。从这些图中可以看出,对局部GC含量的标准化产生了的箱计数数据集在整个基因组中具有更一致的分布,并且减少了局部变化(即,更好的信噪比)。图8提供了在针对GC含量标准化之前和之后,不同测序读取箱的箱计数数据的非限制性实例。
有许多方法可用于使用标准化箱计数数据对样品进行分类,例如,用于三体性检测。大多数方法遵循相同的一般原则,即基于群体的方法,其包括:(i)确定感兴趣的靶区域的表现度的相对值;例如,源自染色体(chr21)的序列读取计数的百分比(在正常样品中约为1.4%);(ii)测量大量整倍体样品(通常超过80个)的该值,并确定该相对表现度的总体平均值和群体变化;例如,平均%chr21=1.4%,标准偏差为0.01%;以及(iii)测量测试样品的相对值,并确定其源自整倍体样品群体的可能性。例如,测试样品的%chr21的测量值为1.47%,如图9所示。这与平均值相差七个标准偏差,因此不太可能源自整倍体群体。因此该样品可以解释为三体样品。通常,截断值用于将似然值转换为样品中针对感兴趣的靶区域的二进制分类。
一些方法使用内部的、基于样品的参考而不是基于群体的参考进行分类。该程序的第一步与上面针对基于群体的方法概述的步骤相同,即确定感兴趣的靶区域的表现度的相对值。接下来,创建测试样品中区域的参考值;某些区域被认为是整倍体。最后,确定测试区域的相对值是否落在假定为整倍体的区域的参考区间内。
这些方法几乎完全是概率性的,因此可以根据其统计性能进行表征。例如,使用标准偏差截断值预期会产生0.15%的假阳性结果(对于NIPT测试,假阴性率取决于胎儿部分)。此外,测试性能的上限由基本的采样/计数统计决定,并且无需实验验证即可得出。技术噪声(即,随机或系统误差)只会降低测试性能。
使用机器学习算法的序列数据处理:当前公开的方法利用机器学习算法(MLA)来增加或替换基于序列的诊断筛选或测试程序中的一个或多个数据处理步骤。例如,机器学习算法可用于执行样品分类步骤,如图2(MLA 1)所示,而所有其他数据处理步骤均以常规方式执行。在一些实施方案中,机器学习算法也可以任选地执行标准化步骤(MLA3)。可替代地,在所公开的方法的一些实施方案中,机器学习算法可以用于执行比对和分箱步骤(MLA4),并且任选地,还执行标准化步骤(MLA 2)。在一些实施方案中,机器学习算法的使用可以使得能够确定用于分箱过程的参考序列的区段的最佳数目。在一些实施方案中,机器学习算法的使用可以实现将测序读取分类到箱(或“类别”)中而不参考参考序列。在所公开的方法的一些实施方案中,机器学习算法可以用于代替所有常规数据处理步骤(MLA 5),其中原始测序读取数据用作机器学习算法的输入,而样品测试结果,例如,对基因组的一个或多个基因特异性或染色体特异性区域的正常表现度、高表现度或低表现度的检测,从机器学习算法输出。在一些实施方案中,可以使用两个或更多个机器学习算法的组合来增加或替换上述的各个数据处理步骤中的任何一个或多个。
如上所述,在一些实施方案中,机器学习算法(例如,人工神经网络或深度学习算法)可以用于增加或替换数据分析过程的比对步骤。图10提供了包括具有输入层、一个隐藏层和输出层的人工神经网络(ANN)的机器学习架构的示意图。每一层包括一个或多个“节点”,其中每个节点可被配置为对输入数据集执行数学运算并产生结果,如下面将更详细描述的。此外,每个节点可以与一个或多个可调整参数(例如,激活阈值、加权因子或偏移偏差值)相关联(图11),其可以在训练阶段被调整或“训练”。将包括例如原始测序读取数据或从其导出的数据的输入数据集应用于人工神经网络的输入层,并且在ANN已经使用包括针对多个已知的整倍体和/或非整倍体样品的适当输入数据集的一个或多个训练数据集训练之后,由ANN映射到输出数据集(例如,标准化的箱计数数据集或测序读取概率向量集)。图12提供了包括深度学习算法(例如,包括两个或更多个隐藏层的人工神经网络)的机器学习架构的示意图。同样,将包括原始测序读取数据或从其导出的数据(以及在一些情况下,一组预定义箱中的每一个的GC含量等)的输入数据应用于深度学习算法的输入层,并且在深度学习算法已经使用包括针对多个已知的整倍体和/或非整倍体样品的原始测序读取数据或从其导出的数据的一个或多个训练数据集训练之后,由深度学习算法映射到输出数据集(例如,标准化的箱计数数据集或测序读取概率向量集)。在一些实施方案中,训练数据集可以包括附加的输入和/或输出值,如将在下面更详细地讨论的。
在一些实施方案中,机器学习算法可以用于确定用于将测序读取与参考序列比对的箱的最佳数目和/或大小。在一些实施方案中,机器学习算法可以用于在不使用参考序列的情况下相对于彼此比对测序读取。在一些实施方案中,机器学习算法可以用于将测序读取“分类”为箱/类别,而不与参考序列进行任何比对或映射到特定染色体。在一些实施方案中,如将在下面更详细地讨论的,机器学习算法可以用于将原始输入测序读取数据直接映射到输出值(例如,样品分类结果),而不执行任何测序读取比对。
在所公开方法的第一优选实施方案中,常规的基于核酸测序的诊断筛选或测试程序(例如,NIPT诊断测试)的测序读取比对步骤(或测序读取比对和标准化步骤)可以被替换为使用机器学习算法(诸如深度神经网络(DNN))执行的测序读取“分类”过程,其中分类基于单个测序读取与特定“箱”或“类别”相关联的概率。在这种方法中,箱/类别的数目可以预先定义或可以在处理过程中基于多种标准中的任何一种即时确定,该标准是例如,局部GC含量、表观遗传修饰、核小体定位、染色质结构、序列读取长度或其他实验参数(例如,当使用基于纳米孔的测序方法时,包括独立于序列的标准,诸如电信号图谱)等。此外,箱/类别可能位于或可能不位于基因组序列的连续区段上,并且可能或可能不在同一条染色体上。而是,箱/类别代表“特征”的基础集,其可以共同用来表示整个测序读取数据集。包括例如原始测序读取数据或从其导出的数据的输入数据被应用于输入层,并且机器学习算法(例如,DNN)将输入数据集映射到输出数据集,该输出数据集包括属于给定箱/类别的给定测序读取的概率数据和整个箱/类别集合上的整个测序读取数据集的概率分布的概率数据(图13)。
图14-图15示出了测序读取与参考序列比对的常规方法(图14)与本文公开的概率测序读取分类方法(图15)之间的差异。如图14所示,在比对步骤之后,已知基因组中每个测序读取的确切位置,并且每个测序读取对箱计数(即,与给定箱对齐的测序读取的总数)贡献值为“1”。如上所述,与一个以上箱对齐的测序读取要么被丢弃,要么根据它们所对齐的箱的数目分配一个分数值(例如,与两个不同箱对齐的测序读取可对每一个贡献“1/2”的值)。如果箱计数是整个箱集的总和,则结果是已对齐并计数的测序读取的总数。图15示出了使用机器学习算法根据测序读取源自特定基因组区域的概率对测序读取进行分类。在这种方法中,不需要将各个测序读取与参考序列进行比对。而是,机器学习算法用于为每个测序读取产生概率向量,即,对应于用于描述整个测序读取数据集的箱(或“类别”)中的每一个的概率值的一维阵列,并且单个测序读取概率向量中所有概率值的总和等于1,而所有测序读取概率向量中所有概率值的总和等于数据集中的测序读取总数。如上所述,用于描述测序读取数据集的箱/类别的数目可以根据各种标准中的任何一个预先定义,或者可以通过机器学习算法即时确定,以优化箱/类别特征集,用于描述测序读取数据。单个测序读取在任何给定的箱/类别中的来源的确切位置是未知的,例如,如果使用了长度为50kb的预定义箱/类别,则测序读取可能有50k个位置起源于该箱内。此外,由于将概率值分配给每个测序读取的每个箱/类别,因此,基因组或基因组子集的任何给定的单个测序读取的确切位置也是未知的。测序读取最有可能源自概率最高的箱/类别。在这种情况下,机器学习算法的输出是测序读取“类别向量”(即,属于每个类别的测序读取的数目,或对于给定样品向每个类别分配测序读取的总概率),其在分析过程中用于替换常规箱计数数据。
在测序读取比对、分箱和计数的常规方法与当前公开的基于机器学习的测序读取分类的方法之间有几个重要的区别。首先,比对、分箱和计数的常规方法包括查询序列与参考序列的成对匹配。目的是确定测序读取所源自的基因组内的确切位置。将查询序列和靶序列中最大数目的核苷酸相同的位置确定为参考序列内的对齐位置。然后将各个测序读取的基因组位置用于分箱操作中的计数步骤。通常会丢弃无法明确确定与参考序列对齐的测序读取。在一些情况下,比对软件可能具有可调参数,该参数指定有多少个核苷酸精确匹配才能认为测序读取与参考序列“对齐”,并且通过比对步骤中的错配碱基和测序期间碱基判定中的错误引入了比对、分箱、计数操作的不确定性。在常规方法的一些情况下,“对齐”可以指测序读取与参考序列不具有核苷酸不匹配,或测序读取与参考序列具有不超过1个核苷酸或不超过2个核苷酸不匹配。在基于机器学习的分类方法中,准确确定基因组中测序读取的来源不是目标。相反,目标是确定可以将给定的测序读取分类到特定的箱/类别中的概率。如果将箱/类别定义为包含比典型测序读取长度更多的核苷酸的基因组序列间隔,则机器学习算法将输出给定读取起源于给定箱/类别的概率(或分对数)值,但不会将读取映射到基因组序列间隔内的确切位置。通常,基因组中给定箱/类别的位置可能是未知的,或者仅就基因组内的一般区域而言是已知的,并且用于定义箱/类别的标准可能与基因组序列的位置无关。作为后一种情况的一个实例,在一些情况下,可以基于局部序列组成来定义箱/类别,例如,通过构建所有可能的30-mer序列,并使用那些序列来定义各个测序读取将被分类到的箱/类别。因此,在本公开的测序读取分类方法中,没有将测序读取与所需的参考序列比对,也没有将测序读取映射到特定基因、基因组区域或染色体。
测序读取比对、分箱和计数的常规方法与当前公开的基于机器学习的测序读取分类方法之间的第二个重要区别是,对于后者,无需对分箱的测序读取进行计数。将机器学习算法用于构造给定测序读取落在给定箱/类别内的概率分配。不知道测序读取的确切来源,也可能不知道箱/类别的基因组位置。当使用这种基于机器学习的方法时,用“概率”替换“计数”说明了确定性常规方法和本文公开的概率方法之间的根本区别。
在一些实施方案中,最终的样品分类步骤可以被机器学习算法代替,该机器学习算法已经被训练用于检测例如21号染色体标志物或其他CNV标志物,其中通过使用常规分析产生的标准化箱计数数据用作输入特征数据集。如上所述,图12提供了包括具有输入层、两个或多个隐藏层和输出层的深度学习神经网络(DNN)的机器学习架构的示意图。每一层包括一个或多个“节点”,其中每个节点可被配置为对输入数据集执行数学运算并产生结果,如下面将更详细描述的。此外,每个节点可以与一个或多个可调整参数(例如,激活阈值、加权因子或偏移偏差值)相关联,该参数可以在训练阶段被调整或“训练”。将包含标准化箱计数数据的输入向量应用于人工神经网络的输入层,并且在ANN已经使用包括针对多个已知整倍体和/或非整倍体样品的标准化箱计数数据的一个或多个训练数据集训练之后,由ANN映射到输出值(例如,样品分类结果)。在一些实施方案中,机器学习算法可以包括深度学习神经网络,其包括两个或更多个隐藏层。在一些实施方案中,训练数据集可以包括附加的输入和/或输出值,如将在下面更详细地讨论的。
传统样品分类方法和基于神经网络的样品分类方法之间的一个主要区别在于,多层神经网络可以有效地分离复杂数据集中的高维非线性,而无需基于先验知识的大量手动特征工程。更具体地,诸如在常规序列数据处理中使用的Z评分方法需要感兴趣的靶区域(例如,至少其所在的位置)的先验知识以及关于未受影响样品的染色体百分比的潜在分布的知识。这是一种假设驱动的确定性方法。在深度学习方法中,不需要关于标准化箱计数数据中任何元素的相对值的先验假设。深度学习过程将为具有最高信息值的箱/类别提供较大的加权因子,为具有低信息价值的箱/类别提供较低的加权因子,无论它们位于基因组中的何处。尽管这对于例如检测21三体而言可能是微不足道的,但对于检测其他拷贝数变异而言却具有很高的相关性。在专门针对整倍体和21三体样品训练机器学习算法时,它可能会简单地识别21号染色体的箱,并相应地分配高权重因子。但是,可以训练机器学习算法来执行更多抽象的分类任务。一个类比是将机器学习算法用于猫图片分类。如果仅使用在左下角显示猫的图片训练算法,它将只为位于图像左下角的那些像素分配较高的权重因子。如果使用图像中不同位置和定位的猫的各种图片对算法进行训练,它将提取“特征”并识别代表猫的特征的组合。转换到检测拷贝数变异时,等效情景是机器学习算法“学习”以识别箱计数数据集的特征,并组合特征以检测拷贝数变异。如果该算法成功提取了输入数据的“特征”,则可在全基因组基础上自动检测拷贝数变异和可变大小的基因组标志物。因此,在所公开的方法的一些实施方案中,例如,可以在不参考特定靶染色体的情况下执行拷贝数变异的检测。
在所公开方法的一些实施方案中,常规过程的标准化和分类步骤可以被机器学习算法代替,该机器学习算法已经被训练用于检测例如21号染色体标志物或其他CNV标志物,其中原始(非标准化)的箱计数数据(或分对数/概率数据,可以用来代替计数数据)用作输入数据。将包含原始箱计数数据(或分对数/概率数据)以及在一些情况下各个箱的GC含量的输入向量应用于深度学习神经网络的输入层(图12),并且在深度学习算法已经使用包括针对多个已知整倍体和/或非整倍体样品的原始箱计数数据(或分对数/概率数据)的一个或多个训练数据集训练之后,由深度学习算法映射到输出值(例如,样品分类结果)。在一些实施方案中,训练数据集可以包括附加的输入和/或输出值,如将在下面更详细地讨论的。
在一些实施方案中,可以使用第一机器学习算法(诸如深度学习算法)来替换比对和/或分箱步骤,并且可以使用第二机器学习算法(诸如深度学习算法)来替换标准化和/或分类步骤(图16)。在这些实施方案中,可以将包括测序读取数据的输入数据集(例如,从单个生物样品得到的数百万个单独的测序读取)应用于第一机器学习算法的输入层,并映射到测序读取箱计数(或测序读取类别概率,其中样品的类别概率数据集是通过对样品中所有测序读取上每个箱/类别的概率求和而构建的)的中间数据集,并且测序读取箱计数的中间数据集(或表示样品的测序读取类别概率数据集)被应用于第二机器学习算法的输入层,并映射到输出值(即样品分类结果,例如13三体)。在这些实施方案中,可以使用一个或多个训练数据集来训练第一机器学习算法,所述一个或多个训练数据集包括,例如,针对多个已知整倍体和/或非整倍体样品的测序读取数据集和配对的箱计数数据集或者跨一组箱/类别的已知测序读取概率分布,并且可以使用一个或多个训练数据集来训练第二机器学习算法,所述一个或多个训练数据集包括,例如,针对多个已知整倍体和/或非整倍体样品的原始或标准化的箱计数数据集(或测序读取类别概率数据集)。在一些实施方案中,用于第一机器学习算法的输入数据集可以包括FASTA文件形式的测序读取数据(即,用于表示核苷酸序列或肽序列的基于文本的格式,其中用单字母代码表示核苷酸或氨基酸)。在一些实施方案中,训练数据集可以包括附加的输入和/或输出值,如将在下面更详细地讨论的。
在一些实施方案中,可以使用单个机器学习算法(诸如深度学习算法)来代替常规的基于核酸测序的诊断方法中的整个数据处理步骤。该方法与上一段所述方法的不同之处在于,单个机器学习算法被训练成将输入的测序读取数据直接映射到样品分类输出结果,而不是训练两个单独的机器学习算法—第一个算法执行测序读取分类并产生包括例如概率数据的输出数据集,而第二个算法基于包括例如箱计数数据或测序读取类别概率数据的输入数据集执行样品分类。图17提供了使用机器学习算法(诸如深度学习算法)来处理包含一个或多个输入值的输入数据集中的数据并将其映射到包含一个或多个输出值的输出数据集的示意图。在一些实施方案中,将包含测序读取数据的输入数据集应用于输入层,并且在机器学习算法已经使用包括针对多个已知整倍体和/或非整倍体样品的测序读取数据的一个或多个训练数据集训练之后,由机器学习算法映射到输出值(例如,样品分类结果)。在一些实施方案中,用于机器学习算法的输入数据集可以包括FASTA文件形式的测序读取数据(即,用于表示核苷酸序列或肽序列的基于文本的格式,其中用单字母代码表示核苷酸或氨基酸)。在一些实施方案中,训练数据集可以包括附加的输入和/或输出值,如将在下面更详细地讨论的。
机器学习算法的类型:本领域技术人员已知的多种机器学习算法中的任何一种都可以适用于所公开的基于核酸测序的诊断方法。实例包括但不限于监督学习算法、无监督学习算法、半监督学习算法、强化学习算法、深度学习算法或其任何组合。在一个优选的实施方案中,深度学习算法可以应用于在所公开的基于核酸测序的诊断方法中使用。
监督学习算法:在本公开的上下文中,监督学习算法是依赖于使用标记的训练数据集(例如,测序读取数据集和相应的已知样品分类结果)来推断给定样品的测序读取集与样品分类之间的关系的算法。训练数据包括一组配对的训练实例,例如,其中每个实例包括测序读取数据集和根据常规方法得出的给定样品的分类。
无监督学习算法:在本公开的上下文中,无监督学习算法是用于从训练数据集得出推论的算法,该训练数据集由未与标记的样品分类数据配对的测序读取数据集组成。最常用的无监督学习算法是集群分析,它通常用于探索性数据分析,以查找过程数据中的隐藏模式或分组。
半监督学习算法:在本公开的上下文中,半监督学习算法是利用标记的和未标记的受试者分类数据进行训练的算法(通常使用相对少量的标记数据和大量的未标记数据)。
强化学习算法:在本公开的上下文中,强化学习算法是例如用于确定应该采取的测序读取数据处理步骤的集合的算法,以便最大化样品分类奖励功能。强化学习算法通常用于优化Markov决策过程(即用于研究各种优化问题的数学模型,其中无法仅根据过去的行为来准确预测未来的行为,而是取决于随机的机会或概率)。Q学习是一类强化学习算法的实例。强化学习算法与监督学习算法的区别在于,从不呈现正确的训练数据输入/输出对,也不会明确纠正次优动作。这些算法倾向于通过在基于更新的输入数据来探索可能的结果与利用过去的训练之间找到平衡来以实时性能为重点来实现。
深度学习算法:在本公开的上下文中,深度学习算法是受人脑的结构和功能启发的算法,称为人工神经网络(ANN),尤其是包含多个隐藏层的大型神经网络,用于映射输入数据集(例如,测序读取数据集,或原始或标准化的箱计数数据集),例如,样品分类决策。人工神经网络将在下面更详细地讨论。
人工神经网络和深度学习算法:在优选实施方案中,在所公开的方法中采用的机器学习算法可以是人工神经网络(ANN)或深度学习算法。如上所述,可以通过使用一种或多种人工神经网络或深度学习算法来增加或替换在基于常规核酸测序的基因组测试方法中使用的一个或多个数据处理步骤。人工神经网络可以包括任何类型的神经网络模型,例如前馈神经网络、径向基函数网络、递归神经网络或卷积神经网络等。在一些实施方案中,所公开的方法可以采用预训练的ANN或深度学习架构。在一些实施方案中,所公开的方法可以采用ANN或深度学习架构,其中训练数据集用来自单个本地系统(即,运行包括所公开的数据处理方法的软件程序的计算机系统或处理器)、来自多个本地系统,或来自通过互联网连接的多个地理上分布的系统的实时样品分类数据连续地更新。
人工神经网络通常包括组织成多层节点的互连节点组(图10)。例如,ANN架构可以包括至少一个输入层、一个或多个隐藏层以及输出层。ANN可以包括任何总数的层和任何数目的隐藏层,其中隐藏层用作可训练特征提取器,其允许将一组输入数据映射到输出值或一组输出值。如本文所使用的,深度学习算法是包括多个隐藏层,例如,两个或更多个隐藏层的ANN(图12)。神经网络的每一层都包含多个节点(或“神经元”)。节点接收直接来自输入数据(例如,在当前公开的方法中,测序读取数据、箱计数数据、标准化箱计数数据、GC含量数据等)或来自先前层中节点的输出的输入,并执行特定的运算,例如,求和运算。在一些情况下,从输入到节点的连接与权重(或加权因子)关联。在一些情况下,节点可以将输入、xi及其相关权重的所有对的乘积相加(图11)。在一些情况下,如图11所示,加权和会偏移一个偏差b。在一些情况下,可以使用阈值或激活函数f(其可以是线性或非线性函数)来控制节点或神经元的输出。激活函数可以是,例如,整流线性单元(ReLU)激活函数、Leaky ReLU激活函数或其他函数,例如饱和双曲正切、恒等式、二进制步长、逻辑斯蒂(logistic)、反正切、softsign、参数整流线性单元、指数线性单元、softPlus、弯曲恒等式、软指数、正弦曲线、正弦、高斯或sigmoid函数或其任何组合。
可以使用一组或多组训练数据在训练阶段“教导”或“学习”神经网络的加权因子、偏差值和阈值或其他计算参数。例如,可以使用来自训练数据集的输入数据以及梯度下降或向后传播方法来训练参数,以使ANN计算的输出值(例如,样品分类结果)与包括在训练数据集中的实例一致。参数可从反向传播神经网络训练过程获得,所述训练过程可使用或不使用与用于执行本文公开的基于核酸测序的诊断方法的计算机系统硬件相同的计算机系统硬件来执行。
所公开的方法和系统还可以使用其他特定类型的深度机器学习算法,例如,卷积神经网络(CNN)(例如,通常用于处理来自机器视觉系统的图像数据)。CNN通常由不同类型的层组成:卷积层、池化层、扩展层和完全连接的节点层。在一些情况下,可以在一些层中使用诸如整流线性单元的激活函数。在CNN架构中,对于所执行的每种类型的操作可以有一个或多个层。CNN架构可以总共包括任意数目的层,以及用于执行的不同类型的操作的任意数目的层。最简单的卷积神经网络架构始于输入层,然后是一系列卷积层和池化层,其中每个卷积层还可以包含一个或多个过滤器,这些过滤器又可以包含一个或多个加权因子或其他可调参数。在一些情况下,参数可以包括偏差(即,允许激活函数移动的参数)。在一些情况下,卷积层后面是ReLU激活函数层。也可以使用其他激活函数,例如,饱和双曲正切、恒等式、二进制步长、逻辑斯蒂、反正切、softsign、参数校正线性单元、指数线性单元、softPlus、弯曲恒等式、软指数、正弦曲线、正弦、高斯、sigmoid函数以及各种其他函数。卷积层、池化层和ReLU层可以充当可学习的特征提取器,而完全连接的层则可以充当机器学习分类器。
与其他人工神经网络一样,CNN架构的卷积层和完全连接层通常包括各种计算参数,例如权重、偏差值和阈值,这些参数在如上所述的训练阶段中进行了训练。
通常,在ANN的输入层中使用的节点数(如下所述,使得能够从多个测序读取、测序读取数据集和其他输入数据中输入数据)的范围可以为从约10至约100,000个节点。在一些情况下,在输入层中使用的节点数可以是至少10个、至少50个、至少100个、至少200个、至少300个、至少400个、至少500个、至少600个、至少700个、至少800个、至少900个、至少1000个、至少2000个、至少3000个、至少4000个、至少5000个、至少6000个、至少7000个、至少8000个、至少9000个、至少10,000个、至少20,000个、至少30,000个、至少40,000个、至少50,000个、至少60,000个、至少70,000个、至少80,000个、至少90,000个或至少100,000个。在一些情况下,在输入层中使用的节点数可以是至多100,000个、至多90,000个、至多80,000个、至多70,000个、至多60,000个、至多50,000个、至多40,000个、至多30,000个、至多20,000个、至多10,000个、至多9000个、至多8000个、至多7000个、至多6000个、至多5000个、至多4000个、至多3000个、至多2000个、至多1000个、至多900个、至多800个、至多700个、至多600个、至多500个、至多400个、至多300个、至多200个、至多100个、至多50个或至多10个。本领域技术人员将认识到,在输入层中使用的节点数可以具有该范围内的任何值,例如,约512个节点。
在一些情况下,ANN中使用的层总数(包括输入和输出层)可以在约3至约20的范围内。在一些情况下,层的总数可以是至少3、至少4、至少5、至少10、至少15或至少20。在一些情况下,层的总数可以是至多20、至多15、至多10、至多5、至多4或至多3。本领域技术人员将认识到,在ANN中使用的层的总数可以具有该范围内的任何值,例如,8层。
在一些情况下,在ANN中使用的可学习或可训练参数(例如,加权因子、偏差或阈值)的总数可以在约1至约10,000的范围内。在一些情况下,可学习参数的总数可以是至少1、至少10、至少100、至少500、至少1,000、至少2,000、至少3,000、至少4,000、至少5,000、至少6,000、至少7,000、至少8,000、至少9,000或至少10,000。可替代地,可学习参数的总数可以是小于100的任意数、100到10,000之间的任意数或大于10,000的任意数。在一些情况下,可学习参数的总数可以为至多10,000、至多9,000、至多8,000、至多7,000、至多6,000、至多5,000、至多4,000、至多3,000、至多2,000、至多1,000、至多500、至多100、至多10或至多1。本领域技术人员将认识到,所使用的可学习参数的总数可以具有该范围内的任何值,例如,约2,200个参数。
在一些情况下,在ANN中使用的可学习或可训练参数(例如,加权因子、偏差或阈值)的总数可以甚至大于上一段中指示的总数,并且可以在约103至约1010的范围内。在一些情况下,可学习或可训练参数的总数可以是至少103、至少104、至少105、至少106、至少107、至少108、至少109或至少1010。在一些情况下,可学习或可训练参数的总数可以是至多1010、至多109、至多108、至多107、至多106、至多105、至多104或至多103。该段落中描述的下限值和上限值中的任何一个可以组合以形成本公开内容中包括的范围,例如,可学习或可训练的参数的总数可以在约105至约109的范围内。本领域技术人员将认识到,在某些实施方案中,可学习或可训练参数的总数可具有该范围内的任何值,例如,约565,000个可训练参数。
训练数据集:如上所述,用于训练ANN或深度学习算法的输入数据可以包括各种输入值,这取决于要被替换的是常规数据处理方法的哪个步骤。通常,用于训练ANN或深度学习算法的输入数据将是包含与用于确定测试受试者的样品分类或测试结果的输入值相同或输入值相似的一组数据。输入数据值可以包括数值(整数值、实数值、浮点数)、字母数值、ascii值等,或其任何组合。通常,可以使用一个或多个训练数据集来训练ANN或深度学习算法,所述训练数据集包括相同或不同的输入和配对输出(例如,样品分类)数据集。
合适的输入数据值的示例包括但不限于针对一个或多个对照受试者(即,已知具有正常基因组的受试者、已知表现出基因组异常的受试者或其任何组合)的,呈多种格式中的任何一种的测序读取数据,例如,FASTA、FASTQ、SAM、2bit、半字节和BAM文件格式(或者本领域技术人员已知的许多定制二进制文件格式中的任何一种)、原始箱计数数据、标准化箱计数数据、GC含量数据、测序读取分类数据(或类别概率数据)等。
在一些实施方案中,用于训练ANN或深度学习算法的输入数据可包括针对一个或多个对照受试者的测序读取数据,其中一个或多个对照受试者是已知的整倍体受试者、已知的非整倍体受试者或其任何组合。
在一些实施方案中,训练数据集可以包括从公共可用数据库、私人机构数据库、商业数据库或其任何组合获得的计算机序列数据。
在一些实施方案中,训练数据集可以包括正常受试者、异常受试者或其任何组合的模拟序列数据。
在一些实施方案中,训练数据集可以包括一个或多个对照受试者的个人健康数据,其中个人健康数据选自受试者的年龄、性别、体重、血压、先前子女的数目(如果是女性)、吸烟史、饮酒史、疾病家族史或其任何组合。
在一些实施方案中,训练数据集可以包括如先前段落中概述的数据的任何组合,例如,可以使用包括一个或多个测序读取集、计算机序列数据、模拟序列数据、个人健康数据等或其任何组合的训练数据集来训练ANN或深度学习算法。
分布式数据处理系统和基于云的训练数据库:在一些实施方案中,本文公开的用于基于核酸测序的诊断测试的基于机器学习的方法可以用于处理位于单个物理/地理位置的一个或多个计算机系统上的测序数据。在一些实施方案中,它们可以被部署为计算机分布式系统的一部分,该系统包括位于两个或更多个物理/地理位置的两个或更多个计算机系统。不同的计算机系统或其组件或模块可以物理地位于不同的工作空间和/或工作地点(即,位于不同的物理/地理位置),并且可以通过局域网(LAN)、内部网、外联网或互联网连接,以便可以在位点之间共享和交换训练数据和/或来自要处理的样品的数据。
在一些实施方案中,训练数据可以存留在基于云的数据库中,该数据库可以从运行基于机器学习的诊断方法算法的本地和/或远程计算机系统访问。如本文所用,术语“基于云”是指电子数据的共享或可共享存储。基于云的数据库和相关联的软件可以用于存档电子数据、共享电子数据以及分析电子数据。在一些实施方案中,可以将本地产生的训练数据上载到基于云的数据库,训练数据可以从该云数据库访问并用于训练在相同位点或不同位点的其他基于机器学习的系统。在一些实施方案中,可以将本地产生的诊断测试结果上载到基于云的数据库,并用于实时更新训练数据集,以持续改善诊断测试性能。
设备、系统和试剂盒
在一些方面,本文公开的是用于实施所公开的用于从生物样品提取遗传信息的方法的设备、系统和试剂盒。如本文所述,本文公开的设备、系统和试剂盒允许用户在选择的位置收集和测试生物样品,以检测样品中靶分析物的存在和/或量。在一些情况下,本文公开的设备、系统和试剂盒用于前述方法中。在一些情况下,本文公开的设备、系统和试剂盒包含:样品纯化器,其从受试者的生物样品去除至少一种组分(例如,细胞、细胞片段、蛋白质);核酸测序仪,其用于对生物样品中的至少一种核酸进行测序;以及核酸序列输出,其用于将序列信息转发给设备、系统或试剂盒的用户。
通常,本公开内容的设备、系统和试剂盒整合了多种功能,例如,对靶分析物(例如,包括其扩增产物)的纯化、扩增和检测及其组合。在一些情况下,多种功能在单个测定组装件单元或单个设备中执行。在一些情况下,所有功能都发生在单个单元或设备之外。在一些情况下,至少一种功能发生在单个单元或设备之外。在一些情况下,仅一种功能发生在单个单元或设备之外。在一些情况下,样品纯化器、核酸扩增试剂、寡核苷酸和检测试剂或组件被容纳在单个设备中。通常,本公开内容的设备、系统和试剂盒包含显示器,与显示器的连接或与显示器的通信,用于将关于生物样品的信息转接给一个或多个人。
在一些情况下,设备、系统和试剂盒包含本文公开的附加组件。附加组件的非限制性实例包括样品运输隔室、样品储存隔室、样品和/或试剂接受器、温度指示器、电子端口、通信连接、通信设备、样品收集设备和壳体单元。在一些情况下,附加组件与设备集成。在一些情况下,附加组件不与设备集成。在一些情况下,附加组件与样品纯化器、核酸扩增试剂、寡核苷酸以及检测试剂或组件被容纳在单个设备中。在一些情况下,附加组件不被容纳在单个设备中。
在一些情况下,本文公开的设备、系统和试剂盒包含用于获得样品、提取无细胞核酸和纯化无细胞核酸的组件。在一些情况下,本文公开的设备、系统和试剂盒包含用于获得样品、提取无细胞核酸、纯化无细胞核酸以及制备无细胞核酸的文库的组件。在一些情况下,本文公开的设备、系统和试剂盒包含用于获得样品、提取无细胞核酸、纯化无细胞核酸以及测序无细胞核酸的组件。在一些情况下,本文公开的设备、系统和试剂盒包含用于获得样品、提取无细胞核酸、纯化无细胞核酸、制备无细胞核酸的文库以及测序无细胞核酸的组件。举非限制性实例而言,用于获得样品的组件是经皮穿刺设备和用于从血液获得血浆的过滤器。同样,举非限制性实例而言,用于提取和纯化无细胞核酸的组件包含缓冲液、珠子和磁体。缓冲液、珠子和磁体的供应量应可以适合于从手指针刺获得常见样品体积(例如,50-150μl的血液)。
在一些情况下,设备、系统和试剂盒包含用于接收生物样品的接受器。接受器可以被配置为容纳1μl至1ml的生物样品。接受器可以被配置为容纳1μl至500μl的生物样品。接受器可以被配置为容纳1μl至200μl的生物样品。接受器可以具有与用于由其余设备/系统组件进行处理和分析的样品的合适体积相同的限定体积。这将排除对设备、系统或试剂盒的用户测量出样品的指定体积的需要。用户将仅需要填充接受器,由此确保适当体积的样品被递送至设备/系统。在一些情况下,设备、系统和试剂盒不包含用于接收生物样品的接受器。在一些情况下,样品纯化器直接接收生物样品。与上述对接受器的描述相似,样品纯化器可具有适于由其余设备/系统组件进行处理和分析的限定体积。通常,本文公开的设备、系统和试剂盒旨在完全在照护点使用。然而,在一些情况下,用户可能希望将经分析的样品保存或送至另一个位置(例如,实验室、诊所)以对在照护点获得的结果进行附加的分析或确认。举非限制性实例而言,设备/系统可以从血液分离血浆。可以在照护点处分析血浆,并将血液中的细胞运送到另一个位置进行分析。在一些情况下,出于这些目的,设备、系统和试剂盒包含运输隔室或储存隔室。运输隔室或储存隔室可以能够容纳生物样品、其组分或其部分。运输隔室或储存隔室在运送到远离直接用户的地点期间可以能够容纳生物样品、其部分或其组分。运输隔室或储存隔室可以能够容纳从生物样品取出的细胞,从而可以将细胞发送到远离直接用户的地点进行测试。当直接用户在家时,远离直接用户的地点的非限制性实例可以是实验室或诊所。在一些情况下,家庭没有机器或另外的设备来对生物样品执行另外的分析。运输隔室或储存隔室可以能够容纳由将生物样品添加至设备而产生的反应或过程的产物。在一些情况下,反应或过程的产物是核酸扩增产物或逆转录产物。在一些情况下,反应或过程的产物是与本文所述的结合部分结合的生物样品组分。生物样品组分可以包括核酸、细胞片段、细胞外囊泡、蛋白质、肽、甾醇、脂质、维生素或葡萄糖,其任一种都可以在用户的远程位置处进行分析。在一些情况下,运输隔室或储存隔室包含吸收垫、纸、玻璃容器、塑料容器、聚合物基质、液体溶液、凝胶、防腐剂或其组合。吸收垫或纸可用于稳定和运输具有用于筛选的蛋白质或其他生物标志物的干燥的生物流体。
在一些情况下,本文公开的设备和系统提供了对样品的无细胞核酸(例如,循环RNA和/或DNA)和非核酸样品组分的分析。对无细胞核酸和非核酸组分的分析都可以在需求点处进行。在一些情况下,系统和设备提供在需求点处对无细胞核酸的分析,以及对样品的至少一部分或组分的保存,以用于在远离需求点的地点分析非核酸组分。在一些情况下,系统和设备提供在需求点处对非核酸组分的分析以及对样品的至少一部分或组分的保存,以用于在远离需求点的地点分析无细胞核酸。这些设备和系统可用于载体测试和检测遗传性疾病,例如本文公开的那些。
在一些情况下,运输隔室或储存隔室包含防腐剂。防腐剂在本文中也可以称为稳定剂或生物稳定剂。在一些情况下,设备、系统或试剂盒包含在储存和/或运输过程中降低酶活性的防腐剂。在一些情况下,防腐剂是全血防腐剂。全血防腐剂或其组分的非限制性实例是葡萄糖、腺嘌呤、柠檬酸、柠檬酸三钠、右旋糖、二磷酸钠和磷酸二氢钠。在一些情况下,防腐剂包含EDTA。EDTA可以降低酶活性,否则该酶活性会降解核酸。在一些情况下,防腐剂包含甲醛。在一些情况下,防腐剂是已知的甲醛衍生物。甲醛或其衍生物可以使蛋白质交联,因此可以稳定细胞并防止细胞裂解。
通常,本文公开的设备和系统对于单个人而言是便携式的。在一些情况下,设备和系统是手持式的。在一些情况下,设备和系统具有最大长度、最大宽度或最大高度。在一些情况下,设备和系统被容纳在具有最大长度、最大宽度或最大高度的单个单元中。在一些情况下,最大长度不大于12英寸。在一些情况下,最大长度不大于10英寸。在一些情况下,最大长度不大于8英寸。在一些情况下,最大长度不大于6英寸。在一些情况下,最大宽度不大于12英寸。在一些情况下,最大宽度不大于10英寸。在一些情况下,最大宽度不大于8英寸。在一些情况下,最大宽度不大于6英寸。在一些情况下,最大宽度不大于4英寸。在一些情况下,最大高度不大于12英寸。在一些情况下,最大高度不大于10英寸。在一些情况下,最大高度不大于8英寸。在一些情况下,最大高度不大于6英寸。在一些情况下,最大高度不大于4英寸。在一些情况下,最大高度不大于2英寸。在一些情况下,最大高度不大于1英寸。
样品收集:在一些情况下,本文公开的设备、系统和试剂盒包含样品收集器。在一些情况下,样品收集器与设备、系统或试剂盒的其余部分分别提供。在一些情况下,样品收集器与设备、系统或试剂盒或其组件物理集成。在一些情况下,样品收集器与本文所述的接受器集成。在一些情况下,样品收集器可以是用于施加生物流体的杯、管、毛细管或孔。在一些情况下,样品收集器可以是用于施加尿液的杯。在一些情况下,样品收集器可以包含用于将杯中的尿液施加到设备、系统或试剂盒的移液管。在一些情况下,样品收集器可以是与本文公开的设备集成的用于施加血液的毛细管。在一些情况下,样品收集器可以是与本文公开的设备集成的用于施加唾液的管、孔、垫或纸。在一些情况下,样品收集器可以是用于施加汗液的垫或纸。在一些情况下,样品收集器被配置为丢弃获自受试者的初始样品以去除受损和/或污染的核酸。
在一些情况下,本文公开的设备、系统和试剂盒包含经皮穿刺设备。经皮穿刺设备的非限制性实例是针和刺血针。在一些情况下,样品收集器包含经皮穿刺设备。在一些情况下,本文公开的设备、系统和试剂盒包含微针、微针阵列或微针贴片。在一些情况下,本文公开的设备、系统和试剂盒包含中空微针。举非限制性实例而言,经皮穿刺设备与孔或毛细管集成,使得当受试者刺穿其手指时,血液被释放到孔或毛细管中,在该孔或毛细管中血液将可用于系统或设备以分析其组分。在一些情况下,经皮穿刺设备是在凹表面中具有针或刺血针的按钮设备。在一些情况下,针是微针。在一些情况下,经皮穿刺设备包含微针阵列。通过按压凹表面的非针侧上的致动器、按钮或位置,针以比刺血针更受控的方式刺穿受试者的皮肤。此外,按钮设备可以包含真空源或柱塞,以帮助从穿刺部位抽血。
在一些情况下,本文公开的设备、系统和试剂盒包括不需要经皮穿刺的设备,例如,裂解皮肤的紧密连接,使得流体包含可靠的遗传信息。
样品处理与纯化:本文公开了包含样品处理器的设备、系统和试剂盒,其中样品处理器修饰生物样品以去除样品的组分或将样品分成多个部分(例如,血细胞部分和血浆或血清)。样品处理器可以包含样品纯化器,其中样品纯化器被配置为去除生物样品的不需要的物质或非靶组分,从而修饰样品。根据生物样品的来源,不需要的物质可以包括但不限于蛋白质(例如,抗体、激素、酶、血清白蛋白、脂蛋白)、游离氨基酸和其他代谢物、微泡、核酸、脂质、电解质、尿素、尿胆素、药物、粘液、细菌和其他微生物及其组合。在一些情况下,样品纯化器分离本文公开的生物样品的组分。在一些情况下,本文公开的样品纯化器去除将会抑制、干扰或以其他方式对诸如核酸扩增或检测等后续处理步骤有害的样品组分。在一些情况下,所得的修饰样品针对靶分析物进行富集。这可以被认为是靶分析物的间接富集。备选地或附加地,可以直接捕获靶分析物,这被认为是靶分析物的直接富集。
在一些情况下,生物样品包含胎儿滋养层细胞,在一些情况下,其包含胎儿的遗传信息(例如,RNA、DNA)。在一些情况下,生物样品中富含胎儿滋养层细胞。在生物样品中富集滋养层细胞的非限制性实例包括通过形态(例如,大小)和标志物抗原(例如,细胞表面抗原)的富集。在一些情况下,滋养层细胞的富集是使用按上皮肿瘤细胞大小分离(ISET)方法进行的。在一些情况下,生物样品中滋养层细胞的富集包括使生物样品与对滋养层细胞的细胞表面抗原具有特异性的抗体或抗原结合片段接触。滋养层细胞表面抗原的非限制性实例包括原肌球蛋白-1(Tropl)、原肌球蛋白-2(Trop2)、细胞和合体滋养层标志物、GB25、人胎盘催乳素(HPL)和α人绒毛膜促性腺激素(αHCG)。有许多使用本文所述的单克隆抗体从生物样品中纯化滋养层细胞的合适技术,包括但不限于荧光激活细胞分选术(FACS)、柱色谱法、磁分选法(例如,Dynabeads)。在一些情况下,使用任何合适的DNA提取方法从富集和/或纯化的滋养层细胞中提取胎儿遗传信息。
在一些情况下,(1)胎儿滋养层细胞从生物样品中分离;(2)裂解分离的滋养层细胞;(3)从裂解的胎儿滋养层细胞中分离出胎儿细胞核;(4)裂解分离的胎儿细胞核;以及(5)从分离的胎儿细胞核中纯化基因组DNA。在一些情况下,在裂解分离之前,用DNA酶处理胎儿细胞核。在一些情况下。在非限制性实例中,将含有胎儿和母体细胞(例如,滋养层细胞)的生物样品离心并重悬于介质中。接下来,使用磁分离程序(例如,与细胞表面抗原特异性单克隆抗体缀合的磁性纳米颗粒)机械分离细胞。洗涤细胞并将其悬浮在培养基中。使用DynaMagTMSpin磁体(Life Technologies)将母体细胞(例如,细胞表面抗原阴性)与磁化(细胞表面抗原阳性)胎儿滋养层细胞分离。使用磁体将胎儿滋养层细胞洗涤多次,以去除残留的母体细胞。分离出的胎儿滋养层细胞重悬于溶液中。通过添加裂解缓冲液裂解分离的胎儿滋养层细胞,然后低速离心以沉淀完整的胎儿滋养层细胞核。除去上清液,并洗涤细胞核多次。通过向胎儿滋养层细胞细胞核中添加25微升3X浓缩DNA提取缓冲液来从胎儿滋养层细胞细胞核中提取基因组DNA,并将其温育约3小时。任选地,例如使用商业DNA纯化和浓缩试剂盒进一步纯化DNA。
在一些情况下,样品纯化器包含分离材料,用于从生物样品去除患者细胞以外的不需要的物质。有用的分离材料可以包括与物质结合或缔合的特定结合部分。结合可以是共价的或非共价的。可以使用本领域已知的用于去除特定物质的任何合适的结合部分。例如,通常使用抗体及其片段从样品去除蛋白质。在一些情况下,本文公开的样品纯化器包含结合部分,该结合部分与生物样品中的核酸、蛋白质、细胞表面标志物或微泡表面标志物结合。在一些情况下,结合部分包含抗体、抗原结合抗体片段、配体、受体、肽、小分子或其组合。
在一些情况下,本文公开的样品纯化器包含过滤器。在一些情况下,本文公开的样品纯化器包含膜。通常,过滤器或膜能够从本文公开的生物样品分离或去除细胞、细胞颗粒、细胞片段、除无细胞核酸之外的血液组分或其组合。
在一些情况下,样品纯化器有助于从血液样品的细胞组分分离血浆或血清。在一些情况下,样品纯化器有助于在开始分子扩增反应或测序反应之前从血液样品的细胞组分分离血浆或血清。血浆或血清分离可以通过几种不同的方法来实现,例如离心、沉降或过滤。在一些情况下,样品纯化器包含用于接收全血的过滤基质,该过滤基质具有阻止细胞通过的孔径,而血浆或血清可以不受抑制地通过该过滤基质。在一些情况下,过滤基质将过滤器顶部处的大孔径与过滤器底部处的小孔径相结合,导致对细胞非常温和的处理,防止过滤过程中的细胞降解或裂解。这是有利的,因为细胞降解或裂解将导致核酸从血细胞或母体细胞释放,这将污染靶无细胞核酸。这样的过滤器的非限制性实例包括Pall VividTM GR膜、Munktell Ahlstrom滤纸(参见例如,WO2017017314)、TeraPore过滤器。
在一些情况下,本文公开的设备、系统和试剂盒采用垂直过滤,垂直过滤由毛细管力驱动以从样品中分离组分或级分(例如,从血液分离血浆)。举非限制性实例而言,垂直过滤可以包括重力辅助的血浆分离。高效超疏水性血浆分离器在例如Liu等人,A HighEfficiency Superhydrophobic Plasma Separation,Lab Chip 2015中描述。
样品纯化器可以包含侧向过滤器(例如,样品不沿重力方向移动或样品垂直于重力方向移动)。样品纯化器可以包含垂直过滤器(例如,样品在重力方向上移动)。样品纯化器可以包含垂直过滤器和侧向过滤器。样品纯化器可被配置为通过垂直过滤器,随后通过侧向过滤器来接收样品或其部分。样品纯化器可被配置为通过侧向过滤器,随后通过垂直过滤器来接收样品或其部分。在一些情况下,垂直过滤器包含过滤基质。在一些情况下,垂直过滤器的过滤基质包含孔,该孔具有阻止细胞通过的孔径,而血浆可以不受抑制地通过该过滤基质。在一些情况下,过滤基质包含特别适合于该应用的膜,因为其将过滤器顶部处的大孔径与过滤器底部处的小孔径相结合,这导致对细胞非常温和的处理,防止过滤过程中的细胞降解。
在一些情况下,样品纯化器包含适当的分离材料,例如过滤器或膜,其从生物样品去除不需要的物质而不去除无细胞核酸。在一些情况下,分离材料基于大小分离生物样品中的物质,例如,分离材料具有排除细胞但可渗透无细胞核酸的孔径。因此,当生物样品是血液时,血浆或血清可以比血细胞更快地移动通过样品纯化器中的分离材料,并且含有任何无细胞核酸的血浆或血清渗透到分离材料的孔中。在一些情况下,生物样品是血液,并且在分离材料中减慢和/或捕获的细胞是红细胞、白细胞或血小板。在一些情况下,细胞来自与体内的生物样品接触的组织,包括但不限于膀胱或尿道上皮细胞(在尿液中)或口腔细胞(在唾液中)。在一些情况下,细胞是细菌或其他微生物。
在一些情况下,样品纯化器能够减慢和/或捕获细胞而不损伤细胞,从而避免释放包括细胞核酸和其他蛋白质或细胞片段在内的细胞内容物,这些内容物可能会干扰无细胞核酸的后续评估。这可以例如通过孔径沿侧流条的路径逐渐、渐进的减小或其他合适的测定形式来实现,以允许细胞移动温和地减慢,从而使对细胞的力最小化。在一些情况下,当在分离材料中捕获时,生物样品中至少95%、至少98%、至少99%或至多100%的细胞保持完整。除大小分离之外或独立于大小分离,分离材料可以基于除大小以外的细胞性质捕获或分离不需要的物质,例如,分离材料可以包含与细胞表面标志物结合的结合部分。在一些情况下,结合部分是抗体或抗原结合抗体片段。在一些情况下,结合部分是针对血细胞或微泡上受体的配体或受体结合蛋白。
在一些情况下,本文公开的系统和设备包含分离材料,该分离材料通过样品纯化器、过滤器和/或膜来移动、抽取、推动或拉动生物样品。在一些情况下,该材料是芯吸材料。在样品纯化器中用于去除细胞的适当分离材料的实例包括但不限于聚偏二氟乙烯、聚四氟乙烯、乙酸纤维素、硝化纤维素、聚碳酸酯、聚对苯二甲酸乙二醇酯、聚乙烯、聚丙烯、玻璃纤维、硼硅酸盐、氯乙烯、银。合适的分离材料的特征可以在于防止细胞通过。在一些情况下,分离材料不受限制,只要其具有可以防止红细胞通过的特性即可。在一些情况下,分离材料是疏水过滤器,例如玻璃纤维过滤器、复合材料过滤器,例如Cytosep(例如,AhlstromFiltration,或Pall Specialty Materials,Port Washington,NY),或亲水过滤器,例如纤维素(例如,Pall Specialty Materials)。在一些情况下,可以使用可商购的试剂盒(例如,Arrayit血卡血清分离试剂盒,Cat.ABCS,Arrayit Corporation,Sunnyvale,CA)根据本公开内容的方法将全血分为红细胞、白细胞和血清组分,以供进一步处理。
在一些情况下,样品纯化器包含以至少一种孔径为特征的至少一个过滤器或至少一个膜。在一些情况下,样品纯化器包含多个过滤器和/或膜,其中至少第一过滤器或膜的孔径不同于第二过滤器或膜的孔径。在一些情况下,至少一个过滤器/膜的至少一种孔径为约0.05微米至约10微米。在一些情况下,过滤器具有约0.05微米至约8微米的孔径。在一些情况下,过滤器具有约0.05微米至约6微米的孔径。在一些情况下,过滤器具有约0.05微米至约4微米的孔径。在一些情况下,过滤器具有约0.05微米至约2微米的孔径。在一些情况下,过滤器具有约0.05微米至约1微米的孔径。在一些情况下,至少一个过滤器/膜的至少一种孔径为约0.1微米至约10微米。在一些情况下,过滤器具有约0.1微米至约8微米的孔径。在一些情况下,过滤器具有约0.1微米至约6微米的孔径。在一些情况下,过滤器具有约0.1微米至约4微米的孔径。在一些情况下,过滤器具有约0.1微米至约2微米的孔径。在一些情况下,过滤器具有约0.1微米至约1微米的孔径。
在一些情况下,样品纯化器的特征在于温和的样品纯化器。温和的样品纯化器,如包含过滤基质、垂直过滤器、芯吸材料或带有不允许细胞通过的孔的膜的那些纯化器,特别适用于分析无细胞核酸。例如,母体血液中无细胞胎儿核酸的产前应用面临着额外挑战,即在存在无细胞母体核酸的情况下分析无细胞胎儿核酸,后者对前者产生较大的背景信号。举非限制性实例而言,当在不因样品收集方法引起细胞裂解或其他细胞破坏的情况下获得样品时,母体血液样品可含有每毫升全血约500至750个基因组当量的总无细胞DNA(母体和胎儿)。从妊娠女性采样的血液中的胎儿部分可以为约10%,约每毫升50至75个基因组当量。获得无细胞核酸的过程通常涉及从血液获得血浆。如果不仔细操作,母体白细胞可能被破坏,向样品中释放额外的细胞核酸,对胎儿无细胞核酸产生大量背景噪音。典型的白细胞计数为每毫升血液约4*10^6至10*10^6个细胞,并且因此可用的核DNA比总无细胞DNA(cfDNA)大约4,000至10,000倍。因此,即使仅一小部分母体白细胞被破坏,向血浆中释放核DNA,胎儿部分也会大幅降低。例如,0.01%的白细胞降解可以将胎儿部分从10%降低至约5%。本文公开的设备、系统和试剂盒旨在减少这些背景信号。
在一些情况下,样品处理器被配置为从全血中分离血细胞。在一些情况下,样品处理器被配置为从全血中分离血浆。在一些情况下,样品处理器被配置为从全血中分离血清。在一些情况下,样品处理器被配置为从少于1毫升的全血中分离血浆或血清。在一些情况下,样品处理器被配置为从少于1毫升的全血中分离血浆或血清。在一些情况下,样品处理器被配置为从少于500μL的全血中分离血浆或血清。在一些情况下,样品处理器被配置为从少于400μL的全血中分离血浆或血清。在一些情况下,样品处理器被配置为从少于300μL的全血中分离血浆或血清。在一些情况下,样品处理器被配置为从少于200μL的全血中分离血浆或血清。在一些情况下,样品处理器被配置为从少于150μL的全血中分离血浆或血清。在一些情况下,样品处理器被配置为从少于100μL的全血中分离血浆或血清。
在一些情况下,本文公开的设备、系统和试剂盒包含用于产生修饰的样品的结合部分,所述修饰的样品去除了不需要或不感兴趣的细胞、细胞片段、核酸或蛋白质。在一些情况下,本文公开的设备、系统和试剂盒包含用于减少生物样品中不需要或不感兴趣的细胞、细胞片段、核酸或蛋白质的结合部分。在一些情况下,本文公开的设备、系统和试剂盒包含用于产生修饰的样品的结合部分,所述修饰的样品富集了靶细胞、靶细胞片段、靶核酸或靶蛋白。
在一些情况下,本文公开的设备、系统和试剂盒包含能够结合核酸、蛋白质、肽、细胞表面标志物或微泡表面标志物的结合部分。在一些情况下,本文公开的设备、系统和试剂盒包含用于捕获生物样品中的细胞外囊泡或细胞外微粒的结合部分。在一些情况下,细胞外囊泡含有DNA和RNA中的至少一种。在一些情况下,本文公开的设备、系统和试剂盒包含用于分析细胞外囊泡中含有的DNA或RNA的试剂或组件。在一些情况下,结合部分包含抗体、抗原结合抗体片段、配体、受体、蛋白质、肽、小分子或其组合。
在一些情况下,本文公开的设备、系统和试剂盒包含能够与细胞释放的细胞外囊泡相互作用或捕获该细胞外囊泡的结合部分。在一些情况下,该细胞是胎儿细胞。在一些情况下,该细胞是胎盘细胞。胎儿细胞或胎盘细胞可以在女性妊娠受试者的生物流体(例如,血液)中循环。在一些情况下,细胞外囊泡从器官、腺体或组织释放。举非限制性实例而言,器官、腺体或组织可以是患病的、衰老的、感染的或生长的。器官、腺体和组织的非限制性实例是大脑、肝脏、心脏、肾脏、结肠、胰腺、肌肉、脂肪、甲状腺、前列腺、乳腺组织和骨髓。
举非限制性实例而言,本文公开的设备、系统和试剂盒可以能够捕获和丢弃来自母体样品的细胞外囊泡或细胞外微粒,以富集样品中的胎儿/胎盘核酸。在一些情况下,细胞外囊泡起源于胎儿/胎盘。在一些情况下,细胞外囊泡起源于胎儿细胞。在一些情况下,细胞外囊泡由胎儿细胞释放。在一些情况下,细胞外囊泡由胎盘细胞释放。胎盘细胞可以是滋养层细胞。在一些情况下,使用本文所述的方法富集滋养层细胞。在一些情况下,本文公开的设备、系统和试剂盒包含用于捕获胎盘培养的血小板的细胞结合部分,其可以含有胎儿DNA或RNA片段。这些可以用抗体或其他方法(低速离心)捕获/富集。在这样的情况下,可以如本文所述分析胎儿DNA或RNA片段以确定或指示染色体信息(例如,性别)。备选地或附加地,本文公开的设备、系统和试剂盒包含用于捕获来自母体细胞的生物样品中的细胞外囊泡或细胞外微粒的结合部分。
在一些情况下,结合部分附接至固体支持物,其中在结合部分已经与生物样品接触后,可以将固体支持物与其余的生物样品分离,或者可以将生物样品与固体支持物分离。固体支持物的非限制性实例包括珠子、纳米颗粒、磁性颗粒、芯片、微芯片、纤维条、聚合物条、膜、基质、柱、板或其组合。
本文公开的设备、系统和试剂盒可以包含细胞裂解试剂。细胞裂解试剂的非限制性实例包括洗涤剂如NP-40,十二烷基硫酸钠,以及包含铵、氯化物或钾的盐溶液。本文公开的设备、系统和试剂盒可以具有细胞裂解组分。细胞裂解组分可以是结构的或机械的,并且能够裂解细胞。举非限制性实例而言,细胞裂解组分可以剪切细胞以释放细胞内组分,如核酸。在一些情况下,本文公开的设备、系统和试剂盒不包含细胞裂解试剂。本文公开的一些设备、系统和试剂盒旨在分析无细胞核酸。
核酸扩增:通常,本文公开的设备、系统和试剂盒能够扩增核酸。本文公开的设备、系统和试剂盒通常包含DNA聚合酶。在一些情况下,本文公开的设备、系统和试剂盒包含逆转录酶,以从本文公开的生物样品中的RNA产生互补DNA(cDNA),其中该cDNA可以与本文所述的基因组DNA类似地扩增和/或分析。本文公开的设备、系统和试剂盒通常还包含群集剂,其可以提高酶(例如DNA聚合酶和解旋酶)的效率。如本文其他地方所述,群集剂可以提高文库的效率。群集剂可以包含聚合物、蛋白质、多糖或其组合。可以在本文公开的设备、系统和试剂盒中使用的群集剂的非限制性实例是葡聚糖、聚(乙二醇)和葡聚糖。
传统的聚合酶链反应需要热循环。这将是可能的,但对于没有热循环仪机器的典型家庭用户而言不方便。在一些情况下,本文公开的设备、系统和试剂盒能够在不改变设备或系统或其组件的温度的情况下扩增核酸。在一些情况下,本文公开的设备、系统和试剂盒能够等温扩增核酸。等温扩增的非限制性实例如下:环介导等温扩增(LAMP)、链置换扩增(SDA)、解旋酶依赖性扩增(HDA)、切口酶扩增反应(NEAR)和重组酶聚合酶扩增(RPA)。因此,本文公开的设备、系统和试剂盒可以包含执行等温扩增所必需的试剂。等温扩增试剂的非限制性实例包括重组酶聚合酶、单链DNA结合蛋白和链置换聚合酶。通常,使用重组酶聚合酶扩增(RPA)的等温扩增采用三种核心酶,即重组酶、单链DNA结合蛋白和链置换聚合酶,以(1)将寡核苷酸引物与DNA中的同源序列配对,(2)稳定置换的DNA链以防止引物置换,以及(3)使用链置换DNA聚合酶延伸寡核苷酸引物。使用配对的寡核苷酸引物,可通过在室温下(最佳在37℃下)温育而发生指数DNA扩增。
在一些情况下,本文公开的设备、系统和试剂盒能够在一定温度下扩增核酸。在一些情况下,本文公开的设备、系统和试剂盒能够在不超过两个温度下扩增核酸。在一些情况下,本文公开的设备、系统和试剂盒能够在不超过三个温度下扩增核酸。在一些情况下,本文公开的设备、系统和试剂盒仅需要对设备、系统或试剂盒的一种试剂或组件进行起始加热。在一些情况下,本文公开的设备、系统和试剂盒能够在一定温度范围内扩增核酸,诸如本文公开的那些。在一些情况下,本文公开的设备、系统、试剂盒,包括其所有组件及其所有试剂,在室温下完全可操作,不需要冷却、冷冻或加热。
在一些情况下,本文公开的设备、系统和试剂盒的至少一部分在约20℃至约50℃下操作。在一些情况下,本文公开的设备、系统和试剂盒的至少一部分在约37℃下操作。在一些情况下,本文公开的设备、系统和试剂盒的至少一部分在约42℃下操作。在一些情况下,本文公开的设备、系统和试剂盒有利地在室温下操作。在一些情况下,本文公开的设备、系统和试剂盒的至少一部分能够在约20℃至约30℃下等温扩增核酸。在一些情况下,本文公开的设备、系统和试剂盒的至少一部分能够在约23℃至约27℃下等温扩增核酸。
在一些情况下,本文公开的设备、系统和试剂盒包含能够扩增基因组中的第一序列和基因组中的第二序列的至少一种核酸扩增试剂和至少一种寡核苷酸引物,其中所述第一序列和所述第二序列相似,并且其中所述第一序列与所述第二序列在物理上足够远,使得第一序列存在于受试者的第一无细胞核酸上,并且第二序列存在于受试者的第二无细胞核酸上。在一些情况下,所述至少两个序列紧邻。在一些情况下,所述至少两个序列被至少一个核苷酸隔开。在一些情况下,所述至少两个序列被至少两个核苷酸隔开。在一些情况下,所述至少两个序列被至少约5个、至少约10个、至少约15个、至少约20个、至少约30个、至少约40个、至少约50个或至少约100个核苷酸隔开。在一些情况下,所述至少两个序列至少约50%相同。在一些情况下,所述至少两个序列至少约60%相同、至少约60%相同、至少约60%、至少约70%、至少约80%、至少约90%、至少约95%、至少约99%或100%相同。在一些情况下,第一序列和第二序列的长度各自为至少10个核苷酸。在一些情况下,第一序列和第二序列的长度各自为至少约10个、至少约15个、至少约20个、至少约30个、至少约50个或至少约100个核苷酸。在一些情况下,第一序列和第二序列在同一染色体上。在一些情况下,第一序列在第一染色体上,并且第二序列在第二染色体上。在一些情况下,第一序列和第二序列功能连接。例如,基因AOX1的启动子区域中的所有CpG位点在前列腺癌中均显示相同的过度甲基化,因此这些位点功能连接,因为它们在功能上携带相同的信息但位于间隔一个或多个核苷酸。
在一些情况下,本文公开的设备、系统和试剂盒包含能够退火至无细胞核酸链的寡核苷酸探针或寡核苷酸引物中的至少一种,其中所述无细胞核酸包含对应于感兴趣区域或其部分的序列。在一些情况下,感兴趣区域是Y染色体的区域。在一些情况下,感兴趣区域是X染色体的区域。在一些情况下,感兴趣区域是常染色体的区域。在一些情况下,感兴趣区域或其部分包含如本文所述的重复序列,其在基因组中存在多于一次。在一些情况下,感兴趣区域的长度为约10个核苷酸至约1,000,000个核苷酸。在一些情况下,感兴趣区域的长度为至少10个核苷酸。在一些情况下,感兴趣区域的长度为至少100个核苷酸。在一些情况下,该区域的长度为至少1000个核苷酸。在一些情况下,感兴趣区域的长度为约10个核苷酸至约500,000个核苷酸。在一些情况下,感兴趣区域的长度为约10个核苷酸至约300,000个核苷酸。在一些情况下,感兴趣区域的长度为约100个核苷酸至约1,000,000个核苷酸。在一些情况下,感兴趣区域的长度为约100个核苷酸至约500,000个核苷酸。在一些情况下,感兴趣区域的长度为约100个核苷酸至约300,000个碱基对。在一些情况下,感兴趣区域的长度为约1000个核苷酸至约1,000,000个核苷酸。在一些情况下,感兴趣区域的长度为约1000个核苷酸至约500,000个核苷酸。在一些情况下,感兴趣区域的长度为约1000个核苷酸至约300,000个核苷酸。在一些情况下,感兴趣区域的长度为约10,000个核苷酸至约1,000,000个核苷酸。在一些情况下,感兴趣区域的长度为约10,000个核苷酸至约500,000个核苷酸。在一些情况下,感兴趣区域的长度为约10,000个核苷酸至约300,000个核苷酸。在一些情况下,感兴趣区域的长度为约300,000个核苷酸。
在一些情况下,对应于感兴趣区域的序列的长度为至少约5个核苷酸。在一些情况下,对应于感兴趣区域的序列的长度为至少约8个核苷酸。在一些情况下,对应于感兴趣区域的序列的长度为至少约10个核苷酸。在一些情况下,对应于感兴趣区域的序列的长度为至少约15个核苷酸。在一些情况下,对应于感兴趣区域的序列的长度为至少约20个核苷酸。在一些情况下,对应于感兴趣区域的序列的长度为至少约50个核苷酸。在一些情况下,对应于感兴趣区域的序列的长度为至少约100个核苷酸。在一些情况下,该序列的长度为约5个核苷酸至约1000个核苷酸。在一些情况下,该序列的长度为约10个核苷酸至约1000个核苷酸。在一些情况下,该序列的长度为约10个核苷酸至约500个核苷酸。在一些情况下,该序列的长度为约10个核苷酸至约400个核苷酸。在一些情况下,该序列的长度为约10个核苷酸至约300个核苷酸。在一些情况下,该序列的长度为约50个核苷酸至约1000个核苷酸。在一些情况下,该序列的长度为约50个核苷酸至约500个核苷酸。
在一些情况下,本文公开的设备、系统和试剂盒包含能够退火至无细胞核酸链的寡核苷酸探针和寡核苷酸引物中的至少一种,其中所述无细胞核酸包含对应于本文公开的感兴趣子区域的序列。在一些情况下,该子区域由在感兴趣区域中存在多于一次的序列表示。在一些情况下,该子区域的长度为约10至约1000个核苷酸。在一些情况下,该子区域的长度为约50至约500个核苷酸。在一些情况下,该子区域的长度为约50至约250个核苷酸。在一些情况下,该子区域的长度为约50至约150个核苷酸。在一些情况下,该子区域的长度为约100个核苷酸。
考虑到将本领域已知的任何适当的核酸扩增方法用于本文所述的设备和方法,例如本文公开的那些(例如,测序、等温扩增、聚合酶链反应、其高通量版本)。
在一些情况下,本文公开的设备、系统和试剂盒包含至少一种寡核苷酸引物,其中所述寡核苷酸引物具有与Y染色体序列互补或相对应的序列。在一些情况下,本文公开的设备、系统和试剂盒包含寡核苷酸引物对,其中所述寡核苷酸引物对具有与Y染色体序列互补或相对应的序列。在一些情况下,本文公开的设备、系统和试剂盒包含至少一种寡核苷酸引物,其中所述寡核苷酸引物包含与Y染色体序列互补或相对应的序列。在一些情况下,本文公开的设备、系统和试剂盒包含寡核苷酸引物对,其中所述寡核苷酸引物对包含与Y染色体序列互补或相对应的序列。在一些情况下,本文公开的设备、系统和试剂盒包含至少一种寡核苷酸引物,其中所述寡核苷酸引物由与Y染色体序列互补或相对应的序列组成。在一些情况下,本文公开的设备、系统和试剂盒包含寡核苷酸引物对,其中所述寡核苷酸引物对由与Y染色体序列互补或相对应的序列组成。在一些情况下,与Y染色体序列互补或相对应的序列与野生型人Y染色体序列至少75%同源。在一些情况下,与Y染色体序列互补或相对应的序列与野生型人Y染色体序列至少80%同源。在一些情况下,与Y染色体序列互补或相对应的序列与野生型人Y染色体序列至少85%同源。在一些情况下,与Y染色体序列互补或相对应的序列与野生型人Y染色体序列至少80%同源。在一些情况下,与Y染色体序列互补或相对应的序列与野生型人Y染色体序列至少90%同源。在一些情况下,与Y染色体序列互补或相对应的序列与野生型人Y染色体序列至少95%同源。在一些情况下,与Y染色体序列互补或相对应的序列与野生型人Y染色体序列至少97%同源。在一些情况下,与Y染色体序列互补或相对应的序列与野生型人Y染色体序列100%同源。
核酸检测器:在一些情况下,本文公开的设备、系统和试剂盒包含核酸检测器。在一些情况下,核酸检测器包含核酸测序仪。在一些情况下,本文公开的设备、系统和试剂盒被配置用于扩增核酸并对所得扩增核酸进行测序。在一些情况下,本文公开的设备、系统和试剂盒被配置用于对核酸进行测序而不扩增核酸。在一些情况下,本文公开的设备、系统和试剂盒包含核酸测序仪,但不包含核酸扩增试剂或核酸扩增组件。在一些情况下,核酸测序仪包含信号检测器,其检测反映成功扩增或不成功扩增的信号。在一些情况下,核酸测序仪是信号检测器。在一些情况下,信号检测器包含核酸测序仪。
在一些情况下,核酸测序仪与分析来自核酸测序仪的测序读取的电子设备具有通信连接。在一些情况下,通信连接是硬连线的。在一些情况下,通信连接是无线的。例如,如本文公开的那些移动设备应用或计算机软件可以接收测序读取,并且基于测序读取来显示或报告关于样品的遗传信息(例如,疾病/感染的存在、对药物的响应、遗传异常或胎儿突变)。
在一些情况下,核酸测序仪包括高通量测序仪。高通量测序仪的非限制性实例包括单分子实时测序仪、离子半导体测序仪、合成测序测序仪、组合探针锚定合成测序仪、连接测序(例如,SOLiD)测序仪、纳米孔测序仪和链终止测序仪。
在一些情况下,核酸测序仪包括纳米孔测序仪。在一些情况下,纳米孔测序仪包含纳米孔。在一些情况下,纳米孔测序仪包含膜和溶液,所述溶液产生跨膜的电流并驱动带电分子(例如,核酸)移动通过纳米孔。在一些情况下,纳米孔测序仪包含跨膜蛋白、其部分或其修饰。在一些情况下,跨膜蛋白是细菌蛋白。在一些情况下,跨膜蛋白不是细菌蛋白。在一些情况下,纳米孔是合成的。在一些情况下,纳米孔执行固态纳米孔测序。在一些情况下,纳米孔测序仪被描述为口袋大小的、便携式的或大致为手机大小的。在一些情况下,纳米孔测序仪被配置用于对RNA和DNA中的至少一种进行测序。纳米孔测序设备的非限制性实例包括Oxford Nanopore Technologies MinION和SmidgION纳米孔测序USB设备。这两种设备都足够小,可以手持。纳米孔测序设备和组件在Howorka(Nat Nanotechnol.2017年7月6日;12(7):619-630)和Garrido-Cardenas等人(Sensors(Basel).2017年3月14日;17(3))的综述中进一步描述,两者均通过引用并入本文。纳米孔测序设备的其他非限制性实例由Electronic Biosciences、Two Pore Guys、Stratos和Agilent(最初来自Genia的技术)提供。
在一些情况下,核酸检测器包含重亚硫酸盐测序所必需的试剂和组件,以检测表观遗传修饰。例如,具有许多甲基化标志物的长区域可以被片段化。此处,每个携带甲基化标志物的片段可以是独立的信号。来自所有片段的信号的组合足以获得有用的遗传信息。
在一些情况下,核酸检测器不包含核酸测序仪。在一些情况下,核酸检测器被配置为对标记的核酸进行计数,其中核酸检测器量化来自一个或多个标签的集合信号。
捕获与检测:在一些情况下,本文公开的设备、系统和试剂盒包含用于检测生物样品中的核酸的核酸检测器、捕获组件、信号检测器、检测试剂或其组合中的至少一种。在一些情况下,捕获组件和信号检测器是集成的。在一些情况下,捕获组件包含固体支持物。在一些情况下,固体支持物包括珠子、芯片、条、膜、基质、柱、板或其组合。
在一些情况下,本文公开的设备、系统和试剂盒包含针对染色体或其片段的表观遗传修饰区域的至少一种探针。在一些情况下,染色体的表观遗传修饰区域的表观遗传修饰指示性别或性别的标志物。在一些情况下,本文公开的设备、系统和试剂盒包含针对在母体DNA中不存在的父体遗传序列的至少一种探针。在一些情况下,本文公开的设备、系统和试剂盒包含针对父体遗传的单核苷酸多态性的至少一种探针。在一些情况下,染色体是Y染色体。在一些情况下,染色体是X染色体。在一些情况下,染色体是Y染色体。在一些情况下,染色体是常染色体。在一些情况下,探针包括肽、抗体、抗原结合抗体片段、核酸或小分子。
在一些情况下,设备、系统和试剂盒包含本文公开的样品纯化器和本文公开的捕获组件。在一些情况下,样品纯化器包含捕获组件。在一些情况下,样品纯化器和捕获组件是集成的。在一些情况下,样品纯化器和捕获组件是隔开的。
在一些情况下,捕获组件包含本文所述的结合部分。在一些情况下,结合部分存在于侧流测定中。在一些情况下,在将样品添加至侧流测定之前将结合部分添加至样品。在一些情况下,结合部分包含信号分子。在一些情况下,结合部分与信号分子物理缔合。在一些情况下,结合部分能够与信号分子物理缔合。在一些情况下,结合部分连接至信号分子。信号分子的非限制性实例包括金颗粒、荧光颗粒、发光颗粒和染料分子。在一些情况下,捕获组件包含能够与本文所述的扩增产物相互作用的结合部分。在一些情况下,捕获组件包含能够与本文所述的扩增产物上的标签相互作用的结合部分。
在一些情况下,本文公开的设备、系统和试剂盒包含检测系统。在一些情况下,检测系统包含信号检测器。信号检测器的非限制性实例包括荧光读取器、比色计、传感器、电线、电路、接收器。在一些情况下,检测系统包含检测试剂。检测试剂的非限制性实例包括荧光团、化学物质、纳米颗粒、抗体和核酸探针。在一些情况下,检测系统包含pH传感器和互补金属氧化物半导体,可用于检测pH的变化。在一些情况下,通过本文公开的设备、系统、试剂盒或方法产生扩增产物会改变pH,从而指示遗传信息。
在一些情况下,检测系统包含信号检测器。在一些情况下,信号检测器是检测光子的光检测器。在一些情况下,信号检测器检测荧光。在一些情况下,信号检测器检测化学物质或化合物。在一些情况下,信号检测器检测在产生扩增产物时释放的化学物质。在一些情况下,信号检测器检测在将扩增产物添加至检测系统时释放的化学物质。在一些情况下,信号检测器检测在产生扩增产物时产生的化合物。在一些情况下,信号检测器检测在将扩增产物添加至检测系统时产生的化合物。
在一些情况下,信号检测器检测电信号。在一些情况下,信号检测器包含电极。在一些情况下,信号检测器包含电路、电流或电流发生器。在一些情况下,电路或电流由两种或更多种溶液或聚合物的梯度提供。在一些情况下,电路或电流由能量源(例如,电池、蜂窝电话、电源插座的电线)提供。在一些情况下,本文公开的核酸、扩增产物、化学物质或化合物通过干扰电流提供电信号,并且信号检测器检测电信号。
在一些情况下,信号检测器检测光。在一些情况下,信号检测器包含光传感器。在一些情况下,信号检测器包含照相机。在一些情况下,信号检测器包含手机照相机或其组件。
在一些情况下,信号检测器包含检测核酸中不同碱基的电荷的纳米线。在一些情况下,纳米线具有约1nm至约99nm的直径。在一些情况下,纳米线具有约1nm至约999nm的直径。在一些情况下,纳米线包含无机分子,例如镍、铂、硅、金、锌、石墨烯或钛。在一些情况下,纳米线包含有机分子(例如,核苷酸)。
在一些情况下,本文公开的设备、系统和试剂盒包含检测器,其中所述检测器包含石墨烯生物传感器。石墨烯生物传感器由例如Afsahi等人在题为“Novel graphene-basedbiosensor for early detection of Zika virus infection,Biosensor andBioelectronics,”(2018)100:85-88的文章中进行了描述。
在一些情况下,本文公开的检测器包含纳米孔、纳米传感器或纳米开关。例如,检测器可以能够进行纳米孔测序,纳米孔测序是基于跨膜电流将核酸运输通过纳米孔的方法,该检测器测量对应于特定核苷酸的电流干扰。纳米开关或纳米传感器在暴露于可检测信号时经历结构变化。参见例如,Koussa等人,“DNA nanoswitches:A quantitativeplatform for gel-based biomolecular interaction analysis,”(2015)NatureMethods,12(2):123-126。
在一些情况下,检测器包含快速多重生物标志物测定,其中针对感兴趣分析物的探针在用于实时检测的芯片上产生。因此,不需要标签、标记或报道分子。分析物与这些探针的结合引起对应于分析物浓度的折射率的变化。所有步骤可以是自动化的。可以不必要进行温育。结果可以在小于一小时(例如,10-30分钟)内获得。这样的检测器的非限制性实例是Genalyte Maverick检测系统。
附加测试:在一些情况下,本文公开的设备、系统和试剂盒包含用于检测或分析除核酸以外的生物组分的附加特征、试剂、测试或测定。举非限制性实例而言,生物组分可以选自、肽、脂质、脂肪酸、甾醇、碳水化合物、病毒组分、微生物组分及其组合。生物组分可以是抗体。生物组分可以是响应于受试者中的肽而产生的抗体。这些附加测定可以能够检测或分析本文以及全文公开的小体积或样品大小中的生物组分。附加测试可以包含能够与感兴趣的生物组分相互作用的试剂。这样的试剂的非限制性实例包括抗体、肽、寡核苷酸、适体和小分子,及其组合。试剂可以包含可检测标记。试剂可以能够与可检测标记相互作用。试剂可以能够提供可检测信号。
附加测试可能需要一种或多种抗体。例如,附加测试可以包含提供用于执行免疫PCR(IPCR)的试剂或组件。IPCR是这样的方法,其中将针对感兴趣蛋白质的第一抗体固定并暴露于样品。如果样品含有感兴趣的蛋白质,则它将被第一抗体捕获。然后将所捕获的感兴趣蛋白质暴露于与感兴趣蛋白质结合的第二抗体。该第二抗体已与能够被实时PCR检测的多核苷酸耦合。备选地或附加地,附加测试可以包含提供用于执行邻位连接技术(PLA)的试剂或组件,其中样品暴露于对感兴趣蛋白质具有特异性的两种抗体,每种抗体包含寡核苷酸。如果两种抗体均与感兴趣蛋白质结合,则每种抗体的寡核苷酸将足够接近以被扩增和/或检测。
性能参数:在一些情况下,本文公开的设备、系统和试剂盒在一个或多个温度下可操作。在一些情况下,需要改变设备系统或试剂盒的组件或试剂的温度,以使设备系统或试剂盒可操作。通常,当设备、系统和试剂盒能够提供由生物样品中的生物标志物(例如,RNA/DNA、肽)传达的信息时,则认为其是“可操作的”。在一些情况下,设备、系统、试剂盒、其组件或其试剂在其下可操作的温度在普通家庭中获得。举非限制性实例而言,在普通家庭中获得的温度可以由室温、冷藏箱、冷冻箱、微波炉、炉、电火锅、热/冷水浴或烤箱提供。
在一些情况下,本文所述的设备、系统、试剂盒、其组件或其试剂在单一温度下可操作。在一些情况下,本文所述的设备、系统、试剂盒、其组件或其试剂仅需要单个温度而可操作。在一些情况下,本文所述的设备、系统、试剂盒、其组件或其试剂仅需要两个温度而可操作。在一些情况下,本文所述的设备、系统、试剂盒、其组件或其试剂仅需要三个温度而可操作。
在一些情况下,本文公开的设备、系统、试剂盒包含加热设备或冷却设备,以允许用户获得至少一个温度。加热设备和冷却设备的非限制性实例是材料的小袋或包,其可以在冷藏箱或冷冻箱中冷却,或微波或在炉面上煮沸,或插入电源插座,并且随后施加于本文公开的设备或其组件,从而将热量传递至设备或其组件或冷却该设备或其组件。加热设备的另一非限制性实例是穿过该设备或其部分的电线或线圈。电线或线圈可以由外部(例如,太阳能、插座)或内部(例如,电池、蜂窝电话)电源激活,以将热量传送至设备或其部分。在一些情况下,本文公开的设备、系统、试剂盒包含温度计或温度指示器,以帮助用户评估温度范围内的温度。备选地或附加地,用户使用在典型家庭环境中的设备(例如,温度计、手机等)来评估温度。
在一些情况下,设备、系统、试剂盒、其组件或其试剂可操作的温度在一定温度范围内或在温度范围内的至少一个温度。在一些情况下,温度范围为约-50℃至约100℃。在一些情况下,温度范围为约-50℃至约90℃。在一些情况下,温度范围为约-50℃至约80℃。在一些情况下,温度范围为约-50℃至约70℃。在一些情况下,温度范围为约-50℃至约60℃。在一些情况下,温度范围为约-50℃至约50℃。在一些情况下,温度范围为约-50℃至约40℃。在一些情况下,温度范围为约-50℃至约30℃。在一些情况下,温度范围为约-50℃至约20℃。在一些情况下,温度范围为约-50℃至约10℃。在一些情况下,温度范围为约0℃至约100℃。在一些情况下,温度范围为约0℃至约90℃。在一些情况下,温度范围为约0℃至约80℃。在一些情况下,温度范围为约0℃至约70℃。在一些情况下,温度范围为约0℃至约60℃。在一些情况下,温度范围为约0℃至约50℃。在一些情况下,温度范围为约0℃至约40℃。在一些情况下,温度范围为约0℃至约30℃。在一些情况下,温度范围为约0℃至约20℃。在一些情况下,温度范围为约0℃至约10℃。在一些情况下,温度范围为约15℃至约100℃。在一些情况下,温度范围为约15℃至约90℃。在一些情况下,温度范围为约15℃至约80℃。在一些情况下,温度范围为约15℃至约70℃。在一些情况下,温度范围为约15℃至约60℃。在一些情况下,温度范围为约15℃至约50℃。在一些情况下,温度范围为约15℃至约40℃。在一些情况下,温度范围为约15℃至约30℃。在一些情况下,温度范围为约10℃至约30℃。在一些情况下,本文公开的设备、系统、试剂盒,包括其所有组件及其所有试剂,在室温下完全可操作,不需要冷却、冷冻或加热。
在一些情况下,本文公开的设备、系统和试剂盒在接收生物样品的时间范围内检测生物样品或其产物(例如,扩增产物、缀合产物、结合产物)的组分。在一些情况下,检测通过本文所述的信号分子发生。在一些情况下,时间范围为约1秒至约1分钟。在一些情况下,时间范围为约10秒至约1分钟。在一些情况下,时间范围为约10秒至约1分钟。在一些情况下,时间范围为约30秒至约1分钟。在一些情况下,时间范围为约10秒至约2分钟。在一些情况下,时间范围为约10秒至约3分钟。在一些情况下,时间范围为约10秒至约5分钟。在一些情况下,时间范围为约10秒至约10分钟。在一些情况下,时间范围为约10秒至约15分钟。在一些情况下,时间范围为约10秒至约20分钟。在一些情况下,时间范围为约30秒至约2分钟。在一些情况下,时间范围为约30秒至约5分钟。在一些情况下,时间范围为约30秒至约10分钟。在一些情况下,时间范围为约30秒至约15分钟。在一些情况下,时间范围为约30秒至约20分钟。在一些情况下,时间范围为约30秒至约30分钟。在一些情况下,时间范围为约1分钟至约2分钟。在一些情况下,时间范围为约1分钟至约3分钟。在一些情况下,时间范围为约1分钟至约5分钟。在一些情况下,时间范围为约1分钟至约10分钟。在一些情况下,时间范围为约1分钟至约20分钟。在一些情况下,时间范围为约1分钟至约30分钟。在一些情况下,时间范围为约5分钟至约10分钟。在一些情况下,时间范围为约5分钟至约15分钟。在一些情况下,时间范围为约5分钟至约20分钟。在一些情况下,时间范围为约5分钟至约30分钟。在一些情况下,时间范围为约5分钟至约60分钟。在一些情况下,时间范围为约30分钟至约60分钟。在一些情况下,时间范围为约30分钟至约2小时。在一些情况下,时间范围为约1小时至约2小时。在一些情况下,时间范围为约1小时至约4小时。
在一些情况下,本文公开的设备、系统和试剂盒在少于给定的时间量内检测生物样品或其产物(例如,扩增产物、缀合产物、结合产物)的组分。在一些情况下,本文公开的设备、系统和试剂盒在少于给定的时间量内提供对生物样品或其产物的组分的分析。在一些情况下,时间量少于1分钟。在一些情况下,时间量少于5分钟。在一些情况下,时间量少于10分钟。在一些情况下,时间量为15分钟。在一些情况下,时间量少于20分钟。在一些情况下,时间量少于30分钟。在一些情况下,时间量少于60分钟。在一些情况下,时间量少于2小时。在一些情况下,时间量少于8小时。
处理器和计算机系统:可以采用一个或多个处理器来实现本文公开的基于机器学习的方法。一个或多个处理器可以包括硬件处理器,诸如中央处理单元(CPU)、图形处理单元(GPU)、通用处理单元或计算平台。一个或多个处理器可以由多种合适的集成电路(例如,专门设计用于实现深度学习网络架构的专用集成电路(ASIC)或用于加速计算时间等和/或便于部署的现场可编程门阵列(FPGA))、微处理器、新兴的下一代微处理器设计(例如,基于忆阻器的处理器)、逻辑器件等中的任意种组成。尽管参考处理器描述了本公开内容,但是其他类型的集成电路和逻辑设备也可适用。处理器可以具有任何合适的数据操作能力。例如,处理器可以执行512位、256位、128位、64位、32位或16位数据操作。一个或多个处理器可以是单核或多核处理器,或者是配置用于并行处理的多个处理器。
用于实施所公开的诊断测试方法的一个或多个处理器或计算机可以是较大计算机系统的一部分和/或可以借助于通信接口可操作地耦合到计算机网络(“网络”)以促进训练数据和测试结果的传输和共享。该网络可以是局域网、内联网和/或外联网、与因特网通信的内联网和/或外联网,或因特网。在一些情况下,网络是电信和/或数据网络。该网络可以包括一个或多个计算机服务器,在一些情况下,其可以实现分布式计算,诸如云计算。在一些情况下,网络可以借助于计算机系统实现对等网络,这可以使得与计算机系统耦合的设备能够作为客户端或服务器。
该计算机系统还可以包括存储器或存储位置(例如,随机存取存储器、只读存储器、闪速存储器、
Figure BDA0002806587060001011
OptaneTM技术)、电子存储单元(例如,硬盘)、用于与一个或多个其他系统通信的通信接口(例如,网络适配器)以及外围设备,诸如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器、存储单元、接口和外围设备可以通过例如在主板上找到的通信总线与一个或多个处理器(例如,CPU)通信。一个或多个存储单元可以是用于存储数据的一个或多个数据存储单元(或数据存储库)。
一个或多个处理器,例如CPU,执行一系列机器可读指令,其可以体现在程序(或软件)中。指令存储在存储位置中。将指令引导至CPU,该指令随后编程或以其他方式配置CPU以实现本公开内容的方法。CPU所执行的操作的实例包括提取、解码、执行和回写。CPU可以是电路如集成电路的一部分。系统的一个或多个其他组件可以包含在电路中。在一些情况下,该电路是专用集成电路(ASIC)。
存储单元存储文件,诸如驱动程序、文库和保存的程序。存储单元存储用户数据,例如用户指定的偏好和用户指定的程序。在一些情况下,计算机系统可包括一个或多个附加数据存储单元,所述附加数据存储单元位于计算机系统外部,诸如位于通过内联网或因特网与计算机系统通信的远程服务器上。
本文所提供的方法和系统的一些方面,诸如所公开的基于核酸测序的诊断测试方法,是通过存储在计算机系统的电子存储位置中的机器(例如,处理器)可执行代码来实现的,诸如,例如在存储器或电子存储单元中。机器可执行代码或机器可读代码以软件的形式提供。在使用期间,该代码由一个或多个处理器执行。在一些情况下,从存储单元检索该代码并将其存储在存储器上以备一个或多个处理器访问。在一些情况下,排除电子存储单元,并且机器可执行指令存储在存储器中。该代码可以被预编译并配置为与具有一个或多个适于执行该代码的处理器的机器一起使用,或者可以在运行时被编译。代码可以以编程语言提供,选择编程语言以使该代码能够以预编译或即时编译(as-compiled)的方式执行。
该技术的各个方面可以被认为是“产品”或“制品”,例如“计算机程序或软件产品”,通常为机器(或处理器)可执行代码和/或存储在一种类型的机器可读介质中的相关数据的形式,其中可执行代码包括用于在执行本文公开的一个或多个方法中控制计算机或计算机系统的多个指令。机器可执行代码可以存储在包括光学可读介质的光学存储单元中,诸如光盘、CD-ROM、DVD或蓝光光盘。机器可执行代码可以存储在电子存储单元如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘上。“存储”型介质包括计算机的任何或全部有形存储器、处理器等,或其相关模块,如各种半导体存储芯片、光盘驱动器、磁带驱动器、磁盘驱动器等,其可在任何时候为编码本文公开的方法和算法的软件提供非暂时性存储。
软件代码的全部或部分有时可以通过因特网或各种其他电信网络进行通信。这样的通信,例如,使得软件能够从一个计算机或处理器加载到另一个计算机或处理器中,例如,从管理服务器或主机加载到应用服务器的计算机平台中。因此,用于传送软件编码指令的其他类型的介质包括光波、电波和电磁波,诸如跨本地设备之间的物理接口、通过有线和光学陆线网络以及通过各种大气链路而使用的那些。携带此类波的物理元件,诸如有线或无线链路、光学链路等,也被认为是传达用于执行本文所公开的方法的软件编码指令的介质。如本文所用,除非限于非暂时性有形的“存储”介质,否则诸如计算机或机器“可读介质”等术语是指参与向处理器提供指令以供执行的任何介质。
该计算机系统通常包括电子显示器或可以与电子显示器通信,该电子显示器用于提供例如由机器视觉系统捕获的图像。该显示器通常还能够提供用户界面(UI)。UI的实例包括但不限于图形用户界面(GUI)、基于Web的用户界面等。
基于机器学习的诊断筛选和测试程序的应用程序:本文公开的基于机器学习的诊断方法可以应用于多种基因组状况和异常的检测。实例包括但不限于通过分析任何类型的核酸(包括但不限于DNA、基因组DNA、无细胞DNA、循环肿瘤DNA、cDNA、RNA、mRNA、无细胞RNA、循环肿瘤RNA、外来体RNA等,或其中包含的标志物,例如,结构突变或表观遗传/表观基因组改变,诸如胞嘧啶甲基化)来筛查和诊断癌症、自身免疫性疾病、神经退行性疾病等,以及监测移植排斥反应或监测治疗反应。
在所公开方法的一些实施方案中,机器学习算法可以应用于核酸测序数据的分析,以检测与一种状态相关的测序读取子集相对于另一种状态(例如,正常基因组状况相对于给定受试者群体内的基因组异常)的正常表现度、高表现度或低表现度,其中不需要测序读取与参考序列的比对,并且不需要确定该测序读数子集相对于特定靶染色体的正常表现度、高表现度或低表现度。
在一些情况下,本文公开的方法包括确定样品中至少一个靶染色体的非整倍性。在一些情况下,本文公开的方法包括确定在从妊娠女性收集的样品中至少一个靶染色体的胎儿非整倍性。在一些情况下,本文公开的方法包括当在本文公开的样品中检测到一定量的测序读取时,确定至少一个靶染色体的胎儿非整倍性。在一些情况下,如本文所述,测序读取的量对应于来自已知在人类群体中呈现非整倍性的染色体或染色体区域的序列。
在一些情况下,本文公开的方法包括:当对应于至少一个靶染色体的测序读取与对应于至少一个非靶染色体的测序读取的比率不同于来自对照整倍体受试者的对照生物样品中的相应比率时,确定至少一个靶染色体存在非整倍性。在一些情况下,本文公开的方法包括:当对应于至少一个靶染色体的测序读取与对应于至少一个非靶染色体的测序读取的比率不同于来自怀有整倍体胎儿的对照妊娠受试者的对照生物样品中的相应比率时,确定至少一个靶染色体存在胎儿非整倍性。在一些情况下,本文公开的方法包括确定至少一个靶染色体存在胎儿非整倍性,因为对应于至少一个靶染色体的测序读取与对应于至少一个非靶染色体的测序读取的比率不同于来自怀有整倍体胎儿的对照妊娠受试者的对照生物样品中的相应比率。在一些情况下,本文公开的方法包括确定至少一个靶染色体不存在非整倍性或胎儿非整倍性,因为对应于至少一个靶染色体的测序读取与对应于至少一个非靶染色体的测序读取的比率没有不同于来自对照整倍体受试者或怀有整倍体胎儿的对照妊娠受试者的对照生物样品中的相应比率。
在一些情况下,对应于至少一个靶染色体的测序读取包含对应于至少一个靶染色体的染色体区域的测序读取。在一些情况下,对应于至少一个非靶染色体的测序读取包含对应于非靶染色体的染色体区域的测序读取。在一些情况下,染色体区域的长度范围可以为从约10个碱基对至长度约500,000个碱基对。在一些情况下,染色体区域可以是长度至少10个碱基对、长度至少50个碱基对、长度至少100个碱基对、长度至少1,000个碱基对、长度至少50,000个碱基对、长度至少100,000个碱基对、长度至少200,000个碱基对、长度至少300,000个碱基对、长度至少400,000个碱基对或者长度至少500,000个碱基对。在一些情况下,染色体区域可以是长度至多500,000个碱基对、长度至多400,000个碱基对、长度至多300,000个碱基对、长度至多200,000个碱基对、长度至多100,000个碱基对、长度至多50,000个碱基对、长度至多1,000个碱基对、长度至多100个碱基对、长度至多50个碱基对或长度至多10个碱基对。该段落中描述的下限值和上限值中的任何一个可以组合以形成本公开内容中包括的范围,例如,染色体区域的长度可以在约50个碱基对至约400,000个碱基对的范围内。本领域技术人员将认识到,染色体区域的长度可以具有该范围内的任何值,例如,约265,000个碱基对。
在一些情况下,至少一个靶染色体或从其衍生的染色体区域是4号染色体、5号染色体、7号染色体、9号染色体、11号染色体、13号染色体、16号染色体、18号染色体、21号染色体、22号染色体、X染色体或Y染色体中的至少一个。在一些情况下,至少一个靶染色体或从其衍生的染色体区域可包括4号染色体、5号染色体、7号染色体、9号染色体、11号染色体、13号染色体、16号染色体、18号染色体、21号染色体、22号染色体、X染色体或Y染色体的任何组合。在一些情况下,至少一个靶染色体是13号染色体、18号染色体和21号染色体中的至少一个。在一些情况下,至少一个靶染色体是13号染色体、18号染色体、21号染色体和X染色体中的至少一个。在一些情况下,至少一个靶染色体是13号染色体、18号染色体、21号染色体和Y染色体中的至少一个。在一些情况下,至少一个靶染色体是13号染色体、18号染色体、21号染色体、X染色体和Y染色体中的至少一个。在一些情况下,至少一个靶染色体是13号染色体。在一些情况下,至少一个靶染色体是16号染色体。在一些情况下,至少一个靶染色体是18号染色体。在一些情况下,至少一个靶染色体是21号染色体。在一些情况下,靶染色体是22号染色体。在一些情况下,至少一个靶染色体是性染色体。在一些情况下,至少一个靶染色体是X染色体。在一些情况下,至少一个靶染色体是Y染色体。在一些情况下,至少一个靶染色体可以是已知与已知的微缺失或微复制综合征相关的任何染色体或其部分。缺失或微复制综合征的非限制性实例在A.Weise等人,“Microdeletion and MicroduplicationSyndromes”,J.Histochem Cytochem,2012May;60(5):346–358中以及在Decipher数据库(https://decipher.sanger.ac.uk/syndromes#syndromes/overview)中列出。
在一些情况下,至少一个非靶染色体是除13号染色体、16号染色体、18号染色体、21号染色体、22号染色体、X染色体或Y染色体以外的染色体中的至少一个。在一些情况下,至少一个非靶染色体不是13号染色体、16号染色体、18号染色体、21号染色体、22号染色体、X染色体和Y染色体。在一些情况下,至少一个非靶染色体选自1号染色体、2号染色体、3号染色体、4号染色体、5号染色体、6号染色体、7号染色体、8号染色体、9号染色体、10号染色体、11号染色体、12号染色体、14号染色体、15号染色体、17号染色体、19号染色体和20号染色体。在一些情况下,非靶染色体是1号染色体。在一些情况下,至少一个非靶染色体是2号染色体。在一些情况下,至少一个非靶染色体是3号染色体。在一些情况下,非靶染色体是4号染色体。在一些情况下,至少一个非靶染色体是5号染色体。在一些情况下,至少一个非靶染色体是6号染色体。在一些情况下,至少一个非靶染色体是7号染色体。在一些情况下,至少一个非靶染色体是8号染色体。在一些情况下,至少一个非靶染色体是9号染色体。在一些情况下,至少一个非靶染色体是10号染色体。在一些情况下,至少一个非靶染色体是11号染色体。在一些情况下,至少一个非靶染色体是12号染色体。在一些情况下,至少一个非靶染色体是14号染色体。在一些情况下,至少一个非靶染色体是15号染色体。在一些情况下,至少一个非靶染色体是17号染色体。在一些情况下,至少一个非靶染色体是19号染色体。在一些情况下,至少一个非靶染色体是20号染色体。
在一些情况下,至少一个靶染色体是13号染色体,并且至少一个非靶染色体是除了13号染色体以外的染色体。在一些情况下,至少一个靶染色体是16号染色体,并且至少一个非靶染色体是除了16号染色体以外的染色体。在一些情况下,至少一个靶染色体是18号染色体,并且至少一个非靶染色体是除了18号染色体以外的染色体。在一些情况下,至少一个靶染色体是21号染色体,并且至少一个非靶染色体是除了21号染色体以外的染色体。在一些情况下,至少一个靶染色体是22号染色体,并且至少一个非靶染色体是除了22号染色体以外的染色体。在一些情况下,至少一个靶染色体是X染色体,并且至少一个非靶染色体是除了X染色体以外的染色体。在一些情况下,至少一个靶染色体是Y染色体,并且至少一个非靶染色体是除了Y染色体以外的染色体。
在一些情况下,本文公开的方法包括确定受试者或妊娠受试者的胎儿具有染色体异常。在一些情况下,染色体异常是由于在靶染色体区域中至少一个核苷酸的插入。在一些情况下,染色体异常是由于靶染色体区域中至少一个核苷酸的缺失。在一些情况下,染色体异常是由于核苷酸在第一靶染色体区域与第二染色体靶区域之间的易位。通常,第一靶染色体区域和第二染色体靶区域位于不同的染色体上。
在一些情况下,靶染色体区域由最小长度定义。在一些情况下,靶染色体区域的最小长度是至少约10个碱基对、至少约50个碱基对、至少约100个碱基对、至少约200个碱基对、至少约300个碱基对、至少约400个碱基对、至少约500个碱基对、至少约600个碱基对、至少约700个碱基对、至少约800个碱基对、至少约900个碱基对或至少约1,000个碱基对。
在一些情况下,靶染色体区域由最大长度定义。在一些情况下,靶染色体区域长约100,000个碱基对。在一些情况下,靶染色体区域长约500,000个碱基对。在一些情况下,靶染色体区域长约1,000,000个碱基对。在一些情况下,靶染色体区域长约10,000,000个碱基对。在一些情况下,靶染色体区域长约100,000,000个碱基对。在一些情况下,靶染色体区域长约200,000,000个碱基对。
在一些情况下,染色体异常是拷贝数变异。在一些情况下,拷贝数变异包括至少一个染色体上的基因组区域或其一部分的缺失。在一些情况下,拷贝数变异包括至少一个染色体上的基因组区域或其一部分的重复。在一些情况下,拷贝数变异包括至少一个染色体上的基因组区域或其一部分的三份复制。在一些情况下,拷贝数变异包括基因组区域或其一部分的超过三次拷贝。在一些情况下,拷贝数变异包括在至少一个染色体上的非蛋白质编码序列的缺失。在一些情况下,拷贝数变异包括在至少一个染色体上的非蛋白质编码序列的重复。在一些情况下,拷贝数变异包括至少一个染色体上的非编码区的三份复制。在一些情况下,拷贝数变异包括至少一个染色体上的非编码区的超过三次拷贝。
在一些情况下,染色体异常导致至少约0.001%的染色体臂被复制。在一些情况下,染色体异常导致至少约0.01%的染色体臂被复制。在一些情况下,染色体异常导致至少约0.1%的染色体臂被复制。在一些情况下,染色体异常导致至少约1%的染色体臂被复制。在一些情况下,染色体异常导致至少约10%的染色体臂被复制。在一些情况下,至少约20%的染色体臂被复制。在一些情况下,至少约30%的染色体臂被复制。在一些情况下,至少约50%的染色体臂被复制。在一些情况下,至少约70%的染色体臂被复制。在一些情况下,至少约90%的染色体臂被复制。在一些情况下,整个染色体臂被复制。
在一些情况下,染色体异常导致至少约0.001%的染色体臂被删除。在一些情况下,染色体异常导致至少约0.01%的染色体臂被删除。在一些情况下,染色体异常导致至少约0.1%的染色体臂被删除。在一些情况下,染色体异常导致至少约1%的染色体臂被删除。在一些情况下,染色体异常导致至少约10%的染色体臂被删除。在一些情况下,至少约20%的染色体臂被删除。在一些情况下,至少约30%的染色体臂被删除。在一些情况下,至少约50%的染色体臂被删除。在一些情况下,至少约70%的染色体臂被删除。在一些情况下,至少约90%的染色体臂被删除。在一些情况下,整个染色体臂被删除。
在一些情况下,本文公开的方法包括当检测到对应于靶染色体区域的一定量的测序读取时确定该受试者或妊娠女性受试者的胎儿具有基因组异常,其中该量指示该基因组异常。
在一些情况下,本文公开的方法包括对核酸进行测序。在一些情况下,核酸是无细胞核酸。在一些情况下,核酸包括无细胞胎儿核酸。在一些情况下,核酸是无细胞胎儿核酸。在一些情况下,本文公开的方法包括对所述核酸进行测序以产生每个样品的测序读取的数目或范围。在一些情况下,每个样品产生的测序读取的数目可以在约1,000至约10,000,000的范围内。在一些情况下,每个样品产生的测序读取的数目可以是至少1,000、至少10,000、至少100,000、至少500,000、至少1,000,000、至少5,000,000或至少10,000,000。在一些情况下,每个样品产生的测序读取的数目可以是至多10,000,000、至多5,000,000、至多1,000,000、至多500,000、至多100,000、至多10,000或至多1,000。该段落中描述的下限值和上限值中的任何一个可以组合以形成本公开内容中包括的范围,例如,每个样品产生的测序读取的数目可以在约10,000至约500,000的范围内。本领域技术人员将认识到,每个样品产生的测序读取的数目可以具有该范围内的任何值,例如,约245,000个测序读取。
在一些情况下,方法包括当(1)对应于靶染色体区域的测序读取与(2)对应于至少一个非靶染色体区域的测序读取的比率不同于来自对照受试者或胎儿没有基因组异常的对照妊娠女性受试者的对照生物样品中的相应比率时,确定受试者或妊娠女性受试者的胎儿具有基因组异常。在一些情况下,方法包括因为(1)对应于靶染色体区域的测序读取与(2)对应于至少一个非靶染色体区域的测序读取的比率不同于来自对照受试者或胎儿没有基因组异常的对照妊娠女性受试者的对照生物样品中的相应比率时,确定受试者或妊娠女性受试者的胎儿具有基因组异常。在一些情况下,方法包括当(1)对应于靶染色体区域的测序读取与(2)对应于至少一个非靶染色体区域的测序读取的比率与来自对照受试者或胎儿没有基因组异常的对照妊娠女性受试者的对照生物样品中的相应比率没有不同时,确定受试者或妊娠女性受试者的胎儿不具有基因组异常。在一些情况下,染色体区域和非靶染色体区域位于相同染色体上。在一些情况下,染色体区域和非靶染色体区域位于不同的染色体上。在一些情况下,本文公开的方法包括在涉及特定的靶染色体的情况下确定受试者或妊娠受试者的胎儿具有基因组异常。
在一些情况下,受试者非整倍性或基因组异常,例如胎儿非整倍性或基因组异常的确定具有至少约90%的准确性、至少约95%的准确性、至少约96%的准确性、至少约97%的准确性、至少约98%的准确性、至少约99%的准确性、至少约99.5%的准确性、至少约99.9%的准确性或至少约99.99%的准确性。
来自每个染色体的读取大致根据染色体的长度来表现。最多读取源自1号染色体,而来自常染色体的最少读取将源自21号染色体。检测三体样品的常用方法是测量整倍体样品群体中源自染色体的读取百分比。接下来,计算该组染色体百分比值的平均值和标准偏差。截断值是通过在平均值上加三个标准偏差确定的。如果新样品的染色体百分比值高于截断值,则可以认为该染色体具有高表现度,这通常与染色体的三体性相符。
在一些情况下,当(1)对应于至少一个靶染色体的测序读取与(2)对应于至少一个非靶染色体的测序读取的比率与来自对照整倍体受试者或怀有整倍体胎儿的对照妊娠受试者的对照生物样品中的相应比率相差至少约0.1%时,确定受试者非整倍性,例如,胎儿非整倍性。在一些情况下,比率相差至少1%。
在一些情况下,对照受试者是整倍体受试者。在一些情况下,对照妊娠受试者是整倍体妊娠受试者。在一些情况下,对照是一组受试者例如妊娠受试者的平均值或中值。在一些情况下,对照是来自受试者例如妊娠受试者的血浆样品池的平均值或中值。在一些情况下,对照是类似地从模拟整倍体受试者或怀有整倍体胎儿的妊娠受试者的核酸人工混合物中获得的值。在一些情况下,对照受试者或对照妊娠受试者是整倍体受试者或怀有具有整倍体染色体组的胎儿的整倍体妊娠受试者。在一些情况下,对照受试者或对照妊娠受试者不具有基因组异常,例如,拷贝数变异。在一些情况下,对照妊娠受试者怀有的胎儿不具有基因组异常,例如,拷贝数变异。在一些情况下,对照受试者或对照妊娠受试者在本文公开的靶染色体中不具有基因组异常。在一些情况下,对照妊娠受试者所怀的胎儿在本文公开的靶染色体中不具有基因组异常。在一些情况下,对照受试者或对照妊娠受试者和她的胎儿中的至少一个具有非整倍性。在一些情况下,对照受试者或对照妊娠受试者和她的胎儿中的至少一个具有本文公开的基因组异常。在一些情况下,对照受试者或对照妊娠受试者和她的胎儿中的至少一个在本文公开的靶染色体中具有基因组异常。在一些情况下,本文公开的方法包括使用来自对照群体(例如,对照妊娠群体)的对照生物样品的相应比例。在一些情况下,相应比例是来自对照群体(例如,对照妊娠群体)的相应平均比例。在一些情况下,相应比例是来自对照群体(例如,对照妊娠群体)的相应中位数比例。
亲子鉴定:在所公开的方法、设备、系统和试剂盒的一些情况下,机器学习算法可以应用于核酸测序数据的分析以进行产前亲子鉴定。例如,本文公开了产前亲子鉴定方法,其包括:(a)从怀有胎儿的受试者获得生物样品(在一些情况下,生物样品包含无细胞核酸);(b)任选地标记至少一部分无细胞核酸以产生任选地标记的无细胞核酸的文库;(c)任选地扩增任选地标记的无细胞核酸;(d)对至少一部分任选标记的无细胞核酸进行测序以产生测序读取;(e)从怀疑是胎儿父亲的个体获得父亲基因型信息;以及(f)将父亲基因型信息与无细胞核酸测序读取的基于机器学习的分析进行比较,以确定胎儿组分与父亲基因型之间是否存在基因型匹配。核酸序列数据的基于机器学习分析的使用可以允许例如鉴定用作个体的独特身份标志物的小拷贝数变异序列的独特集合。在一些实施方案中,生物样品包含血液、血浆、血清、尿液、组织液、阴道细胞、阴道液、宫颈细胞、颊细胞或唾液。在一些实施方案中,血液包含毛细血管血液。在一些实施方案中,毛细血管血液包含不超过1毫升的血液。在一些实施方案中,毛细血管血液包含不超过100微升的血液。在一些实施方案中,毛细血管血液包含不超过40微升的血液。在一些实施方案中,该方法还包括合并两个或更多个生物样品,每个样品获自不同的受试者。在一些实施方案中,方法还包括在从受试者获得生物样品之后使生物样品与白细胞稳定剂接触。在一些实施方案中,通过透皮穿刺收集获自受试者的生物样品。在一些实施方案中,不通过透皮穿刺收集获自受试者的生物样品。在一些实施方案中,使用被配置为裂解受试者表皮的胞间连接点的设备收集获自受试者的生物样品。在一些实施方案中,通过以下方法收集获自受试者的生物样品:(a)诱导第一次经皮穿刺以产生第一部分生物样品;(b)丢弃第一部分生物样品;以及(c)收集第二部分生物样品,从而减少或消除由于白细胞裂解引起的生物样品污染。在一些实施方案中,(c)的标记包括:(a)通过一个或多个步骤产生连接感受态的无细胞DNA,该步骤包括:(i)产生无细胞DNA的平端,在一些实施方案中,使用一种或多种聚合酶和一种或多种核酸外切酶除去5’突出端或3’凹陷端;(ii)使无细胞DNA的平端去磷酸化;(iii)使无细胞DNA与群集剂接触,从而增强一种或多种聚合酶、一种或多种核酸外切酶与无细胞DNA之间的反应;或(iv)使用连接酶修复或去除无细胞DNA中的DNA损伤;以及(b)通过在连接酶、群集剂和/或小分子增强剂的存在下使连接感受态的无细胞DNA与衔接子寡核苷酸接触,将连接感受态的无细胞DNA与衔接子寡核苷酸连接。在一些实施方案中,一种或多种聚合酶包含T4 DNA聚合酶或DNA聚合酶I。在一些实施方案中,一种或多种核酸外切酶包含T4多核苷酸激酶或核酸外切酶III。在一些实施方案中,连接酶包含T3 DNA连接酶、T4 DNA连接酶、T7 DNA连接酶、Taq连接酶、扩增连接酶、大肠杆菌连接酶或Sso7-连接酶融合蛋白。在一些实施方案中,群集剂包括聚乙二醇(PEG)、糖原或葡聚糖或其组合。在一些实施方案中,小分子增强剂包含二甲基亚砜(DMSO)、聚山梨酯20、甲酰胺或二醇或其组合。在一些实施方案中,(b)中的连接包括平端连接或单核苷酸突出端连接。在一些实施方案中,衔接子寡核苷酸包括Y形衔接子、发夹衔接子、茎环衔接子、可降解衔接子、封闭的自连接衔接子或条形码衔接子或其组合。在一些实施方案中,产生的(c)中的文库具有至少0.5的效率。在一些实施方案中,靶无细胞核酸是来自肿瘤的无细胞核酸。在一些实施方案中,靶无细胞核酸是来自胎儿的无细胞核酸。在一些实施方案中,靶无细胞核酸是来自移植组织或器官的无细胞核酸。在一些实施方案中,靶无细胞核酸是来自一种或多种病原体的基因组核酸。在一些实施方案中,病原体包含细菌或其组分。在一些实施方案中,病原体包含病毒或其组分。在一些实施方案中,病原体包含真菌或其组分。在一些实施方案中,无细胞核酸包含一个或多个单核苷酸多态性(SNP)、插入或缺失(indel)或其组合。在一些实施方案中,大规模多重扩增测定是等温扩增。在一些实施方案中,大规模多重扩增测定是聚合酶链反应(mmPCR)。在一些实施方案中,生物样品包括细胞类型或组织类型,其中与外周血相比,胎儿无细胞核酸以少量存在。
增生性疾病(癌症):在一些情况下,包括基于机器学习的核酸测序数据分析的公开方法、设备、系统可以应用于从包括液体活检样品的各种样品中的任一种检测指示增生性疾病例如癌症的各种遗传或表观遗传标志物。在一些情况下,遗传标志物是本文所述的那些(例如,靶染色体的高表现度或低表现度,或其他染色体异常)。在一些情况下,表观遗传标志物是本文所述的那些(例如,DNA甲基化、组蛋白修饰等)。在肿瘤学领域,液体活检在许多情况下是基于组织的活检方法的可行替代方案。特别地,当手术成本太高、给患者带来不合理的风险、对患者不方便,或者是不实用时,如在转移性疾病、神经疾病和监测环境中的情况下,其中没有组织要进行活检时,液体活检是有利的。
在一些实施方案中,所公开的方法(以及设计用于实现所公开的方法的设备和系统)可用于早期癌症检测(筛查)、疾病监测和表征、确定疾病负担和/或推导精确的治疗方案。
疾病或病况可以包括异常的细胞生长或增殖。疾病或病况可以包括白血病。白血病的非限制性类型包括急性成淋巴细胞白血病(ALL)、慢性淋巴细胞性白血病(CLL)、急性骨髓性白血病(AML)、慢性骨髓性白血病(CML)和多毛细胞白血病(HCL)。疾病或病况可以包括淋巴瘤。淋巴瘤可以是非霍奇金淋巴瘤(例如,B细胞淋巴瘤、弥漫性大B细胞淋巴瘤、T细胞淋巴瘤、Waldenstrom巨球蛋白血症)或霍奇金淋巴瘤。疾病或病况可以包括癌症。癌症可以是乳腺癌。癌症可以是肺癌。癌症可以是食道癌。癌症可以是胰腺癌。癌症可以是卵巢癌。癌症可以是子宫癌。癌症可以是宫颈癌。癌症可以是睾丸癌。癌症可以是前列腺癌。癌症可以是膀胱癌。癌症可以是结肠癌。癌症可以是肉瘤。癌症可以是腺癌。癌症可以是孤立的,也就是说,它没有扩散到癌症起源的器官或组织以外的其他组织。癌症可以是转移性的。癌症可以已经扩散到邻近组织。癌症可以已经扩散到与癌症起源的器官或组织物理接触的细胞、组织或器官。癌症可以已经扩散到与癌症起源的器官或组织没有物理接触的细胞、组织或器官。癌症可以处于早期阶段,例如0期(可能会变成癌症的异常细胞)或1期(较小且局限于一个组织)。癌症可以处于中间阶段,例如2期或3期,生长到与原始肿瘤组织物理接触的组织和淋巴结中。癌症可以是晚期的,例如4期或5期,其中癌症已经转移到远离原始肿瘤组织的(例如,不相邻或不物理接触的)组织。在一些情况下,癌症不是晚期的。在一些情况下,癌症不是转移性的。在一些情况下,癌症是转移性的。
实施例
提供这些实施例仅出于说明的目的,并非限制本文提供的权利要求的范围。
实施例1:在超低(约20μl)量的母体血液中进行三体性检测。
三体性检测依赖于来源于染色体的遗传物质相对于来源于其他染色体的遗传物质的准确表现度。将该比率与整倍体群体中比率的分布进行比较。当((chr21/总chr)-中位数(chr21))/MAD(chr21)的比率在统计上与该分布实质不同时,判定为三体性。
虽然10%的胎儿部分是9周及以上孕龄的典型群体的中位数,但并非所有样品的胎儿部分水平都与10%一样高,有些甚至可能更高。胎儿部分的典型截断值为4%。考虑到典型群体中胎儿部分的分布并且要求特异性(99.9%)和灵敏度(99%)的更常见截断值的模型可以帮助说明该方法的输入要求。通过约500万个标志物计数(序列读取),可以实现这种灵敏度。然而,如果每个染色体分析一个标志物,则将需要30,000个细胞当量,这是不可行的。
本文公开的方法和系统基于以下事实:通过凋亡过程,每个基因组当量基本上被分成2000万个cfDNA片段(每个基因组30亿个碱基对除以cfDNA的150个碱基对的平均大小)。这意味着如果每一个cfDNA分子均可从血液转移到测序仪,则整倍体基因组的四分之一的当量就足以进行分析。
然而,实际上,过程中的每个步骤都会受到不同量的DNA丢失所困扰。因此,在文库产生和测序过程中,要取样并转移大得多的量。虽然DNA丢失发生在过程的每个步骤中,但最大的丢失通常出现在文库制备步骤中。传统方法显示出80%到90%的材料丢失。通常,这样的丢失可以通过后续的扩增步骤(通用PCR)进行补偿,以使DNA浓度达到下一代测序所需的必要水平。虽然扩增是增加可用于测序的总核酸材料的好方法,但在特定条件下,扩增不能补偿在先前步骤中发生的信息丢失。要了解信息的丢失,进行简单的思想实验可能是有帮助的。假设以1000个基因组当量开始,这代表20*109个cfDNA片段。如果假设存在巨大的丢失,并且只有两个片段可用于扩增。一个片段来自参考区域,一个片段来自靶区域。仅两个片段不足以加载测序设备,但是通过扩增(PCR),每个片段可容易地复制数十亿次。现在在扩增后,有足够的材料可用于开始测序过程,但样品中的信息已减少为保留在这两个拷贝中的信息。在这种情况下,信息不足以对整倍体样品和三体样品进行分类,因为两种样品类型将显示出无法区分的50%部分。
典型的下一代测序仪的规格要求在995μl NaOH中稀释5μl的4nM溶液以制成20pM的溶液,其中600μl装入测序仪。因此,总共需要1.2*1010个DNA片段来产生2000万个测序计数。如上所述,2000万个计数足以用于4个样品,因此每个样品必须贡献约3*109个DNA片段(因为每个基因组当量贡献2000万个DNA片段,所以在没有丢失和没有扩增的情况下总共需要150个基因组当量)。这在图18中概述。
典型NIPT方案以大量的cfDNA(6000个基因组当量)开始,这允许在文库制备过程中有大量丢失。然后将物质扩增并高度稀释至适合测序。典型NIPT方案的问题是随后被高度稀释的在文库制备过程中的大量丢失导致源自染色体的遗传物质的表现度不准确。
例如,典型的样品在ml血浆中含有1500个基因组当量的cfDNA。常规抽取的8至10ml血液产生约4ml血浆,产生6000个可用基因组当量的cfDNA。假设DNA提取效率(90%)和文库制备效率(10%)的典型数值,约540个基因组当量进入扩增(通常为8至10个循环,此处实例为1000倍扩增)。扩增后,共有540000个基因组当量或1.08*1013个DNA片段可用于测序。进行超过1000倍的稀释以将扩增的文库调节至所需的4nM(参见表1)。
表1.标准8-10ml抽血
Figure BDA0002806587060001151
Figure BDA0002806587060001161
这些数据可能会错误地暗示,由于在过程中产生了大量过量的DNA片段,可以简单地按比例缩小反应以适应小于100μl的血液量。然而,由于上述信息丢失,这是不可能的(参见表1)。在考虑到DNA提取(效率90%)和文库制备(效率10%)期间的丢失以及PCR扩增(约10个循环)的情况下,在胎儿部分的下限(4%)下进行的模拟显示,灵敏度在输入DNA材料低于25个拷贝(拐点为10)时是降低的。10个拷贝下的灵敏度降低到89%,并且5个拷贝下的灵敏度降低到81%,在对胎儿部分为4%的样品需要约95%的理论灵敏度的市场中,这两个值都不可接受(参见图19)。
实施例2-现有的未优化的文库制备和测序方案未能充分表示母体样品中的总DNA和胎儿无细胞DNA部分
如本文所述,比较了用于检测母体样品中无细胞DNA的标准方案(例如,未针对超低输入量优化的文库制备和离子半导体测序方法)和优化方案(例如,针对超低输入量进行了优化的文库制备和合成测序)。在三体性检测的背景下分析了来自两种方案的测序数据,以评估标准文库制备方案是否将提供与本公开内容的优化方案等效的准确性。
在这项研究中,分析了8个无细胞DNA(cfDNA)样品,包括从怀有整倍体胎儿的女性获得的4个样品和从怀有21三体胎儿的女性获得的4个样品。使用两组实验条件处理了这8个样品。在第一组中,以针对低输入量的cfDNA优化的体积和比率使用优化的文库制备试剂盒(NEB Next Ultra II文库试剂盒),以创建测序文库,并使用基于荧光的下一代测序仪进行测序。在第二组中,使用非优化的文库制备试剂盒(NEB Next DNA Library Prep Setfor Ion Torrent试剂盒)创建测序文库,并使用离子半导体测序仪进行测序。在这两种情况下,cfDNA的10个基因组当量(GE)用作文库制备过程的输入。
方法:使用顺磁珠从血浆中分离出循环的无细胞DNA以捕获cfDNA。简而言之,通过离心从全血中分离血浆,并在蛋白酶K、盐酸胍、珠子和糖原的溶液中使其裂解/结合至珠子。然后使用Triton X-100、盐酸胍和氯化钠分三步洗涤珠子。用含有叠氮化钠的水洗脱cfDNA。然后将所有样品定量以确定用于下游测试的cfDNA的产量。
在测序文库产生之前,将所有样品均标准化为10GE的cfDNA,以输入文库反应中。
方法1:标准方案
使用针对标准方案做出修改的NEB Next DNA Library Prep Set for IonTorrent来产生用于离子半导体测序仪的文库。文库的产生包括末端修复、Ion Torrent特异的衔接子连接、用Ampure XP珠子的反应净化、用Ion Torrent特异引物的文库扩增、用Ampure XP珠子对扩增文库的纯化以及扩增文库的最终洗脱。对于所有文库,将衔接子按1:10稀释,进行15个循环的扩增,并将所有文库在25ul分子级水中洗脱。文库产生后,使用Agilent Bioanalyzer 2100高灵敏度DNA芯片对所有样品进行大小分类并定量。然后使用ThermoFisher Qubit 3.0重复定量。进一步选择文库的大小,以消除测序过程中的二聚体产物。如上所述确定了大小选择的文库的纯度和浓度。
使用带有Ion 540试剂盒和Ion 540芯片的Ion Chef进行Ion torrent S5测序模板和芯片的产生。运行通常产生约1亿次读取,所产生的数据中每个样品的最小读取量为2000万次。
方法2:针对低输入量进行了优化
使用NEBNext Ultra II DNA文库制备试剂盒和用于Illumina的NEBNext多重化寡聚物(索引集引物1)(New England Biolabs)制备DNA文库。使用减少的体积产生文库以达成较低模板量的化学计量学。所使用的体积取决于模板的输入量。文库制备由以下步骤组成:
1.末端修复、5’磷酸化和A加尾,伴随在20℃下温育30分钟,然后在65℃下温育30分钟。
2.衔接子连接,伴随在20℃下温育15分钟,然后切割连接的衔接子环,伴随在37℃下温育15分钟。将衔接子以1:25的比例稀释至0.6μM的工作浓度。然后使用SPRISelect珠子对切割的、衔接子连接的文库进行基于珠子的纯化。衔接子连接后,将珠子的体积增加到116μl以进一步增强高度片段化的低浓度cfDNA的结合。
3.文库扩增/索引,首先在98℃变性1分钟,然后13个循环的98℃变性10秒和在65℃退火/延伸75秒,在65℃最终延伸5分钟。然后使用SPRISelect珠子(45ul)纯化扩增的文库。
所有文库均采用具有高灵敏度DNA芯片的Agilent Bioanalyzer 2100(AgilentTechnologies)进行大小分类和表征。在测序之前,使用Qubit v3.0(Life Technologies)确定文库稀释液的浓度。将每个文库标准化至浓度为2nM,并在测序前合并以进行变性和稀释。使用Illumina NextSeq 550以1.5pM的加载浓度进行合成测序。对每个索引/样品进行75个循环的配对末端测序(2x75)。通常,每个样品产生约400万个滤过者。
根据输入物质的数目(标准化为10个基因组当量的循环无细胞DNA),可用于分析的cfDNA片段的理论下限约为10M(或0.5GE)。要获得可用于测序的10M cfDNA片段,需要从血液中进行更多取样,因为样品制备过程中的大多数处理步骤都会伴随一些样品损失。通常认为,文库制备效率是影响最大/效率最低的处理步骤之一。重要的是控制多少cfDNA片段参与反应并最终被测序。简而言之,1GE代表约20M cfDNA片段(3B碱基对;150bp片段长度)。当从抽取血液到衔接子连接的效率仅为1%时,PCR之前的起始材料仅为200,000个cfDNA片段。在PCR步骤中,可以将这200,000个片段扩增到足以进行下一代测序的程度。当对这200,000个cfDNA片段进行2M次测序时,大多数cfDNA片段会被多次测序。相反,以100%的效率处理的同一样品提供了20M潜在的cfDNA片段用于测序,而在相同的2M序列读取中,只有一小部分子集已被测序多次。
在三体性检测的背景下分析了测序数据,以评估先前在离子半导体测序仪上使用的标准文库制备方案是否能够提供与针对超低输入量优化的方法相当的准确性。
中位数和中位数方差:探索了两个数据集的中位数箱计数与每个箱的中位数绝对偏差(MAD)之间的关系。中位数计数与MAD呈正相关。此外,还存在具有较高MAD的箱子集。原始数据和GC校正数据中均存在这种效应,表明较高的MAD并非由加工过程中引入的GC偏差引起,而是代表真实的生物学差异。图20-22示出了当测试10个基因组当量时,与低输入优化方案相比,标准文库制备和测序方法导致胎儿无细胞DNA的表现度较低。比较这两种文库制备/测序方法证实了先前的观察结果(图20,图21)。在两个不同的数据集之间,中位数标准化GC校正的箱计数相似(p值=0.31,t检验)。箱特定的MAD在标准方案数据集中较低(p值<2.2e-16,t检验),可能表明标准方案数据在CNV分类中的性能更好。较低的箱特定中位数可能是标准方案数据集中可用的序列计数明显更高的结果。
图20和图21示出了标准方案数据集和优化方案数据集的中位数箱计数和每个箱的中位数绝对偏差(MAD)之间的关系。在两个不同的数据集之间,中位数标准化GC校正的箱计数相似(p值=0.31,t检验)。箱特定的MAD在标准方案数据集中较低(p值<2.2e-16,t检验),可能表明标准方案数据在CNV分类中的性能更好。较低的箱特定中位数可能是标准方案数据集中可用的序列计数明显更高的结果。
重复:使用重复序列读取的分析来估计文库制备后可用于测序的基因组当量的数目(因此可估计cfDNA片段)。计算较复杂,将在下面概述。从理论上讲,重复读取的量取决于:a)多少cfDNA片段参与了反应,以及b)产生了多少序列读取。
为了计算期望值,确定了泊松分布的期望λ值,其是序列读取/cfDNA片段。预期的重复率不仅仅是观察到两个或更多的概率。因为我们没有0计数的量度,所以我们需要排除这些计数。因此,我们预期的重复率是观察2个或更多计数的概率相对于观察1个或更多计数的概率[(1-P(0)-P(1))/(1-P(0))]。我们可以将该期望值矩阵作为查找表,以通过将序列读取数与重复率进行匹配来识别输入的基因组当量。
poom<-1-dpois(0,seq.count.vec/cpy.tmp)#P(>=1)一个或多个的概率
peo<-dpois(1,seq.count.vec/cpy.tmp)#P(1)正好为1的概率ptom<-poom-peo#P(>=2)两个或更多的概率
mat.dup.rate[i,]<-ptom/poom#/#(peo+ptom)#bit unclean也可能是ptom/poom
图22示出了与本公开内容的优化方案相比,标准方案的文库制备和测序产生了较少的基因组当量(标准中位数为1.355,优化中位数为6.065)用于测序。
起始量10GE用于每个样品的文库制备。图22示出了与本公开内容的优化方案相比,标准方案的文库制备和测序产生了较少的基因组当量(标准中位数为1.355,优化中位数为6.065)用于测序。
可用cfDNA片段的数目是分类准确性的决定性因素,并且该数据显示使用标准方案进行标准处理会导致可用cfDNA片段的显著减少。
图23以黄色示出了优化的方案数据点,以蓝色示出了标准方案点。
染色体表现度百分比和Z评分:对于两种方案,计算了来自21号染色体的片段的表现度相对于所有合格常染色体(不包括21号和19号染色体)的表现度的百分比。还计算了chrY和chrX的百分比。性染色体的表现度百分比可用于确定胎儿的性别。对于男性样品,也可以使用性染色体表现度百分比来估计源自胎儿的cfDNA部分(胎儿部分)。对于21号染色体,我们根据确立的方法计算了Z评分。计算了一组整倍体参考样品的中位数和MAD。接下来,计算每个样品中位数与该参考中位数的差值。最后,用差值除以参考MAD得出Z评分。评分大于3表示存在21三体。
图24示出了从标准方案文库制备和测序中得到的数据是有噪声的,并且不能容易地描绘出怀有男性与女性胎儿的样品。
然而,来自本公开内容的优化且更有效的文库制备和测序方案的chrY表现度数据是清楚的,并且表明该组包含三(3)个男性样品和五(5)个女性样品。此外,在chrY测量的两个数据集之间没有很好的共性。因此,将chrX表现度用于估计剩余样品分析中男性样品中的胎儿部分。
标准文库制备和测序方案与优化文库制备和测序方案数据之间的性能比较:在校正异常箱后,Z评分分析显示优化的文库制备和优化的测序数据按预期执行。图25示出了标准方案数据示出了良好的特异性(0个假阳性,100%特异性),但灵敏度较差(2个假阴性,50%灵敏度)。两个数据集都包含完全相同的样品,并被提供了完全相同数目的输入材料。每个样品中,标准方案数据的序列读取量明显更多。但是,如上所述,序列读取的数目不一定与原始样品中无细胞DNA的准确表现度相关。接下来,检查了可用的cfDNA片段、胎儿部分和Z评分之间的关系。
为了探索胎儿部分、拷贝数和Z评分之间的关系,计算了chr21和chrY的百分比表现度。这些百分比用于估计样品中胎儿遗传物质的分数(在本文中称为胎儿部分)。女性样品的ChrY表现度不会升高。对于那些显示chr21高表现度的女性样品,从chr21高表现度计算出胎儿部分。如果样品在优化方案数据集中的chrY表现度小于8.2*10-4,则将其识别为女性。
图26示出了表明具有胎儿三体性(红色)和整倍体胎儿(黑色)的样品的图。
在将染色体表现度百分比测量值转换为胎儿部分估计值后,chrY、chrX和chr 21的值处于相同尺度下。所有男性样品都有可用的胎儿部分估计值。同样,所有21三体都有可用的估计值。如前所述,优化的方案数据清楚地描述了男性/女性样品和整倍体/三体样品之间的差异。标准方案数据有噪声,无法进行清晰分离。然后,我们构建了胎儿分数测量:对所有男性样品使用chrX量度,对所有21三体女性样品使用chr21量度。没有女性整倍体样品的胎儿部分可用。
图26示出了使用标准方案(左)与优化方案(右)相比,所有样品的组合胎儿部分测量与由chr21引入的观察到的效果良好相关。
Z评分、拷贝数和胎儿部分:绘制了拷贝数、胎儿部分和Z评分之间的关系。整倍体样品分布在拷贝数/胎儿部分平面上,但它们的Z评分与这些参数无关。此行为是预期的,但使可视化变得复杂。关于拷贝数,方案数据与标准方案数据不同。
图27示出了对于两种方案,正确分类的样品(真阳性,TP)与错误分类的样品(假阴性,FN)分开。还示出了与标准方案相比,优化方案产生的更多拷贝数。
使用考虑了文库制备过程各个阶段的采样误差的计算机模拟,我们可以建立一个模型来预测可用cfDNA片段和胎儿部分的每种组合的性能。在估计的PCR效率为90%、文库效率为5%和36M序列读取的情况下,显示灵敏度为50%的所得线将“真阳性”样品与“假阴性”样品完全分离(图28)。
结论:本研究的结果表明,在使用相同低输入量时,与使用优化方案获得的结果相比,未针对低输入量核酸进行优化的标准文库制备和测序方法导致无细胞DNA的拷贝数减少。所产生的减少的拷贝数表现度是染色体表现度中较高的噪声的结果,因此导致异常检测的性能较低。在一些情况下,本文公开的基于机器学习的方法对核酸序列数据处理的使用可以克服分析少量核酸时固有的噪声限制,并能够更准确地检测基因组异常。
实施例3-减少污染的示例性方法
为了研究不同收集方法对非凋亡基因组DNA的贡献的影响,我们将标准的手指针刺采血方案与我们优化过的一种方案进行了比较。标准方案包括用乙醇彻底清洁指尖,用一次性刺血针刺穿皮肤并将血液收集到EDTA容器中(以下称为“未擦除”条件)。在优化方案中,在采集血液之前执行附加步骤。用一次性刺血针刺穿皮肤后,用纱布擦去第一滴血(以下称为“擦除”条件)。仅在第一滴之后的血液被收集在EDTA容器中。
方法:将收集的血液处理成血浆,并在收集的2小时内提取DNA。使用实时PCR评估DNA量。通过在ILMN Next-Seq上进行配对末端测序来建立片段长度分布。使用标准方法收集静脉血作为参考。
DNA量:与擦除收集方案相比,在未擦除条件下收集的样品的DNA量高约50%。通常认为较高的DNA产量有利于NIPT分析。然而,对片段长度分布的分析揭示了在未擦除条件下,指示细胞损伤的片段长度具有更强的高表现度(图29)。
不受任何特定理论的束缚,擦去第一滴血液会减少源自细胞损伤的DNA的贡献。作为替代或补充,对于源自破坏和污染的DNA问题的解决方案可能包括:(1)针对更长的DNA片段进行选择的捕获方法,(2)电泳方法,(3)按大小选择文库产品,以及(4)生物信息学和/或基于机器学习的方法,以基于片段大小信息来解释、去除或差异地分析DNA样品或从其衍生的数据(例如,DNA序列数据)。
实施例4-深度测序的深度神经推理
总结:我们描述了一组利用深度神经网络进行基因组诊断的新颖计算方法。我们的第一种方法是使用深度神经网络(DNN)将核酸序列分配给一组类别(例如,基因组区域),以产生分对数或概率。我们的第二种方法是利用DNN从源自基因组序列比对的GC标准化序列计数数据中推断基因组状态。我们的第三种方法是使DNN适应于从非GC标准化的计数数据或从我们的第一种方法获得的分对数/概率中推断基因组状态。我们在此描述的方法可用于稳健的基因组诊断应用,包括推断疾病状态的概率。
背景:近年来,DNA测序技术的进步推动了多种诊断应用程序的开发。尤其是高通量DNA测序,能够精确、灵敏地诊断涉及拷贝数变异(CNV)的基因组疾病。有了足够大的样品,甚至可以从在血液中循环的无细胞DNA(cfDNA)中检测出基因组状况,从而实现对诸如唐氏综合征的疾病的非侵入性产前检测(NIPT)和癌症的早期检测(Canick等人(2012),“DNA Sequencing of Maternal Plasma to Identify Down Syndrome and OtherTrisomies in Multiple Gestations”,Prenat.Diagn.32,730–734;Ellison等人(2016),“Using Targeted Sequencing of Paralogous Sequences for Noninvasive Detectionof Selected Fetal Aneuploidies”,Clin.Chem.62,1621–1629;Porreco等人(2014),“Noninvasive Prenatal Screening for Fetal Trisomies 21,18,13and the CommonSex Chromosome Aneuploidies from Maternal Blood Using Massively ParallelGenomic Sequencing of DNA”,Am.J.Obstet.Gynecol.211,365.e1-12;Lefkowitz等人(2016),“Clinical Validation of a Noninvasive Prenatal Test for Genome-WideDetection of Fetal Copy Number Variants”,Am.J.Obstet.Gynecol.215,227.e1-227.e16)。
通常,研究人员或技术人员将从要查询的样品中提取核苷酸样品,使用聚合酶链反应(PCR)类的技术扩增这些核苷酸,然后对扩增的核苷酸样品进行测序以获得核苷酸序列的数字表现度。这些序列样品通常是起源样品的一个或多个基因组的短片段,将其随后与参考基因组进行计算比对,以确定所讨论序列的顺序和计数。传统的短读取的全基因组序列比对技术通常会使用hash表和/或Burrows-Wheeler变换,将给定的读取与参考基因组中最接近的匹配序列精确比对(Li等人(2008),“Mapping Short DNA Sequencing Readsand Calling Variants Using Mapping Quality Scores”,Genome Res.18,1851–1858;Li等人(2009),“Fast and Accurate Short Read Alignment with Burrows-WheelerTransform”,Bioinformatics 25,1754–1760;Langmead等人(2009),“Ultrafast andMemory-Efficient Alignment of Short DNA Sequences to the Human Genome”,GenomeBiology 10,R25)。
比对的序列数据通常需要进行额外的处理,才能用于有效推断基因组状态。对不平衡的大规模插入、缺失、置换或非整倍性进行基因组诊断的一种常用技术是使用深度测序来计算落入每个基因组区域箱中的读取的数目。研究人员可以通过比较来自实验样品的分箱计数数据向量与基线样品中存在的变化来推断基因组异常的存在。
例如,一种常见的技术是计算Z评分,其衡量观察到的序列计数与非整倍体样品中的序列计数分布的偏差。例如,给定一个表示未受影响样品的三体箱间隔内的平均计数的xi值向量(xneg),我们可以简单地计算Z评分,其表示样品xeval与xneg的偏离程度:
Figure BDA0002806587060001251
其中σ(xneg)是平均值的标准偏差。
如果希望对未受影响的样品分布中的异常值具有更高的稳健性,则也可以使用中位数绝对偏差来计算Z评分:
MAD=中位数(|xneg-中位数(xneg)|) (2)
Figure BDA0002806587060001252
在实践中,对箱计数数据进行标准化对于从全基因组高通量测序数据中得出可靠的推论是必要的。例如,PCR扩增中固有的偏差可能有利于扩增富含GC核苷酸序列的基因组区域(Benjamini等人(2012),“Summarizing and Correcting the GC Content Bias inHigh-Throughput Sequencing”,Nucleic Acids Res 40,e72-e72)。GC频率低或极高的基因组区域倾向于以较低的频率被扩增,其方式在不同的扩增和测序过程之间是高度可变的(图30A)。为了避免这种偏差,大多数生物信息学家将映射的序列计数数据相对于给定生物体的参考基因组的潜在GC频率进行标准化,以便在从分箱的序列计数数据进行任何推断之前校正GC偏差(图30B)。
执行GC标准化程序的方式有多种,但是最常用的程序之一是通过相对于测序计数轴在GC点上拟合LOESS回归(Cleveland等人(1981),“LOWESS:A Program for SmoothingScatterplots by Robust Locally Weighted Regression”,The American Statistician35,54-54)或多项式拟合线,然后根据每个箱中的拟合值来校正所得拟合的中位数之间的差异:
y计数=(x1,x2,x3,...,xn)
Figure BDA0002806587060001253
y标准=y计数+(中位数(y拟合)-y拟合) (4)
我们已经开发出一组方法,可以使用深层神经网络从基因组测序数据进行推断,而无需执行常规的序列比对或执行常规的GC标准化步骤。我们的方法包含三个阶段,它们可以一起使用,也可以使用以更常规方式处理的数据来独立使用。第一阶段用深度神经网络代替了常规的序列比对,该神经网络通过将每个预定义的基因组区域视为一组类别来输出分对数或概率。第二阶段包括深层神经网络,其可以使用分箱的基因组计数数据或我们第一种方法的输出来执行基因组状态的推断。第三阶段描述了我们如何使我们的第二阶段适应于处理非GC标准化数据以及源自第一阶段的分对数/概率数据。
方法1:使用深度神经网络用概率箱分配代替比对
对于我们的第一种方法,我们使用深度神经网络代替常规的序列比对。我们没有将给定序列与参考基因组中的最佳匹配序列进行比对,而是使用神经网络将每个序列读取凭概率分类为属于特定的基因组区域或序列集。
当将我们的类别定义为基因组间隔时,我们的神经网络的输出向量表示属于每个预定义基因组区域的给定序列的分对数或概率。通过对从测序运行中为所有核苷酸序列产生的分对数/概率向量的每个基因组类执行逐个元素求和,并对来自该运行中的序列计数数目进行标准化,我们可以使用“概率箱分配”技术来构建可用于推断基因组拷贝数变异(CNV)的特征向量。分对数(域[-无穷,+无穷])可以通过softmax函数转换为概率(域[0.0,1.0])。两者均可以用作以下所述的方法2和方法3的输入。
对于我们的网络,我们首先将核苷酸序列转换为n x 4的“独热”样式矩阵编码,其中每一列代表4个规范核苷酸之一(C、A、T(或在RNA序列分类的情况下为U)以及G),每一行代表一个核苷酸位置(图31)。对于不明确的核苷酸位置(通常表示为N),我们在列中的每个项中填入值.25,该值表示属于四个核苷酸类别中的任何一个的相等概率权重。这个输入矩阵然后可以被传递到一个卷积或完全连接的深度神经网络,并可以从非离散数据格式构建。
我们注意到,我们的输入特征编码并不是严格意义上的“独热”编码,因为每个位置不是严格二进制的,而是可以表示浮点概率值。这将我们的技术开放到可能产生噪声的输入源。例如,我们可以通过将概率分配给每一列而使得每一行累加起来为1.0,将来自基于荧光成像的核苷酸测序仪的原始光学数据转换成我们的输入矩阵格式,而不是从离散的核苷酸序列构造我们的独热式输入特征。这种方法可以解决碱基判定过程中的任何歧义,也可以适用于非光学测序技术,诸如离子半导体测序(Rothberg等人(2011),“AnIntegrated Semiconductor Device Enabling Non-Optical Genome Sequencing”,Nature 475,348)。
对于卷积神经网络(CNN)架构,训练过程类似于通常用于在二维RGB图像上训练的方法。我们的输入矩阵的核苷酸维度与高度×宽度×rgb_通道2D图像张量的rgb_通道维度的处理方式相同。以相同的方式,以与用于2D图像卷积的高度×宽度×rgb_通道×输出_通道相同的方式定义过滤器张量。对于核苷酸,我们将高度维度更改为1,将宽度更改为核苷酸序列的长度,将rgb_通道更改为4,并将输出_通道更改为我们希望从每个过滤器张量输出的数目(输出_通道实际上是应用于当前卷积层中每个序列的过滤器数目)。卷积特别适合于核苷酸数据,因为所使用的每个卷积过滤器都有效地编码了重复序列基序。对于完全连接的神经网络或与完全连接的层接合的卷积网络,我们将输入矩阵(或卷积的输入数据)压平或分解为一维向量。
使用上述输入格式,然后我们使用参考基因组中的每个可能位置来训练大型神经网络。例如,如果我们的输入由25bp长序列组成,那么我们将在每个训练代(epoch)从参考基因组中对每个可能的25bp读取进行采样。每个样品将由序列读取及其相应的类别标签组成。例如,对于将50,000bp的基因组划分为10,000bp箱,每个箱可以代表五个类别中的一种,并且在参考基因组中从位置0到10,000的每次读取都将被标记为0类。已知或模拟的单核苷酸多态性(SNP)或常见的插入缺失(indel)也可以随机插入此训练集中,以使我们的分类器对常见的群体变异具有稳健性。
所讨论的神经网络可以采用多种形式,但必须具有一个最终层,该层输出分对数的向量分对数,其中向量中的每个值对应于一个标记的类别。可以使用softmax函数或其他映射函数(例如,通过将每个分对数除以分对数向量之和)将这些分对数映射到域0.0到1.0,并解释为输入序列读取属于每个类别的概率。
对于我们的成本函数J(W),我们使用了交叉熵(对数损失):
Figure BDA0002806587060001281
我们还使用softmax函数产生多类别的分类概率(这里j是类别指数,K是类别数目,z是给定指数的分对数值):
Figure BDA0002806587060001282
由于过度拟合特定基因组的网络可以有效地将序列读取分配给任意定义的箱,因此这种神经箱分配程序不一定需要每个基因组箱/区域包含相似的信息。我们的实验表明,包含与查询基因组成比例的合理大量权重的任何神经网络,即使过度拟合也可以有效地嵌入查询基因组的表现度。
实施例4(a)-序列读取分类与基因组箱的卷积网络
我们的通用方法可以使用许多不同的网络架构来实现。在这里,我们详细介绍了卷积神经网络(CNN)和我们开发的训练参数,用以将原始序列读取的数据分类到参考噬菌体PhiX174基因组(登录号NC_001422.1;Sanger等人(1978),“The Nucleotide Sequenceof Bacteriophage
Figure BDA0002806587060001284
”,Journal of Molecular Biology 125,225–246)。表2总结了用于推理的CNN架构。
表2.PhiX174箱分配网络(fw=过滤器宽度;nf=过滤器数目)
Figure BDA0002806587060001283
Figure BDA0002806587060001291
我们使用TensorflowTM API实现了上述模型。我们将PhiX174基因组分为11个箱(前10个箱的宽度为500bp,最后一个箱的宽度为386bp)。然后,我们将每个箱定义为一个类别(我们还实现了一个选项,为表示完全随机序列的每个训练集包含一个额外的类别,以包含无法分配的序列。在描述的实施例中未启用此选项)。为了构建我们的训练数据集,我们为程序编写了一个输入采样模块,该模块将从PhiX174参考基因组中随机抽取“独热”编码的核苷酸表现度,并根据每个序列的最左侧碱基的箱位置标记这些序列(我们包括了采样序列的随机突变和靶向突变的代码,以提高任何经训练的模型对核苷酸序列多态性的稳健性,但本实施例未启用此功能)。
对于我们的实施例模型,我们使用的最小批(mini-batch)大小为3000,初始学习率为0.04和用于梯度下降的ADAM优化器(β1=0.9,β2=0.999,ε=0.1)(Kingma等人(2014),“Adam:A Method for Stochastic Optimization”,arXiv:1412.6980[cs])。我们验证了对来自SRR2057028(登录号:PRJNA285951)的780万Illumina测序读取的训练,实现了98.0%的平均(跨所有类别)比对准确度和0.981的平均F1评分。
尽管我们可以通过离散地选择针对给定读取概率最大的箱类别,使用我们的网络为每个序列读取选择最可能的箱位置,但是我们可以通过简单地将整个输出概率向量用于下游分析来利用神经网络的优势。为了为给定的基因组测序运行构建单个概率向量,我们使在应用或未应用过滤标准的情况下用网络来计算运行中获得的每个序列的概率向量。然后,我们对所有概率向量或每个输入序列进行逐个元素的求和,然后通过测序运行中的读取数目对该求和向量进行标准化。这种所得的“组合概率向量”格式具有优于常规格式的优点,因为在我们的输出格式中反映了有关不明确序列读取的更多粒度(图32A-C)。例如,我们希望映射到基因组中多个位置的读取将为不同的类别箱产生相似的权重概率值。另外,也可以使用常规用于序列计数向量的相同技术对概率值进行GC标准化(参见上文)。
方法2:从标准化序列计数数据推断
对于第二种方法,我们利用深度神经网络分类经处理的测序数据,其形式是GC标准化的分箱计数向量或从方法1产生的类似GC标准化的“组合概率向量”。
为了对给定的基因组状态进行分类,我们首先将基线状态和异常状态定义为类别。例如,如果我们有兴趣在两个独立的染色体上检测一对人类非整倍性,我们将定义三个类别-基线、非整倍性1和非整倍性2。我们的训练数据集将包含来自每个类别实例的深度测序运行的分箱计数数据。训练数据集中的每个样品都是计数向量,该向量是由全基因组测序运行产生的,并带有其类别的标签。
由于普遍缺乏公共可用数据集-尤其是某些罕见疾病的数据集-我们开发了一种模拟器,用于产生非整倍性和大规模插入/缺失的GC标准化训练样品。我们的模拟器使用给定测序运行的预期计数值(λ),然后通过从泊松分布中提取具有指定λ值(由序列值的总数确定)来模拟每个基线基因组箱(负二项分布(其中r=期望值,并且p=0.5)也获得了相似的结果;r在大多数情况下可与λ互换)。我们通过播种具有不同λ值(λ非整倍体)的非整倍体箱来模拟非整倍体,该λ值考虑了三体或单体性的预期计数值的变化。我们可以通过简单的重新缩放将模拟器的输出转换为方法1中描述的“组合概率总和”向量格式。
我们的模拟器还可以考虑胎儿DNA或其他无细胞DNA来源中的非整倍性,以进行NIPT测试或其他类型的疾病诊断。通过绘制β分布来模拟胎儿部分(图33),并通过将无细胞核苷酸分数(f无细胞)乘以每个非整倍体染色体的预期计数(λ)和方向(单倍体为-1,三体性为+1)来计算λ非整倍体(图34):
Figure BDA0002806587060001311
实施例4(b)-从GC标准化序列计数数据推断21三体的完全连接网络
在这里,我们描述了用于对GC标准化序列计数数据进行推断的神经网络。使用上述具有泊松分布的技术,我们模拟了100,000个基线(不是非整倍体)实例和100,000个21三体实例。我们随机选择了20,000个阳性和20,000个阴性实例来评估我们的模型。
对于我们的21三体模型实例,我们使用了简单的两层神经网络,其中有一个消减层(dropout layer)用于正则化(表3)。对于我们的网络输入,我们包括一个选项,可以不仅包括序列计数向量数据作为特征输入,还包括其他特征。在此实施例中,我们使用胎儿部分作为附加输入。为了加快训练速度,使用组合的训练和测试数据集的最小值和最大值对所有输入进行最小-最大标准化。
表3.CNN架构用于测序计数和胎儿部分数据
Figure BDA0002806587060001312
我们使用最小批大小为100,学习率为.00001、200代、消减保留率为50%以及梯度下降的ADAM优化器(β1=0.9,β2=0.999,ε=0.1)训练了实例(Kingma等人(2014),“Adam:AMethod for Stochastic Optimization”,arXiv:1412.6980[cs])。我们实现了95.6%的准确度、0.96的F1评分、0.990的auROC、0.992的auPRC、0.952的精确度以及0.959的召回率/灵敏度。
作为一个预言性的实例,我们进一步在100个人类样品(50个基线和50个21三体样品)上验证了我们的技术。我们获得了一个假阳性和三个假阴性,从而达到0.96的准确性、F1评分0.96、0.980的准确性和0.941的召回率。
方法3:从非GC标准化数据推断
为了直接对非GC标准化的数据进行推断,我们修改了技术,以考虑到GC偏差可以转换输入数据的多种方式。我们将方法2中的模拟器调整为产生基线和带有人工GC偏差的异常测序计数向量的样品。
我们的模拟器通过针对每个基因组箱/类别相对于箱计数轴在GC与生成多项式曲线,从而可靠地产生基线和异常计数向量的人工非GC标准化样品。给定每个箱的GC含量,所得曲线代表每个箱的计数的期望值(图35A-C)。
我们限制了多项式曲线生成器,以便在基线(非CNV)样品中,我们选择会产生一条曲线的系数,该曲线加起来等于指定总计数数目。对于二阶多项式,我们构造了曲线,使得:
x∈gc_箱
Figure BDA0002806587060001321
其中n=num_箱。
分解系数,我们得到:
Figure BDA0002806587060001322
因为xi 2和xi上的加和项是常数,所以我们可以将其视为线性方程式。为了选择我们的多项式的c系数,我们只需要随机选择两个系数值,然后求解上面的方程即可获得第三个系数的值。
例如,我们可以随机选择c1和c3值:
Figure BDA0002806587060001323
Figure BDA0002806587060001324
k3=n
tc=k1c1+k2c2+k3c3 (10)
然后求解上述等式,以获得满足指定总计数数目(tc)的c2。对于此实施例,我们使用了随机的二阶多项式,但是相同的基本想法可以用于更高阶的多项式。
为了模拟拷贝数变异,我们随后升高或减少所生成的多项式的任何部分以表示基因组物质的升高(例如,重复)或降低(例如,缺失)。对于非整倍体样品,我们使用方法2中所述的相同校正因子λ非整倍体。为了模拟在实际数据中观察到的变异性,我们然后在多项式曲线上每个点处从泊松分布或负二项式分布中采样,使用在产生的曲线上每个点处的期望值来选择上述分布的参数(参见方法2)。
实施例4(c)-从非GC标准化序列计数数据推断21三体(唐氏综合征)的完全连接的神经网络
我们通过构建用于从无细胞DNA中检测21三体非整倍性的模型来测试我们的方法。对于我们的21三体性检测案例,我们模拟了250,000个三体阳性和250,000个三体阴性训练样品,并设置了模拟参数,以产生总计数平均值为300万、总计数标准偏差为100万的随机计数多项式。除了在小得多的实际基因组数据集上验证我们的模型(参阅下文)之外,我们还留出了20%的这些模拟样品用于模型测试。
由于我们方法的灵活性,我们还能够将胎儿部分作为可选特征纳入模拟器和分类网络。胎儿部分是母亲血流中循环的胎儿DNA的百分比。检测胎儿部分DNA的异常对于针对非整倍性(诸如唐氏综合征)的现代NIPT至关重要。低胎儿部分可以极大地提高NIPT的信噪比,但是从母体抽取血液的胎儿部分的统计特性是众所周知的。我们通过从反映从临床采样观察到的变异性的β分布(β_a=4,β_b=30)中选择胎儿部分值来并入了胎儿部分噪声的变异性。
对于我们的神经网络模型,我们使用学习率为0.00001、100代以及梯度下降的ADAM优化器(β1=0.9,β2=0.999,ε=0.1)(Kingma等人(2014),“Adam:A Method forStochastic Optimization”,arXiv:1412.6980[cs])。我们还使用组合的训练和测试数据集的最小值和最大值对所有输入(训练和实验样品)进行最小-最大标准化。对于正则化,我们使用保留概率为50%的消减。
在由100,000个样品组成的非GC-标准化模拟测试集中,我们获得的准确度为0.941、F1评分为0.940、auROC为0.986、auPRC为0.988、假阳性率(FPR)为0.047、精确度为0.952以及召回率为0.929(图36A-B)。与在同一数据集上使用中位数绝对偏差Z评分方法(准确性:63.3%,F1评分0.432)相比,该结果是有利的。当允许丢弃中间softmax值的测试集样品时,我们还能够进一步改善模型的指标。例如,消除达到0.1至0.9softmax概率值之间的测试集样品(代表测试数据的25.4%)可以将准确性和F1评分分别提高到大于99.1%和大于.991。
实施例5-用于检测拷贝数变异的深度学习分类
概述:非侵入性产前检测方法包括从妊娠女性收集血液,从血液中分离血浆,从血浆中提取无细胞DNA(cfDNA),从提取的cfDNA产生测序文库,对文库进行测序,将序列读取与人类参考基因组进行比对,计算与预定序列区域(在一些方法中,这些预先定义的区域包括完整的染色体,在一些方法中,这些区域是50,000bp的连续段,称为箱)对齐的序列读取的数目,计算源自21号染色体的读取的百分比,将该百分比与参考进行比较,并基于针对百分比表现度先前确定的截断值(或从百分比得出的标准化值)对样品进行分类。这些计数方法依赖于在比对期间确定序列读取的基因组来源。一旦确定了序列读取的起源,就将其添加到包括其起源的预定区域的计数中。确定样品是否包含21号染色体高表现度的常见方法是计算Z评分。将位于21号染色体上的所有箱的计数相加,然后除以参考区域(通常是1至18、20和22号染色体)中箱的所有计数的总和。计算一组已知整倍体样品的该百分比,并记录该组的中位数和中位数绝对偏差(MAD)。为了计算Z评分,将中位数从该百分比减去,并将结果除以MAD。确定了一个截断值(通常在3到4之间),并且Z评分高于该截断值的样品被分类为表达21号染色体的遗传物质的高表现度,即21三体。此过程的数据分析部分可以由以下步骤进行总结:
1)序列读取与人类参考基因组比对
2)对每个预先指定区域(箱、染色体等)中的序列读取计数
3)通过Z评分分类
在这组实例中,我们示出了可以用新颖的方法替换这些部分中的每一个,最终导致消除了对序列读取比对和比对计数的需要的工作流程。这些步骤在图37中示出。
第一部分:对来自超低血浆输入的非侵入性产前测序结果进行分类的新方法:一组8个样品用于从最小血体积量评估无创产前检查。该组包含4个来自怀有整倍体胎儿的妊娠女性的样品和4个来自怀有21三体胎儿的女性的样品。对于这8个样品,从10ul血浆中进行无细胞DNA(cfDNA)提取。根据标准方案将DNA加工成测序文库。使用用于Illumina测序的
Figure BDA0002806587060001351
UltraTM II DNA文库制备试剂盒处理10ul的一组8个等分试样,以制备文库,并在Illumina NextSeq仪器上进行测序(以下称为Illumina数据集)。使用用于IonTorrentTM测序的
Figure BDA0002806587060001352
快速DNA文库制备试剂盒处理10ul的另一组8个等分试样,以制备文库,并在Life Technologies Ion GeneStudio S5测序仪上进行测序(以下称为LifeTech数据集)。
平均而言,Illumina数据集产生11M序列读取,而Life Tech数据集产生36M序列读取。众所周知,NIPT性能(通过敏感性和特异性来衡量)通常随着可用序列读取的数目的增加而增加。因此,可以预期,Life Tech数据集的性能应与Illumina数据集相当或更好。在这些数据集中,未确认此假设。将三体性检测的标准方法用于鉴定来自怀有21三体胎儿的女性的样品。简而言之,为一组样品计算了chr21表现度的百分比(p21)。然后,在一组已知的整倍体样品中计算出chr21百分比的中位数(med21),以及chr21百分比的中位数绝对偏差(mad21)。最后,通过计算与中位数的差值并将该差值除以中位数绝对偏差来计算Z评分(Z评分=(p21-med21)/mad21)。Z评分大于3表示样品中具有源自21号染色体的遗传物质的高表现度,这与21三体性一致。
Illumina数据集中的所有样品均正确分类为整倍体或三体。在Life Tech数据集中,所有整倍体样品都被识别为整倍体样品,但只有三体性样品中的两个被正确分类为三体性。其余两个样品被错误地分类为整倍体(假阴性)。错误分类的原因已在其他地方详细描述(美国临时专利申请号62/824,757)。简而言之,由于低效文库制备方法使用的输入拷贝数少,不足以提供必要的随机采样来通过Z评分方法进行分类。在这项研究中,我们训练了一个神经网络,以基于标准化序列箱计数的输入向量来执行分类。我们示出了神经网络可以准确地对Life Tech数据集进行分类。先前的研究表明,来自超低输入量的NIPT具有不可预料的负面影响,导致三体性分类的性能下降,这是本领域技术人员未曾预见到的。在这项研究中,我们示出了通过使用一种不依赖于随机性假设的新颖分类方法,可以将这些负面影响降到最低,并可以恢复分类性能。
计数向量产生:测序后,使用Bowtie比对器来比对产生的fastq文件。每个序列读取都在基因组中分配了一个位置,该位置由来源染色体和bp位置标注(与人类参考基因组最匹配)。我们将人类参考基因组分为50,000bp的连续部分,称为“箱”。然后,我们为每个箱确定bam文件中有多少个序列读取具有位于该箱中的起始位置。这提供了序列读取计数的载体(总共64,455个箱)。预期在整倍体样品中,大多数箱具有相似数目的序列计数,表明基因组物质的相同表现度。虽然这种期望通常是正确的,但也有例外。例外可以基于生物学。例如,预期位于性染色体上的箱会根据测试样品的性别来表现。在另一个实施例中,可以通过母本拷贝数变异来引入变异。通常,可以训练网络以识别这些例外,并报告或忽略那些区域。表现度不等同的其他原因可能包括技术原因,例如GC偏差,其中箱计数显示与箱中平均GC含量相关。为了进行三体性检测,大多数方法使用一种或多种标准化和过滤技术来确保在整倍体样品中的表现度尽可能接近均匀分布。在这项研究中,我们执行了基于LOESS算法的GC校正,相对于所有箱的中位数的标准化,排除高变异箱(>90%百分位数)。所得数据是长度为56332的箱计数向量(55401个来自1至18、20和22号染色体的箱;931个来自21号染色体的箱)。对于每个箱,我们计算整倍体样品集上的平均值和标准偏差。
模拟样品集:接下来,我们建立了模拟计数向量集,它们代表模拟样品集(n=100,000)。基于先前记录的平均值和标准偏差,模拟每个箱中的值。将模拟样品集分成两半,其中一半模拟整倍体样品。另一半代表来自怀有21三体胎儿的女性的样品。为了准确地表示来自21三体妊娠的箱计数向量,需要提高源自21号染色体的箱的箱计数。提高取决于样品中胎儿DNA的比例。我们通过从已知能够很好地代表大型患者群体中的胎儿部分的分布(即,β分布:ffvec=β.rvs(3.7,30,大小=<样品总数>)中进行采样,将胎儿部分值分配给每个箱计数向量。对于代表三体胎儿妊娠的样品集,根据其分配的胎儿部分值,将附加的计数添加到源自21号染色体的箱中。我们还纳入了表示评估胎儿部分时的“测量噪声”的噪声因子——ff meas,其中“误差”=abs(np.random.normal(ffvec,0.01,<样品总数>)),这导致受影响样品的chr21箱的修正值:amod=1+(<ff meas,“误差”>*0.5)。此外,对提高量设置0.04的最小边界。
网络训练:将完整的模拟样品集随机化,并分配给训练样品集(n=90,000)和测试样品集(n=10,000)。我们使用一组源自21号染色体的箱(n=830),在分配的三体状态上进行了神经网络训练。网络包含三个完全连接的隐藏层(节点数:256、64、16)和softmax评估以报告分类。在将网络训练了100代后,测试数据显示出良好的准确度(0.9829)、良好的精确度(0.9886)和良好的召回率(0.9770)。
网络模型:如表4所示,使用keras API和Tensorflow后端创建了一个模型。
表4.网络模型架构。
Figure BDA0002806587060001371
Figure BDA0002806587060001381
总参数:230,258
可训练的参数:230,258
不可训练参数:0
拟合参数:使用keras的分类交叉熵损失和Adam优化器来训练模型,该优化器的学习率为0.001,衰减为0.001,批大小为1000。训练运行了100代,验证间隔为0.2。
测试集准确度:1.0
测试集精确度:1.0
测试集召回率:1.0
Life Tech数据集性能:如表5所示,该网络对Life Tech数据集中的所有8个样品进行了准确分类。因此,它的性能优于标准Z评分分类,并减少了低效率的文库制备带来的负面影响。这一结果是出乎意料的,并证明了这种分类方法能够在以前无法分类的样品中检测三体性。
表5.Life Tech数据集的分类结果。
Figure BDA0002806587060001382
第二部分:使用概率向量的基于神经网络对非侵入性产前检查数据进行分类:上述计数方法依赖于对序列读取的精确确定,以在比对期间确定其基因组来源。一旦确定了序列读取的来源,就将其添加到包括其来源的预定区域的计数中。本文所述的方法从根本上有所不同,因为它不需要将序列读取分配给某个位置,因此不需要比对步骤。相反,所描述的方法利用位置模糊度。给定一组箱,为读取所源自的组中的每个箱计算概率。这为每个序列读取创建了概率向量,该向量描述了源自每个箱的概率。可以将所有读取的概率向量求和以创建组合的概率向量。该组合概率向量用于执行三体性分类。在这里,我们证明了使用总和箱概率向量作为神经网络的输入进行分类是可行的。
概率向量:通过使用Bowtie2确定人类基因组(hg19)中10个最可能的基因组位置,创建了每个样品的组合概率向量。接下来,通过将映射质量和比对评分转换为每个可能位置的相对概率,确定读取位置的概率。将一组57,461个序列箱(每个长度为50kb)的个体读取概率相加,从而创建代表所有24条染色体的长度为57,461的组合概率向量。
数据处理:使用GC校正方法(LOWESS)处理组合概率向量,然后将其相对于所有箱的中位数标准化。在1916个样品的集合中,为每个箱计算平均值和标准偏差。具有高变异的箱不包括在进一步分析中。同样,位于19号染色体、X染色体和Y染色体上的箱也被排除在外。
模拟数据集:我们创建了一个大型的模拟样品数据集,用于训练和测试神经网络。首先,我们使用每个箱的计算平均值和标准偏差来对值的向量进行采样,该值代表来自21号染色体的631个箱和随机选自1至18、20和22号染色体的3465个箱。我们还通过从众所周知的代表临床样品中的胎儿部分的分布中取一个值,为每个样品分配了假设的胎儿部分。我们将这些样品中的一半分配为代表整倍体样品,另一半分配为代表21三体样品。为了准确模拟来自21号染色体的遗传物质的高表现度,将代表染色体的箱根据其分配的胎儿部分进行了升高(参见第一部分,将升高量的最小边界设置为0.07)。
神经网络模型:如表6所示,使用keras API和Tensorflow后端创建了模型。
表6.网络模型架构。
Figure BDA0002806587060001401
总参数:1,055,890
可训练的参数:1,055,890
不可训练参数:0
拟合参数:使用keras的分类交叉熵损失和Adam优化器来训练模型,该优化器的学习率为0.001,衰减为0.001,批大小为100。训练运行了3代,验证间隔为0.2。
训练和测试:在第一代之后,模型验证准确度达到0.99990,并且没有进一步提高。10,000个保留集预测的准确度为0.9998,精确度为0.9995(来自2个假阳性)以及召回率为1.0。
测试集准确度:0.9999
测试集精确度:0.9998
测试集召回率:1.0
测试集混淆矩阵:
预测:整倍体 预测:21三体
正确:整倍体 5008 1
正确:21三体 0 4991
与Z评分分类的比较:在对网络模型进行模拟数据集训练后,我们在来自1916个NIPT样品的一组测序结果上测试了其性能。对于这组样品,无法通过侵入性测试确认NIPT结果。因此,样品类别是通过传统的Z评分分析确定的。Z评分为4或更高的样品被标记为三体类,而Z评分小于4的样品被标记为整倍体类。该网络实现与传统的Z评分分类高度一致。在1916个样品中,有7个的Z评分等于或大于4,其中的6个被网络标记为21三体。Z评分小于4的1909个样品中,只有一个被网络标记为整倍体。对1916个样品的最终测试集预测(使用Z评分作为地面真值)的准确度为0.999、精确度和召回率为0.86(来自1个假阴性和1个假阳性)。
验证集准确度:0.999
验证集精确度:0.857
验证集召回率:0.857
测试混淆矩阵:
Figure BDA0002806587060001411
与基于计数向量的分类的比较:还使用基于计数的向量进行模拟、训练和分类,通过神经网络将这些样品分类。结果高度一致。
Figure BDA0002806587060001412
Figure BDA0002806587060001421
总结:使用概率向量和神经网络的分类显示出与基于Z评分的分类和使用计数向量和神经网络的分类相当的性能。这项工作表明,在非侵入性产前检测中,对于准确检测21三体性,用于确定性地分配序列读取的基因组位置的比对步骤不是必需的。
第IIIa部分:不使用比对算法的序列读取分配:先前我们已经示出了这些计数向量可以用组合概率向量代替。该方法利用了位置模糊度。给定一组箱,为该组中的每个箱计算概率,该概率描述了序列读取源自该箱的概率。这为每个序列读取创建了概率向量,该向量描述了源自每个箱的概率。可以将所有读取的概率向量求和以创建组合的概率向量。该组合概率向量用于执行三体性分类。
前面的实施例使用了来自Bowtie2输出的定量测量来创建读取源自箱的概率。在这里,我们表明无需使用任何比对步骤即可创建序列读取的概率向量。
简而言之,我们将序列箱转换为类别标签。然后,我们训练一个神经网络,根据编码的序列读取分配这些类别标签。该方法的固有之处在于,网络会为每个类别分配一个概率。因此,为每个序列读取提供完整的概率向量。将该网络用于从序列读取集(通常来自一个样品)创建概率向量集。可以将这组概率向量求和以为每个样品创建一个组合的概率向量。使用组合的概率向量作为另一个分类网络的输入,能够对一组箱中具有局部高表现度的样品进行分类,类似于NIPT中的三体性检测(如前所述)。
Phix174基因组:大肠杆菌噬菌体Phix174的5,386个碱基对的基因组被分为10个序列“箱”,各538个碱基(其余6个碱基被忽略)。通过在Phix174基因组中定义随机起点并从该起点选择25个下游碱基来产生模拟的25bp读取。从起点确定为各自分配的类别标签。然后使用模拟的序列读取和分配的箱类别标签来训练神经网络模型。
读取至位置概率:从Phix174基因组产生了十万个序列读取/箱类别标签对。从该集合中随机选择90,000个用于训练神经网络模型(训练集)。其余的10,000个保留为独立测试集。
神经网络架构:如表7所示,使用keras API和Tensorflow后端创建了神经网络模型。
表7.网络模型架构。
Figure BDA0002806587060001431
总参数:19,866
可训练的参数:19,866
不可训练参数:0
拟合参数:使用keras的分类交叉熵损失和Adam优化器来训练模型,该优化器的学习率为0.001,衰减为0.001,批大小为10。训练运行了10代,验证间隔为0.2。
测试集序列读取至箱分类结果:使用神经网络模型对10,000个样品的独立集合进行分类(表8)。该分类工作良好,显示的准确度为0.992,精确度为0.992,召回率为0.992。
表8.分类结果。
Figure BDA0002806587060001441
测试仪准确度:0.992
测试仪精确度:0.992
测试仪召回率:0.992
结论:我们已经表明,无需使用比对步骤即可执行准确的箱分配。
第IIIb部分:使用组合概率向量从序列读取中检测高表现度的基因组区域而无需序列比对:在以前的工作中,我们示出了:(a)组合概率向量可以从序列读取中产生,并且(b)组合概率向量可以用于实现三体性分类。在这项研究中,我们将把这些方法组合成端到端的解决方案。这种方法可以对具有局部基因组高表现度的样品进行分类,同时完全消除了基因组序列比对的需要。
样品集:我们基于Phix174基因组创建了20,000个模拟样品的集。对于每个样品,产生1000个序列读取。为了创建每个序列读取,定义了Phix174基因组中的随机位置,并选择接下来的25个下游碱基。
产生的样品被随机分配为“受影响”或“未受影响”状态。在受影响的样品中,#5箱的读取数升高了50%。被增加到#5箱的读取量在随机区块中随机减去,以使每个样品的总读取数不变。因此,每个样品都由精确的1,000个序列读取的随机集合来表示。
第一组10,000个样品被指定为未受影响的样品集。第二组被指定为受影响的集。对于受影响的集,分配给#5箱的序列读取升高了20%。为了补偿该升高,从其他箱中减去了等同的序列读取数。因此,每个样品都由精确的1000个序列读取的随机集合来表示。
序列读取转换为组合概率向量:先前描述的序列读取分类模型(第IIIa部分)报告了独热编码的类别分配。在本研究中,我们将最终softmax评估的输出函数从报告类更改为报告类别概率(在keras中)。这种变化使我们能够简单地对所有1000个序列读取的输出求和,从而为每个样品创建组合的概率向量。最后,对组合概率向量进行标准化。类似于NIPT分析中的标准化,计算箱1至4和6至10的中位数,并将所有箱值除以该中位数值。该标准化的组合概率向量被用作神经网络的输入张量。
神经网络模型:将模拟样品随机分为训练集(n=18,000)和独立测试集(n=2,000)。测试集包含来自未受影响样品集的1,003个样品和来自受影响样品集的997个样品。
网络模型架构:如表9所示,使用keras API和Tensorflow后端创建了模型。
表9.网络模型架构。
Figure BDA0002806587060001451
Figure BDA0002806587060001461
总参数:20,338
可训练的参数:20,338
不可训练参数:0
拟合参数:使用keras的分类交叉熵损失和Adam优化器来训练模型,该优化器的学习率为0.001,衰减为0.001,批大小为100。训练运行了100代,验证间隔为0.2。
测试集分类结果:在2,000个样品中,测试集中对总共1,977个样品进行了正确分类。因此,准确度、精确度和召回率均为0.989。
测试混淆矩阵:
Figure BDA0002806587060001462
测试仪准确度:0.989
测试仪精确度:0.989
测试仪召回率:0.989
结论:无需基因组序列比对,就可以检测基因组拷贝数变异。此外,无需序列读取的任何确定性箱分配,就可以检测基因组拷贝数变异。该方法专门使用概率建模,以将每个序列读取分配给所有序列箱。此分配的结果值包含足够的信息,可用于另一分类模型中,以准确确定基因组区域的高表现度。通过使用神经网络创建概率向量和样品分类,可以实现本研究。
尽管本文已经示出并描述了本发明的优选实施方案,但对于本领域技术人员将会显而易见的是,这些实施方案仅以示例的方式提供。本领域技术人员现将会在不偏离本发明的情况下想到许多更改、改变和替代。应当理解,本文所述的本发明实施方案的各种替代方案可以以任何组合用于实施本发明。以下权利要求旨在限定本发明的范围,并由此涵盖这些权利要求范围内的方法和结构及其等同物。

Claims (20)

1.一种方法,其包括:
a)从受试者获得生物样品,其中所述生物样品包含核酸分子;
b)对至少一部分所述核酸分子进行测序以产生测序读取集;
c)处理所述测序读取集中的每个测序读取以产生一个或多个值,从而产生包含代表所述测序读取集的一组值的输入数据集;以及
d)基于使用机器学习算法对所述输入数据集的分析,检测所述测序读取的子集的正常表现度、高表现度或低表现度。
2.根据权利要求1所述的方法,其中,步骤(c)的所述处理不包括所述测序读取集的比对。
3.根据权利要求1所述的方法,其中,步骤(c)的所述处理包括相对于参考序列对所述测序读取集进行比对,以及对与所述参考序列的一系列预定义子部分中的每一个对齐的测序读取的数目进行计数,从而产生形成所述输入数据集的全部或部分的一组数值。
4.根据权利要求1所述的方法,其中步骤(c)的所述处理包括使用机器学习算法将所述测序读取集相对于参考序列进行比对,其中所述机器学习算法被用于确定所述比对步骤所需的所述参考序列的子部分的最佳数目,以及对与所述参考序列的每个子部分对齐的测序读取的数目进行计数,从而产生形成所述输入数据集的全部或部分的一组值。
5.根据权利要求1所述的方法,其中,步骤(c)的所述处理包括使用机器学习算法将所述测序读取集相对于彼此进行比对,并且其中所述机器学习算法被用于确定表示完整测序读取集并且形成所述输入数据集的全部或部分的一组值或特征。
6.根据权利要求1所述的方法,其中,步骤(c)的所述处理包括使用机器学习算法来确定表示完整测序读取集并且形成所述输入数据集的全部或部分的一组值或特征。
7.根据权利要求1所述的方法,其中,步骤(c)的所述处理包括计算每个序列读取的长度、每个测序读取的GC含量、与每个测序读取中的核苷酸碱基的数目和顺序相对应的值、特征加权因子或其任何组合。
8.根据权利要求1所述的方法,其中所述机器学习算法是深度学习算法。
9.根据权利要求8所述的方法,其中所述深度学习算法包括前馈神经网络、卷积神经网络或递归神经网络。
10.根据权利要求8所述的方法,其中所述深度学习算法是使用训练数据集来训练的,所述训练数据集包括来自一个或多个对照受试者的一个或多个测序读取集,所述一个或多个对照受试者包括已知的整倍体受试者、已知的非整倍体受试者或其任何组合。
11.根据权利要求8所述的方法,其中,使用包括从公共可用数据库、私人机构数据库、商业数据库或其任何组合获得的计算机序列数据的训练数据集来训练所述深度学习算法。
12.根据权利要求8所述的方法,其中,使用包括用于正常受试者、异常受试者或其任何组合的模拟序列数据的训练数据集来训练所述深度学习算法。
13.根据权利要求8所述的方法,其中,使用包括一个或多个对照受试者的个人健康数据的训练数据集来训练所述深度学习算法,其中所述个人健康数据选自受试者年龄、胎龄、性别、体重、血压、先前子女的数目(如果是女性)、超声标志物、生化筛查结果、吸烟史、饮酒史、疾病家族史或其任何组合。
14.根据权利要求1所述的方法,其中所述输入数据集还包括与所述受试者的个人健康数据相对应的值,所述个人健康数据选自受试者年龄、胎龄、性别、体重、血压、先前子女的数目(如果是女性)、超声标志物、生化筛查结果、吸烟史、饮酒史、疾病家族史或其任何组合。
15.根据权利要求8所述的方法,其中使用存留在基于云的数据库中的至少一个训练数据集来训练所述深度学习算法,所述基于云的数据库利用本地或远程产生的测序读取集、输入数据集和先前执行的深度学习分析结果来周期性地或连续地更新。
16.根据权利要求1所述的方法,其中所述测序读取子集的高表现度或低表现度的检测对应于所述受试者中至少一个基因组异常的检测。
17.根据权利要求16所述的方法,其中所述至少一个基因组异常包括拷贝数变异、至少一个染色体臂的全部或部分重复、至少一个染色体臂的全部或部分缺失或其任何组合。
18.根据权利要求1所述的方法,其中所述生物样品是血液、血浆、血清、尿液、组织液、阴道细胞、阴道液、颊细胞或唾液。
19.根据权利要求1所述的方法,其中所述核酸分子是无细胞核酸分子。
20.根据权利要求1所述的方法,其中,步骤(b)中的对所述测序读取的子集的正常表现度、高表现度或低表现度的所述检测不是相对于特定的靶染色体确定的。
CN201980036539.3A 2018-03-30 2019-03-27 用于产前检查的基于深度学习的方法、设备和系统 Pending CN112203648A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862650879P 2018-03-30 2018-03-30
US62/650,879 2018-03-30
PCT/US2019/024416 WO2019191319A1 (en) 2018-03-30 2019-03-27 Deep learning-based methods, devices, and systems for prenatal testing

Publications (1)

Publication Number Publication Date
CN112203648A true CN112203648A (zh) 2021-01-08

Family

ID=74004617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980036539.3A Pending CN112203648A (zh) 2018-03-30 2019-03-27 用于产前检查的基于深度学习的方法、设备和系统

Country Status (2)

Country Link
EP (1) EP3773534A4 (zh)
CN (1) CN112203648A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113088555A (zh) * 2021-04-26 2021-07-09 四川大学 基于机器学习模型的微生物菌落检验方法以及检验系统
CN113969310A (zh) * 2021-10-14 2022-01-25 武汉蓝沙医学检验实验室有限公司 胎儿dna浓度的评估方法及应用
CN113999900A (zh) * 2021-10-14 2022-02-01 武汉蓝沙医学检验实验室有限公司 以孕妇游离dna评估胎儿dna浓度的方法及应用
WO2023003758A1 (en) * 2021-07-19 2023-01-26 Illumina Software, Inc. Specialist signal profilers for base calling
WO2023097685A1 (zh) * 2021-12-03 2023-06-08 深圳华大生命科学研究院 核酸样本的碱基识别方法及装置
US11694309B2 (en) 2020-05-05 2023-07-04 Illumina, Inc. Equalizer-based intensity correction for base calling

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150347676A1 (en) * 2014-05-30 2015-12-03 Sequenom, Inc. Chromosome representation determinations
US20160034640A1 (en) * 2014-07-30 2016-02-04 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20170220735A1 (en) * 2016-02-03 2017-08-03 Verinata Health, Inc. Using cell-free dna fragment size to determine copy number variations
US20170342500A1 (en) * 2014-12-19 2017-11-30 Danmarks Tekniske Universitet Method for identification of tissue or organ localization of a tumour

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201816645A (zh) * 2016-09-23 2018-05-01 美商德萊福公司 用於生物樣本的自動化處理及分析、臨床資訊處理及臨床試驗配對之整合系統及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150347676A1 (en) * 2014-05-30 2015-12-03 Sequenom, Inc. Chromosome representation determinations
US20160034640A1 (en) * 2014-07-30 2016-02-04 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20170342500A1 (en) * 2014-12-19 2017-11-30 Danmarks Tekniske Universitet Method for identification of tissue or organ localization of a tumour
US20170220735A1 (en) * 2016-02-03 2017-08-03 Verinata Health, Inc. Using cell-free dna fragment size to determine copy number variations
WO2017136059A1 (en) * 2016-02-03 2017-08-10 Verinata Health, Inc. Using cell-free dna fragment size to determine copy number variations

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ELLISON CK, SUN Y, HOGG G, ET AL.: "Using Targeted Sequencing of Paralogous Sequences for Noninvasive Detection of Selected Fetal Aneuploidies" *
MIN X, ZENG W, CHEN N, CHEN T, JIANG R.: "Chromatin accessibility prediction via convolutional long short-term memory networks with k-mer embedding." *
YUAN Y, SHI Y, LI C, ET AL.: "DeepGene: an advanced cancer type classifier based on deep learning and somatic point mutations" *
ZC LIPTON,DC KALE,C ELKAN,R WETZEL: "Learning to Diagnose with LSTM Recurrent Neural Networks" *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11694309B2 (en) 2020-05-05 2023-07-04 Illumina, Inc. Equalizer-based intensity correction for base calling
CN113088555A (zh) * 2021-04-26 2021-07-09 四川大学 基于机器学习模型的微生物菌落检验方法以及检验系统
WO2023003758A1 (en) * 2021-07-19 2023-01-26 Illumina Software, Inc. Specialist signal profilers for base calling
CN113969310A (zh) * 2021-10-14 2022-01-25 武汉蓝沙医学检验实验室有限公司 胎儿dna浓度的评估方法及应用
CN113999900A (zh) * 2021-10-14 2022-02-01 武汉蓝沙医学检验实验室有限公司 以孕妇游离dna评估胎儿dna浓度的方法及应用
CN113969310B (zh) * 2021-10-14 2024-02-20 武汉蓝沙医学检验实验室有限公司 胎儿dna浓度的评估方法及应用
CN113999900B (zh) * 2021-10-14 2024-02-20 武汉蓝沙医学检验实验室有限公司 以孕妇游离dna评估胎儿dna浓度的方法及应用
WO2023097685A1 (zh) * 2021-12-03 2023-06-08 深圳华大生命科学研究院 核酸样本的碱基识别方法及装置

Also Published As

Publication number Publication date
EP3773534A4 (en) 2021-12-29
EP3773534A1 (en) 2021-02-17

Similar Documents

Publication Publication Date Title
US20210020314A1 (en) Deep learning-based methods, devices, and systems for prenatal testing
US11629378B2 (en) Non-invasive prenatal diagnosis of fetal genetic condition using cellular DNA and cell free DNA
JP6161607B2 (ja) サンプルにおける異なる異数性の有無を決定する方法
JP6971845B2 (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
CN112203648A (zh) 用于产前检查的基于深度学习的方法、设备和系统
CN107077537B (zh) 用短读测序数据检测重复扩增
CN110800063B (zh) 使用无细胞dna片段大小检测肿瘤相关变体
JP2024016039A (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
CN112601826A (zh) 通过全基因组整合进行循环肿瘤dna的超灵敏检测
CN110770838B (zh) 用于确定体细胞突变克隆性的方法和系统
AU2020244763A1 (en) Systems and methods for deriving and optimizing classifiers from multiple datasets
JP7009516B2 (ja) 未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法
CN113906146A (zh) 优化的超低体积液体活检方法、系统和设备
US20210102262A1 (en) Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
KR20200010464A (ko) 기지 또는 미지의 유전자형의 다수의 기여자로부터 dna 혼합물을 분해 및 정량하기 위한 방법 및 시스템
CA3194557A1 (en) Sequencing adapter manufacture and use
CN115702457A (zh) 使用自动编码器确定癌症状态的系统和方法
US11473133B2 (en) Methods for validation of microbiome sequence processing and differential abundance analyses via multiple bespoke spike-in mixtures
CN112955960A (zh) 确定从怀孕母体分离的循环胎儿细胞来自当前妊娠或过往妊娠的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210108