CN117546243A - 使用推算的单倍型的图参考基因组和碱基检出方法 - Google Patents

使用推算的单倍型的图参考基因组和碱基检出方法 Download PDF

Info

Publication number
CN117546243A
CN117546243A CN202280044110.0A CN202280044110A CN117546243A CN 117546243 A CN117546243 A CN 117546243A CN 202280044110 A CN202280044110 A CN 202280044110A CN 117546243 A CN117546243 A CN 117546243A
Authority
CN
China
Prior art keywords
nucleotide base
base detection
nucleotide
detection
genomic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280044110.0A
Other languages
English (en)
Inventor
M·A·埃贝勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN117546243A publication Critical patent/CN117546243A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开涉及用于生成针对特定样品基因组定制的图参考基因组,并且利用定制的图参考基因组来确定该样品基因组的最终核苷酸碱基检出的系统、非暂态计算机可读介质和方法。为了说明,所公开的系统可以生成定制的图参考基因组,其包括表示对应于特定基因组区域的推算的单倍型的各种路径。附加地或另选地,所公开的系统可以确定并比较样品基因组的直接和所推算的核苷酸碱基检出作为生成最终核苷酸碱基检出的基础。在一些这样的情况下,所公开的系统基于对应于直接核苷酸碱基检出的测序度量或基于包括基因组坐标的这些基因组区域的变异性对这些基因组坐标的这些直接核苷酸碱基检出和所推算的核苷酸碱基检出进行加权(并在其间进行选择)。

Description

使用推算的单倍型的图参考基因组和碱基检出方法
相关申请的交叉引用
本申请要求2021年9月21日提交的名称为“A GRAPH REFERENCE GENOME ANDBASE-CALLING APPROACH USING IMPUTED HAPLOTYPES”的美国临时申请63/246,626的权益和优先权,该美国临时申请的内容据此全文以引用方式并入。
背景技术
近年来,生物技术公司和研究机构已经改进了硬件和软件平台以确定核苷酸碱基(或全基因组)的序列并鉴定与参考基因组的参考碱基不同的核苷酸碱基的变体检出。例如,一些现有的核酸测序平台通过使用现有桑格测序或通过使用边合成边测序(SBS)来确测序列内的各个核苷酸碱基。使用SBS时,现有平台可以监测并行合成的数万或更多寡核苷酸,以从更大的碱基检出数据集检测更准确的核苷酸碱基检出。例如,SBS平台中的相机可以捕获来自掺入此类寡核苷酸中的核苷酸碱基的经照射荧光标签的图像。在捕获此类图像之后,现有的SBS平台将碱基检出数据(或图像数据)发送到具有测序数据分析软件的计算设备,该软件将核苷酸读段与参考基因组进行比对。基于所比对的核苷酸片段读段,现有的SBS平台可以确定基因组区域的核苷酸碱基检出并鉴定样品核酸序列内的变体。
尽管有这些最新进展,现有的核苷酸碱基测序平台和测序数据分析软件(统称为现有的测序系统)有时不准确地确定碱基检出,特别是对于难以检出的基因组区域中的碱基。此类难以检出的基因组区域可包括历史上(或对于给定样品)包括经常无法与线性参考基因组很好地比对或产生表现出低质量测序度量(例如低于正常阈值的碱基检出质量和映射质量评分)的核苷酸碱基检出的核苷酸读段的基因组区域。例如,现有的测序系统经常对包括不常见变体或高变异性的基因组区域(例如可变数目串联重复(VNTR)区域)产生不准确的映射或不准确的核苷酸碱基检出。尽管数十年来未能在难以检出的区域中产生准确的核苷酸碱基检出,但是现有的测序系统经常将用于变体检出器或其他测序数据分析软件的输入数据限制为(i)与线性参考基因组相比来自读段的直接核苷酸碱基检出以及(ii)对应于此类直接核苷酸碱基检出的测序度量。
虽然一些现有的测序系统试图解决图参考基因组的比对准确度和碱基检出准确度问题,但是现有的图参考基因组通常包括与许多样品基因组所表现出的等位基因足够相似(或不相关)的等位基因的过多替代路径。例如,一些现有的测序系统利用通用图基因组,其包括大量替代基因组序列和用于等位基因的路径,这些等位基因在群体中是常见的和不常见的。因为此类替代序列和路径可能与许多样品基因组的等位基因相似但不匹配,所以通用图基因组经常导致现有的测序系统对大量样品错误比对或错过检出变体。因此,通过利用通用图参考基因组,现有的测序系统可以增加与来自基因组样品的读段错配比对的机会。
除了比对准确度问题之外,现有的图参考基因组通常是庞大的并且消耗相当大的存储器和计算资源。实际上,一些现有的图参考基因组可包括与给定基因组样本无关的替代基因组序列的无数替代路径。这些无数替代路径会消耗不必要的存储器。除了浪费存储器之外,通用图参考基因组通常增加现有测序系统的计算机处理时间,以确定在进行核苷酸碱基检出时是否包括或排除与替代序列的匹配。
发明内容
本公开描述了可以解决本领域中的一个或多个前述问题(或其他问题)的方法、非暂态计算机可读介质和系统的实施方案。特别地,所公开的系统可以生成针对特定样品基因组定制的图参考基因组,并且利用定制的图参考基因组来确定样品基因组的核苷酸碱基检出。例如,所公开的系统可以确定围绕样品基因组的基因组区域的变体核苷酸碱基检出(例如,单核苷酸多态性),并且基于变体核苷酸碱基检出来推算对应于基因组区域的单倍型。所公开的系统随后可以生成样品基因组的图参考基因组,其包括表示所推算的单倍型的路径。基于将样品基因组的核苷酸片段读段与表示基因组区域的推算的单倍型的路径进行比较,所公开的系统可以确定基因组区域内的核苷酸碱基检出。
作为样本定制图基因组的补充或替代,在一个或多个实施方案中,所公开的系统确定并比较样品基因组的直接和推算的核苷酸碱基检出作为生成最终核苷酸碱基检出的基础。例如,所公开的系统可以基于与线性或图参考基因组比对的核苷酸片段读段来确定直接核苷酸碱基检出(和对应的测序度量)。此类直接核苷酸碱基检出可包括围绕基因组区域的变体核苷酸碱基检出。基于此类变体核苷酸碱基检出,所公开的系统可以推算基因组区域的单倍型并且基于推算的单倍型来确定推算的核苷酸碱基检出。基于直接核苷酸碱基检出、对应的测序度量和所推算的核苷酸碱基检出,所公开的系统确定样品基因组相对于参考基因组的最终核苷酸碱基检出。例如,所公开的系统可以利用加权模型(例如,碱基检出机器学习模型)来将权重分配给直接核苷酸碱基检出和推算的核苷酸碱基检出,以确定样品基因组的最终核苷酸碱基检出。
本公开的一个或多个实施方案的附加的特征和优点将在随后的描述中概述,并且部分地将从该描述中显而易见,或者可以通过此类示例性实施方案的实践获知。
附图说明
具体实施方式通过使用附图提供了具有附加特异性和细节的一个或多个实施方案,如以下简要描述的。
图1示出了根据一个或多个实施方案的定制测序系统可以在其中操作的环境的图。
图2A示出了根据一个或多个实施方案的生成和利用图参考基因组的定制测序系统的概述。
图2B示出了根据一个或多个实施方案的基于推算的核苷酸碱基检出、直接核苷酸碱基检出和测序度量确定最终核苷酸碱基检出的定制测序系统的概述。
图3A至图3B示出了根据一个或多个实施方案的利用单倍型数据库推算对应于基因组区域的单倍型的定制测序系统的示例。
图4A至图4B示出了根据一个或多个实施方案的生成图参考基因组并将样品基因组的核苷酸片段读段与图参考基因组进行比对的定制测序系统。
图5示出了描绘根据一个或多个实施方案的使用相对于等位基因频率的样品特定图参考基因组的定制测序系统的非参考基因型一致率的图。
图6示出了根据一个或多个实施方案的利用直接核苷酸碱基检出、测序度量和推算的核苷酸碱基检出来确定最终核苷酸碱基检出的定制测序系统。
图7A至图7B示出了根据一个或多个实施方案的训练和利用碱基检出机器学习模型的定制测序系统。
图8示出了根据一个或多个实施方案的用于生成和利用图参考基因组的一系列动作的流程图。
图9至图10示出了根据一个或多个实施方案的用于基于推算的核苷酸碱基检出、直接核苷酸碱基检出和测序度量确定最终核苷酸碱基检出的一系列动作的流程图。
图11示出了用于实施本公开的一个或多个实施方案的示例性计算设备的框图。
具体实施方式
本公开描述了定制测序系统的一个或多个实施方案,该定制测序系统可以生成具有针对特定样品基因组定制的单倍型路径的图参考基因组,并且利用定制的图参考基因组来确定样品基因组的核苷酸碱基检出。例如,该定制测序系统可以确定围绕样品基因组的目标基因组区域的单核苷酸多态性(SNP)或其他变体核苷酸碱基检出,并且然后基于周围的变体核苷酸碱基检出来推算对应于基因组区域的单倍型。从此类推算的单倍型和线性参考基因组,该定制测序系统可以为样品基因组生成包括表示所推算的单倍型的路径的图参考基因组。基于将样品基因组的核苷酸片段读段与表示目标基因组区域和图参考基因组中的其他此类区域的推算的单倍型的路径进行比较,所公开的系统可以确定基因组区域和其他此类区域内的核苷酸碱基检出。在一些情况下,该定制测序系统还通过将核苷酸片段读段与包括在定制的图参考基因组中的线性参考基因组进行比对来确定核苷酸碱基检出。
在鉴定此类目标基因组区域之前,在一个或多个实施方案中,该定制测序系统接收表示已经由测序仪测序的样品基因组的核苷酸片段读段的数据。核苷酸片段读段的此类数据包括由测序仪确定的核苷酸碱基检出的序列。在接收读段据后,该定制测序系统可以将核苷酸片段读段与线性参考基因组进行比对。基于所比对的核苷酸片段读段,该定制测序系统可以根据线性参考基因组确定样品基因组的基因组坐标和区域的直接核苷酸碱基检出。
如上所述,当确定核苷酸碱基检出时,一些难以检出的基因组区域可能表现出比对准确度或碱基检出准确度问题以及其他测序挑战。在一些实施方案中,该定制测序系统将样品基因组内难以检出的基因组区域(并且有时为难以检出的基因组区域)鉴定为目标基因组区域。例如,该定制测序系统鉴定质量差的基因组区域,例如低置信度检出基因组区域,其中核苷酸碱基检出和/或核苷酸片段读段表现出低于相应阈值的差的碱基检出质量度量、映射质量度量和/或深度度量。作为另一示例,该定制测序系统可以鉴定缺少覆盖一些(或全部)基因组区域的核苷酸片段读段的基因组区域。
在一个或多个实施方案中,在鉴定了目标基因组区域后,该定制测序系统确定围绕相应目标基因组区域的变体核苷酸碱基检出。例如,该定制测序系统确定在目标基因组区域的阈值距离内的变体检出。为了说明,该定制测序系统可以确定在来自目标基因组区域的阈值数目的碱基对(例如,600个碱基对;10,000个碱基对;或50,000个碱基对)内的SNP或其他变体。如下文进一步解释的,该定制测序系统可以确定作为对应于目标基因组区域的一个或多个单倍型的一部分的SNP(或其他变体)。
基于变体核苷酸碱基检出,该定制测序系统推算相应目标区域的单倍型。为了说明,在一个或多个实施方案中,该定制测序系统基于位于目标基因组区域侧面的变体核苷酸碱基检出从单倍型数据库统计地推断目标区域的单倍型。例如,该定制测序系统基于SNP或其他变体核苷酸碱基检出从数据库中的对应单倍型参考组推算难以检出的区域(例如,低置信度检出区域)的单倍型。因此,该定制测序系统可以将SNP或其他变体核苷酸碱基检出与单倍型参考组进行比较,以鉴定可能对应于目标基因组区域的单倍型。
在一个或多个实施方案中,基于基因组区域的所推算的单倍型,该定制测序系统生成针对样品基因组定制的图参考基因组。为了说明,该定制测序系统可以生成图参考基因组,其包括线性参考基因组和表示上述目标基因组区域的推算的单倍型的路径。除了难以检出的区域之外,图参考基因组还可以添加或包括表示非困难基因组区域的推算的单倍型的路径。
通过使用定制的图参考基因组,该定制测序系统可以确定样品基因组的目标基因组区域的最终核苷酸碱基检出。为此,在一个或多个实施方案中,该定制测序系统将核苷酸片段读段与图参考基因组进行比对。例如,该定制测序系统可以将核苷酸片段读段与具有对应的核苷酸片段读段的最高质量映射度量的图参考基因组的路径或线性参考基因组的一部分进行比对。在一些实施方案中,该定制测序系统基于与表示目标基因组区域的推算的单倍型的路径或图参考基因组中所包括的线性参考基因组的部分比对的核苷酸片段读段,确定样品基因组的基因组坐标的最终核苷酸碱基检出。
如上所述,作为使用定制的图参考基因组的补充或替代,该定制测序系统可以基于直接核苷酸碱基检出、对应的测序度量以及推算的核苷酸碱基检出来确定最终核苷酸碱基检出。例如,该定制测序系统可以基于与线性或图参考基因组比对的核苷酸片段读段来确定直接核苷酸碱基检出(和对应的测序度量)。此类直接核苷酸碱基检出可包括围绕基因组区域的变体核苷酸碱基检出。基于变体核苷酸碱基检出,该定制测序系统可以推算基因组区域的单倍型并且基于推算的单倍型来确定推算的核苷酸碱基检出。如上所述,在一些情况下,该定制测序系统还生成具有表示所推算的单倍型的路径的图参考基因组,并且还使用该图参考基因组确定样品基因组的直接核苷酸碱基检出。基于直接核苷酸碱基检出、对应的测序度量和所推算的核苷酸碱基检出,所公开的系统确定最终核苷酸碱基检出。例如,该定制测序系统可以利用加权模型或碱基检出机器学习模型来将权重分配给直接核苷酸碱基检出和推算的核苷酸碱基检出,以确定样品基因组的最终核苷酸碱基检出。
如上所述,在一些实施方案中,该定制测序系统将核苷酸片段读段与参考基因组进行比对,并基于所比对的核苷酸片段读段来确定样品基因组的直接核苷酸碱基检出。例如,该定制测序系统基于将核苷酸片段读段与线性参考基因组或图参考基因组进行比对来确定直接核苷酸碱基检出。根据覆盖基因组坐标的所比对的核苷酸片段读段的碱基检出,在一些情况下,该定制测序系统应用概率模型(例如,贝叶斯概率模型)来确定样品基因组的基因组坐标的直接核苷酸碱基检出(例如,直接变体核苷酸碱基检出)。
在确定直接核苷酸碱基检出时,该定制测序系统可以确定并利用对应于直接核苷酸碱基检出的多种测序度量。为了说明,在一个或多个实施方案中,该定制测序系统确定量化样品基因组的基因组坐标处的核苷酸碱基检出的读段深度的深度度量。作为另一示例,在一些实施方案中,该定制测序系统确定量化核苷酸片段读段与参考基因组的比对的质量的映射质量度量。作为又一示例,该定制测序系统可以确定总结核苷酸碱基检出的质量或置信度的检出数据质量度量。
除了基于参考基因组的直接核苷酸碱基检出之外,该定制测序系统还可以基于对应于一个或多个基因组区域的推算的单倍型来确定推算的核苷酸碱基检出。如上所述,在一个或多个实施方案中,该定制测序系统确定围绕样品基因组的基因组区域的SNP(或其他变体核苷酸碱基检出),并且基于周围的变体核苷酸碱基检出来推算对应于基因组区域的单倍型。在某些情况下,基于所推算的单倍型,该定制测序系统统计地推断可能的单倍型以确定基因组区域的推算的核苷酸碱基检出。
基于直接核苷酸碱基检出、对应的测序度量和所推算的核苷酸碱基检出,所公开的系统确定最终核苷酸碱基检出。例如,在一个或多个实施方案中,该定制测序系统利用加权模型来确定直接核苷酸碱基检出和推算的核苷酸碱基检出的各自权重。在一个或多个实施方案中,该定制测序系统可以基于对应于直接核苷酸碱基检出的测序度量和以下描述的其他因素来确定权重。从基因组坐标的加权的直接核苷酸碱基检出和推算的核苷酸碱基检出,该定制测序系统可以选择或以其他方式确定最终核苷酸碱基检出。例如,在一些情况下,该定制测序系统使用碱基检出机器学习模型来从直接核苷酸碱基检出和推算的核苷酸碱基检出(例如,通过加权)确定最终核苷酸碱基检出。
如上所述,该定制测序系统提供优于现有测序系统和方法的若干技术优点和有益效果。例如,该定制测序系统通过利用针对样品基因组定制的图参考基因组来提高读段比对的准确度和核苷酸碱基检出准确度。更具体地,该定制测序系统生成图参考基因组,其包括表示样品基因组的基因组区域的推算的单倍型的路径。通过利用具有针对特定样品选择的替代重叠群的路径的图参考基因组,该定制测序系统可以比混杂有不相关或太多替代路径的通用图参考基因组更准确地将核苷酸片段读段与图参考基因组进行比对,特别是对于更复杂或“困难”区域(例如,低置信度检出区域)。由于改进了与定制的图参考基因组的比对,该定制测序系统还可以以比现有测序系统更高的置信度确定更准确的核苷酸碱基检出,该置信度为此类检出与参考基因组的参考碱基匹配或不同。
除了提高比对和碱基检出准确度之外,该定制测序系统还提高了使用图参考基因组的测序系统的计算速度和存储器。与包括不相关或过量等位基因的路径的通用图参考基因组相比,该定制测序系统减少了保存显著更小的图参考基因组所需的存储器,其中更少的路径表示基于样品基因组的变体推算的单倍型。在与通用单倍型路径或等位基因路径的过多数目的可能的读段比对匹配之间进行判定时,该定制测序系统不是低效地使用计算资源(诸如处理和存储器存储装置),而是通过使用定制的图参考基因组来节省计算处理和其他资源,该定制的图参考基因组具有表示样品的基因组区域的推算的单倍型的更少(并且更相关)的路径,并且由于更少的路径匹配而更有效地映射。
除了提高准确度之外,该定制测序系统可以生成比常规图基因组更灵活的定制图基因组。如上所述,在一个或多个实施方案中,该定制测序系统基于来自变体检出文件(例如,VCF)的所选变体检出数据来推算单倍型。为了说明,在一些情况下,该定制测序系统从VCF选择性地识别围绕难以检出区域(例如,低置信度检出区域)而不是其他基因组区域的变体核苷酸碱基检出,作为推算单倍型以表示定制的图参考基因组的路径的基础。不是如一些现有的测序系统那样使用来自变体检出文件的每个变体核苷酸碱基检出来生成图参考基因组,该定制测序系统可以更选择性地识别变体检出数据,基于该变体检出数据定制图参考基因组。
附加地或另选地,在一个或多个实施方案中,当基于直接核苷酸碱基检出和推算的核苷酸碱基检出确定最终核苷酸碱基检出时,该定制测序系统在难以检出的基因组区域、无读段覆盖的基因组区域或其他基因组区域中比现有测序系统提高了确定碱基检出的准确度。通过在直接核苷酸碱基检出和推算的核苷酸碱基检出之间加权和选择,该定制测序系统可以用在特定基因组坐标或区域处更可能准确的推算的核苷酸碱基检出替换表现出低于质量阈值的测序度量的直接核苷酸碱基检出。如上所述,该定制测序系统可以基于目标基因组区域的统计地推断的单倍型来确定目标基因组区域的这种推算的核苷酸碱基检出。类似地,在一些情况下,该定制测序系统可以通过为具有很少至没有被核苷酸片段读段覆盖的基因组区域确定和选择推算的核苷酸碱基检出(而不是直接核苷酸碱基检出)来提高准确度。除了依赖于直接核苷酸碱基检出和推算的核苷酸碱基检出之外,在一些情况下,该定制测序系统可以通过依赖于现有测序系统不考虑的额外的间接证据(例如局部变体、推算的单倍型和变异频率)来提高基因组区域的最终核苷酸碱基检出的准确度。
如上所述,在一些实施方案中,该定制测序系统通过利用分析直接核苷酸碱基检出和推算的核苷酸碱基检出两者的首创的碱基检出机器学习模型来提高最终核苷酸碱基检出的准确度。为了说明,可以训练碱基检出机器学习模型以基于用于训练样品基因组的测序度量和对应的地面真值碱基检出来区分基因组坐标的推算的核苷酸碱基检出还是直接核苷酸碱基检出更准确。更具体地,在一个或多个实施方案中,该定制测序系统训练碱基检出机器学习模型以基于直接核苷酸碱基检出、测序度量和推算的核苷酸碱基检出来确定最终核苷酸碱基检出。因此,该定制测序系统可以利用碱基检出机器学习模型来基于多种数据(包括上文讨论的多种数据类型)有效并准确地确定最终核苷酸碱基检出。
如上述讨论所示,本公开利用多种术语来描述该定制测序系统的特征和优点。现在提供关于此类术语的含义的附加细节。例如,如本文所用,术语“核苷酸片段读段”或简称“读段”是指来自样品核苷酸序列的全部或部分推断的一个或多个核苷酸碱基(或核苷酸碱基对)的序列。具体地,核苷酸片段读段包括来自与基因组样品对应的测序文库的核苷酸片段(或一组单克隆核苷酸片段)的核苷酸碱基检出的确定或预测的序列。例如,在以下情况下,测序设备通过生成对穿过核苷酸样品玻片的纳米孔的核苷酸碱基的核苷酸碱基检出来确定核苷酸片段读段,提高加荧光标签来确定,或根据流动池中的孔来确定。
另外,如本文所用,术语“核苷酸碱基检出”(或有时简称为“碱基检出”)是指在测序循环期间确定或预测样品基因组的基因组坐标或寡核苷酸的特定核苷酸碱基(或核苷酸碱基对)。具体地,核苷酸碱基检出可指示(i)已掺入核苷酸样品玻片上的寡核苷酸内的核苷酸碱基的类型的确定或预测(例如,基于读段的核苷酸碱基检出)或(ii)存在于样品基因组内的基因组坐标或区域处的核苷酸碱基的类型的确定或预测,包括数字输出文件中的变体检出或非变体检出。在一些情况下,对于核苷酸片段读段,核苷酸碱基检出包括基于由添加到核苷酸-样品玻片(例如,在流动池的孔中)的寡核苷酸的带荧光标签的核苷酸产生的强度值确定或预测核苷酸碱基。另选地,核苷酸碱基检出包括从色谱峰或电流变化确定或预测核苷酸碱基,该色谱峰或电流变化由穿过核苷酸样品玻片的纳米孔的核苷酸产生。相比之下,基于对应于基因组坐标或推算的单倍型的核苷酸片段读段,核苷酸碱基检出还可包括变体检出文件或其他碱基检出输出文件的样品基因组的基因组坐标处的核苷酸碱基的最终预测。因此,核苷酸碱基检出可包括与基因组坐标和参考基因组对应的碱基检出,诸如与参考基因组对应的特定位置处的变体或非变体的指示。实际上,核苷酸碱基检出可指变体检出,包括但不限于单核苷酸多态性(SNP)、插入或缺失(indel)或作为结构变体的一部分的碱基检出。如上所述,单核苷酸碱基检出可包括DNA的腺嘌呤检出、胞嘧啶检出、鸟嘌呤检出或胸腺嘧啶检出(缩写为A、C、G、T)或RNA的尿嘧啶检出(代替胸腺嘧啶检出)(缩写为U)。
如本文所用,术语“直接证据”是指从与参考基因组比对的核苷酸片段读段确定的碱基检出数据。例如,直接证据包括核苷酸片段读段的核苷酸碱基检出、对应的测序度量或基于在对应于核苷酸碱基检出的目标基因组坐标或区域处与参考基因组比对的核苷酸片段读段确定的其他碱基检出数据。相反,术语“间接证据”表示关于目标基因组坐标或区域的周围或相邻基因组区域的碱基检出数据或基因组数据。此类间接证据包括但不限于围绕目标基因组坐标或基因组区域的变体核苷酸碱基检出和对应于基因组坐标或区域的推算的单倍型、变体等位基因频率和/或群体单倍型。间接证据不包括与目标基因组坐标或区域处的参考基因组直接比较的来自核苷酸片段读段的碱基检出数据。
相关地,如本文所用,术语“变体核苷酸碱基检出”是指与参考基因组的参考碱基(或多个参考碱基)不同或有差异的核苷酸碱基检出。为了说明,变体核苷酸碱基检出可包括(或作为其一部分)与参考基因组的一个或多个参考碱基不同的SNP、插入或缺失或结构变体。另外,如本文所用,术语“直接核苷酸碱基检出”是指基于核苷酸片段读段和参考基因组(例如,线性参考基因组或图参考基因组)的比较确定的核苷酸碱基检出。因此,直接核苷酸碱基检出包括基于覆盖基因组坐标的核苷酸片段读段和对应的测序度量来确定或预测存在于样品基因组内的基因组坐标或区域处的核苷酸碱基的类型。此外,如本文所用,术语“直接不变核苷酸碱基检出”是指基于核苷酸片段读段和参考基因组的比较与来自参考基因组的参考碱基相匹配的核苷酸碱基检出。为了说明,该定制测序系统可以基于在对应于核苷酸碱基检出的基因组坐标处与参考基因组直接比对的核苷酸片段读段来确定直接不变核苷酸碱基检出。
如本文所用,术语“间接”是指统计地推断或估计基因组坐标或基因组区域的基因型。更具体地,推算可以指统计地推断对应于样品基因组的基因组区域的单倍型。例如,推算可以指利用围绕基因组区域的变体核苷酸碱基检出来确定对应于该基因组区域的单倍型。在一个或多个实施方案中,该定制测序系统还利用来自单倍型数据库和隐马尔可夫模型的参考组来推算单倍型。如本文进一步描述的,该定制测序系统可以基于不仅围绕或侧接目标基因组区域而且是对应于目标基因组区域的一个或多个单倍型的一部分的SNP(或其他变体)来推算目标基因组区域的单倍型。例如,如果二十个SNP在目标基因组区域中形成单倍型,则该定制测序系统可以使用针对目标基因组区域确定的十五个这样的SNP来鉴定哪些单倍型存在于样品基因组中,并且由此推算目标基因组区域的一个或多个单倍型的剩余五个SNP。
此外,如本文所用,术语“推算的核苷酸碱基检出”是指基于推算的单倍型和/或变体频率确定的基因组坐标的核苷酸碱基检出。例如,推算的核苷酸碱基检出包括基于围绕或侧接基因组坐标或区域的变体核苷酸碱基检出和统计推断来确定或预测存在于样品基因组内的基因组坐标或区域处的核苷酸碱基的类型。在一些情况下,推算的核苷酸碱基表示来自通过推算确定的最可能或可能的单倍型的基因组坐标或基因组区域的核苷酸碱基。为了进一步说明,在一些实施方案中,推算的核苷酸碱基检出包括样品基因组的基因组坐标或区域的推算或预测的核苷酸碱基,其反映对应于基因组坐标或区域的变体频率、局部变体核苷酸碱基检出和/或群体单倍型。
此外,如本文所用,术语“最终核苷酸碱基检出”是指针对基因组坐标确定并且包括或用于碱基检出输出文件(例如,变体检出文件)的核苷酸碱基检出。为了说明,在一个或多个实施方案中,术语最终核苷酸碱基检出包括(i)基因组坐标的碱基检出输出文件中包括的核苷酸碱基检出,例如变体检出文件中的变体核苷酸碱基检出,或(ii)基因组坐标的核苷酸碱基检出,其与参考碱基相同,并且基于其,核苷酸碱基检出包括在碱基检出输出文件中或从碱基检出输出文件中排除,例如因为核苷酸碱基检出与参考碱基相同而从变体检出文件中排除核苷酸碱基检出的最终确定。如下所述,该定制测序系统可从(或基于)对应于相同基因组坐标的直接核苷酸碱基检出和推算的核苷酸碱基检出选择最终核苷酸碱基检出。
此外,如本文所用,术语“样品基因组”是指经历测序的目标基因组或基因组的一部分。例如,样品基因组包括从样品生物体分离或提取的核苷酸序列(或这种分离或提取的序列的拷贝)。特别地,样品基因组包括从样品生物体分离或提取(全部或部分)并由含氮杂环碱基组成的全基因组。样品基因组可包括脱氧核糖核酸(DNA)、核糖核酸(RNA)的片段或分子,或者核酸的其他聚合形式或下文所述核酸的嵌合或杂合形式。在一些情况下,样品基因组存在于由试剂盒制备或分离并且由测序设备接收的样品中。
同样如本文所用,术语“单倍型”是指存在于生物体中(或存在于来自群体的生物体中)并从一个或多个祖先遗传的核苷酸序列。特别地,单倍型可包括存在于群体的生物中并由这些生物一起分别从单个亲本遗传的等位基因或其他核苷酸序列。在一个或多个实施方案中,单倍型包括在同一染色体上倾向于一起遗传的一组SNP。在一些情况下,表示单倍型或一组不同单倍型的数据在单倍型数据库上存储或以其他方式可访问。另外,“推算的单倍型”是指估计或统计地推断存在于样品基因组中的单倍型。例如,推算的单倍型可以是基于围绕或侧接基因组坐标或区域的SNP的基因组坐标或区域的统计地推断的单倍型。如上所述,推算的单倍型可包括围绕目标基因组区域的SNP或其他变体核苷酸碱基检出,并且该定制测序系统在其上推算单倍型。相关地,“群体单倍型”是指存在于特定或限定群体中的单倍型。
另外,如本文所用,术语“基因组坐标”是指基因组(例如,生物体的基因组或参考基因组)内核苷酸碱基的特定位置或方位。在一些情况下,基因组坐标包括基因组的特定染色体的标识符和特定染色体内核苷酸碱基的方位的标识符。例如,一个或多个基因组坐标可以包括染色体的编号、名称或其他标识符(例如,chr1或chrX)以及一个或多个特定位置,诸如在染色体的标识符之后的编号位置(例如,chr1:1234570或chr1:1234570-1234870)。此外,在某些具体实施中,基因组坐标是指参考基因组的来源(例如,线粒体DNA参考基因组的mt或SARS-CoV-2病毒的参考基因组的SARS-CoV-2)和参考基因组的来源内核苷酸碱基的位置(例如,mt:16568或SARS-CoV-2:29001)。相比之下,在某些情况下,基因组坐标是指参考基因组内核苷酸碱基的位置,而不参考染色体或来源(例如,29727)。
此外,如本文所用,“基因组区域”是指基因组坐标的范围。与基因组坐标一样,在某些实施方案中,基因组区域可以通过染色体的标识符和一个或多个特定位置,诸如染色体标识符之后的编号位置来鉴别(例如,chr1:1234570-1234870)。
如上所述,基因组坐标包括参考基因组内的位置。此类位置可以处于特定参考基因组内。如本文所用,术语“参考基因组”是指作为生物体基因的代表性示例(或多个代表性示例)而组装的数字核酸序列。无论序列长度如何,在一些情况下,参考基因组表示数字核酸序列中由科学家或统计模型确定为表示特定物种的生物体的一组示例性基因或一组核酸序列。例如,线性人类参考基因组可以是GRCh38或来自基因组参考联盟的参考基因组的其他版本。
另外,如本文所用,术语“图参考基因组”可包括参考基因组,其包括线性参考基因组和表示单倍型或其他替代核酸序列的路径。特别地,图参考基因组可包括线性参考基因组和对应于从单倍型数据库为特定样品基因组鉴定的推算单倍型的路径。仅作为一个示例,图参考基因组可包括Illumina DRAGEN图参考基因组hg19。相比之下,本公开还描述了图参考基因组,其包括线性参考基因组和表示为样品基因组选择或定制的推算单倍型的路径。
此外,如本文所用,术语“低置信度检出区域”是指对应于不满足对应测序度量的一个或多个阈值的一个或多个测序度量的基因组坐标范围。特别地,低置信度检出区域可包括具有不满足质量或比对的阈值的对应质量度量或其他测序度量的基因组坐标范围。为了说明,低置信度检出区域可包括基因组区域,其包括(全部或部分)VNTR、大的插入或缺失、具有多种不同变异的区域和/或其他类型的基因组变异。
另外,如本文所用,术语“测序度量”是指定量测量或分数,其指示各个核苷酸碱基检出(或核苷酸碱基检出的序列)相对于参考基因组的基因组坐标或基因组区域或相对于来自核苷酸片段读段的核苷酸碱基检出进行比对、比较或定量的程度。例如,测序度量包括定量测量或分数,其指示:(i)各个核苷酸碱基检出比对、映射或覆盖参考基因组的基因组坐标或参考碱基,或(ii)核苷酸碱基检出与参考或替代核苷酸读段在映射、错配、碱基检出质量或其他原始测序度量方面进行比较的程度。如下所述,测序度量可包括不同类型的质量度量。
如上所述,术语“质量度量”是指指示对应于一个或多个基因组坐标的核苷酸碱基检出或核苷酸片段读段的准确度、置信度或数量的度量或其他定量测量。特别地,质量度量包括指示一个或多个预测的核苷酸碱基检出不准确或核苷酸片段读段错误比对或低于量化阈值(例如,深度)的可能性的值。例如,在某些具体实施中,质量度量可包括检出数据质量度量、读段数据质量度量或映射质量度量,如下文进一步解释的。
此外,如本文所用,术语“读段数据质量度量”是指量化对应于核苷酸片段读段的质量和/或确定性的度量或其他测量。特别地,读段数据质量度量可包括反映跨多个读段(例如,所有读段重叠特定基因组坐标)或跨多个循环(例如,所有循环)在特定基因组坐标处不匹配示例性核酸序列(例如,参考基因组或推算的单倍型)的核苷酸碱基的总数的度量。另外,或在替代方案中,读段数据质量度量可包括反映样品核酸序列的读段位置度量的度量,例如通过确定覆盖基因组坐标的核苷酸碱基的测序读段内的平均或中值位置。
另外,如本文所用,术语“检出数据质量度量”是指量化核苷酸碱基检出的准确度或确定性的度量或其他测量。例如,检出数据质量度量可包括碱基检出质量度量、可检出性度量或体细胞质量度量。对于初始示例,术语“碱基检出质量度量”是指指示核苷酸碱基检出的准确度的特定分数或其他测量。具体地,碱基检出质量度量包括指示基因组坐标的一个或多个预测的核苷酸碱基检出包含误差的可能性的值。例如,在某些具体实施中,碱基检出质量度量可包括预测任何给定核苷酸碱基检出的误差概率的Q分数(例如,Phred质量分数)。为了说明,质量分数(或Q分数)可指示基因组坐标处的不正确核苷酸碱基检出的概率对于Q20分数等于1:100,对于Q30分数等于1:1,000,对于Q40分数等于1:10,000,等等。
此外,如本文所用,术语“可检出性度量”是指量化指示基因组坐标处的正确核苷酸碱基检出(例如,变体核苷酸碱基检出)的度量或其他测量。为了说明,可检出性度量可包括具有通过的基因型检出的非N参考位置的分数或百分比,如由Illumina,Inc.实施的。此外,在一些具体实施中,定制测序系统104使用基因组分析工具包(GATK)的版本来确定可检出性度量。
另外,如本文所用,术语“体细胞质量度量”是指估计确定肿瘤样品基因组中的异常核苷酸片段读段的数目的概率的度量或其他测量。例如,体细胞质量度量可以表示使用费希尔精确检验确定肿瘤样品基因组中异常读段的给定(或更极端)数目(即肿瘤和正常BAM文件中的异常读段和正常读段的给定计数)的概率的估计值。在一些情况下,定制测序系统104使用Phred算法来确定体细胞质量度量并且将体细胞质量度量表示为范围从0到60的Phred标度评分,诸如质量评分(或Q评分)。此类质量评分可以等于-10log10(变体概率是体细胞的)。
此外,如本文所用,术语“映射质量度量”是指量化核苷酸片段读段或其他样品核苷酸序列与参考基因组的比对的质量或确定性的度量或其他测量。特别地,术语映射质量度量可包括基因组坐标处的核苷酸碱基检出的映射质量(MAPQ)评分,其中MAPQ评分表示-10log10 Pr{映射位置错误},四舍五入至最接近的整数。在平均值或中值映射质量的替代方案中,在一些实施方案中,映射质量度量是指在基因组坐标处与参考基因组比对的所有核苷酸片段读段的映射质量的全分布。
如本文进一步所用,术语“深度度量”指量化与样品基因组或其他核酸序列的基因组坐标相对应或重叠的核苷酸片段读段的数目(或来自核苷酸片段读段的核苷酸碱基检出的数目)的度量。深度度量可以例如量化在测序期间已经在基因组坐标处确定和比对的核苷酸碱基检出的数目。在一些情况下,该定制测序系统使用归一化深度为1指二倍体并且归一化深度为0.5指单倍型的标度。另外,或在替代方案中,该定制测序系统可利用深度度量,该深度度量量化低于基因组坐标或基因组区域处的预期或阈值深度覆盖的核苷酸碱基检出的数目。
此外,如本文所用,术语“基因型变异性”是指特定基因组区域的核苷酸碱基的基因型的变异程度。特别地,基因型变异性可包括量化基因组区域和/或单倍型将与图参考基因组比对的可能性的度量或测量。另外,在一个或多个实施方案中,基因型变异性可反映特定基因组区域中相对于参考基因组的可能的核苷酸碱基(或核苷酸碱基序列)的数目或宽度。
以下段落就描绘示例性实施方案和具体实施的说明性附图来描述定制测序系统。例如,图1示出了根据一个或多个实施方案的定制测序104在其中操作的系统环境(或“环境”)100的示意图。如所示,环境100包括经由网络112连接到用户客户端设备108和测序设备114的一个或多个服务器设备102。虽然图1示出了定制测序系统104的实施方案,但本公开描述了以下另选的实施方案和配置。
如图1中所示,服务器设备102、用户客户端设备108和测序设备114经由网络112连接。因此,环境100的每个部件可经由网络112通信。网络112包括计算设备可在其上通信的任何合适的网络。下文就图11更详细地讨论示例性网络。
如图1所示,测序设备114包括用于对样品基因组或其他核酸聚合物进行测序的设备。在一些实施方案中,测序设备114分析从样品中提取的核酸片段或寡核苷酸以利用(本文所述的)计算机实现的方法和系统在测序设备114上直接或间接生成数据。更具体地,测序设备114在核苷酸样品载玻片(例如,流动池)内接收并且分析从样品中提取的核酸序列。在一个或多个实施方案中,测序设备114利用SBS对样品基因组或其他核酸聚合物进行测序。作为跨网络112进行通信的补充或替代,在一些实施方案中,测序设备114绕过网络112并且直接与用户客户端设备108通信。另外,如图1所示,在一个或多个实施方案中,测序设备114包括定制测序系统104。
如图1进一步所示,服务器设备102可生成、接收、分析、存储和传输电数字数据,例如用于核苷酸碱基检出或测序核酸聚合物的数据。如图1所示,测序设备114可以发送(并且服务器设备102可以接收)来自测序设备114的各种数据,包括表示核苷酸片段读段的数据。服务器设备102还可与用户客户端设备108通信。特别地,服务器设备102可以向用户客户端设备108发送核苷酸片段读段、直接核苷酸碱基检出、推算的核苷酸碱基检出和/或测序度量的数据。另外,如图1所示,服务器设备102可包括定制测序系统104。在一个或多个实施方案中,如下面进一步解释的,定制测序系统104生成针对样品基因组定制的图参考基因组106。因此,服务器设备102还可以向用户客户端设备108发送图参考基因组106。
在一些实施方案中,服务器设备102包括分布式服务器集合,其中服务器设备102包括跨网络112分布并且位于相同或不同物理位置的许多服务器设备。进一步地,服务器设备102可包括内容服务器、应用程序服务器、通信服务器、网络托管服务器或另一类型的服务器。
如图1中进一步所示和指示,用户客户端设备108可生成、存储、接收和发送数字数据。特别地,用户客户端设备108可以从服务器设备102和/或测序设备114接收核苷酸片段读段、直接核苷酸碱基检出、推算的核苷酸碱基检出、测序度量和/或图参考基因组的数据。用户客户端设备108可以因此在图形用户界面内向与用户客户端设备108相关联的用户呈现最终核苷酸片段读段。
图1中示出的用户客户端设备108可包括各种类型的客户端设备。例如,在一些实施方案中,用户客户端设备108包括非移动设备,诸如台式计算机或服务器,或其他类型的客户端设备。在又其他实施方案中,用户客户端设备108包括移动设备,诸如便携式电脑、平板电脑、移动电话或智能电话。下面参考图11讨论关于用户客户端设备108的附加细节。
如图1中进一步所示,用户客户端设备108包括测序应用程序110。测序应用程序110可以是在用户客户端设备108上存储和执行的网络应用程序或本机应用程序(例如,移动应用程序、桌面应用程序)。测序应用程序110可包括指令,这些指令(当被执行时)使得用户客户端设备108从定制测序系统104接收数据并从测序设备114和/或服务器设备102呈现数据。此外,测序应用程序110可以指示用户客户端设备108显示关于图参考基因组的核苷酸碱基检出的数据,例如来自变体检出文件的变体核苷酸碱基检出。
如图1中进一步所示,定制测序系统104可作为测序应用程序110的一部分位于用户客户端设备108上或位于测序设备114上。因此,在一些实施方案中,定制测序系统104通过(例如,完全或部分地位于)在用户客户端设备108上实施。如所提及的,在其他实施方案中,定制测序系统104由环境100的一个或多个其他部件(例如测序设备114)实施。具体地,定制测序系统104可以多种不同的方式跨服务器设备102、网络112、用户客户端设备108和测序设备114实施。
尽管图1示出了经由网络112进行通信的环境100的部件,但是在某些具体实施中,环境100的部件还可以绕过该网络直接与彼此通信。例如,并且如前所述,在一些实施方式中,用户客户端设备108直接与测序设备114通信。另外,在一些实施方案中,用户客户端设备108直接与定制测序系统104通信。此外,定制测序系统104可以访问容纳在服务器设备102或环境100中的其他地方上或由其访问的一个或多个数据库。
如上所述,定制测序系统104可以生成针对样品基因组(或一组样品基因组)定制的图参考基因组,并且使用图参考基因组来确定样品基因组的核苷酸碱基检出。图2A示出了用于生成和利用此类定制的图参考基因组的过程200的概述。如图2A所示,定制测序系统104确定在样品基因组中围绕特定基因组区域的变体核苷酸碱基检出。定制测序系统104随后利用变体核苷酸碱基检出来推算对应于基因组区域的单倍型。定制测序系统104还生成定制的图参考基因组,其包括表示推算的单倍型的路径。在一些实施方案中,定制测序系统104然后通过将基因组区域的核苷酸片段读段与图参考基因组内的路径进行比较来确定样品基因组的核苷酸碱基检出。
如上所述以及如图2A所示,定制测序系统104可以执行确定围绕基因组区域的变体核苷酸碱基检出的动作202。为了鉴定此类基因组区域,在一些情况下,定制测序系统104测序或接收表示样品基因组的核苷酸片段读段的数据(例如,来自一个或多个测序循环)。定制测序系统104还基于核苷酸片段读段与参考基因组(例如,线性参考基因组)的比较来确定变体核苷酸碱基检出(或其他核苷酸碱基检出)和测序度量。确定了核苷酸碱基检出后,定制测序系统104鉴定具有表现出低于对应质量阈值的测序度量的核苷酸碱基检出的目标基因组区域。
在鉴定目标基因组区域后,定制测序系统104可鉴定围绕基因组区域的变体核苷酸碱基检出。为了说明,在一个或多个实施方案中,定制测序系统104在来自基因组区域的预定数目的碱基对内搜索变体核苷酸碱基检出。具体地,在一个或多个实施方案中,定制测序系统104在基因组区域内的阈值数目的碱基对(例如,来自基因组区域的10,000至50,000个碱基对)内鉴定SNP或其他变体核苷酸碱基检出。如上所述,此类已鉴定的SNP(或其他变体核苷酸碱基检出)可以是定制测序系统104将其推算为存在于目标基因组区域的单倍型的一部分。在SNP的替代方案中,在一些情况下,定制测序系统104鉴定围绕基因组区域的其他变体类型,例如插入、缺失或倒位。
如图2A中进一步所示,定制测序系统104可以执行基于变体核苷酸碱基检出来推算基因组区域的单倍型的动作204。为了说明,在确定围绕基因组区域的变体核苷酸碱基检出后,定制测序系统104可以从单倍型数据库206推算基因组区域的单倍型。在一个或多个实施方案中,单倍型数据库206包括表示单倍型的核苷酸碱基序列的数据和对应于单倍型的其他数据,例如单倍型的对应基因组坐标、单倍型常见的周围变体核苷酸碱基检出和/或与单倍型相关联的群体。
在一个或多个实施方案中,定制测序系统104通过以统计学概率度统计地推断可能存在于基因组区域的单倍型来推算基因组区域的单倍型。更具体地,在一些实施方案中,定制测序系统104通过将围绕基因组区域的变体核苷酸碱基检出与和特定单倍型相关联的常见变体核苷酸碱基检出进行比较来推算单倍型。定制测序系统104可将围绕基因组区域的SNP与单倍型数据库206内与单倍型相关联的SNP进行比较。为了说明,定制测序系统104可以确定基因组区域与单倍型数据库206中的单倍型之间共有的SNP。因此,在一个或多个实施方案中,定制测序系统104利用统计推断和共有的变体核苷酸碱基检出(例如,SNP)的量来从单倍型数据库206鉴定可能存在于基因组区域的单倍型。
在一个或多个实施方案中,定制测序系统104利用基因组区域的推算的单倍型来生成定制的图参考基因组。为了说明,如图2A所示,定制测序系统104可以执行基于变体核苷酸碱基检出生成包括基因组区域的推算的单倍型的路径的图参考基因组的动作208。更具体地,定制测序系统104可以添加或生成表示对应于基因组区域的推算的单倍型的路径,用于包含在图参考基因组中。实际上,定制测序系统104可以为图参考基因组中的多个目标基因组区域添加此类路径。
在一个或多个实施方案中,定制测序系统104通过利用隐马尔可夫模型鉴定相关基因型来推算单倍型。为了说明,在一些实施方案中,隐马尔可夫模型通过确定单倍型对应于基因组区域的可能性来鉴定单倍型。更具体地,定制测序系统104可以利用隐马尔可夫模型(HMM),其利用单倍型数据库和单倍型模式(例如,周围的变体核苷酸碱基检出)来鉴定对应于基因组区域的可能的单倍型。
当实施HMM推算时,例如,定制测序系统104可以利用基于Na Li和MatthewStephens在“Modeling Linkage Disequilibrium and Identifying RecombinationHotspots Using Single-Nucleotide Polymorphism Data,”165Genetics 2213-2233(2003)中描述的方法的推算模型,其据此全文以引用方式并入。为了说明,在一些情况下,定制测序系统104将目标基因组区域或坐标处的样品基因组的基因型建模为来自参考组的单倍型的嵌合体。定制测序系统104还基于所确定的围绕或侧接目标基因组区域或坐标的变体核苷酸碱基检出(例如,SNP)来确定样品基因组在目标基因组区域或坐标处包括一对单倍型的概率。在一些此类情况下,定制测序系统104通过基于观察到的变体核苷酸碱基检出和在附近基因组区域或坐标处推断的单倍型的相似性确定单倍型存在于目标基因组区域或坐标处的概率来说明(i)目标基因组区域或坐标与(ii)附近基因组区域或坐标之间的潜在联系。确定了单倍型对的概率后,在一些情况下,定制测序系统104选择表现出最高概率和/或高于阈值概率的单倍型作为目标基因组区域或坐标的所推算的单倍型。本公开在下文中参考图3A和图3B提供了单倍型推算的进一步示例和描述。
如上所述,定制测序系统104可以利用定制的图参考基因组来确定基因组区域的核苷酸碱基检出。为了说明,如图2A所示,定制测序系统104部分地通过将样品基因组的核苷酸片段读段与表示图参考基因组内的推算的单倍型的路径进行比较来执行确定基因组区域的核苷酸碱基检出的动作210。如上所述,定制测序系统104同样可以通过将样品基因组的核苷酸片段读段与表示推算的单倍型的路径或图参考基因组内的线性参考基因组的部分进行比较来确定样品基因组内的其他基因组区域的核苷酸碱基检出。
如上所述,在一个或多个实施方案中,定制测序系统104将核苷酸片段读段与线性参考基因组或表示推算的单倍型的路径进行比对,以确定直接变体核苷酸碱基检出或直接不变核苷酸碱基检出。为了说明,定制测序系统104可以将核苷酸片段读段与匹配来自图参考基因组的参考碱基的核苷酸碱基检出进行比对。更具体地,在一个或多个实施方案中,定制测序系统104基于在对应于核苷酸碱基检出的基因组坐标或区域处与参考基因组直接比对的核苷酸片段读段来确定直接不变核苷酸碱基检出。因为定制测序系统104利用统计推断来确定包括在图参考基因组中的不同的可能单倍型路径,所以定制测序系统104可以更准确地确定低置信度检出区域、具有很少至没有核苷酸片段读段覆盖的基因组区域或样品内的其他基因组区域的变体核苷酸碱基检出(或其他核苷酸碱基检出)。
除了基于比对的核苷酸片段读段更准确地确定直接核苷酸碱基检出之外,定制测序系统104还可以确定并考虑推算的核苷酸碱基检出。为了说明,定制测序系统104可以基于间接证据(例如在目标基因组区域周围或侧面的变体核苷酸碱基检出、群体单倍型和/或变体频率)确定核苷酸碱基检出。图2B示出了定制测序系统104的概述220,该定制测序系统基于相对于参考基因组的直接核苷酸碱基检出、对应于直接核苷酸碱基检出的测序度量以及样品基因组的某些基因组区域的推算的核苷酸碱基检出来确定样品基因组的基因组坐标的最终核苷酸碱基检出。
如图2B所示,例如,定制测序系统104执行确定直接核苷酸碱基检出和测序度量的动作222。在一些实施方案中,定制测序系统104接收或确定对应于样品基因组的核苷酸片段读段。例如,在一些情况下,定制测序系统104在测序设备114上执行SBS以确定对应于核苷酸样品玻片(例如,流动池)中的簇的核苷酸片段读段的核苷酸碱基检出。另选地,定制测序系统104从测序设备接收表示样品基因组的此类核苷酸片段读段的核苷酸碱基检出的数据。
不管定制测序系统104如何接收核苷酸片段读段的数据,在一个或多个实施方案中,定制测序系统104通过将核苷酸片段读段与参考基因组进行比对来确定样品基因组的基因组坐标或区域的直接核苷酸碱基检出。为了说明,在一些实施方案中,定制测序系统104将基因组序列的核苷酸片段读段映射到参考基因组,并且应用概率模型(例如,贝叶斯概率模型)来确定样品基因组的基因组坐标的直接核苷酸碱基检出(例如,变体核苷酸碱基检出)。如下面进一步解释的,定制测序系统104可以随后使用变体核苷酸碱基检出作为用于推算周围基因组区域的单倍型的基础或作为用于确定最终核苷酸碱基检出的基础。
除了确定直接核苷酸碱基检出之外,定制测序系统104还可以接收或确定对应于直接核苷酸碱基检出的测序度量。此类测序度量可以指示对应于核苷酸片段读段的各种准确度和/或确定性度量(例如,深度度量、读段数据质量度量、映射数据质量度量)。另外,此类测序度量可以指示直接核苷酸碱基检出的确定性或质量(例如,检出数据质量度量、碱基质量下降(BQD)评分)。
如图2B中进一步所示,在一个或多个实施方案中,动作222包括利用线性参考基因组的动作224或利用图参考基因组的动作226来确定直接核苷酸碱基检出。如所提及的,在一些实施方案中,定制测序系统104接收或确定对应于样品基因组的核苷酸片段读段。因此,定制测序系统104可以将核苷酸片段读段与线性参考基因组或图参考基因组进行比对以确定直接核苷酸碱基检出。
除了确定直接变体核苷酸碱基检出(或其他核苷酸碱基检出)之外,在一个或多个实施方案中,定制测序系统104确定推算的核苷酸碱基检出。为了说明,如图2B所示,在一个或多个实施方案中,定制测序系统104执行推算对应于基因组区域的单倍型的动作228。如以上关于图2A所讨论的,定制测序系统104可以基于围绕或侧接基因组区域的变体核苷酸碱基检出来推算对应于基因组区域的基因组坐标的单倍型。
在一个或多个实施方案中,定制测序系统104还利用其他因素来推算单倍型,包括利用变体频率。在一些实施方案中,变体频率表示特定单倍型将在目标基因组坐标或区域出现的可能性。如上文进一步所述,在一些实施方案中,定制测序系统104基于“局部”变体核苷酸碱基检出数据来推算基因组区域的最可能的单倍型,该“局部”变体核苷酸碱基检出数据表示哪些基因组变体对于对应于样品基因组的特定群体和/或种族是共同的。定制测序系统104可以基于在目标基因组区域的阈值碱基对距离内的SNP或其他变体核苷酸碱基检出来过滤或缩小基因组区域的最可能的单倍型。
为了进一步说明,在一个或多个实施方案中,定制测序系统104利用群体单倍型频率来推算对于对应于样品基因组的群体更可能(或更常见)的单倍型。因此,定制测序系统104可以利用表示单倍型发生的可能性的各种频率和/或群体数据来确定推算的单倍型。
如图2B中进一步所示,定制测序系统104执行确定推算的核苷酸碱基检出的动作230。在一个或多个实施方案中,定制测序系统104通过从基因组区域的最可能的单倍型鉴定基因组区域内的每个基因组坐标的核苷酸碱基检出来确定推算的核苷酸碱基检出。在一些情况下,例如,定制测序系统104对基因组区域的推算的单倍型进行排序,并且选择最高排序的推算的单倍型,从中鉴定推算的核苷酸碱基检出。
另外,如图2B所示,定制测序系统104可以任选地执行确定直接核苷酸碱基检出的动作232,其中动作232包括利用定制的图参考基因组的动作234。如以上关于图2A所讨论的,定制测序系统104可以生成并利用定制的图参考基因组。在一些实施方案中,定制测序系统104将核苷酸片段读段与定制的图参考基因组进行比对以确定直接碱基检出。为了说明,定制测序系统104将核苷酸片段读段与定制图参考内的线性图基因组或定制图参考基因组内的推算的单倍型路径进行比对,以确定直接核苷酸碱基检出。在此类实施方案中,定制测序系统104使用在动作232中确定的直接核苷酸碱基检出与定制的图参考基因组--而不是在动作222中确定的直接核苷酸碱基检出--作为确定最终核苷酸碱基检出的基础。
如图2B中进一步所示,定制测序系统104还执行基于推算的核苷酸碱基检出、直接核苷酸碱基检出和测序度量来确定最终核苷酸碱基检出的动作236。在一个或多个实施方案中,定制测序系统104利用测序度量来从直接核苷酸碱基检出或推算的核苷酸碱基检出中选择特定基因组坐标的最终核苷酸碱基检出。尽管推算的核苷酸碱基检出可限于某些目标基因组区域,但在一些情况下,定制测序系统104可从直接核苷酸碱基检出或推算的核苷酸碱基检出选择样品基因组内的每个基因组坐标的最终核苷酸碱基检出。
如上所述,在一些实施方案中,定制测序系统104利用加权模型来确定最终核苷酸碱基检出。为了说明,在一个或多个实施方案中,定制测序系统104基于反映直接核苷酸碱基检出和/或核苷酸碱基检出所基于的核苷酸片段读段的质量的测序度量对直接核苷酸碱基检出进行加权。此外,在一些实施方案中,定制测序系统104基于用于确定推算的核苷酸碱基检出的单倍型的变异性和/或频率对推算的核苷酸碱基检出进行加权。
作为加权模型的补充或替代,在一些实施方案中,定制测序系统104利用机器学习模型来确定最终核苷酸碱基检出。如下文进一步描述的,在一些实施方案中,定制测序系统104利用碱基检出机器学习模型基于直接核苷酸碱基检出、测序度量和推算的核苷酸碱基检出来确定核苷酸碱基检出。定制测序系统104可以训练碱基检出机器学习模型,以通过选择基因组坐标的直接核苷酸碱基检出或推断的核苷酸碱基检出来预测最终核苷酸碱基检出。
如上所述,在一个或多个实施方案中,定制测序系统104推断样品基因组的基因组区域的单倍型。图3A至图3B示出了定制测序系统104确定是否推算基因组区域的单倍型以及(在一些情况下)相对于线性参考基因组推算目标基因组区域的单倍型。更具体地,图3A示出了定制测序系统104基于围绕目标基因组区域的核苷酸片段读段和对应的变体核苷酸碱基检出的深度不足来确定不推算单倍型。相比之下,图3A还示出了定制测序系统104基于围绕目标基因组区域的变体核苷酸碱基检出(来源于核苷酸片段读段)来确定推算目标区域的单倍型。
如图3A所示,定制测序系统104利用测序设备确定样品基因组的核苷酸片段读段或接收表示样品基因组的核苷酸片段读段的数据。定制测序系统104进一步将核苷酸片段读段与线性图参考基因组进行比对。因此,图3A示出了与线性图参考基因组比对的样品基因组的核苷酸片段读段的低深度区域可视化300。类似地,图3A示出了与线性图参考基因组比对的相同(或不同)样品基因组的核苷酸片段读段的高深度区域可视化308。
如图3A所示,低深度区域可视化300包括低置信度检出区域302和基因组区域306。相比之下,高深度区域可视化308包括低置信度检出区域310和基因组区域312。为了说明的目的,低深度区域可视化300和高深度区域可视化308描绘了样品基因组的相对于线性参考基因组的部分的样品基因组区域(但不是所有基因组区域)。
如图3A进一步所示,定制测序系统104确定对应于核苷酸片段读段的核苷酸碱基检出的深度度量和其他测序度量,这些核苷酸碱基检出已经在测序期间确定并且在线性参考基因组的基因组坐标处进行比对。定制测序系统104可利用多种标度和类型来确定深度度量。在一些实施方案中,例如,定制测序系统104通过量化与每个基因组坐标重叠或对应的核苷酸片段读段的数目来确定深度度量。如图3A所示,例如,定制测序系统104确定(i)低深度区域可视化300内的基因组坐标具有每基因组坐标1x至15x的深度,以及(ii)高深度区域可视化308内的基因组坐标具有每基因组坐标30x(或更多)的深度。此外,低深度区域可视化300包括较短的核苷酸片段读段。
基于所确定的深度度量、其他测序度量或下面解释的其他因素,定制测序系统104可以将来自样品基因组的低置信度检出区域或其他基因组区域鉴定为推算的目标基因组区域。为了说明,在某些实施方案中,定制测序系统104鉴定对应于具有未能满足质量阈值的映射质量度量的核苷酸片段读段的低置信度检出区域。例如,定制测序系统104可将具有MAPQ评分低于阈值MAPQ的核苷酸片段读段的基因组区域鉴定为低置信度检出区域,例如通过基于MAPQ评分的分布鉴定具有MAPQ评分低于相对阈值的基因组区域。
附加地或另选地,在一个或多个实施方案中,定制测序系统104鉴定对应于具有不满足阈值检出数据质量度量的检出数据质量度量的核苷酸碱基检出的低置信度检出区域。例如,定制测序系统104可鉴定具有碱基检出质量度量低于阈值碱基检出质量度量(例如,Q20、Q30)的核苷酸碱基检出的基因组区域。类似地,定制测序系统104可鉴定具有可检出性度量或体细胞质量度量分别低于阈值可检出性度量或阈值体细胞质量度量的核苷酸碱基检出的基因组区域。
作为映射质量度量或检出数据质量度量的补充或替代,在一些情况下,当覆盖或重叠基因组区域的核苷酸片段读段表现出未能满足阈值深度度量的深度度量时,定制测序系统104将基因组区域鉴定为低置信度检出区域。例如,当覆盖基因组区域或与基因组区域重叠的核苷酸片段读段具有低于平均20个或30个核苷酸片段读段深度的深度度量时,定制测序系统104可将基因组区域鉴定为低置信度检出区域。
如上所述,定制测序系统104还可以基于质量度量的组合将基因组区域鉴定为低置信度检出区域。例如,当对应核苷酸片段读段或核苷酸碱基检出的部分、百分比或范围下降到满足阈值质量度量的阈值分数(例如,2/3)或来自阈值质量度量集合的每个阈值质量度量(例如,阈值映射质量度量、阈值检出数据质量度量、阈值深度度量)时,定制测序系统104将基因组区域鉴定为低置信度检出区域。例如,基于上述质量度量和对应阈值质量度量中的一个或多个质量度量,定制测序系统104鉴定低深度区域可视化300中所示的低置信度检出区域302和高深度区域可视化308中所示的低置信度检出区域310。
除了低置信度检出区域之外,在一些实施方案中,定制测序系统104鉴定用于推算或用于鉴定替代单倍型的其他目标基因组区域。例如,在一些情况下,定制测序系统104有时鉴定(作为目标基因组区域)测序仪或测序管道历史上生成的测序度量不满足阈值质量度量或者历史上鉴定的替代单倍型高于阈值百分比(例如,20%或30%的样品基因组展示出替代单倍型)的基因组区域。作为另一示例,定制测序系统104有时从特定种族或地理区域的样品基因组鉴定(作为目标基因组区域)基因组区域,这些基因组区域在历史上生成不满足阈值质量度量的测序度量或在历史上鉴定高于阈值百分比的替代单倍型。
基于上述历史因素中的一个或多个历史因素,例如,定制测序系统104鉴定(作为目标基因组区域)低深度区域可视化300中所示的基因组区域304和高深度区域可视化308中所示的基因组区域312。为了说明,在一个或多个实施方案中,定制测序系统104利用对应于特定地理区域、单倍型组、种族等的历史测序数据。因此,定制测序系统104可以鉴定低置信度检出区域,对于该低置信度检出区域,测序仪已经生成具有低于质量度量阈值、映射质量阈值或其他对应质量阈值的测序度量的核苷酸碱基检出。因此,在一个或多个实施方案中,定制测序系统104包括定制的图基因组中的一个或多个路径,其表示历史上低置信度检出区域的推算的单倍型——即使当前基因组样品在此类基因组区域中不表现出低质量。
然而,由于深度度量的差异,低深度区域可视化300和高深度区域可视化308包括定制测序系统104在一些情况下可以推算单倍型但在其他情况下不能推算单倍型的基因组区域。例如,样品基因组的低深度区域可视化300表现出对应于变体核苷酸变体检出的核苷酸片段读段的深度不足以执行单倍型推算。特别地,对应于(或覆盖)围绕低置信度检出区域302的核苷酸变体检出301a、301b和301c的核苷酸片段读段以及对应于(或覆盖)围绕基因组区域304的核苷酸变体检出301c和301d的核苷酸片段读段深度不足。换句话说,低深度区域可视化300在围绕低置信度检出区域302或基因组区域304的SNP或其他变体核苷酸碱基检出处缺乏足够的深度(例如,30x以上)来推算单倍型。
相比之下,样品基因组的高深度区域可视化308表现出对应于变体核苷酸变体检出的核苷酸片段读段的足够深度来推算低置信度检出区域310的单倍型。特别地,对应于(或覆盖)围绕低置信度检出区域310的核苷酸变体检出301e、301f和301g的核苷酸片段读段以及对应于(或覆盖)围绕基因组区域312的核苷酸变体检出301g和301h的核苷酸片段读段表现出足够的深度。换句话说,高深度区域可视化308在围绕低置信度检出区域310和基因组区域312的SNP或其他变体核苷酸碱基检出处表现出足够的深度(例如,30x以上)来推算单倍型。
为了说明,在一个或多个实施方案中,定制测序系统104将核苷酸片段读段与线性参考基因组进行比对以确定变体核苷酸碱基检出作为来自单倍型数据库的一组可能的单倍型的基础。在一个或多个实施方案中,基于比对的核苷酸片段读段,定制测序系统104以30x读段覆盖或通过利用序列数据的初始读段从样品基因组确定SNP。作为使用初始读段的示例,2x150碱基对测序运行的第一个或初始五十个碱基对将等于正常35x全基因组测序运行的约6x读段覆盖。一旦已经确定了这种测序运行的第一个或初始的五十个碱基对,在一些实施方案中,定制测序系统104可以推算目标基因组区域的单倍型,并且因此生成针对特定样品基因组定制的图参考基因组。利用如上所述的这种覆盖,定制测序系统104可以执行低至大约1x读段深度的低通推算来推算单倍型。因此,在一些实施方案中,定制测序系统104可以利用初始读段来进行低通单倍型推算。
在将低置信度检出区域310和基因组区域312鉴定为目标基因组区域并且确定对应的深度度量足以用于推算之后,定制测序系统104可以利用单倍型数据库314来执行推算单倍型的动作316。在一些实施方案中,定制测序系统104利用单倍型数据库314来推算低置信度检出区域310而非基因组区域312的单倍型。相比之下,在一些实施方案中,定制测序系统104利用单倍型数据库314来确定低置信度检出区域310和基因组区域312两者的单倍型。
在一个或多个实施方案中,单倍型数据库314包括多种单倍型和相关联的数据。为了说明,单倍型数据库314包括单倍型基因组序列和对应的基因组坐标。此外,在一些实施方案中,单倍型数据库314还包括对应于单倍型序列的元数据,例如单倍型共有的周围变体核苷酸碱基检出、与单倍型相关联的群体或种族和/或涉及单倍型的其他数据。
如所提及的,在一个或多个实施方案中,定制测序系统104利用单倍型数据库314来推算单倍型。更具体地,定制测序系统104可以通过从单倍型数据库314鉴定具有存在于基因组区域的足够可能性的单倍型来推算基因组区域的单倍型。为了说明,定制测序系统104可以将围绕低置信度检出区域310的变体核苷酸碱基检出与关联于单倍型数据库314内的单倍型的变体核苷酸碱基检出进行比较。为了说明,定制测序系统104可以确定低置信度检出区域310和单倍型数据库314中的单倍型之间共有的SNP。基于低置信度检出区域310和候选单倍型之间共有的SNP(或其他变体核苷酸碱基检出),定制测序系统104统计地推断哪些单倍型更可能存在于低置信度检出区域310内。
例如,在一些实施方案中,定制测序系统104应用隐马尔可夫模型(HMM)来推算低置信度检出区域310的单倍型。为了说明,在一些实施方案中,定制测序系统104可以利用隐马尔可夫模型从单倍型数据库314鉴定推算的单倍型。更具体地,定制测序系统104可以利用隐马尔可夫模型来比较对应于基因组区域的单倍型模式(例如,周围的变体核苷酸碱基检出)和单倍型数据库314中的单倍型,以鉴定对应于基因组区域的可能的单倍型。在一些实施方案中,例如,定制测序系统104使用隐马尔可夫模型来推算单倍型,如由GeneticVariants Predictive of Cancer Risk,WO 2013/035/114A1(2013年3月14日公开)或由A.Kong等人,Detection of Sharing by Descent,Long-Range Phasing and HaplotypeImputation,Nat.Genet.40,1068-75(2008)所述,这些文献的公开内容全文以引用方式并入本文。附加地或另选地,定制测序系统104使用隐马尔可夫模型来使用可获得的软件(例如fastPHASE、BEAGLE、MACH或IMPUTE)来推算单倍型。
如图3A所示,除了推算单倍型之外,定制测序系统104还执行鉴定另外的单倍型的动作318。更具体地,在一些实施方案中,定制测序系统104从单倍型数据库314鉴定基因组区域312中基因组区域312处的等位基因的替代单倍型。例如,在一个或多个实施方案中,系统鉴定基因组区域312的高度常见的单倍型以包含在图参考基因组中。在一些实施方案中,定制测序系统104针对对应于样品基因组的一个或多个种族和/或地理区域鉴定高于指定阈值(例如,20%或30%)存在的单倍型。
如上所述,定制测序系统104可以推算多种基因组区域的单倍型。例如,定制测序系统104可以推算基因组区域的单倍型,包括(全部或部分)VNTR、结构变体、插入、缺失或倒位。因此,目标基因组区域可包括对应于或表示VNTR、结构变体、插入、缺失或倒位的一组核苷酸碱基(或一组缺失的核苷酸碱基)中的一些或全部核苷酸碱基。图3B示出了定制测序系统104推算单倍型的低置信度检出区域的示例。更具体地,图3B示出了样品基因组321的一部分的参考数据和测序度量。特别地,图3B示出了来自线性参考基因组的对应于样品基因组321的部分的基因组坐标标记322和来自线性参考基因组的对应于样品基因组321的部分的基因编码区域324。如基因组坐标标记322所示,样品基因组321的部分是20千碱基长,基因组坐标范围从大约千碱基155,180到千碱基155,200。在该范围内,参考基因组包括TRIM46的基因326a、MUC1的基因326b、MIR92B的基因326c和THBS3的基因326d。
除了参考数据之外,图3B还示出了用于碱基检出质量度量的碱基检出质量图形328和用于对应于样品基因组321的部分的映射质量度量的映射质量图形332。为了说明,碱基检出质量图形328指示满足阈值度量(例如,Q30或Q37)的样品基因组321的部分内的核苷酸碱基检出的分数或百分比,其中暗条的长度指示具有未能满足阈值度量的碱基检出质量度量的核苷酸碱基检出的较大分数或百分比。除了碱基检出质量图形328之外,图3B还示出了映射质量图形332。映射质量图形332指示对应于满足阈值度量(例如,相对MAPQ评分或MAPQ 40)的样品基因组321的部分的核苷酸片段读段的分数或百分比,其中暗条的长度指示映射质量度量未能满足阈值度量的核苷酸片段读段的较大分数或百分比。
如上所述,在一些实施方案中,定制测序系统104可以利用碱基检出质量度量和/或映射质量度量来鉴定对应于一个或多个不良质量度量的低置信度检出区域。如图3B所示,例如,定制测序系统104鉴定对应于碱基检出质量度量和映射质量度量两者的较低质量度量的低置信度检出区域330。具体地,低置信度检出区域330包括(全部或部分)MUC1的基因326b内的VNTR。
如上所述,定制测序系统104可以利用单倍型数据库314来执行推算低置信度检出区域330的单倍型的动作316。为了说明,定制测序系统104可以通过从单倍型数据库314确定可能存在于低置信度检出区域330处的单倍型来推算低置信度检出区域330的单倍型。如上所述,在一些实施方案中,定制测序系统104可以确定围绕低置信度检出区域330和单倍型数据库314中对应于低置信度检出区域330(或在其基因组坐标内)的单倍型两者的SNP(或其他变体核苷酸碱基检出)。例如,基于在低置信度检出区域330的碱基对的阈值数目内并且与来自单倍型数据库314的单倍型匹配的SNP,定制测序系统104推算低置信度检出区域330的单倍型。
如上所述,定制测序系统104可以通过使用目标基因组区域的推算的单倍型来生成特定样品基因组的定制的图参考基因组。图4A示出了生成特定样品基因组的这种定制图参考基因组的定制测序系统104的概述。更具体地,图4A示出了生成图参考基因组402的定制测序系统104,该图参考基因组包括线性参考基因组400和表示对应于样品基因组的各种基因组区域的推算的单倍型的路径404a-404d。
如上所述,图参考基因组402包括线性参考基因组400。因此,定制测序系统104使用线性参考基因组400作为向后兼容的基线来生成图参考基因组402。换句话说,定制测序系统104可以在确定最终核苷酸碱基检出之前将来自样品基因组的核苷酸片段读段与线性参考基因组400的任何部分进行比对。
除了线性参考基因组400之外,图参考基因组402包括表示对应于基因组区域的单倍型的路径404a-404d。因此,路径404a-404d表示与线性参考基因组400中已经存在的特定基因组区域的单倍型不同的推算的单倍型。为了说明,路径404a表示相对于线性参考基因组400的缺失,路径404b包括不同于线性参考基因组400的参考碱基的单核苷酸变体,路径404c包括来自线性参考基因组400的核苷酸子序列的复制(或复制的插入),并且路径404d包括来自线性参考基因组400的核苷酸子序列的倒位。路径404a-404d中的每一者因此表示基因组区域的推算的单倍型,其不同于已经存在于线性参考基因组400内的单倍型。
如图4A所示,路径404a-404d是以举例的方式描绘的,并且定制测序系统104可以从各种推算的单倍型确定各种路径。尽管未在图4A中描述,但定制测序系统104可包括表示图参考基因组内的单个基因组区域的不同的推算单倍型的路径。例如,定制测序系统104可包括基因组区域的两个或三个最可能的替代单倍型。为了说明,定制测序系统104确定第一单倍型和第二单倍型各自存在于30%的样品基因组中,其具有在样品基因组中观察到的相同的周围变体核苷酸碱基检出。定制测序系统104可包括图参考基因组中的路径,这些路径基于根据变体核苷酸碱基检出的第一单倍型和第二单倍型各自的概率来表示第一单倍型和第二单倍型。
如上所述,定制测序系统104可以将来自样品基因组的核苷酸片段读段与图参考基因组402进行比对以确定基因组区域的最终核苷酸碱基检出。因为图参考基因组402包括线性参考基因组和基于推算的单倍型的路径404a-404d两者,所以定制测序系统104可以将核苷酸片段读段与线性参考基因组400和路径404a-404d中的任一者或两者进行比对。
图4B示出了定制测序系统104,其将来自样品基因组的核苷酸片段读段与图参考基因组402沿着包括表示推算的单倍型的路径的几个基因组区域进行比对。如图4B所示,定制测序系统104部分地通过将来自核苷酸片段读段406a和406b的变体与对应于推算的单倍型的路径404a-404d进行比对来将核苷酸片段读段406a和406b与图参考基因组402进行比对。
如图4B所示,样品基因组在一些基因组区域是杂合的。如核苷酸片段读段406a的比对所指示的,样品基因组包括与路径404a和404c比对但不与路径404b比对的等位基因。相比之下并且如核苷酸片段读段406b的比对所指示的,样品基因组包括与路径404b和404d比对但不与路径404a和404c比对的等位基因。因为图参考基因组402包括线性参考基因组400和路径404a-404d两者,所以定制测序系统104将来自核苷酸片段读段406a和406b的每个读段与图参考基因组402成功地比对。
因为样品基因组在图4B中描绘的基因组坐标或区域处包括不同的等位基因,所以定制测序系统104将可能将核苷酸片段读段406a或406b中的一者或多者与线性参考基因组400自身错误比对或以较低的准确度比对。因此,定制测序系统104通过利用包括表示样品基因组的特定基因组区域的推算的单倍型的路径404a-404d的图参考基因组402来改进比对。因为图参考基因组402包括比其他排除的单倍型更可能在低置信度检出区域(或在其他基因组区域)存在于样品基因组中的推算的单倍型,所以定制测序系统104增加了相对于常规线性参考基因组的准确比对的概率。
部分地由于这种改进的比对,定制测序系统104同样可以改进相对于图参考基因组402确定变体核苷酸碱基检出(或其他最终核苷酸碱基检出)的置信度。在将核苷酸片段读段406a和406b与图参考基因组402更好地比对后,定制测序系统104更有可能准确地确定样品基因组是否包括改变或匹配线性参考基因组400或由路径404a-404d表示的推算的单倍型的参考碱基的核苷酸碱基。
在一些实施方案中,作为改进比对和碱基检出准确度的一部分,定制测序系统104使用包括来自不同样本量的单倍型组的单倍型数据库。根据一个或多个实施方案,图5示出了具有限定非参考一致性率的曲线下面积(AUC)的接受者操作特征(ROC)曲线的图500,在该非参考一致性率下,测序系统基于不同样本量的参考组准确地推算不同等位基因频率的SNP。如图5所示,ROC曲线显示随着单倍型数据库中参考组的样本量增加,定制测序系统104更准确地推算SNP。
例如,为了测试不同参考组的推算准确度,研究人员从表示由测序仪测序的样品的数据中去除了大约20%的SNP。定制测序系统104随后基于不同样本量的参考组来推算来自样品的SNP的单倍型。如图5所示,第一参考组502a包括来自100个样品的约200个单倍型,第二参考组502b包括来自500个样品的约1,000个单倍型,第三参考组502c包括来自1,000个样品的约2,000个单倍型,并且第四参考组502d包括来自2,503个样品的约5,006个单倍型。
如图500所示,使用具有100个样品的第一参考组502a的定制测序系统104的ROC曲线指示用于跨SNP的等位基因频率推算去除的SNP的最低非参考一致性率。相比之下,使用具有2,503个样品的第四参考组502d的定制测序系统104的ROC曲线指示用于跨SNP的等位基因频率推算去除的SNP的最高非参考一致性率。然而,不管ROC曲线如何,在刚好高于0.10的等位基因频率下,在稳定在最大一致性之前,非参考一致性率随等位基因频率增加。因此,在一些实施方案中,定制测序系统104使用具有2,503个或更多个样品的参考组的单倍型数据库来提高推算的单倍型的准确度。
除了使用具有相对高样本量或任何样本量的参考组的单倍型数据库之外,如上所述,随着核苷酸片段读段的深度对于具有围绕目标基因组区域的SNP的基因组坐标增加,定制测序系统104增加了推算基因组区域的单倍型的准确度。例如,在一些实施方案中,定制测序系统104使用基于具有30X深度的核苷酸片段读段的SNP来推算单倍型。即使使用相同的参考组,与低通全基因组测序(lpWGS)相比,来自具有30X深度的核苷酸片段读段的SNP提供的全基因组SBS的变体信息大约是其三倍。
如上所述,在一个或多个实施方案中,定制测序系统104基于直接核苷酸碱基检出、测序度量和间接核苷酸碱基检出来确定样品基因组的最终核苷酸碱基检出。图6示出了定制测序系统104的示例,其在加权模型中对直接核苷酸碱基检出和推算的核苷酸碱基检出进行加权,以确定相对于参考基因组的最终核苷酸碱基检出。另外,如以下将关于图7A至图7B所讨论的,定制测序系统104可以利用机器学习模型来确定此类最终核苷酸碱基检出。
如图6所示,定制测序系统104可以执行将核苷酸片段读段与参考基因组比对的动作608。如以上关于图4A至图4B所讨论的,定制测序系统104可以将从样品基因组测序的核苷酸片段读段与线性参考基因组或图参考基因组进行比对。
如上所述,定制测序系统104将每个核苷酸片段读段与参考基因组进行比对,以确定相对于包括变体核苷酸碱基检出的参考基因组的直接核苷酸碱基检出602。为了说明,定制测序系统104基于核苷酸片段读段和与线性参考基因组或图参考基因组的比对来确定直接核苷酸碱基检出602。因此,定制测序系统104基于来自样品基因组的“直接”证据确定直接核苷酸碱基检出602。如上所述,在一些实施方案中,这种直接证据包括与表示图参考基因组中的单倍型的路径进行比对。
除了此类直接核苷酸碱基检出之外,定制测序系统104确定对应于核苷酸片段读段和/或直接核苷酸碱基检出的测序度量604,包括用于映射。在一些情况下,测序度量604反映核苷酸片段读段、核苷酸碱基检出和/或其比对的质量和/或确定性。为了进行说明,如图6所示,测序度量604可包括深度度量610、读段数据质量度量612、检出数据质量度量614和/或映射质量度量616。
例如,定制测序系统104可以将深度度量610确定为在测序期间在特定基因组坐标处确定和比对的核苷酸碱基检出的深度的量化。实际上,在一些实施方案中,定制测序系统104基于基因组区域内的基因组坐标的深度的平均值来确定样品基因组的基因组区域的深度度量610。如上所述,定制测序系统104还可将多种标度和度量类型用于深度度量610。例如,在一些实施方案中,定制测序系统104确定量化低于阈值深度覆盖的核苷酸碱基检出数目的深度度量。
如上所述,定制测序系统104还可以确定来自样品基因组的核苷酸片段读段的读段数据质量度量612。为了说明,在一个或多个实施方案中,定制测序系统104基于样品基因组中与参考基因组的核苷酸碱基不匹配的核苷酸碱基的总数来确定读段数据质量度量612,包括图参考基因组的一个或多个路径。另外,或在替代方案中,定制测序系统104可以在测序期间跨越多个循环确定读段数据质量度量612。此外,定制测序系统104可以通过确定覆盖样品基因组内的基因组坐标的核苷酸片段读段内的平均或中值位置,基于样品基因组的读段位置度量来确定读段数据质量度量612。
在一些实施方案中,定制测序系统104还确定对应于核苷酸片段读段内的核苷酸碱基的核苷酸碱基检出或相对于参考基因组的直接核苷酸碱基检出的检出数据质量度量614。在一些实施方案中,定制测序系统104通过量化对应于核苷酸碱基检出的质量和/或确定性来确定检出数据质量度量614。例如,定制测序系统104可以确定碱基检出质量度量(例如,Phred质量分数或Q分数),其预测核苷酸片段读段的测序循环内的任何给定核苷酸碱基检出或相对于参考基因组的基因组坐标的任何给定直接核苷酸碱基检出的错误概率。为了说明,在一些实施方案中,定制测序系统104将检出数据质量度量614确定为满足阈值质量分数(例如Q20)的基因组区域内的核苷酸碱基检出的百分比或子集。附加地或另选地,定制测序系统104确定可检出性度量或体细胞质量度量作为核苷酸片段读段内的核苷酸碱基或直接核苷酸碱基检出的检出数据质量度量614。
如上文进一步指出的,定制测序系统104可以确定来自样品基因组的核苷酸片段读段的映射质量度量616。在一些实施方案中,定制测序系统104通过量化核苷酸片段读段与参考基因组的比对的质量和/或确定性来确定映射质量度量616。在一些实施方案中,定制测序系统104确定基因组坐标处核苷酸片段读段的核苷酸碱基检出的映射质量(MAPQ)评分。为了说明,在一个或多个实施方案中,定制测序系统104确定表示-10log10Pr{映射位置错误}的MAPQ评分,四舍五入至最接近的整数。在一些实施方案中,定制测序系统104确定样品区域的基因组区域内的核苷酸片段读段的映射质量度量的平均值或中值。
除了确定直接核苷酸碱基检出602之外,定制测序系统104还确定推算的核苷酸碱基检出606。为了说明,在一个或多个实施方案中,定制测序系统104基于对应于与相对于特定样品基因组的变体相关的统计信息的“间接”证据来确定推算的核苷酸碱基检出606。如图6所示,在一个或多个实施方案中,确定推算的核苷酸碱基检出606可包括基于局部核苷酸碱基检出、群体单倍型和变体频率确定推算的核苷酸碱基检出606的动作618。
更具体地,在一个或多个实施方案中,定制测序系统104确定并利用对应于样品基因组的群体数据。为了说明,在一些实施方案中,定制测序系统104鉴定或接收关于对应于特定样品基因组的群体和/或种族的数据。因此,定制测序系统104可鉴定群体共有的局部核苷酸碱基检出。为了说明,在一个或多个实施方案中,定制测序系统104利用对应于与样品基因组相对应的所鉴定的群体或种族的参考基因组。此外,在一些实施方案中,定制测序系统104鉴定样品基因组中基因组区域的基因组坐标处的核苷酸碱基检出。因此,定制测序系统104可以利用所鉴定的核苷酸碱基检出作为单倍型的参考点,基于该参考点确定推算的核苷酸碱基检出606。
如上所述,定制测序系统104确定或接收对应于样品基因组的群体数据。因此,定制测序系统104可以通过鉴定对应于特定于样品基因组的群体的单倍型来确定对应于样品基因组的群体单倍型频率。在一个或多个实施方案中,定制测序系统104利用单倍型数据库来鉴定群体单倍型,例如通过鉴定特定于地理区域或种族的参考组。
另外,定制测序系统104可以利用变体频率来确定推算的核苷酸碱基检出606。在一个或多个实施方案中,定制测序系统104鉴定对应于针对样品基因组鉴定的群体的基因组变体。更具体地,定制测序系统104可鉴定对应于针对样品基因组鉴定的基因组区域(例如,低置信度基因组区域)的基因组坐标的基因组变体。因此,定制测序系统104可鉴定对应于群体和特定基因组区域的常见变体的核苷酸碱基检出。因此,在一个或多个实施方案中,定制测序系统104利用来自所鉴定的变体的核苷酸碱基检出作为推算的核苷酸碱基检出606。
如上所述,在一些实施方案中,定制测序系统104利用群体单倍型基于参考组或其他群体单倍型来推算样品基因组的基因组坐标或目标基因组区域的单倍型。为了说明,定制测序系统104可以基于周围的变体核苷酸碱基检出来推算对应于基因组区域的单倍型。此外,在一些实施方案中,定制测序系统104利用变体频率和群体数据来确定所推算的单倍型。此外,定制测序系统104可以基于推算的单倍型来确定推算的核苷酸碱基检出。更具体地,在一些实施方案中,定制测序系统104根据基因组坐标或区域的可能性对推算的单倍型进行排序,并且从基因组坐标或区域的最高排序的单倍型确定推算的核苷酸碱基检出。
在一些实施方案中,定制测序系统104基于对应于局部核苷酸碱基检出的核苷酸碱基检出、对应于群体单倍型的核苷酸碱基检出和对应于常见变体的核苷酸碱基检出中的一者或多者确定推算的核苷酸碱基检出606。为了说明,在一个或多个实施方案中,定制测序系统104基于具有最高可能性的核苷酸碱基检出来选择推算的核苷酸碱基检出606,该可能性基于局部核苷酸碱基检出、群体单倍型和变体频率中的一者或多者的频率。例如,定制测序系统104可以利用统计推断,该统计推断利用每个局部核苷酸碱基检出、群体单倍型和常见变体中的每一者的频率。
如上所述,在一些实施方案中,定制测序系统104生成定制的图参考基因组,其包括表示目标基因组区域的推算的单倍型的路径。因此,在一个或多个实施方案中,定制测序系统104在最初确定直接核苷酸碱基检出时确定包围或侧接目标基因组区域的变体核苷酸碱基检出(例如,SNP),然后使用变体核苷酸碱基检出来推算单倍型。在一些实施方案中,图参考基因组包括利用变体频率、局部变体核苷酸碱基检出和群体单倍型确定的推算的单倍型。当使用定制的图参考基因组时,定制测序系统104不是使用最初确定的直接核苷酸碱基检出,而是基于来自样品基因组的核苷酸片段读段与定制的图参考基因组的比较来确定直接核苷酸碱基检出。在此类实施方案中,定制测序系统104使用用定制的图参考基因组确定的直接核苷酸碱基检出(而不是使用线性参考基因组或通用图参考基因组确定的直接核苷酸碱基检出)作为确定最终核苷酸碱基检出的基础,如下所述。
除了确定直接核苷酸碱基检出602和推算的核苷酸碱基检出606之外,如图6进一步所示,定制测序系统104可以执行基于直接核苷酸碱基检出602、测序度量604和推算的核苷酸碱基检出606确定最终核苷酸碱基检出的动作620。在一些情况下,例如,定制测序系统104在动作620对基因组坐标的直接核苷酸碱基检出和推算的核苷酸碱基检出进行加权,并且选择直接核苷酸碱基检出或推算的核苷酸碱基检出作为基因组坐标的最终核苷酸碱基检出。为了说明,定制测序系统104基于相应的数据质量对直接核苷酸碱基检出602进行加权,并且基于基因组区域的变体难度对推算的核苷酸碱基检出606进行加权。
如上所述,定制测序系统104可以基于对应的测序度量对来自直接核苷酸碱基检出602的直接核苷酸碱基检出进行加权。为了说明,在一些实施方案中,定制测序系统104基于用于确定直接核苷酸碱基检出的核苷酸片段读段的质量和/或用于确定直接核苷酸碱基检出的检出和比对过程的质量对直接核苷酸碱基检出进行加权。例如,定制测序系统104可以利用深度度量、读段数据质量度量、检出数据质量度量和/或映射质量度量来对直接核苷酸碱基检出进行加权。如图6所示,定制测序系统104与相应数据的质量成比例地对直接核苷酸碱基检出进行加权。类似地,定制测序系统104可以使用刚刚描述的方法对基因组区域中的每个基因组坐标(或样品基因组中的每个基因组坐标)的直接核苷酸碱基检出进行加权。
此外,定制测序系统104可以基于相应的变体置信度难度对来自推算的核苷酸碱基检出606的推算的核苷酸碱基检出进行加权。在一个或多个实施方案中,定制测序系统104基于基因组坐标或基因组区域处的变异频率、基因组坐标或区域处变体(或变体类型)的可能性和/或基因组区域的长度中的一者或多者来确定对应于基因组坐标或基因组区域的变体“置信度难度”。为了说明,定制测序系统104不太可能在具有相对更频繁变化(如通过等位基因频率测量的)的基因组区域或坐标中、具有相对更高程度的变体多样性(或变体类型)(如通过基因组坐标或区域处的单倍型表示的)的基因组坐标或区域处和/或相对大的基因组区域中正确地推算核苷酸碱基检出。此类基因组坐标或区域的推算的核苷酸碱基检出将表现出相对较高的变体置信度难度。因此,在一些实施方案中,定制测序系统104与对应于基因组坐标或区域的变体置信度难度成反比地对推算的核苷酸碱基检出进行加权。类似地,定制测序系统104可以使用刚刚描述的方法对基因组区域中的每个基因组坐标(或样品基因组中的每个基因组坐标)的推算的核苷酸碱基检出进行加权。
在一些实施方案中,定制测序系统104通过对每个坐标的直接核苷酸碱基检出和推算的核苷酸碱基检出进行加权来确定目标基因组区域的每个基因组坐标的最终核苷酸碱基检出。例如,在一些情况下,定制测序系统104确定对应于基因组坐标的相对高的数据质量和相对高的变体置信度难度的直接核苷酸碱基检出。对于此类示例,定制测序系统104可能选择对应于高数据质量的直接核苷酸碱基检出作为基因组坐标的最终核苷酸碱基检出,而不是对应于高变体置信度难度的推算的核苷酸碱基检出。
在另一示例中,定制测序系统104确定对应于相对低的数据质量和相对低的变体难度的基因组坐标的直接核苷酸碱基检出。对于该示例,定制测序系统104可能选择对应于低变体难度的推算的核苷酸碱基检出作为最终核苷酸碱基检出,而不是对应于指示低数据质量的测序度量的直接核苷酸碱基检出。
在一些实施方案中,定制测序系统104可以实施测序度量的阈值,如果不满足该阈值,则将导致自动选择基因组坐标的推算的核苷酸碱基检出。为了说明,在这些实施方案中,定制测序系统104对于直接核苷酸碱基检出的任何潜在选择需要最低数据质量。例如,定制测序系统104可以确定并利用最小Q分数或最小MAPQ。
除了加权模型之外,在一个或多个实施方案中,定制测序系统104可以利用机器学习模型来确定最终核苷酸碱基检出。图7A至图7B分别示出了用于确定最终核苷酸碱基检出的碱基检出机器学习模型的训练和应用。更具体地,图7A至图7B示出了训练和应用机器学习模型以基于直接核苷酸碱基检出、测序度量和推算的核苷酸碱基检出来确定最终核苷酸碱基检出。
作为图7A中训练的概述,定制测序系统104可以迭代地向碱基检出机器学习模型708输入:训练直接核苷酸碱基检出、对应于训练直接核苷酸碱基检出的训练测序度量以及基因组坐标的训练推算的核苷酸碱基检出。基于训练数据,碱基检出机器学习模型在每个训练迭代中生成基因组坐标的预测的核苷酸碱基检出,例如通过选择基因组坐标的直接核苷酸碱基检出或推算的核苷酸碱基检出。定制测序系统104随后将预测的核苷酸碱基检出与基因组坐标的地面真值碱基检出进行比较以确定损失并且基于该损失调整碱基检出机器学习模型。
如图7A所示,定制测序系统104接收基因组坐标的训练直接核苷酸碱基检出701、对应于训练直接核苷酸碱基检出701的训练测序度量703以及基因组坐标的训练推算的核苷酸碱基检出705。例如,定制测序系统104可以利用以上关于图6讨论的测序度量的类型,包括深度度量、读段数据质量度量、检出数据质量度量和/或映射质量度量。
如图7A进一步所示,定制测序系统104向碱基检出机器学习模型708提供训练直接核苷酸碱基检出701、训练测序度量703和训练推算的核苷酸碱基检出705。基于输入的检出和度量,如图7A所示,碱基检出机器学习模型生成基因组坐标的预测的核苷酸碱基检出707。在一些情况下,例如,碱基检出机器学习模型选择训练直接核苷酸碱基检出701或训练推算的核苷酸碱基检出705作为预测的核苷酸碱基检出707。为了选择训练直接核苷酸碱基检出701或训练推算的核苷酸碱基检出705,在一些实施方案中,碱基检出机器学习模型708可以对训练直接核苷酸碱基检出与基因组坐标的训练推算的核苷酸碱基检出不同地加权。
如图7A进一步所示,定制测序系统104将基因组坐标的预测的核苷酸碱基检出707与基因组坐标的地面真值碱基检出710进行比较。在一个或多个实施方案中,定制测序系统104利用损失函数711来比较预测的核苷酸碱基检出707与地面真值碱基检出710。通过使用损失函数711,定制测序系统104确定预测的核苷酸碱基检出707与地面真值碱基检出710之间的差异或损失。在一些实施方案中,定制测序系统104可反向传播损失以调整碱基检出机器学习模型708内的一个或多个权重。
如图7A进一步所示,定制测序系统104可以运行训练迭代。为了说明,定制测序系统104可以利用损失函数711基于每个基因组坐标的预测的核苷酸碱基检出与地面真值碱基检出的比较来迭代地调整碱基检出机器学习模型708的权重。在调整之后,碱基检出机器学习模型708可以生成改进的预测的核苷酸碱基检出。在一些情况下,定制测序系统104运行训练迭代,直到定制测序系统104确定来自损失函数711的后续损失在最小阈值内或者达到阈值数量的训练迭代数。
碱基检出机器学习模型708可以采取各种形式。例如,在一个或多个实施方案中,碱基检出机器学习模型708可包括各种类型的决策树、支持向量机(SVM)、贝叶斯网络或诸如卷积神经网络(CNN)的神经网络。在一些实施方案中,定制测序系统104利用具有许多层的卷积深度神经网络或递归神经网络作为碱基检出机器学习模型708。在碱基检出机器学习模型708是神经网络的实施方案中,定制测序系统104可利用交叉熵损失函数、L1损失函数或均方误差损失函数作为损失函数711。在一个或多个附加实施方案中,定制测序系统104利用随机森林模型、多层感知器、或线性回归、深度表格学习架构、深度学习变换器(例如,基于自注意力的表格变换器)、或逻辑回归作为碱基检出机器学习模型708。
除了上述形式之外,在一些情况下,碱基检出机器学习模型708包括梯度提升树的集合。对于梯度提升树的后一种实施方案,定制测序系统104可以利用均方误差损失函数(例如,用于回归)作为损失函数711。另外,或在替代方案中,定制测序系统104可以利用对数损失函数(例如,用于分类)作为损失函数711。在一些实施方案中,定制测序系统104对碱基检出机器学习模型708执行修改或调整,以减少损失函数711对后续训练迭代的损失度量。
对于梯度提升树,例如,定制测序系统104在由损失函数711确定的误差梯度上训练碱基检出机器学习模型708。例如,定制测序系统104解决凸优化问题(例如,无限维),同时正则化目标以避免过度拟合。在某些具体实施中,定制测序系统104缩放梯度以强调对欠表示类的校正(例如,其中存在比直接核苷酸碱基检出显著更多的推算的核苷酸碱基检出)。
在一些实施方案中,作为求解优化问题的一部分,定制测序系统104针对每个连续训练迭代向碱基检出机器学习模型708添加新的弱学习器(例如,新的提升树)。例如,定制测序系统104找到最小化来自损失函数711的损失的特征(例如,测序度量),并且将该特征添加到当前迭代的树或者开始利用该特征构建新的树。
除了训练或不训练之外,在一些实施方案中,定制测序系统104应用碱基检出机器学习模型708的训练版本。图7B示出了定制测序系统104,其应用训练的碱基检出机器学习模型712来确定基因组坐标的最终核苷酸碱基检出714。如图7B所示,定制测序系统104向经训练的碱基检出机器学习模型712输入:基因组坐标的直接核苷酸碱基检出702、对应于直接核苷酸碱基检出702的测序度量704以及基因组坐标的推算的核苷酸碱基检出706。基于直接核苷酸碱基检出702、测序度量704和推算的核苷酸碱基检出706,经训练的碱基检出机器学习模型712生成基因组坐标的最终核苷酸碱基检出714。为了选择直接核苷酸碱基检出702或推算的核苷酸碱基检出706,在一些实施方案中,经训练的碱基检出机器学习模型712可以对直接核苷酸碱基检出与基因组坐标的推算的核苷酸碱基检出不同地加权。
如图7B进一步所示,在一个或多个实施方案中,定制测序系统104可以使用经训练的碱基检出机器学习模型712来确定样品基因组的一个或多个目标基因组区域内的每个基因组坐标或样品基因组内的每个基因组坐标的最终核苷酸碱基检出。为了说明,定制测序系统104可以利用经训练的碱基检出机器学习模型712从基因组区域中的每个基因组坐标的推算的核苷酸碱基检出和直接核苷酸碱基检出中进行选择。另外,在一个或多个实施方案中,定制测序系统104利用经训练的碱基检出机器学习模型712来确定整个样品基因组的每个基因组坐标的最终碱基检出。
图1至图7B、对应的文本和示例提供了测序系统的许多不同的方法、系统、设备和非暂态计算机可读介质。除了前述内容之外,还可以根据包括用于实现特定结果的动作的流程图来描述一个或多个实施方案,如图8至图10所示。图8至图10可以用更多或更少的动作来执行。此外,这些动作可以按不同顺序执行。另外,本文所述的动作可以重复或与彼此并行地执行或与相同或类似动作的不同实例并行地执行。
如所提及的,图8示出了根据一个或多个实施方案的用于基于将核苷酸片段读段与图参考基因组进行比较来确定核苷酸碱基检出的一系列动作800的流程图。虽然图8示出根据一个实施方案的动作,另选的实施方案可以省略、添加、重新排序和/或修改图8中所示的任何动作。图8的动作可作为方法的一部分来执行。另选地,非暂态计算机可读介质可包括当由一个或多个处理器执行时使得计算设备执行图8的动作的指令。在一些实施方案中,系统可执行图8的动作。
如图8所示,一系列动作800包括用于从核苷酸片段读段的子集确定围绕基因组区域的变体核苷酸碱基检出的子集的动作802。特别地,动作802可包括从样品基因组的核苷酸片段读段的子集确定围绕样品基因组内的基因组区域的变体核苷酸碱基检出的子集。具体地,动作802可包括确定基因组区域内的核苷酸碱基检出的子集的质量度量不满足质量度量阈值,并且基于核苷酸碱基检出的子集的质量度量不满足质量度量阈值而将基因组区域鉴定为低置信度检出区域。此外,动作802可包括其中基因组区域包含可变数目串联重复(VNTR)、结构变体、插入或缺失的至少一部分。如上所述,当执行动作802时,确定围绕基因组区域的变体核苷酸碱基检出的子集可以基于来自2x150测序运行的初始五十个碱基对或在大约1x读段深度的核苷酸片段读段的子集。
另外,一系列动作800包括用于基于变体核苷酸碱基检出的子集来推算基因组区域的单倍型的动作804。特别地,动作804可包括基于变体核苷酸碱基检出的子集推算对应于样品基因组的基因组区域的单倍型。具体地,动作804可包括通过确定围绕基因组区域的单核苷酸多态性(SNP)来确定围绕基因组区域的变体核苷酸碱基检出的子集,并且通过基于SNP推算对应于样品基因组的单倍型来推算基因组区域的单倍型。另外,在一个或多个实施方案中,动作804包括从群体单倍型的单倍型数据库输入基因组区域的单倍型。
此外,一系列动作800包括用于生成图参考基因组的动作806,该图参考基因组包括表示对应于基因组区域的推算的单倍型的路径。特别地,动作806可包括为样品基因组生成图参考基因组,该图参考基因组包括表示对应于基因组区域的所推算的单倍型的路径。具体地,动作806可包括确定对应于样品基因组内的另外的基因组区域的变体核苷酸碱基检出,基于变体核苷酸碱基检出确定另外的基因组区域的另外的推算的单倍型;以及生成图参考基因组,该图参考基因组包括表示另外的推算的单倍型的另外的路径。另外,动作806可包括从线性参考基因组确定基因组区域的基因组坐标,并且生成图参考基因组,该图参考基因组包括线性参考基因组和表示对应于位于线性参考基因组的基因组坐标处的基因组区域的推算的单倍型的路径。
另外,一系列动作800包括用于基于将样品基因组的核苷酸片段读段与表示单倍型的路径进行比较来确定基因组区域内的核苷酸碱基检出的动作808。特别地,动作808可包括基于将样品基因组的核苷酸片段读段与表示图参考基因组内的推算的单倍型的路径进行比较来确定样品基因组的基因组区域内的核苷酸碱基检出。例如,动作808可包括基于将样品基因组的核苷酸片段读段与表示图参考基因组内的推算的单倍型的路径进行比对来确定样品基因组的基因组区域内的核苷酸碱基检出。具体地,动作808可包括基于样品基因组的核苷酸片段读段与表示推算的单倍型的路径的比较来确定基因组区域内的基因组坐标的直接核苷酸碱基检出,基于基因组区域的推算的单倍型来确定基因组区域内的基因组坐标的推算的核苷酸碱基检出,以及基于直接核苷酸碱基检出和推算的核苷酸碱基检出来确定基因组区域内的基因组坐标的最终核苷酸碱基检出。
此外,动作808可包括确定对应于基因组坐标的直接核苷酸碱基检出的测序度量,以及通过基于基因组区域的测序度量和变异性而将第一权重分配给直接核苷酸碱基检出并且将第二权重分配给所推算的核苷酸碱基检出来确定基因组坐标的最终核苷酸碱基检出。
如所提及的,图9示出了根据一个或多个实施方案的用于基于推算的核苷酸碱基检出、直接核苷酸碱基检出和测序度量确定核苷酸碱基检出的一系列动作900的流程图。虽然图9示出根据一个实施方案的动作,另选的实施方案可以省略、添加、重新排序和/或修改图9中所示的任何动作。图9的动作可作为方法的一部分来执行。另选地,非暂态计算机可读介质可包括当由一个或多个处理器执行时使得计算设备执行图9的动作的指令。在一些实施方案中,系统可执行图9的动作。
如图9所示,一系列动作900包括用于从样品基因组的核苷酸片段读段的子集确定围绕基因组区域的变体核苷酸碱基检出的子集的动作902。特别地,动作902可包括从样品基因组的核苷酸片段读段的子集确定围绕样品基因组内的基因组区域的变体核苷酸碱基检出的子集。如上所述,当执行动作902时,确定围绕基因组区域的变体核苷酸碱基检出的子集可以基于来自2x150测序运行的初始三十五个碱基对、初始五十个碱基对、初始七十五个碱基对或其他初始数目的碱基对或在大约1x读段深度的核苷酸片段读段的子集。
如图9所示,一系列动作900包括用于基于变体核苷酸碱基检出的子集为样品基因组推算对应于基因组区域的单倍型的动作904。特别地,动作904可包括基于变体核苷酸碱基检出的子集为样品基因组推算对应于基因组区域的单倍型。
如图9所示,一系列动作900包括用于基于单倍型确定基因组区域的推算的核苷酸碱基检出的动作906。特别地,动作906可包括基于推算的单倍型为样品基因组确定基因组区域的推算的核苷酸碱基检出。
如图9所示,一系列动作900包括用于确定基因组区域的直接核苷酸碱基检出和对应于该直接核苷酸碱基检出的测序度量的动作908。特别地,动作908可包括为样品基因组确定基因组区域的直接核苷酸碱基检出以及对应于该直接核苷酸碱基检出的测序度量。具体地,动作908可包括通过确定直接核苷酸碱基检出的深度度量、读段数据质量度量、检出数据质量度量或映射质量度量来确定对应于直接核苷酸碱基检出的测序度量。
如图9所示,一系列动作900包括用于基于推算的核苷酸碱基检出、直接核苷酸碱基检出和测序度量来确定基因组区域的最终核苷酸碱基检出的动作910。特别地,动作910可包括基于推算的核苷酸碱基检出、直接核苷酸碱基检出和测序度量确定基因组区域的最终核苷酸碱基检出。具体地,动作910可包括从样品基因组的核苷酸片段读段的子集确定围绕样品基因组内的基因组区域的变体核苷酸碱基检出的子集,基于变体核苷酸碱基检出的子集为样品基因组推算对应于基因组区域的单倍型,基于所推算的单倍型为样品基因组确定基因组区域的推算的核苷酸碱基检出,为样品基因组确定基因组区域的直接核苷酸碱基检出和对应于该直接核苷酸碱基检出的测序度量,以及基于推算的核苷酸碱基检出、直接核苷酸碱基检出和测序度量确定基因组区域的最终核苷酸碱基检出。
另外,动作910可包括通过利用碱基检出机器学习模型来确定基因组区域的最终核苷酸碱基检出,以基于推算的核苷酸碱基检出、直接核苷酸碱基检出和测序度量来确定最终核苷酸碱基检出。此外,动作910可包括通过基于基因组区域的变异性和对应于直接核苷酸碱基检出的测序度量中的一个或多个测序度量而对直接核苷酸碱基检出中的一个或多个直接核苷酸碱基检出与所推算的核苷酸碱基检出中的一个或多个所推算的核苷酸碱基检出不同地加权来确定基因组区域的最终核苷酸碱基检出。另外,动作910可包括其中基因组区域的变异性包括基因组区域的基因型变异性和基因组区域的长度,并且测序度量中的一个或多个测序度量包括对应于核苷酸片段读段的直接核苷酸碱基检出的读段数据质量度量或映射质量度量以及对应于核苷酸片段读段的直接核苷酸碱基检出的检出数据质量度量。
在一个或多个实施方案中,一系列动作900可包括为样品基因组生成图参考基因组(其包括线性参考基因组和表示对应于基因组区域的推算的单倍型的路径),并且基于鉴定对应于基因组坐标的核苷酸碱基片段读段与线性参考基因组内的基因组坐标处的对应核苷酸碱基之间的不一致性来确定基因组区域内部或外部的基因组坐标的直接变体核苷酸碱基检出。另外,一系列动作900可包括为样品基因组生成图参考基因组(其包括表示对应于基因组区域的推算的单倍型的路径),并且基于将样品基因组的核苷酸片段读段与表示图参考基因组内的推算的单倍型的路径进行比较来确定基因组区域的直接核苷酸碱基检出。特别地,将样品基因组的核苷酸片段读段与路径进行比较可包括将样品基因组的核苷酸片段读段与表示图参考基因组内的推算的单倍型的路径进行比对。
另外,在一个或多个实施方案中,一系列动作900包括通过基于来自与图参考基因组内的线性参考基因组比对的样品基因组的核苷酸片段读段的第一子集确定核苷酸碱基检出来确定直接核苷酸碱基检出,以及基于来自与表示来自图参考基因组的一个或多个推算的单倍型的路径比对的样品基因组的核苷酸片段读段的第二子集来确定核苷酸碱基检出。
如所提及的,图10示出了根据一个或多个实施方案的用于基于直接核苷酸碱基检出、测序度量和推算的核苷酸碱基检出确定核苷酸碱基检出的一系列动作1000的流程图。虽然图10示出根据一个实施方案的动作,另选的实施方案可以省略、添加、重新排序和/或修改图10中所示的任何动作。图10的动作可作为方法的一部分来执行。另选地,非暂态计算机可读介质可包括当由一个或多个处理器执行时使得计算设备执行图10的动作的指令。在一些实施方案中,系统可执行图10的动作。
如图10所示,一系列动作1000包括用于确定基因组区域的直接核苷酸碱基检出和对应于该直接核苷酸碱基检出的测序度量的动作1002。特别地,动作1002可包括为样品基因组确定基因组区域的直接核苷酸碱基检出以及对应于该直接核苷酸碱基检出的测序度量。确定直接核苷酸碱基检出可包括基于来自样品基因组的核苷酸片段读段和参考基因组之间的比对确定直接核苷酸碱基检出。具体地,动作1002可包括通过确定直接核苷酸碱基检出的深度度量、读段数据质量度量、检出数据质量度量或映射质量度量来确定对应于直接核苷酸碱基检出的测序度量。
如图10所示,一系列动作1000包括用于基于围绕基因组区域的变体核苷酸碱基检出来推算对应于基因组区域的单倍型的动作1004。特别地,动作1004可包括基于围绕基因组区域的变体核苷酸碱基检出为样品基因组推算对应于该基因组区域的单倍型。
如图10所示,一系列动作1000包括用于基于单倍型确定基因组区域的推算的核苷酸碱基检出的动作1006。特别地,动作1006可包括基于推算的单倍型为样品基因组确定基因组区域的推算的核苷酸碱基检出。
如图10所示,一系列动作1000包括用于基于直接核苷酸碱基检出、测序度量和推算的核苷酸碱基检出确定基因组区域的最终核苷酸碱基检出的动作1008。特别地,动作1008可包括基于直接核苷酸碱基检出、测序度量和推算的核苷酸碱基检出确定基因组区域的最终核苷酸碱基检出。具体地,动作1008可包括利用碱基检出机器学习模型来基于推算的核苷酸碱基检出、直接核苷酸碱基检出和测序度量确定最终核苷酸碱基检出。
另外,动作1008可包括确定基因组区域的最终核苷酸碱基检出,包括:基于直接核苷酸碱基检出的基因组坐标的基因型变异性、以及对应于核苷酸片段读段的该直接核苷酸碱基检出的读段数据质量度量或对应于该核苷酸片段读段的直接核苷酸碱基检出的检出数据质量度量中的一者或多者而对该直接核苷酸碱基检出与推算的核苷酸碱基检出不同地加权。此外,动作1008可包括利用碱基检出机器学习模型来对基因组坐标的直接核苷酸碱基检出与推算的核苷酸碱基检出不同地加权,并且选择直接核苷酸碱基检出或推算的核苷酸碱基检出之一作为基因组坐标的最终核苷酸碱基检出。
本文所述的方法可与多种核酸测序技术结合使用。特别适用的技术是其中核酸附接到阵列中的固定位置处使得其相对位置不改变并且其中该阵列被重复成像的那些技术。在不同颜色通道(例如,与用于将一种核苷酸碱基类型与另一种核苷酸碱基类型区分开的不同标记吻合)中获得图像的实施方案特别适用。在一些实施方案中,确定靶核酸(即,核酸聚合物)的核苷酸序列的过程可以是自动化过程。优选的实施方案包括边合成边测序(SBS)技术。
SBS技术通常包括通过针对模板链反复加入核苷酸进行的新生核酸链的酶促延伸。在传统的SBS方法中,可在每次递送中在存在聚合酶的情况下将单个核苷酸单体提供给靶核苷酸。然而,在本文所述的方法中,可在递送中存在聚合酶的情况下向靶核酸提供多于一种类型的核苷酸单体。
SBS可利用具有终止子部分的核苷酸单体或缺少任何终止子部分的核苷酸单体。使用缺少终止子的核苷酸单体的方法包括例如焦磷酸测序和使用γ-磷酸标记的核苷酸的测序,如下文进一步详细描述的。在使用缺少终止子的核苷酸单体的方法中,在每个循环中加入的核苷酸的数目通常是可变的,并且该数目取决于模板序列和核苷酸递送的方式。对于利用具有终止子部分的核苷酸单体的SBS技术,终止子在使用的测序条件下可为有效不可逆的,如利用双脱氧核苷酸的传统桑格测序的情况,或者终止子可为可逆的,如由Solexa(现为Illumina,Inc.)开发的测序方法的情况。
SBS技术可利用具有标记部分的核苷酸单体或缺少标记部分的核苷酸单体。因此,可基于以下项来检测掺入事件:标记的特性,诸如标记的荧光;核苷酸单体的特性,诸如分子量或电荷;掺入核苷酸的副产物,诸如焦磷酸盐的释放;等等。在测序试剂中存在两种或更多种不同的核苷酸的实施方案中,不同的核苷酸可以是彼此可区分的,或者另选地,两种或更多种不同的标记在所使用的检测技术下可以是不可区分的。例如,测序试剂中存在的不同核苷酸可具有不同的标记,并且它们可使用适当的光学器件进行区分,如由Solexa(现为Illumina,Inc.)开发的测序方法所例示。
优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测当将特定的核苷酸掺入新生链中时无机焦磷酸盐(PPi)的释放(Ronaghi,M.、Karamohamed,S.、Pettersson,B.、Uhlen,M.和Nyren,P.(1996年),“Real-time DNA sequencing using detection ofpyrophosphate release.”,Analytical Biochemistry 242(1),84-9;Ronaghi,M.(2001)“Pyrosequencing sheds light on DNA sequencing.”Genome Res.,11(1),3-11;Ronaghi,M.,Uhlen,M.and Nyren,P.(1998)“A sequencing method based on real-timepyrophosphate.”Science 281(5375),363;美国专利号6,210,891;美国专利号6,258,568和美国专利号6,274,320,这些文献的公开内容全文以引用方式并入本文)。在焦磷酸测序中,释放的PPi可通过被腺苷三磷酸(ATP)硫酸化酶立即转化为ATP成来进行检测,并且通过荧光素酶产生的光子来检测所产生的ATP水平。待测序的核酸可附接到阵列中的特征部,并且可对阵列进行成像以捕获由于在阵列的特征部处掺入核苷酸而产生的化学发光信号。可在用特定核苷酸类型(例如,A、T、C或G)处理阵列后获得图像。在添加每种核苷酸类型后获得的图像将在阵列中哪些特征部被检测到方面不同。图像中的这些差异反映阵列上的特征部的不同序列内容。然而,每个特征部的相对位置将在图像中保持不变。可使用本文所述的方法存储、处理和分析图像。例如,在用每种不同核苷酸类型处理阵列后获得的图像可以与本文针对从用于基于可逆终止子的测序方法的不同检测通道获得的图像所例示的相同方式进行处理。
在另一种示例性类型的SBS中,通过逐步添加可逆终止子核苷酸来完成循环测序,这些可逆终止子核苷酸包含例如可裂解或可光漂白的染料标记,如例如WO 04/018497和美国专利号7,057,026所述,这两份专利的公开内容以引用方式并入本文。该方法由Solexa(现为Illumina Inc.)商业化,并且还在WO 91/06678和WO 07/123,744中有所描述,这些文献中的每一者的公开内容以引用方式并入本文。荧光标记终止子(其中不但终止可以逆转,而且荧光标记可以裂解)的可用性有利于高效的循环可逆终止(CRT)测序。聚合酶也可共工程化以有效地掺入这些经修饰的核苷酸并从这些经修饰的核苷酸延伸。
优选地,在基于可逆终止子的测序实施方案中,标记在SBS反应条件下基本上不抑制延伸。然而,检测标记可以是可移除的,例如通过裂解或降解移除。可在将标记掺入到阵列化核酸特征部中后捕获图像。在特定实施方案中,每个循环涉及将四种不同的核苷酸类型同时递送到阵列,并且每种核苷酸类型具有在光谱上不同的标记。然后可获得四个图像,每个图像使用对四个不同标记中的一个标记具有选择性的检测通道。另选地,可顺序地添加不同的核苷酸类型,并且可在每个添加步骤之间获得阵列的图像。在此类实施方案中,每个图像将示出已掺入特定类型的核苷酸的核酸特征部。由于每个特征部的不同序列内容,不同特征部存在于或不存在于不同图像中。然而,特征部的相对位置将在图像中保持不变。通过此类可逆终止子-SBS方法获得的图像可如本文所述进行存储、处理和分析。在图像捕获步骤后,可移除标记并且可移除可逆终止子部分以用于核苷酸添加和检测的后续循环。已在特定循环中以及在后续循环之前检测到标记之后移除这些标记可提供减少循环之间的背景信号和串扰的优点。可用的标记和去除方法的示例在下文进行阐述。
在特定实施方案中,一些或所有核苷酸单体可包括可逆终止子。在此类实施方案中,可逆终止子/可裂解荧光团可包括经由3'酯键连接到核糖部分的荧光团(Metzker,Genome Res.15:1767-1776(2005年),该文献以引用方式并入本文)。其他方法已将终止子化学与荧光标记的裂解分开(Ruparel等人,Proc Natl Acad Sci USA 102:5932-7(2005年),该文献全文以引用方式并入本文)。Ruparel等人描述了可逆终止子的发展,这些可逆终止子使用小的3'烯丙基基团来阻断延伸,但是可通过用钯催化剂进行的短时间处理来容易地去阻断。荧光团经由可光裂解的接头附接到碱基,该可光裂解的接头可通过暴露于长波长紫外光30秒来容易地裂解。因此,二硫化物还原或光裂解可用作可裂解的接头。可逆终止的另一种方法是使用天然终止,该天然终止在将大体积染料放置在dNTP上之后接着发生。dNTP上存在带电大体积染料可通过空间位阻和/或静电位阻而充当高效的终止子。除非染料被移除,否则一个掺入事件的存在防止进一步的掺入。染料的裂解移除荧光团并有效地逆转终止。修饰的核苷酸的示例还描述于美国专利号7,427,673和美国专利号7,057,026中,其公开内容全文以引用方式并入本文。
可与本文所述的方法和系统一起利用的附加的示例性SBS系统和方法描述于美国专利申请公布号2007/0166705、美国专利申请公布号2006/0188901、美国专利号7,057,026、美国专利申请公布号2006/0240439、美国专利申请公布号2006/0281109、PCT公布号WO05/065814、美国专利申请公布号2005/0100900、PCT公布号WO 06/064199、PCT公布号WO07/010,251、美国专利申请公布号2012/0270305和美国专利申请公布号2013/0260372中,这些文献的公开内容全文以引用方式并入本文。
一些实施方案可使用少于四种不同标记来使用对四种不同核苷酸的检测。例如,可以利用并入的美国专利申请公布号2013/0079232的材料中所述的方法和系统来执行SBS。作为第一个示例,一对核苷酸类型可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的变化(例如,通过化学改性、光化学改性或物理改性)来区分。作为第二个示例,四种不同核苷酸类型中的三种能够在特定条件下被检测到,而第四种核苷酸类型缺少在那些条件下可被检测到或在那些条件下被最低限度地检测到的标记(例如,由于背景荧光而导致的最低限度检测等)。可基于其相应信号的存在来确定前三种核苷酸类型掺入到核酸中,并且可基于任何信号的不存在或对任何信号的最低限度检测来确定第四核苷酸类型掺入到核酸中。作为第三示例,一种核苷酸类型可包括在两个不同通道中检测到的标记,而其他核苷酸类型在不超过一个通道中被检测到。上述三种例示性构型不被认为是互相排斥的,并且可以各种组合进行使用。组合所有三个示例的示例性实施方案是基于荧光的SBS方法,该方法使用在第一通道中检测到的第一核苷酸类型(例如,具有当由第一激发波长激发时在第一通道中检测到的标记的dATP),在第二通道中检测到的第二核苷酸类型(例如,具有当由第二激发波长激发时在第二通道中检测到的标记的dCTP),在第一通道和第二通道两者中检测到的第三核苷酸类型(例如,具有当被第一激发波长和/或第二激发波长激发时在两个通道中检测到的至少一个标记的dTTP),以及缺少在任一通道中检测到或最低限度地检测到的标记的第四核苷酸类型(例如,不具有标记的dGTP)。
此外,如并入的美国专利申请公布号2013/0079232的材料中所述,可使用单个通道获得测序数据。在此类所谓的单染料测序方法中,标记第一核苷酸类型,但在生成第一图像之后移除标记,并且仅在生成第一图像之后标记第二核苷酸类型。第三核苷酸类型在第一图像和第二图像中都保留其标记,并且第四核苷酸类型在两个图像中均保持未标记。
一些实施方案可以利用边连接边测序技术。此类技术利用DNA连接酶掺入寡核苷酸并确定此类寡核苷酸的掺入。寡核苷酸通常具有与寡核苷酸杂交的序列中的特定核苷酸的同一性相关的不同标记。与其他SBS方法一样,可在用已标记的测序试剂处理核酸特征部的阵列后获得图像。每个图像将示出已掺入特定类型的标记的核酸特征部。由于每个特征部的不同序列内容,不同特征部存在于或不存在于不同图像中,但特征部的相对位置将在图像中保持不变。通过基于连接的测序方法获得的图像可如本文所述进行存储、处理和分析。可以与本文所述的方法和系统一起使用的示例性SBS系统和方法在美国专利号6,969,488、美国专利号6,172,218和美国专利号6,306,597中有所描述,这些专利的公开内容全文以引用方式并入本文。
一些实施方案可以利用纳米孔测序(Deamer,D.W.和Akeson,M.“Nanopores andnucleic acids:prospects for ultrarapid sequencing.”Trends Biotechnol.18,147-151(2000);Deamer,D.and D.Branton,“Characterization of nucleic acids bynanopore analysis”.Acc.Chem.相对35:817-825(2002);Li,J.、M.Gershow、D.Stein、E.Brandin和J.A.Golovchenko,“DNA molecules and configurations in a solid-statenanopore microscope”,Nat.Mater.,2:611-615(2003),这些文献的公开内容全文以引用方式并入本文)。在此类实施方案中,目标核酸穿过纳米孔。纳米孔可为合成孔或生物膜蛋白,诸如α-溶血素。当目标核酸穿过纳米孔时,可以通过测量孔的电导率的波动来识别每个碱基对。(美国专利号7,001,792;Soni,G.V.和Meller,“A.Progress toward ultrafastDNA sequencing using solid-state nanopores.”Clin.Chem.53,1996-2001(2007);Healy,K.,“Nanopore-based single-molecule DNA analysis.”,Nanomed.,2,459-481(2007);Cockroft,S.L.、Chu,J.、Amorin,M.和Ghadiri,M.R.,“A single-moleculenanopore device detects DNA polymerase activity with single-nucleotideresolution.”,J.Am.Chem.Soc.130,818-820(2008),这些文献的公开内容全文以引用方式并入本文)。从纳米孔测序获得的数据可如本文所述进行存储、处理和分析。具体地,根据本文所述的光学图像和其他图像的示例性处理,可将数据如同图像那样进行处理。
一些实施方案可利用涉及DNA聚合酶活性的实时监测的方法。可以通过携带荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测核苷酸掺入,如例如美国专利号7,329,492和美国专利号7,211,414中所述(这两份专利中的每一者以引用方式并入本文),或者可以用零模波导来检测核苷酸掺入,如例如美国专利号7,315,019中所述(该专利以引用方式并入本文),并且可以使用荧光核苷酸类似物和工程化聚合酶来检测核苷酸掺入,如例如美国专利号7,405,281和美国专利申请公布号2008/0108082中所述(这两份专利中的每一者以引用方式并入本文)。照明可限于表面栓系的聚合酶周围的仄升量级的体积,使得可在低背景下观察到荧光标记的核苷酸的掺入(Levene,M.J.等人,“Zero-mode waveguides for single-molecule analysis at highconcentrations.”,Science 299,682-686(2003);Lundquist,P.M.等人,“Parallelconfocal detection of single molecules in real time.”,Opt.Lett.33,1026-1028(2008);Korlach,J.等人,“Selective aluminum passivation for targetedimmobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures.”,Proc.Natl.Acad.Sci.USA 105,1176-1181(2008),这些文献的公开内容全文以引用方式并入本文)。通过此类方法获得的图像可如本文所述进行存储、处理和分析。
一些SBS实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如,基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford,CT,它是Life Technologies子公司)商购获得的电检测器和相关技术或在US2009/0026082A1、US2009/0127589A1、US2010/0137143A1或US 2010/0282617A1中所述的测序方法和系统,这些文献中的每一篇均以引用方式并入本文。本文阐述的使用动力学排阻来扩增靶核酸的方法可以容易地应用于用于检测质子的基板。更具体地,本文阐述的方法可以用于产生用于检测质子的扩增子克隆群体。
上述SBS方法可有利地以多种格式进行,使得同时操纵多个不同的目标核酸。在特定实施方案中,可在共同的反应容器中或在特定基板的表面上处理不同的目标核酸。这允许以多种方式方便地递送测序试剂、移除未反应的试剂和检测掺入事件。在使用表面结合的目标核酸的实施方案中,目标核酸可为阵列格式。在阵列格式中,目标核酸通常可以在空间上可区分的方式结合到表面。目标核酸可通过直接共价附着、附着到小珠或其他粒子或结合到附着到表面的聚合酶或其他分子来结合。阵列可包括在每个位点(也被称为特征部)处的目标核酸的单个拷贝,或者具有相同序列的多个拷贝可存在于每个位点或特征部处。多个拷贝可通过扩增方法(诸如,如下文进一步详细描述的桥式扩增或乳液PCR)产生。
本文所述的方法可使用具有处于多种密度中任一种密度的特征部的阵列,该多种密度包括例如至少约10个特征部/cm2、100个特征部/cm2、500个特征部/cm2、1,000个特征部/cm2、5,000个特征部/cm2、10,000个特征部/cm2、50,000个特征部/cm2、100,000个特征部/cm2、1,000,000个特征部/cm2、5,000,000个特征部/cm2或更高。
本文阐述的方法的优点是它们并行提供了对多个靶核酸的快速且有效检测。因此,本公开提供了能够使用本领域已知的技术(诸如上文所例示的那些)来制备和检测核酸的整合系统。因此,本公开的整合系统可以包括能够将扩增试剂和/或测序试剂递送到一个或多个固定DNA片段的流体部件,该系统包括诸如泵、阀、贮存器、流体管线等的部件。流通池在整合系统中可以被配置用于和/或用于检测靶核酸。示例性流通池在例如US 2010/0111768 A1和美国序列号13/273,666中有所描述,这两份专利中的每一者以引用方式并入本文。如针对流通池所例示的,整合系统的一个或多个流体部件可以用于扩增方法和检测方法。以核酸测序实施方案为例,整合系统的一个或多个流体部件可以用于本文阐述的扩增方法以及用于在测序方法(诸如上文例示的那些)中递送测序试剂。另选地,整合系统可包括单独的流体系统以执行扩增方法并执行检测方法。能够产生扩增核酸并且还确定核酸序列的整合测序系统的示例包括但不限于MiSeqTM平台(Illumina,Inc.,San Diego,CA)以及在美国序列号13/273,666中描述的设备,该专利以引用方式并入本文。
上述测序系统对由测序设备接收的样品中存在的核酸聚合物进行测序。如本文所定义,“样品”及其衍生物以其最广泛的意义使用,包括怀疑包含目标的任何标本、培养物等。在一些实施方案中,样品包括DNA、RNA、PNA、LNA、嵌合或杂交形式的核酸。样品可以包括含有一种或多种核酸的任何基于生物、临床、外科、农业、大气或水生动植物的标本。该术语还包括任何分离的核酸样品,诸如基因组DNA、新鲜冷冻或福尔马林固定石蜡包埋的核酸标本。还设想样品的来源可以是:单个个体、来自遗传相关成员的核酸样品的集合、来自遗传不相关成员的核酸样品、来自单个个体的(与之匹配的)核酸样品(诸如肿瘤样品和正常组织样品),或者来自含有两种不同形式的遗传物质(诸如从母体受试者获得的母体DNA和胎儿DNA)的单个来源的样品,或者在含有植物或动物DNA的样品中存在污染性细菌DNA。在一些实施方案中,核酸材料的来源可以包括从新生儿获得的核酸,例如通常用于新生儿筛检的核酸。
该核酸样品可以包括高分子量物质,诸如基因组DNA(gDNA)。该样品可以包括低分子量物质,诸如从FFPE样品或存档的DNA样品获得的核酸分子。在另一实施方案中,低分子量物质包括酶促片段化或机械片段化的DNA。该样品可以包含无细胞循环DNA。在一些实施方案中,该样品可以包括从活检组织、肿瘤、刮取物、拭子、血液、黏液、尿液、血浆、精液、毛发、激光捕获显微解剖、手术切除和其他临床或实验室获得的样品获得的核酸分子。在一些实施方案中,该样品可以是流行病学样品、农业样品、法医学样品或病原性样品。在一些实施方案中,该样品可包括从动物(诸如人类或哺乳动物来源)获得的核酸分子。在另一实施方案中,该样品可包括从非哺乳动物来源(诸如植物、细菌、病毒或真菌)获得的核酸分子。在一些实施方案中,核酸分子的来源可以是存档或灭绝的样品或物种。
另外,本文所公开的方法和组合物可以用于扩增具有低质量核酸分子的核酸样品,诸如来自法医学样品的降解的和/或片段化的基因组DNA。在一个实施方案中,法医学样品可包括从犯罪现场获得的核酸、从失踪人员DNA数据库获得的核酸、从与法医调查相关联的实验室获得的核酸,或者包括由执法机关、一种或多种军事服务或任何此类人员获得的法医学样品。核酸样品可以是经纯化的样品或含有粗DNA的溶胞产物,例如来源于口腔拭子、纸、织物或者其他可以用唾液、血液或其他体液浸渍的基材。因此,在一些实施方案中,该核酸样品可包含少量DNA(诸如基因组DNA),或者DNA的片段化部分。在一些实施方案中,靶序列可存在于一种或多种体液中,其中体液包括但不限于血液、痰、血浆、精液、尿液和血清。在一些实施方案中,靶序列可从受害者的毛发、皮肤、组织样品、尸体解剖或遗骸获得。在一些实施方案中,包含一种或多种靶序列的核酸可从死亡的动物或人获得。在一些实施方案中,靶序列可包括从非人类DNA(诸如微生物、植物或昆虫DNA)获得的核酸。在一些实施方案中,靶序列或扩增的靶序列导向人类身份识别的目的。在一些实施方案中,本公开整体涉及用于识别法医学样品的特性的方法。在一些实施方案中,本公开整体涉及使用本文所公开的一种或多种目标特异性引物或者用本文概述的引物设计标准设计的一种或多种目标特异性引物的人类身份识别方法。在一个实施方案中,含有至少一种靶序列的法医学样品或人类身份识别样品可以使用本文所公开的任何一种或多种目标特异性引物或者使用本文概述的引物标准进行扩增。
定制测序系统104的部件可包括软件、硬件或两者。例如,定制测序系统104的部件可包括存储在计算机可读存储介质上并且可由一个或多个计算设备(例如,用户客户端设备108)的处理器执行的一个或多个指令。当由一个或多个处理器执行时,定制测序系统104的计算机可执行指令可使计算设备执行本文所述的气泡检测方法。另选地,定制测序系统104的部件可包括硬件,诸如执行特定功能或一组功能的专用处理设备。附加地或另选地,定制测序系统104的部件可包括计算机可执行指令和硬件的组合。
此外,执行本文关于定制测序系统104描述的功能的定制测序系统104的部件可以例如被实施作为独立应用的一部分、作为应用的模块、作为应用的插件、作为可以由其他应用调用的一个或多个库函数和/或作为云计算模型。因此,定制测序系统104的部件可以被实施作为个人计算设备或移动设备上的独立应用的一部分。附加地或另选地,定制测序系统104的部件可以在提供测序服务的任何应用中实施,包括但不限于Illumina BaseSpace、Illumina DRAGEN或Illumina TruSight软件。“Illumina”、“BaseSpace”、“DRAGEN”和“TruSight”是Illumina,Inc.公司在美国和/或其他国家的注册商标或商标。
如以下更详细讨论的,本公开的实施方案可以包括或利用包括计算机硬件(诸如例如一个或多个处理器和系统存储器)的专用或通用计算机。本公开范围内的实施方案还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。具体地,本文所述的过程中的一者或多者可以至少部分实施为体现在非暂态计算机可读介质中并且可由一个或多个计算设备(例如,本文所述的介质内容访问设备中的任一者)执行的指令。一般来讲,处理器(例如,微处理器)从非暂态计算机可读介质(例如,存储器等)接收指令,并且执行那些指令,由此执行一个或多个过程,包含本文所述的过程中的一者或多者。
计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是非暂态计算机可读存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。因此,通过示例方式而非限制,本公开的实施方案可包括至少两种明显不同种类的计算机可读介质:非暂态计算机可读存储介质(设备)和传输介质。
非暂态计算机可读存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(SSD)(例如,基于RAM)、快闪存储器、相变存储器(PCM)、其他类型的存储器、其他光盘存储装置、磁盘存储装置或其他磁存储设备,或可用于存储呈计算机可执行指令或数据结构形式的期望的程序代码手段并且其可由通用或专用计算机访问的任何其他介质。
“网络”定义为使得能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)向计算机转移或提供信息时,计算机适当地将该连接视为传输介质。传输介质可包括网络和/或数据链路,该网络和/或数据链路可用于携带呈计算机可执行指令或数据结构形式的期望的程序代码手段,并且其可由通用或专用计算机访问。上述的组合也应当被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统部件后,呈计算机可执行指令或数据结构形式的程序代码手段可从传输介质自动转移到非暂态计算机可读存储介质(设备)(或反之亦然)。例如,通过网络或数据链路接收的计算机可执行指令或数据结构可被缓冲在网络接口模块(例如,NIC)内的RAM中,并且然后最终被转移到计算机系统RAM和/或到计算机系统处的较不易失的计算机存储介质(设备)。因此,应当理解,非暂态计算机可读存储介质(设备)可被包括在也(或甚至主要)利用传输介质的计算机系统部件中。
计算机可执行指令包括例如当在处理器处执行时使得通用计算机、专用计算机或专用处理设备执行某些功能或功能的组的指令和数据。在一些实施方案中,在通用计算机上执行计算机可执行指令以将通用计算机变成实施本公开的元素的专用计算机。计算机可执行指令可以是例如二进制数、诸如汇编语言的中间格式指令、或者甚至源代码。尽管已经以特定于结构特征和/或方法动作的语言描述了主题内容,但是应当理解,在所附权利要求中定义的主题内容不必限于所描述的特征部或动作。相反,所描述的特征部和动作是作为实施权利要求的示例性形式来公开的。
本领域中的技术人员将理解,本公开可以在具有许多类型的计算机系统配置的网络计算环境中实践,包括个人计算机、台式计算机、便携式电脑、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板电脑、寻呼机、路由器、交换机等。本公开还可以在分布式系统环境中实践,其中通过网络链接(通过硬连线数据链路、无线数据链路或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务。在分布式系统环境中,程序模块可以位于本地和远程存储器存储设备两者中。
本公开的实施方案还可在云计算环境中实施。在本说明书中,“云计算”定义为用于实现对可配置计算资源的共享池的按需网络访问的模型。例如,可在市场中采用云计算以提供对可配置计算资源的共享池的无处不在并且便利的按需访问。可配置计算资源的共享池可经由虚拟化快速预置并且以低管理努力或服务提供者交互释放,并且然后因此扩展。
云计算模型可由各种特性组成,诸如例如按需自助服务、广泛网络访问、资源池化、快速弹性、可计量服务等。云计算模型还可展示各种服务模型,诸如例如软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)。云计算模型还可使用不同的部署模型来部署,诸如私有云、社区云、公共云、混合云等。在本说明书和在权利要求书中,“云计算环境”是在其中采用云计算的环境。
图11示出了可以被配置为执行上述过程中的一者或多者的计算设备1100的框图。人们将理解,诸如计算设备1100的一个或多个计算设备可以实施定制测序系统104。如图11所示,计算设备1100可包括处理器1102、存储器1104、存储设备1106、I/O接口1108和通信接口1110,它们可以通过通信基础设施1112的方式通信地耦合。在某些实施方案中,计算设备1100可包括比图11所示的部件更少或更多的部件。以下段落更详细地描述了图11中所示的计算设备1100的部件。
在一个或多个实施方案中,处理器1102包括用于执行指令(诸如构成计算机程序的那些指令)的硬件。作为示例,而非通过限制的方式,为了执行用于动态地修改工作流的指令,处理器1102可以从内部寄存器、内部高速缓存、存储器1104或存储设备1106检索(或提取)指令,并且解码和执行它们。存储器1104可以是用于存储由处理器执行的数据、元数据和程序的易失性或非易失性存储器。存储设备1106包括用于存储用于执行本文所述的方法的数据或指令的存储装置,诸如硬盘、闪存盘驱动器或其他数字存储设备。
I/O接口1108允许用户向计算设备1100提供输入、从该计算设备接收输出,以及以其他方式向该计算设备传输数据和从该计算设备接收数据。I/O接口1108可包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知I/O设备或此类I/O接口的组合。I/O接口1108可包括用于向用户呈现输出的一个或多个设备,包括但不限于图形引擎、显示器(例如,显示屏)、一个或多个输出驱动程序(例如,显示驱动程序)、一个或多个音频扬声器以及一个或多个音频驱动程序。在某些实施方案中,I/O接口1108被配置为向显示器提供图形数据以呈现给用户。图形数据可以表示一个或多个图形用户界面和/或可以服务于特定实施的任何其他图形内容。
通信接口1110可包括硬件、软件或两者。在任何情况下,通信接口1110可提供用于计算设备1100与一个或多个其他计算设备或网络之间的通信(诸如例如基于分组的通信)的一个或多个接口。作为示例,而非通过限制的方式,通信接口1110可包括用于与以太网或其他基于有线的网络通信的网络接口控制器(NIC)或网络适配器,或用于与无线网络(诸如WI-FI)通信的无线NIC(WNIC)或无线适配器。
另外,通信接口1110可以促进与各种类型的有线或无线网络的通信。通信接口1110还可以促进使用各种通信协议的通信。通信基础设施1112还可以包括将计算设备1100的部件彼此耦合的硬件、软件或两者。例如,通信接口1110可以使用一个或多个网络和/或协议来使得由特定基础设施连接的多个计算设备能够与彼此通信以执行本文所述的过程的一个或多个方面。为了说明,测序过程可允许多个设备(例如,客户端设备、测序设备和服务器设备)交换诸如测序数据和误差通知的信息。
在前述说明书中,本公开已经参考其特定示例性实施方案进行描述。参考本文所讨论的细节描述了本公开的各种实施方案和方面,并且附图说明各种实施方案。上面的描述和图是对本公开的说明,并且不应被解释为限制本公开。描述了许多特定细节以提供对本公开的各种实施方案的透彻理解。
本公开可以以其他特定形式体现而不脱离其精神或本质特征。所述实施方案在所有方面都应被视为仅为示例性的而非限制性的。例如,本文所描述的方法可以用更少或更多的步骤/动作执行,或者步骤/动作可以以不同的顺序执行。附加地,本文所描述的步骤/动作可以重复或与彼此并行地执行或与相同或类似步骤/动作的不同实例并行地执行。因此,本申请的范围由所附权利要求书而非前述描述来指示。在权利要求的等效含义和范围内的所有改变都将包含在其范围内。

Claims (22)

1.一种系统,所述系统包括:
至少一个处理器;以及
包括指令的非暂态计算机可读介质,所述指令当由所述至少一个处理器执行时使得所述系统:
从样品基因组的核苷酸片段读段的子集确定围绕所述样品基因组内的基因组区域的变体核苷酸碱基检出的子集;
基于所述变体核苷酸碱基检出的子集推算对应于所述样品基因组的所述基因组区域的单倍型;
为所述样品基因组生成图参考基因组,所述图参考基因组包括表示对应于所述基因组区域的所推算的单倍型的路径;以及
基于将所述样品基因组的核苷酸片段读段与表示所述图参考基因组内的推算的单倍型的路径进行比较来确定所述样品基因组的所述基因组区域内的核苷酸碱基检出。
2.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统:
通过确定围绕所述基因组区域的单核苷酸多态性(SNP)来确定围绕所述基因组区域的所述变体核苷酸碱基检出的子集;以及
通过基于所述SNP推算对应于所述样品基因组的所述单倍型来推算所述基因组区域的所述单倍型。
3.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统从群体单倍型的单倍型数据库推算所述基因组区域的所述单倍型。
4.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统:
确定对应于所述样品基因组内的另外的基因组区域的变体核苷酸碱基检出;
基于所述变体核苷酸碱基检出来确定所述另外的基因组区域的另外的推算的单倍型;以及
生成所述图参考基因组,所述图参考基因组包括表示所述另外的推算的单倍型的另外的路径。
5.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统:
确定所述基因组区域内的核苷酸碱基检出的子集的质量度量不满足质量度量阈值;以及
基于所述核苷酸碱基检出的子集的所述质量度量不满足所述质量度量阈值而将所述基因组区域识别为低置信度检出区域。
6.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统:
基于所述样品基因组的所述核苷酸片段读段与表示所推算的单倍型的所述路径的比较来确定所述基因组区域内的基因组坐标的直接核苷酸碱基检出;
基于所述基因组区域的所推算的单倍型来确定所述基因组区域内的所述基因组坐标的所推算的核苷酸碱基检出;以及
基于所述直接核苷酸碱基检出和所推算的核苷酸碱基检出来确定所述基因组区域内的所述基因组坐标的最终核苷酸碱基检出。
7.根据权利要求6所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统:
确定对应于所述基因组坐标的所述直接核苷酸碱基检出的测序度量;以及
通过基于所述基因组区域的所述测序度量和变异性而将第一权重分配给所述直接核苷酸碱基检出并且将第二权重分配给所推算的核苷酸碱基检出来确定所述基因组坐标的所述最终核苷酸碱基检出。
8.根据权利要求1所述的系统,其中所述基因组区域包括可变数目串联重复(VNTR)、结构变体、插入或缺失的至少一部分。
9.根据权利要求1所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统:
从线性参考基因组确定所述基因组区域的基因组坐标;以及
生成所述图参考基因组,所述图参考基因组包括所述线性参考基因组以及表示对应于位于所述线性参考基因组的所述基因组坐标处的所述基因组区域的所推算的单倍型的所述路径。
10.一种存储指令的非暂态计算机可读介质,所述指令当由至少一个处理器执行时使得计算设备:
从样品基因组的核苷酸片段读段的子集确定围绕所述样品基因组内的基因组区域的变体核苷酸碱基检出的子集;
基于所述变体核苷酸碱基检出的子集为所述样品基因组推算对应于所述基因组区域的单倍型;
基于所推算的单倍型为所述样品基因组确定所述基因组区域的所推算的核苷酸碱基检出;
为所述样品基因组确定所述基因组区域的直接核苷酸碱基检出和对应于所述直接核苷酸碱基检出的测序度量;以及
基于所推算的核苷酸碱基检出、所述直接核苷酸碱基检出和所述测序度量来确定所述基因组区域的最终核苷酸碱基检出。
11.根据权利要求10所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备:
为所述样品基因组生成图参考基因组,所述图参考基因组包括表示对应于所述基因组区域的所推算的单倍型的路径;以及
基于将所述样品基因组的核苷酸片段读段与表示所述图参考基因组内的所推算的单倍型的路径进行比较来确定所述基因组区域的所述直接核苷酸碱基检出。
12.根据权利要求10所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备:
为所述样品基因组生成图参考基因组,所述图参考基因组包括线性参考基因组和表示对应于所述基因组区域的所推算的单倍型的路径;以及
基于识别对应于所述基因组坐标的核苷酸碱基片段读段与所述线性参考基因组内的所述基因组坐标处的对应核苷酸碱基之间的不一致来确定所述基因组区域内部或外部的基因组坐标的直接变体核苷酸碱基检出。
13.根据权利要求10所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备通过以下方式确定所述直接核苷酸碱基检出:
基于与图参考基因组内的线性参考基因组比对的来自所述样品基因组的核苷酸片段读段的第一子集来确定核苷酸碱基检出;以及
基于与表示来自所述图参考基因组的一个或多个所推算的单倍型的路径比对的来自所述样品基因组的核苷酸片段读段的第二子集来确定核苷酸碱基检出。
14.根据权利要求10所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备通过确定所述直接核苷酸碱基检出的深度度量、读段数据质量度量、检出数据质量度量或映射质量度量来确定对应于所述直接核苷酸碱基检出的所述测序度量。
15.根据权利要求10所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备通过利用碱基检出机器学习模型而基于所推算的核苷酸碱基检出、所述直接核苷酸碱基检出和所述测序度量确定所述最终核苷酸碱基检出来确定所述基因组区域的所述最终核苷酸碱基检出。
16.根据权利要求10所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备通过基于所述基因组区域的变异性和对应于所述直接核苷酸碱基检出的所述测序度量中的一个或多个测序度量而对所述直接核苷酸碱基检出中的一个或多个直接核苷酸碱基检出与所推算的核苷酸碱基检出中的一个或多个所推算的核苷酸碱基检出不同地加权来确定所述基因组区域的最终核苷酸碱基检出。
17.根据权利要求16所述的非暂态计算机可读介质,其中:
所述基因组区域的所述变异性包括所述基因组区域的基因型变异性和所述基因组区域的长度;以及
所述测序度量中的一个或多个测序度量包括对应于核苷酸片段读段的所述直接核苷酸碱基检出的读段数据质量度量或映射质量度量以及对应于所述核苷酸片段读段的所述直接核苷酸碱基检出的检出数据质量度量。
18.一种方法,所述方法包括:
为样品基因组确定基因组区域的直接核苷酸碱基检出和对应于所述直接核苷酸碱基检出的测序度量;
基于围绕所述基因组区域的变体核苷酸碱基检出为所述样品基因组推算对应于所述基因组区域的单倍型;
基于所推算的单倍型为所述样品基因组确定所述基因组区域的所推算的核苷酸碱基检出;以及
基于所述直接核苷酸碱基检出、所述测序度量和所推算的核苷酸碱基检出确定所述基因组区域的最终核苷酸碱基检出。
19.根据权利要求18所述的方法,其中确定对应于所述直接核苷酸碱基检出的所述测序度量包括确定所述直接核苷酸碱基检出的深度度量、读段数据质量度量、检出数据质量度量或映射质量度量。
20.根据权利要求18所述的方法,其中确定所述基因组区域的所述最终核苷酸碱基检出包括利用碱基检出机器学习模型基于所推算的核苷酸碱基检出、所述直接核苷酸碱基检出和所述测序度量来确定所述最终核苷酸碱基检出。
21.根据权利要求18所述的方法,其中确定所述基因组区域的所述最终核苷酸碱基检出包括基于直接核苷酸碱基检出的基因组坐标的基因型变异性、以及对应于核苷酸片段读段的所述直接核苷酸碱基检出的读段数据质量度量或对应于所述核苷酸片段读段的所述直接核苷酸碱基检出的检出数据质量度量中的一者或多者而对所述直接核苷酸碱基检出与所推算的核苷酸碱基检出不同地加权。
22.根据权利要求18所述的方法,其中确定所述基因组区域的所述最终核苷酸碱基检出包括利用碱基检出机器学习模型来:
对直接核苷酸碱基检出与基因组坐标的所推算的核苷酸碱基检出不同地加权;以及
选择所述直接核苷酸碱基检出或所推算的核苷酸碱基检出中的一者作为所述基因组坐标的最终核苷酸碱基检出。
CN202280044110.0A 2021-09-21 2022-08-05 使用推算的单倍型的图参考基因组和碱基检出方法 Pending CN117546243A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163246626P 2021-09-21 2021-09-21
US63/246626 2021-09-21
PCT/US2022/074632 WO2023049558A1 (en) 2021-09-21 2022-08-05 A graph reference genome and base-calling approach using imputed haplotypes

Publications (1)

Publication Number Publication Date
CN117546243A true CN117546243A (zh) 2024-02-09

Family

ID=83050008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280044110.0A Pending CN117546243A (zh) 2021-09-21 2022-08-05 使用推算的单倍型的图参考基因组和碱基检出方法

Country Status (3)

Country Link
US (1) US20230095961A1 (zh)
CN (1) CN117546243A (zh)
WO (1) WO2023049558A1 (zh)

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
EP1975251A3 (en) 2000-07-07 2009-03-25 Visigen Biotechnologies, Inc. Real-time sequence determination
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
ES2407681T3 (es) 2002-08-23 2013-06-13 Illumina Cambridge Limited Nucleótidos modificados para la secuenciación de polinucleótidos.
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
JP2007525571A (ja) 2004-01-07 2007-09-06 ソレクサ リミテッド 修飾分子アレイ
CA2579150C (en) 2004-09-17 2014-11-25 Pacific Biosciences Of California, Inc. Apparatus and method for analysis of molecules
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
JP4990886B2 (ja) 2005-05-10 2012-08-01 ソレックサ リミテッド 改良ポリメラーゼ
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
EP3373174A1 (en) 2006-03-31 2018-09-12 Illumina, Inc. Systems and devices for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
EP4134667A1 (en) 2006-12-14 2023-02-15 Life Technologies Corporation Apparatus for measuring analytes using fet arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
WO2013035114A1 (en) 2011-09-08 2013-03-14 Decode Genetics Ehf Tp53 genetic variants predictive of cancer
SI3623481T1 (sl) 2011-09-23 2022-01-31 Illumina, Inc. Sestavki za sekvenciranje nukleinske kisline
CA2867665C (en) 2012-04-03 2022-01-04 Illumina, Inc. Integrated optoelectronic read head and fluidic cartridge useful for nucleic acid sequencing
US20230014607A1 (en) * 2019-10-09 2023-01-19 Claret Bioscience, Llc Methods and compositions for analyzing nucleic acid

Also Published As

Publication number Publication date
US20230095961A1 (en) 2023-03-30
WO2023049558A1 (en) 2023-03-30

Similar Documents

Publication Publication Date Title
KR102562419B1 (ko) 심층 신경망에 기반한 변이체 분류자
US20190318806A1 (en) Variant Classifier Based on Deep Neural Networks
CN110892484A (zh) 用于识别引起序列特异性错误(sse)的序列图案的基于深度学习的框架
US20220415442A1 (en) Signal-to-noise-ratio metric for determining nucleotide-base calls and base-call quality
CN117043867A (zh) 用于检测用于测序的核苷酸样品玻片内的气泡的机器学习模型
US20230095961A1 (en) Graph reference genome and base-calling approach using imputed haplotypes
US20230340571A1 (en) Machine-learning models for selecting oligonucleotide probes for array technologies
US20230313271A1 (en) Machine-learning models for detecting and adjusting values for nucleotide methylation levels
US20220415443A1 (en) Machine-learning model for generating confidence classifications for genomic coordinates
US20240112753A1 (en) Target-variant-reference panel for imputing target variants
US20240120027A1 (en) Machine-learning model for refining structural variant calls
US20230420082A1 (en) Generating and implementing a structural variation graph genome
US20230207050A1 (en) Machine learning model for recalibrating nucleotide base calls corresponding to target variants
US20230420080A1 (en) Split-read alignment by intelligently identifying and scoring candidate split groups
US20240127906A1 (en) Detecting and correcting methylation values from methylation sequencing assays
US20230021577A1 (en) Machine-learning model for recalibrating nucleotide-base calls
CN117561573A (zh) 从碱基判读错误模式自动鉴定核苷酸测序中的故障来源
WO2024006705A1 (en) Improved human leukocyte antigen (hla) genotyping
NZ791625A (en) Variant classifier based on deep neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination