CN117597739A - Umi塌缩 - Google Patents

Umi塌缩 Download PDF

Info

Publication number
CN117597739A
CN117597739A CN202280041976.6A CN202280041976A CN117597739A CN 117597739 A CN117597739 A CN 117597739A CN 202280041976 A CN202280041976 A CN 202280041976A CN 117597739 A CN117597739 A CN 117597739A
Authority
CN
China
Prior art keywords
sequence
umi
families
family
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280041976.6A
Other languages
English (en)
Inventor
赵晨
姜婷婷
A·比恩鲍姆
R·美雄
S·卡特瑞克斯
S·W·车
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN117597739A publication Critical patent/CN117597739A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biomedical Technology (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Microbiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Biochemistry (AREA)
  • Artificial Intelligence (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Semiconductor Lasers (AREA)
  • Preparation Of Fruits And Vegetables (AREA)

Abstract

本文公开的内容包括用于使用UMI对序列读段进行分组和塌缩起源于相同DNA分子的序列读段家族的系统、设备和方法。

Description

UMI塌缩
相关申请
本申请根据35U.S.C.§119(e)要求2021年5月19日提交的美国临时专利申请序列号63/190,716的权益,该相关申请的内容出于所有目的全文以引用方式并入本文。
版权通知
本专利文件的一部分公开内容包含受版权保护的材料。版权所有者不反对任何人对出现在专利和商标局专利文件或记录中的专利文件或专利公开进行传真复制,但保留所有版权。
序列表的参考
本申请连同电子格式的序列表一起提交。该序列表以创建于2022年5月11日的名称为47CX-311974-US_Sequence_Listing的文件提供,该文件大小为2千字节。序列表的电子格式的信息全文以引用方式并入本文。
背景技术
技术领域
本公开整体涉及处理序列读段的领域,例如对序列读段进行分组。
相关技术的描述
为了提高低等位基因频率变异体检测的错误率和准确性,可以在文库构建期间将不同风格的唯一分子条形码(UMI)添加到DNA模板中。通过大规模深度测序,可以基于UMI序列对属于(或起源于)相同DNA模板的重复读段进行分组,并且可以产生共有读段,以消除样品处理、文库制备或测序中的错误。然而,UMI序列中可能存在错误,或者在文库构建和测序期间可能出现UMI跳跃的假象。需要能够更好地对属于相同DNA模板的重复读段进行分组的方法。
发明内容
本文公开的内容包括对序列读段进行分组的方法。对序列读段进行分组的方法可包括对序列读段进行分组,可包括将序列读段分组为序列读段家族;以及合并(或塌缩)序列读段家族。在一些实施方案中,用于对序列读段进行分组的方法在处理器(例如,硬件处理器或虚拟处理器)的控制下并且包括:接收多个序列读段,每个序列读段包括片段序列和唯一分子标识符(UMI)序列(或标识符序列)。该方法可以包括:使用序列读段的片段序列将多个序列读段中的序列读段与参考序列(例如,参考基因组序列)比对。该方法可以包括:基于UMI序列以及与参考序列比对的序列读段的片段序列的位置,将多个序列读段中的序列读段分组为多个序列读段家族。该方法可以包括:执行多个家族的UMI统计估计。该方法可以包括:执行多个家族中的家族的基于概率的合并。执行基于概率的合并可以包括:使用UMI统计估计的结果执行多个家族中的家族的基于概率的合并。
在一些实施方案中,执行UMI统计估计包括:确定片段(或片段插入)大小频率、UMI跳跃率和/或UMI频率。执行基于概率的合并可以包括使用片段大小频率、UMI跳跃率和/或UMI频率来执行多个家族中的家族的基于概率的合并。在一些实施方案中,执行基于概率的合并包括:使用片段大小频率、UMI跳跃率和/或UMI频率来确定两个家族来源于(或起源于)相同的原始核酸(例如,DNA)分子的相对似然性(或概率)。执行基于概率的合并可以包括:确定相对似然性高于合并阈值(例如,1)。执行基于概率的合并可以包括:合并多个家族中的两个家族。在一些实施方案中,合并两个家族包括:将两个家族的较小家族(例如,具有较少序列读段)合并成两个家族的较大家族(例如,具有较多序列读段)。
在一些实施方案中,确定两个家族来源于相同的原始核酸分子的相对似然性包括:确定在给定片段位置的情况下的唯一分子(或家族)相对于非唯一分子(或家族)的似然比。确定两个家族来源于相同的原始核酸分子的相对似然性可包括:确定唯一分子(或家族)相对于非唯一分子(或家族)的UMI转变的似然比。UMI转变可以是UMI跳跃或测序错误的结果。相对似然性是(i)在给定片段位置的情况下的唯一分子相对于非唯一分子的似然性(或概率)比和(ii)唯一分子相对于非唯一分子的UMI转变的似然性(或概率)比的乘积(例如,乘法乘积)。
在一些实施方案中,确定两个家族来源于相同的原始核酸分子的相对似然性包括:使用测序错误率(例如,0.001)和/或错配概率(例如,0.25)确定两个家族来源于相同的原始核酸分子的相对似然性。测序错误率可以是预先确定的。错配概率可以是预先确定的。
在一些实施方案中,执行基于概率的合并包括:家族鉴定和合并(或塌缩)。执行基于概率的合并可以包括:双链体鉴定和合并(或塌缩)。在一些实施方案中,执行基于概率的合并包括:使用概率图执行多个家族中的家族的基于概率的合并。在一些实施方案中,执行基于概率的合并包括:(i)对于多个家族中的一个、一个或多个或每对家族,确定该对中的家族来源于相同的原始核酸分子的相对似然性(或概率)。执行基于概率的合并可以包括:(ii)对于具有最高相对似然性(或概率)的一对家族,如果具有最高相对似然性(或概率)的该对中的家族来源于相同的原始核酸分子的相对似然性高于合并阈值(例如,1),则合并该家族。在一些实施方案中,其中执行基于概率的合并还包括:(iii)重复(i)和(ii),直到具有最高相对似然性(或概率)的对中的家族的相对似然不高于合并阈值。
在一些实施方案中,执行UMI统计估计包括:对多个家族中的家族的子集执行UMI统计估计。家族的子集可以包括多个家族中的至少50,000个家族。家族的子集可以包括多个家族中的至少10%的家族。多个家族(例如,在基于概率的合并之前或者在基于概率的合并之后)包括至少500,000个家族。在执行基于概率的合并之前的多个家族可以包括比在执行基于概率的合并之后的多个家族多至少10%的家族。在一些实施方案中,合并之前(或之后)的多个家族中的一个、一个或多个或每个家族包括多个序列读段中的至少1个序列读段(例如,至少5个序列读段)。
在一些实施方案中,多个序列读段中的一个、一个或多个或每个序列读段包括第二UMI序列。UMI序列可以在片段序列的5'。第二UMI序列可以在片段序列的3'。另选地,UMI序列可以在片段序列的3'。第二UMI序列可以在片段序列的5'。
在一些实施方案中,UMI序列的长度为4-20个碱基。第二UMI序列的长度可以是4-20个碱基。UMI序列和第二UMI序列可以具有不同的长度。UMI序列和第二UMI序列可以具有相同的长度。UMI序列和第二UMI序列可以是不同的。UMI序列和第二UMI序列可以是相同的。UMI序列可以是随机的。UMI序列可以是非随机的。
在一些实施方案中,该方法包括:在对多个家族中的一个、一个或多个或每个家族执行基于概率的合并之后,确定家族的共有片段序列、共有片段序列与参考序列比对的位置、和/或家族的共有UMI序列。该方法可以包括:将共有片段序列与参考序列进行比对。在一些实施方案中,该方法包括:确定家族的序列读段所来源的原始核酸分子的片段序列和/或UMI序列。该方法可以包括:将片段序列与参考序列进行比对。
在一些实施方案中,该方法包括:创建文件或报告和/或生成包括UI元件的用户界面(UI),该UI元件针对多个家族中的一个、一个或多个或每个家族表示或包括(i)家族。文件或报告和/或UI元件可以表示或包括(ii)家族的序列读段、家族的片段序列、和/或家族的UMI序列。文件或报告和/或UI元件可表示或包括(iii)家族的共有片段序列、共有片段序列与参考序列比对的位置、和/或家族的共有UMI序列。
在一些实施方案中,多个序列读段包括各自长度为约50个碱基对至约1000个碱基对的片段序列。多个序列读段可包括配对末端序列读段和/或单末端序列读段。多个序列读段可通过全基因组测序(WGS),例如临床WGS(cWGS)产生。
在一些实施方案中,从样品产生多个序列读段。样品可以从受试者获得。样品可从获自受试者的另一样品产生。其他样品可直接从受试者获得。样品可以包括细胞、无细胞DNA、无细胞胎儿DNA、环状肿瘤DNA、羊水、血液样品、活检样品或它们的组合。
本文公开的内容包括用于对序列读段进行分组的系统(其可包括将序列读段分组为序列读段家族;以及合并(或塌缩)序列读段家族)。在一些实施方案中,对序列读段进行分组的系统包括:被配置为存储可执行指令的非暂态存储器。非暂态存储器可被配置为存储多个序列读段,每个序列读段包括片段序列和唯一分子标识符(UMI)序列(或标识符序列)。系统可包括:与非暂态存储器通信的处理器(例如,硬件处理器或虚拟处理器)。硬件处理器可由可执行指令编程以执行:使用序列读段的片段序列将多个序列读段中的序列读段与参考基因组序列进行比对。硬件处理器可由可执行指令编程以执行:基于与参考基因组序列比对的序列读段的片段序列的UMI序列位置,将多个序列读段中的序列读段分组为多个序列读段家族。硬件处理器可由可执行指令编程以执行:执行多个家族中的家族的基于概率的合并。
在一些实施方案中,执行基于概率的合并包括:执行多个家族的UMI统计估计。在一些实施方案中,执行UMI统计估计包括:确定片段(或片段插入)大小频率、UMI跳跃率和/或UMI频率。执行基于概率的合并可以包括:使用片段大小频率、UMI跳跃率和/或UMI频率来执行多个家族中的家族的基于概率的合并。
在一些实施方案中,执行基于概率的合并包括:使用片段大小频率、UMI跳跃率和/或UMI频率来确定两个家族来源于相同的原始核酸分子的相对似然性(或概率)。执行基于概率的合并可以包括:确定相对似然性高于合并阈值。执行基于概率的合并可以包括:合并多个家族中的两个家族。合并两个家族包括:将两个家族的较小家族(例如,具有较少序列读段)合并成两个家族的较大家族(具有较多序列读段)。
在一些实施方案中,两个家族来源于相同原始核酸分子的相对似然性是(i)在给定片段位置的情况下的唯一分子(或家族)相对于非唯一分子(或家族)的似然比和(ii)唯一分子相对于非唯一分子的UMI转变(例如,由UMI跳跃或测序错误引起的)的似然比的乘积(例如,乘法乘积)。硬件处理器可由可执行指令编程以执行:确定在给定片段位置的情况下的唯一分子相对于非唯一分子的似然比。硬件处理器可由可执行指令编程以执行:确定唯一分子相对于非唯一分子的UMI转变的似然比。
在一些实施方案中,确定两个家族来源于相同的原始核酸分子的相对似然性包括:使用测序错误率(例如,0.001)和/或错配概率(例如,0.25)确定两个家族来源于相同的原始核酸分子的相对似然性。测序错误率可以是预先确定的。错配概率可以是预先确定的。
在一些实施方案中,执行基于概率的合并包括:家族鉴定和合并(或塌缩)。执行基于概率的合并可以包括:双链体鉴定和合并(或塌缩)。在一些实施方案中,其中执行基于概率的合并包括:使用概率图执行多个家族中的家族的基于概率的合并。在一些实施方案中,执行基于概率的合并包括:(i)对于多个家族中的一个、一个或多个或每对家族,确定该对中的家族来源于相同的原始核酸分子的相对似然性(或概率)。执行基于概率的合并可以包括:(ii)对于具有最高相对似然性(或概率)的一对家族,如果具有最高相对似然性(或概率)的该对中的家族来源于相同的原始核酸分子的相对似然性(或概率)高于合并阈值,则合并该家族。执行基于概率的合并还可以包括:(iii)重复(i)和(ii),直到具有最高相对似然性的对中的家族的相对似然(或概率)不高于合并阈值。
在一些实施方案中,执行UMI统计估计包括:对多个家族中的家族的子集执行UMI统计估计。家族的子集可以包括多个家族中的至少50,000个家族。家族的子集可以包括多个家族中的至少10%的家族。多个家族(例如,在基于概率的合并之前或者在基于概率的合并之后)包括至少500,000个家族。在执行基于概率的合并之前的多个家族可以包括比在执行基于概率的合并之后的多个家族多至少10%的家族。在一些实施方案中,合并之前(或之后)的多个家族中的一个、一个或多个或每个家族包括多个序列读段中的至少1个序列读段(例如,至少5个序列读段)。
在一些实施方案中,多个序列读段中的一个、一个或多个或每个序列读段包括第二UMI序列。UMI序列可以在片段序列的5'。第二UMI序列可以在片段序列的3'。另选地,UMI序列可以在片段序列的3'。第二UMI序列可以在片段序列的5'。
在一些实施方案中,UMI序列的长度为4-20个碱基。第二UMI序列的长度可以是4-20个碱基。UMI序列和第二UMI序列可以具有不同的长度。UMI序列和第二UMI序列可以具有相同的长度。UMI序列和第二UMI序列可以是不同的。UMI序列和第二UMI序列可以是相同的。UMI序列可以是随机的。UMI序列可以是非随机的。
在一些实施方案中,其中硬件处理器由可执行指令编程以执行:在对多个家族中的一个、一个或多个或每个家族执行基于概率的合并之后,确定家族的片段序列(或共有片段序列)、片段序列与参考基因组序列比对的位置、和/或家族的UMI序列。硬件处理器可由可执行指令编程以执行:将家族的片段序列与参考序列比对。硬件处理器可由可执行指令编程以执行:确定家族的序列读段所来源的原始核酸分子的片段序列和/或UMI序列。该方法可以包括:将共有片段序列与参考序列进行比对。
在一些实施方案中,其中硬件处理器由可执行指令编程以执行:创建文件或报告和/或生成用户界面(UI),该UI包括UI元件,该UI元件对于多个家族中的一个、一个或多个或每个家族表示或包括:(i)家族,(ii)家族的序列读段、家族的片段序列、和/或家族的UMI序列,以及/或者(iii)家族的片段序列、片段序列与参考基因组序列比对的位置、和/或家族的UMI序列。
在一些实施方案中,多个序列读段包括各自长度为约50个碱基对至约1000个碱基对的片段序列。多个序列读段可包括配对末端序列读段和/或单末端序列读段。多个序列读段可通过全基因组测序(WGS),例如临床WGS(cWGS)产生。
在一些实施方案中,从样品产生多个序列读段。样品可以从受试者获得。样品可从获自受试者的另一样品产生。其他样品可直接从受试者获得。样品可以包括细胞、无细胞DNA、无细胞胎儿DNA、环状肿瘤DNA、羊水、血液样品、活检样品或它们的组合。
本文的公开内容还包括存储可执行指令的非暂态计算机可读介质,该可执行指令在由系统(例如,计算系统)执行时使得系统执行本文公开的任何方法或方法的一个或多个步骤。
本说明书中描述的主题的一个或多个具体实施的细节在附图和以下描述中进行阐述。根据说明书、附图和权利要求,其他特征、方面和优点将变得显而易见。本发明内容和以下具体实施方式均不旨在限定或限制本发明主题的范围。
附图说明
图1A示出塌缩序列读段的示意图。图1B描绘了共有序列的塌缩,例如分组和输出(或发射)的基本概念的示例性图示。
图2示出文库制备、测序和UMI塌缩的一般过程的非限制性示例性实施方案。
图3描绘了与来自不同样品类型的错误校正性能相关的数据。
图4示出基因组基因座错误的示例性图示。
图5描绘了当前家族鉴定方法的示例性图示,其中假定UMI中的错误是由测序和警告引起的。
图6描绘了具有Agilent SureSelect数据集的UMI跳跃示例。
图7描绘了TSO500融合调用中的UMI跳跃示例。
图8示出用于读段塌缩和警告的当前家族鉴定方法的图示。
图9示出双UMI的图示。
图10描绘了用于重复分组的概率框架的标记片段的示例性说明。
图11描绘了所公开的用于重复分组的概率框架的示例性工作流程。
图12描绘了使用所公开的概率框架的合并过程的示例性模型。
图13描绘了用于通过位置估计唯一分子的候选分子的示例性图示。
图14示出双UMI或单UMI实施方案中的UMI跳跃的示例性概率模型统计估计。
图15示出与具有单UMI的UMI跳跃估计的有效性相关的数据。
图16描绘了对于随机(顶部)或非随机(底部)UMI类型通过UMI估计唯一分子的模型。另外,参见表1。
图17描绘了具有单UMI的双链体塌缩的示例性图示。
图18描绘了与使用目前公开的方法(DRAGEN与支点基因组工具(Fgbio))的错误校正的增强性能相关的数据。
图19描绘了与堆积(Pileup)与变体调用者(VC)灵敏度相关的数据。
图20示出使用DRAGEN与Fgbio的真实挑战基准数据变体突变体支持的直方图。
图21描绘了对SNP变体调用:DRAGEN UMI+DRAGEN VC的影响的接收者操作特性(ROC)曲线。示出了使用本文公开的基于位置和概率的模型的结果。
图22描绘了对非SNP变体调用:DRAGEN UMI+DRAGEN VC的影响的ROC曲线。示出了使用本文公开的基于位置和概率的模型的结果。
图23描绘了对SNP变体调用:DRAGEN UMI+DRAGEN VC的影响的ROC曲线。此处仅示出了概率模型的结果。
图24描绘了对非SNP变体调用:DRAGEN UMI+DRAGEN VC的影响的ROC曲线。此处仅示出了概率模型的结果。
图25描绘了对SNP变体调用:DRAGEN UMI+CG VC(仅LQ)的影响的ROC曲线。示出了使用基于概率的模型的结果。
图26描绘了对非SNP变体调用:DRAGEN UMI+CG VC(仅LQ)的影响的ROC曲线。示出了使用基于概率的模型的结果。
图27描绘了与插入/删除(indel)错误率相关的数据。
图28描绘了本文所公开的UMI调用方法的示例性实施方案的流程图。
图29描绘了用于鉴定可塌缩区域的方法的示例性实施方案的流程图。
图30描绘了用于生成共有读段的方法的示例性实施方案的流程图。
图31描绘了用于扫描可塌缩区域的示例性实施方案的流程图。
图32示出使用位置和UMI信息的序列塌缩的图示。
图33描绘了与具有双链体UMI的读段对的UMI度量相关的图。另外,参见表6。
图34示出与UMI错误校正相关的图。另外,参见表6。
图35示出与UMI可塌缩区域相关的UMI度量相关的图。另外,参见表6。
图36为示出对序列读段进行分组的示例性方法的流程图。对序列读段进行分组可包括基于序列读段中的UMI序列将序列读段分组成家族。对序列读段进行分组可包括使用概率模型合并家族。合并序列读段家族在本文中也称为读段或UMI塌缩。
图37为被配置用于对序列读段进行分组的示例性计算系统的框图。
具体实施方式
在以下具体实施方式中,参考了附图,附图形成具体实施方式的一部分。在附图中,除非上下文另有规定,否则类似的符号通常标识类似的组分。具体实施方式、附图和权利要求书中所述的示例性实施方案并非旨在为限制性的。在不脱离本文所提出的主题的精神或范围的情况下,可利用其他实施方案,并且可作出其他改变。将容易理解的是,如本文大体所述并且如附图所示,本公开的各方面可被布置、替代、组合、分离和设计成多种不同的构型,所有这些构型均明确涵盖于本文中并成为本公开的一部分。
所有专利、公布的专利申请、其他出版物和来自GenBank的序列、以及本文提及的其他数据库均相对于相关技术全文以引用方式并入。
概述
为了提高低等位基因频率变异体检测的错误率和准确性,可以在文库构建期间将不同风格的唯一分子条形码(UMI)添加到DNA模板中。唯一分子标识符(UMI)是一类分子条形码,其在测序期间提供错误校正和增加的准确性。这些分子条形码是用于唯一地标记样品文库中每个分子的短序列。UMI用于广泛的测序应用,许多是围绕DNA和cDNA中的PCR复制。UMI去重也可用于RNA-seq基因表达分析和其他定量测序方法。用UMI测序可降低假阳性变体调用的速率并增加变体检测的灵敏度。由于起始材料中的每个核酸用唯一分子条形码标记,所以生物信息学软件可以以高水平的准确性过滤出重复读段和PCR错误,并且报告唯一读段,从而在最终数据分析之前移除所鉴定的错误。UMI将唯一条形码结合到给定样品文库内的每个分子上。通过在每个原始DNA片段上结合单独条形码,可将原始样品中存在的变体等位基因(真正变体)与在文库制备、靶标富集或测序期间引入的错误区分开。
通过大规模深度测序,可以基于UMI序列对属于(或起源于)相同DNA模板的重复读段进行分组,并且可以产生共有读段,以消除样品处理、文库制备或测序中的错误。然而,UMI序列中可能存在错误,或者在文库构建和测序期间可能出现UMI跳跃的假象。仅依赖于UMI序列可导致分组读段不足或过度,从而导致共有读段生成的错误。此外,合并来自DNA模板的两条链的重复可以帮助移除以样品制备级出现的DNA序列错误,然而,当存在单个UMI时,合并DNA模板的两条不同的链已经成为挑战。在名称为“SYSTEMS AND METHODS FORGROUPING AND COLLAPSING SEQUENCING READS”的美国专利申请公布号2020/0135298中描述了读段或UMI塌缩的方法,该申请全文以引用方式并入本文。
UMI塌缩主要依赖于UMI序列相似性和片段位置。当前算法仅假设如果UMI序列存在差异的情况下发生了测序错误。然而,例如对于UMI跳跃的假象,该假设不成立。如本文所描述的,该问题可以通过首先使用一小部分数据估计UMI跳跃率,然后将该现有知识应用于完整数据以评估应当如何使用概率框架对读段进行分组来解决。在概率框架中,利用UMI序列、UMI跳跃率、片段大小和覆盖范围分布来评估将读段与不同UMI或不同位置合并的似然性。利用这种技术,解决了UMI跳跃的问题,并且可以普遍地应用于任何UMI设计。此外,基于位置信息、片段大小和覆盖范围分布,可以在具有单UMI的数据上执行双链合并,从而大大减少DNA错误。
在一些实施方案中,读段按片段比对位置分组。在每个位置(例如,1、2、3、4或5)处的小模糊窗口内,首先通过形成家族的精确UMI序列将读段分组。通过插入大小分布和某些位置处不同UMI的数量来估计UMI跳跃或跳变概率。在模糊窗口内,计算成对似然比以评估具有不同UMI序列和基因组位置的两个家族是否来源于相同的原始分子。将可能性低于阈值的家族合并。例如,默认阈值为1。
本文公开的内容包括对序列读段进行分组的方法。对序列读段进行分组的方法可包括对序列读段进行分组,可包括将序列读段分组为序列读段家族;以及合并(或塌缩)序列读段家族。在一些实施方案中,用于对序列读段进行分组的方法在处理器(例如,硬件处理器或虚拟处理器)的控制下并且包括:接收多个序列读段,每个序列读段包括片段序列和唯一分子标识符(UMI)序列(或标识符序列)。该方法可以包括:使用序列读段的片段序列将多个序列读段中的序列读段与参考序列(例如,参考基因组序列)比对。该方法可以包括:基于与参考序列比对的序列读段的片段序列的UMI序列位置,将多个序列读段中的序列读段分组为多个序列读段家族。该方法可以包括:执行多个家族的UMI统计估计。该方法可以包括:执行多个家族中的家族的基于概率的合并。执行基于概率的合并可以包括:使用UMI统计估计的结果执行多个家族中的家族的基于概率的合并。
UMI塌缩的概率模型
读段塌缩是一种计算方法,该计算方法将核苷酸序列读段鉴定为起源于相同的源核酸(例如,DNA)分子,并且随后使用统计方法来减少在这些读段集中发现的虚假错误。参考图1A,给定具有正链108a和负链108b的相同DNA分子108的所有重复读段104+r1、104+r2、104-r1、104-r2,读段塌缩可包括将那些读段104+r1、104+r2、104-r1、104-r2分组在一起。读段塌缩可以包括减少假错误,诸如利用单链体塌缩来确定核苷酸链的核苷酸序列,诸如DNA分子108的正链108a的序列。读段塌缩可包括以高置信度推断原始DNA分子108的序列,诸如用双链体塌缩来从正链108a的序列和负链108b的序列确定DNA分子108的核苷酸序列。本文公开的系统和方法可利用概率模型对序列读段进行分组(这可包括合并序列读段家族,本文称为读段或UMI塌缩)。
读段或UMI塌缩可产生高质量读段。读段或UMI塌缩可能需要用标识符序列(例如,唯一标识符序列(UMI))112a、112b’、112a’、112b对样品进行测序。此类标识符序列112a、112b’、112a’、112b可以在区分读段和可能在其他方面看起来非常相似的分子时实现增加的分辨率,尽管在特定环境下可以在没有此类标识符序列的情况下执行读段塌缩。读段塌缩可导致二氧化硅内错误减少。这种错误减少可用于下一代测序(NGS)内的许多应用。在一些实施方案中,源核酸分子(或模板)用双UMI标记,如图1A和图8左侧所示。在一些实施方案中,源核酸分子(或模板)用单UMI标记,如图8右侧所示。
该过程的一个应用是检测仅存在于超低等位基因级分(诸如循环肿瘤DNA(ctDNA))中的变体。另一种应用是临床应用的增强的变体调用特异性。由于读段塌缩有效地将DNA片段的所有重复观察(诸如DNA片段的PCR重复)组合成单个代表,读段塌缩具有显著减少需要在下游处理的数据量的益处。移除重复的观察或读段可导致数据大小的十倍或更多倍的减小。
如图1B所示,重复分组的关键挑战包括但不限于:(1)重复序列可能不共享相同的基因组位置(假阴性,FN)和(2)两个唯一分子可能共享相同的位置(假阳性,FP)。在一些实施方案中,UMI有助于提高分组准确度。在一些实施方案中,UMI也存在FP和FN的相同难题。如图2中所示,读段或UMI塌缩可使得能够对单链进行错误校正以移除随机测序和PCR错误,并且双链体错误校正可用于移除体外DNA损伤错误(双链体塌缩)。核酸或模板可在文库制备期间用UMI标记。所得的正核酸可具有两个UMI(核酸的5'上的α和核酸的3'上的β)。所得的负链可具有两个UMI(例如,核酸的5'上的β和核酸的3'上的α)。在一些实施方案中,核酸可被标记一个UMI。标记的核酸可以具有片段序列。标记的核酸可具有UMI序列。标记的核酸可具有第二UMI序列。UMI附加序列可以在文库制备期间添加,诸如用于附接到用于测序的流通池的序列(例如,P5和P7序列)。读段或UMI塌缩可导致错误率降低10e-6-10e-5,从而实现超灵敏的变体检测。图3中显示的是来自循环游离DNA(cfDNA)、核小体和pipDNA样品上的单链体和双链体塌缩的错误校正性能。cfDNA的总错误率低至10e-5,并且双链体校正产生低至10e-6的错误率。
下面描述不同类型的UMI错误。在一些实施方案中,可能存在测序错误(例如,UMI携带测序错误)。例如:来自读段1的UMI,AAT;来自读段2的UMI,AAT;来自读段3的UMI,ATT。在一些实施方案中,可能存在基因组基因座错误(起始/结束位置偏离一些碱基),其中UMI序列是相同的,但位置偏离几个碱基(图4)。在一些实施方案中,存在UMI跳跃错误(图6-图7),其中例如UMI序列在PCR期间被其他序列取代。
当前方法(参见例如图5)假定UMI的错误是由测序引起的,并且允许小于1bp或2bp的错配。在一些实施方案中,由于UMI跳跃率在不同化学物质中从<1%变为20%,导致增大的错误率和不正确的塌缩的事实,可以调用假阴性。在一些实施方案中,当UMI条形码较短(诸如IDT/Broad设计)时发生假阳性,并且启发式上下文校正可能不起作用。
UMI校正方法可以基于或包括启发式规则。在一些实施方案中,校正的UMI具有相同的开始/结束位置并且汉明距离<2(例如,fgbio校正)。在一些实施方案中,如果UMI序列相等并且位置偏离几个碱基(UMI模糊窗口大小(默认值=3)),则调用正确位置。使用DRAGEN选项:“umi使能概率模型合并=假”;非随机双链体UMI的默认值。
启发式规则可能难以推广。例如,如果唯一校正最接近,则校正UMI。如果不是,则(1)鉴定两者均有效的家族,(2)鉴定UMI之一无效的家族,仅允许最近者和第二最近者,或者(3)没有鉴定出两者均无效的家族,仅允许最近的校正。
如图7所示,对于潜在UMI跳跃读段对的去重,读段对可以具有相似的片段比对位置(≤3bp)并且可以共享1个相同的UMI和至少1个相同的比对。当前方法可能需要双UMI以用于双链体塌缩(图8)。缺失的单个末端UMI可禁用双链体序列的分组。图9示出双UMI的图示。
利用本文公开的概率模型(图11),可以计算UMI转变的概率,并且可以基于似然比来校正UMI和合并到家族中。例如,在DRAGEN流水线选项中:UMI使能概率模型合并=真;随机单链体/双链体UMI的默认值。
以下等式1和2描述了重复分组的概率框架。
Lpos:在给定片段位置的情况下的唯一分子相对于非唯一分子的似然比。LUMI:唯一分子相对于非唯一分子的umi转变的似然比。假设包括UMI转变是由跳跃或测序错误引起的,并且只有较大的家族可以跳跃到较小的家族中(C1大于C2,图10)。如图12所示,初始分组可以包括通过UMI加位置密钥对读段进行分组,以及通过家族大小和UMI序列进行排序。对于成对概率计算和合并,计算成对概率。只有较大的家族可以跳跃到较小的家族中,并且所述对被优先化。具有最大概率(似然性)的对被鉴定并与阈值进行比较。如果合并成功,则重新计算概率图直到最大对<阈值。
为了通过位置估计唯一分子(图13),所有读段可聚集在具有与C1和C2相同的开始或相同的结束的区域中。接下来,可以提取C1和C2的插入大小的频率。Lpos可以通过如下所示的二项式分布来估计:
其中:插入_大小频率(Insert_size freq)=1%,候选号=7。
本文公开的概率方法可以有利地利用区域中的所有读段,而不是具有相同开始和结束的读段。在一些实施方案中,如果C1和C2具有移位位置,则“Lpos=Lpos*indel错误率”。例如,indel错误率可以是0.001、0.0001或0.00001。
图14中示出了用于估计UMI跳跃的概率方法的示例性实施方案。对于双UMI,具有相同的一侧UMI的任何对可以被认为是跳跃候选,“P(跳跃)=非唯一家族/总家族”(例如,P(跳跃)=2/7)。对于单UMI,可以估计每个区域的唯一序列的概率,可以在具有高P(唯一)的区域处计算P(跳跃),“P(跳跃)=非唯一家族/总家族”(例如,P(跳跃)=1/5)。图15示出与具有单UMI的UMI跳跃估计的有效性相关的数据。
表1示出了用于计算P(C1=C2)和P(C1!=C2)的示例性公式,其继而可用于计算L(参见等式1)。
表1:通过UMI估计唯一分子
Lumi的等式
随机(UMI不匹配)
其中e=测序错误率,d=汉明距离,l=没有N碱基的UMI长度,pj=UMI跳跃概率(来自统计估计),pm=错配概率=0.25。
非随机(UMI不匹配)
P(C1=C2)=P(seq er)Dis+P(跳跃)*P(C)=ed+pj×pc (6)
其中pc=UMI频率C(来自统计估计)。
P(C1≠C2)=1-P(C)=1-pc (7)
Lpos的等式
其中,
ei=indel错误率,Nf=给定位置处的片段数,
fi=插入大小的频率(来自统计估计)。
参考图17,在单链体塌缩之后,具有相同开始或相同结束的总候选被设置为n。类似地,可以估计Lpos。在一些实施方案中,总和被取作估计值。在一些实施方案中,可以首先估计双链体速率。
表2:用于概率框架的用例
本文所公开的基于概率的UMI塌缩方法在不同UMI设置下可以是准确的:随机单UMI、非随机单UMI、随机双UMI和/或非随机双UMI。在一些实施方案中,可以微调用于概率模型的参数。例如,可以进行和使用诸如移位概率和错配率之类的附加统计。可以确定并使用用于合并概率的最佳阈值。在一些实施方案中,可改进共有序列产生。可从原始读段估计错误率,并且如先前一样应用于共有读段生成(例如,从均聚物区域估计错误率以改进indel错误率;例如,估计来自单链体读段的错误率以改善双链体塌缩)。
下面描述的结果来自使用IDT双链体UMI的数据。如图18所示,与例如支点(fgbio)相比,使用DRAGEN中目前公开的方法改善了双链体读段的错误校正性能。
DRAGEN UMI的灵敏度类似于例如Fgbio-双链体,如图19所示。在图19中示出了各自具有至少一个双链体载体的真实变体。遗漏的情况可能是由于比对差异和末端掩蔽。由于正常样品中的噪声基因座,indel的灵敏度低。如图20所示,DRAGEN调用了比Fgbio更真实的变体载体。在不受任何特定理论约束的情况下,遗漏载体的剩余情况是由于共有序列生成而不是读段分组。
表3:DRAGEN运行时间(MIN:SEC)
如上表3所示,对于DRAGEN UMI,每个样品运行时间为10min-25min。这比Fgbio工作流程快约15-20倍。
图21至图26示出利用本公开的概率模型从使用Agilent随机单UMI的数据中UMI塌缩的结果。在一些实施方案中,目前的多数表决在长重复单位中产生高达80%的不正确基因型(图27)。在一些实施方案中,可估计不同基因型之间的转变概率并将其在共有序列生成期间应用。
表4:错误校正的性能
详细软件设计
1.一般设计
文库制备方法可以提供在PCR和测序之前将唯一标识符(UMI)附接到分子的能力。这使得有可能获得测序后的读段,通过UMI将它们分组,并且因此聚集关于PCR前片段是什么的证据。本文描述的是实现这些任务的软件流水线(例如,在Illumina DRAGEN上)逻辑的设计。
在一些实施方案中,DRAGEN UMI处理的一般设计如下:(1)按其原始源片段进行分组比对,(2)为每个源片段生成单个共有读段(或对),以及(3)比对共有读段并将其馈送到下游分析流水线中(例如,分类、变体调用者)。
在一些实施方案中,通过单个散列表处理全输入样品可缓慢运行。因此,开发了一种鉴定基因组区域的方法,该基因组区域可以独立于其他区域进行处理,并且被并行处理。
2.软件单元设计
图28示出该章节中描述的软件的单元。
2.1.设计约束
在一些实施方案中,该设计基于以下约束:如果输入是FASTQ文件,则UMI标签必须包含在读段名称字段中或提供在单独的FASTQ文件中;如果输入是BAM文件,则UMI标签必须包含在读段名称字段中或UMI bam标签中;并且输入FASTQ/BAM来自配对末端运行。
在一些实施方案中,软件只能支持以下条件:小于或等于15个碱基对的单UMI以及小于或等于8+8个碱基对的双UMI。
2.2.按源片段分组:家族散列表
通过PCR和测序过程,在一些实施方案中,单个原始DNA片段可导致多个输入读段,通过测序错误而彼此不同。本文描述了将读段集合成组的方法,其中组的所有成员具有匹配的UMI,并且所有读段的序列接近相同。在一些实施方案中,用于检测序列相似性的方法是使用比对器;与相同基因组位置比对的任何读段必须具有相似的序列。因此,读段可以通过包括UMI和(剪辑调整的)对比对坐标的密钥来分组。对于分组,可使用该密钥来构建读段的散列表。
在一些实施方案中,UMI处理的第一阶段是进行正常的比对器运行,并且通过剪辑调整的配对坐标来划分和分类。这使用典型的分类-划分数据结构,Binner。在第一比对运行结束时,所有读段已经在该Binner数据结构中被划分,并且然后读段的后续划分可以被加载、按坐标分类,并且用于并行处理的独立区域可以被鉴定。
2.3.鉴定可塌缩区域
图29描绘了用于鉴定可塌缩区域的方法的示例性实施方案的流程图。一组相关读段(也称为家族)可被鉴定为具有非常接近的比对位置(在几个碱基对的“模糊窗口”内)和非常相似的UMI。并且由于覆盖范围跨基因组变化,存在许多位置,其中可以安全地推断没有家族可以跨该位置合并,例如,存在天然“断点”,其中家族组装可以独立地进行。
在一些实施方案中,在UMI处理的此第二阶段期间,可将分类分区读回到存储器中、分类并针对“可塌缩区域”进行扫描。将每个“可塌缩区域(CollapsibleRegion)”分配给单独的“区域塌缩器线程(RegionCollapserThread)”以在“塌缩区域(CollapsedRegion)”数据结构中生成一组独立的共有读段。通过“区域串行化器线程(RegionSerializerThread)”将“塌缩区域(CollapsedRegions)”放回到它们预期的顺序中,这将共有读段直接泵送回DRAGEN比对器中。
2.4.生成共有读段:读段塌缩器
图30描绘了用于生成共有读段的方法的示例性实施方案的流程图。如上所述,用于UMI处理的该阶段的工作单元是“可塌缩区域(CollapsibleRegion)”。“区域塌缩器线程(RegionCollapserThread)”的工作是接收“可塌缩区域(CollapsibleRegion)”,将该区域的所有读段馈送到“家族散列表(FamilyHashtable)”中,并且使用该散列表来生成一组共有读段。下面描述这些读段-塌缩方法的细节,包括UMI匹配/校正。
2.5.重新比对和下游流水线
“区域塌缩器线程(RegionCollapserThreads)”将输出(“塌缩区域(CollapsedRegions)”)馈送到单个队列中,其中它们通过单个“区域串行化器线程(RegionSerializerThread)”被放入正确的输出顺序中。该对象获取所生成的读段并将它们直接发送到DRAGEN比对器中,并从该比对器发送到经配置的下游系统中的任一者中。在一些实施方案中,这将典型地包括通过例如非剪辑调整的比对位置以及一个或多个变体调用者的常规分类。那些下游流水线元件以它们的正常方式运行,而不需要读段是由UMI塌缩系统生成的任何专门知识。
2.6.读段塌缩算法
以上描述的是完成以下任务的软件单元的一般布局:(1)鉴定可独立塌缩的基因组区域,(2)通过UMI和对比对位置进行组比对,以及(3)生成共有读段(例如,“塌缩读段”)。
下文更详细地描述了完成这些任务的算法。
2.6.1.可塌缩区域
基于大(TSO500)数据集的广泛分析,发现即使对于高深度数据,也可能发现大量基因组位置,其中可以确信附近没有具有匹配UMI的读段组。因此,读段可被分成用于独立并行处理的工作单元,从而构造单独的数据结构并为每个区域独立地生成共有读段。下面描述能够鉴定这些“可塌缩区域(CollapsibleRegions)”的算法。
家族构造的目的是通过剪辑调整的位置和UMI将读段分组。尽管这最终将使用基于散列表的方法来完成(参见下文,关于“家族构造”的章节),但对“可塌缩区域(CollapsibleRegions)”的扫描需要按最左侧的剪辑调整的位置进行分类。这种分类直接在比对器的下游进行,并且“区域发现器(RegionFinder)”扫描这些经分类的对。
图31描绘了用于扫描可塌缩区域的示例性实施方案的流程图。当它扫描通过经分类的记录时,“区域发现器(RegionFinder)”跟踪由至少一些读段覆盖的最后N(模糊窗口+1)对位置。当扫描新对时,检查它是否可以与最近家族中的任一者(相同的最左位置和最右位置差≤模糊窗口)移位合并。如果是,则该新位置被认为是匹配,并且做出在该位置处不分割的注释。
随着扫描继续,当发现满足以下3个条件中的一个条件时,将发射新的可塌缩区域:(1)扫描已经到达新的染色体;(2)扫描的读段数量>“每个区域最小读段(minReadsPerRegion)”(默认值4096),并且当前位置在模糊窗口内不具有随后的匹配;以及(3)达到最大区域大小,例如,扫描读段数量>“MAX_NUM_READS_WARNING”(默认值500,000)。
当发射“可塌缩区域(CollapsibleRegion)”时,所有累积的读段被发送到下游线程以用于家族构造和校正。然后,从下一个可用位置开始继续相同的扫描过程,在该位置中有读段。
2.6.2.家族构造
家族是来自表面上起源于相同来源分子的拷贝的读段的测序数据的分组。家族由以下信息定义:(1)UMI,由“+”表示的单或双UMI;(2)剪辑调整的对坐标,取每个配对的比对位置并向外调整超过5'端CIGAR软剪辑的总量;以及(3)取向,每个家族的取向基于读段1和读段2的链方向按该顺序设置。例如,如果读段1映射到正向链,并且读段2映射到反向链,则家族的取向是正向-反向。在“可塌缩区域(CollapsibleRegion)”的初始扫描期间,基于这些标准的精确匹配将读段分组到家族中。
2.6.3.家族合并(UMI校正)
在家族的初始构造之后,考虑可以组合家族的一系列标准。如果两个家族在附近并且具有非常相似的UMI,则很可能它们来源于相同的输入片段。在一些实施方案中,存在家族合并的两个单独的实施方式:来源于Illumina Read Collapser(Illumina读段塌缩器(ReCo))工具的基于启发的实施方式,以及目前公开的概率模型实施方式。这两种实现方式都可以应用以下三种类型的家族合并:(1)UMI校正,其中具有完全相同位置的两个家族被组合,但是在UMI序列中相当接近;(2)移位合并,其中在剪辑调整的对坐标中具有小(<模糊窗口)差异的两个家族被合并;以及(3)双链体合并,其中将具有互补取向和匹配坐标以及UMI的两个家族组合,因为它们可以起源于模板分子的两条链。
2.7.基于启发的模型
在该章节中,基于Illumina ReCo工具描述了用于家族合并的基于启发的实施方式的家族合并过程。所描述的校正类型中的每一者可用命令行选项来独立地启用/禁用。
2.7.1非随机双UMI
2.7.1.1 UMI校正
UMI校正合并了具有相同开始-结束但在UMI序列中错配的家族。如果UMI代码具有由校正表定义为“真”UMI的唯一校正,则将分配经校正的UMI。对于没有唯一校正的UMI的剩余家族,该过程可以如下所述地工作。
首先,通过开始和结束位置对家族进行分组。接下来,对于每个组,鉴定具有UMI1和UMI2组合的家族,其中两个序列均为真代码,并且这些被用作校正的目标。对于UMI1和UMI2均不是真代码的每个家族,RECo将循环通过目标家族,并且如果取向匹配并且以下任一项适用则将候选族合并到目标(这是贪心算法,其中采用满足以下任一项的第一目标):(1)候选UMI1与目标UMI1相同,并且目标UMI2是候选UMI2的最近代码或第二最近代码;(2)候选UMI2与目标UMI2相同,并且目标UMI1是候选UMI1的最近代码或第二最近代码;或者(3)两个候选UMI都不匹配目标UMI,然而,两个目标UMI是它们相应的候选UMI的最近代码。不允许第二最近代码。
2.7.1.2.移位合并
移位校正校正导致比对移位的PCR错误。这可导致一个真正的PCR家族在信息上被视为具有不同位置的多个家族。在一些实施方案中,这根据以下步骤完成:(1)对于每个家族,搜索具有“--UMI模糊窗口大小”参数内的开始和结束位置的其他家族,并且候选族之前不能被移位合并(例如,如果家族的开始和结束位置是{10,20}并且窗口大小是3,则以下家族都是用于校正的可能候选:{13,20},{7,23});以及(2)如果两个家族在模糊窗口内,则确定它们是否可以被合并。如果取向匹配并且以下任一项适用,则它们可以被合并:(a)UMI1和UMI2均精确匹配。如果是,则将具有较少读段总数的家族合并到具有较多读段总数的家族中;以及(b)如果一个家族具有良好的UMI组合(UMI1和UMI2均是真代码)而另一个家族没有良好的UMI组合(UMI1或UMI2不是真代码),则确定在UMI校正中使用相同的逻辑是否可以将较差组合校正为良好。如果是,则将较差家族合并到良好。
2.7.1.3.双链体合并
UMI是在文库制备期间添加到原始双链分子上的标签,并且因此通过PCR家族增殖。在一些实施方案中,对于双UMI,对于读段1和读段2存在单独的标签;两个标签(α和β)组合唯一地鉴定分子。DRAGEN UMI能够通过交叉家族塌缩进一步将单链的两个共有读段塌缩成双链的一个共有读段。这对于非随机UMI是可能的,其中UMI在PCR产物中并且因此跨链互补。
在一些实施方案中,如果以下所有均为真,则家族(A)是另一个家族(B)的家族配对:(1)家族A的UMI1=家族B的UMI2;(2)家族A的UMI2=家族B的UMI1;(3)两个家族A和B具有相反的开始和结束位置(在经配置的模糊窗口内),例如家族A的开始位置与家族B的结束位置相同或在家族B的结束位置的模糊窗口内,或者家族A的结束位置与家族B的开始位置相同或在家族B的开始位置的模糊窗口内;以及(4)家族A的方向与家族B的方向相反。
2.7.1.4.随机单UMI
在一些实施方案中,随机单UMI校正仅应用UMI校正和移位合并。步骤如下:(1)按顺序循环通过所有位置;(2)在模糊窗口内收集家族并按家族大小分类。这是与在非随机双UMI中寻找移位合并候选类似的过程;以及(3)在满足以下条件的情况下找到待合并的候选家族:(a)候选家族之前未被移位合并;(b)候选目标家族具有>“随机合并因子*家族_大小(randomMergeFactor*family_size)”;(c)相同取向;(d)UMI汉明距离=1;以及(e)仅一个符合标准的目标家族。
2.7.2.位置塌缩
在一些实施方案中,UMI不用于塌缩,并且读段可以仅基于位置来塌缩。
2.8.家族合并的概率模型实施方式
在该章节中,描述了家族合并的基于概率模型的实施方式。存在两个阶段。首先,收集关于样品中UMI的统计以评估两种不同UMI来源于相同的原始分子序列的似然性。然后在读段上进行第二遍,应用校正。
2.8.1.UMI状态估计
2.8.1.1.片段插入大小频率
在将具有完全相同的开始-结束或错配≤1、UMI序列和链的读段对分组为初始家族后,可以粗略估计测试样品的插入大小的频率。排除MAPQ低(例如,<60)、配对不正确或UMI为N碱基的读段对。本文所述的低MAPQ可以是例如<100、<75、<50、<40、<30、<20或<10。
对于家族,用户可以挑选第一个读段对并且定义isize是模板长度(samtools中的标准TLEN):最右映射位置-最左映射位置。将插入大小的下限和上限定义为LOWIZ_LIMIT(默认值50)和HIGHIZ_LIMIT(默认值500)作为插入大小的预期范围。针对阵列中的不同插入大小来累积计数。如果“isize≤LOWIZ_LIMIT”,则将计数添加到“LOWIZ_LIMIT”。如果“isize>=HIGHIZ_LIMIT”,则将计数添加到“HIGHIZ_LIMIT”。
当累积足够的计数时(在一些实施方案中,>50,000个家族),将每个插入大小的频率计算为p(插入_大小(Insert_size))。
2.8.1.2.UMI跳跃率
2.8.1.2.1.双侧UMI
在两侧UMI的情况下,具有UMI跳跃的分子可产生其中一侧的UMI相同而另一侧的间隙不同的PCR产物。
UMI1-模板-UMI2
UMI1-模板-UMI3
“总_家族(total_family)”可以被设置为在具有相同开始-结束或错配≤1、UMI序列和链的第一轮分组之后的家族总数。将“非_唯一_家族(non_unique_family)”设置为由于UMI跳跃引起的潜在家族的数量。排除MAPQ低(例如,<60)、配对不正确或UMI为N碱基的读段对。对于每个家族,用户可以挑选第一读段对并且计算软剪辑调整的开始-结束和链作为组密钥。
可以设置列表以累积具有潜在UMI跳跃的家族:“家族_UMI_跳跃_列表(family_UMI_jumping_list)”。对于每个组密钥,迭代通过任何两个家族。如果UMIA或UMIB在两个家族之间是相同的,则将这两个家族添加到列表中。
非_唯一_家族=长度(家族_UMI_跳跃_列表)-长度(家族_UMI_跳跃_列表中的非唯一组密钥)。
UMI跳跃概率=非_唯一_家族/总家族
2.8.1.2.2.一侧UMI
在一侧UMI的情况下,UMI跳跃可以看起来像:
UMI1-模板
UMI2-模板
在一些实施方案中,仅使用位置信息来确定家族是否与UMI跳跃相关联。然而,在一些实施方案中,警告是它可以是具有相同开始-结束的潜在不同分子,这导致UMI跳跃的高估。为了减轻这种影响,可以使用家族的数量和插入大小来向下选择仅具有一个唯一分子的区域。
首先,排除MAPQ低(例如,<60)、配对不正确或UMI为N碱基的读段对。对于任何家族,挑选第一读段对以计算插入大小。如果“isize≤LOWIZ_LIMIT”,则将isize设置为“LOWIZ_LIMIT”。如果“isize≥HIGHIZ_LIMIT”,则将isize设置为“HIGHIZ_LIMIT”。提取插入大小的频率作为“p(插入_大小)”。候选的数量可以被计算为max(具有相同开始的其他家族的数量,具有相同结束的其他家族的数量)。
在一些实施方案中,假定唯一分子X的数量遵循二项式分布。计算二项式(n=候选的数量,p=p(插入_大小))和概率Pr(X=1)。如果Pr(X=1)>阈值(例如,0.998),则可以包括读段对,否则可以将其排除,因为在一些实施方案中,该区域可能不包含多于1个分子。
2.8.1.3.UMI频率
对于非随机UMI,在具有完全相同的开始-结束或错配≤1、UMI序列和链的最初一轮家族分组之后,可以估计设计的UMI序列的频率。MAPQ低(例如,<60)、配对不正确或UMI未在设计表中的读段对可被丢弃。对于随机UMI,可以假设每个随机UMI的相同概率。
2.8.2.基于概率的合并
2.8.2.1.从相同链的家族合并
在具有相同的开始-结束或错配≤1、UMI序列和链的最初一轮家族分组后,对现有家族或序列中具有N碱基的读段执行另外的分组。对于每个家族/读段对,软剪辑调整的开始-结束和链可用作组密钥。对于相同组密钥的所有潜在族,用户可以在任何对的家族上迭代以计算家族A和B起源于相同家族与不同家族的相对似然性,“L=P(A=B)/P(A!=B)”。如下所述,可以通过使用UMI和位置信息来计算似然性。参见图32的图解说明。
2.8.2.1.1.UMI信息
如果UMI是随机UMI,则对于来自家族1和家族2的作为s1、s2的每对UMI,计算汉明距离为:Dis,排除N后不匹配碱基的总数;nN,任一项中的N碱基总数。如下计算概率:将“seq_er”设置为“测序错误=0.001”;“P(dis,UMI_长度-nN)=0.75^dis*0.25^(UMI_长度-nN-dis)*选择(dis,UMI_长度-nN)”;P(A=B):“min(1,seq_er^dis+P(跳跃概率)*P(dis,UMI_长度-nN))”;P(A!=B):“P(dis,UMI_长度-nN);Lumi=P(A=B)/P(A!=B)”。
如果UMI是非随机UMI,则对于来自家族1和家族2的作为s1、s2的每对UMI。如果s1和s2是设计的UMI,则校正为s1'和s2'(如果观察UMI和校正UMI之间的距离>1,则丢弃读段对)。对于s1到s2的转变,在一些实施方案中,存在两种可能性:将“seq_er”设定为“测序错误=0.001”;将s1和s2之间的汉明距离计算为“dis1”;将s1-s1'和s2-s2'之间的汉明距离之和计算为“dis2”;P(A=B):“min(1,seq_er^dis1+P(跳跃概率)*seq_er^dis2);(1)如果s1'等于s2',则P(A!=B):“P(UMI频率)”;(2)如果s1'不等于s2',则P(A!=B):1;“Lumi=P(A=B)/P(A!=B)”。
2.8.2.1.2.位置信息
假设唯一分子的数量遵循二项式分布—二项式(候选数量,P(插入_大小))。候选数量=max(具有相同开始和链的候选数量,具有相同结束和链的候选数量)。
如下计算概率:P(A=B),“Pr(分子数=1)”以及P(A!=B),“Pr(分子数>1)”。
如果家族A和家族B的位置不精确匹配,则可以如下计算模糊窗口的概率:将indel错误设置为“Indel_ER=0.001”,并且将家族A和家族B之间不同的片段末端的数量计算为“frag_end_diff_n”。如果家族A和家族B对于位置不具有完全相同的匹配,则“P(A=B)=P(A=B)*Indel_ER^frag_end_diff_n”。Lpos可以从“L位置=P(A=B)/P(A!=B)”计算。最终可能性L=Lumi*L位置,如果L高于预定义阈值,则合并家族A和B。
2.8.2.1.3.双链体-合并
在完成了单链体读段分组和合并之后,可以执行双链体塌缩。对于每个候选家族,循环通过模糊窗口范围内的所有家族。对于具有反向链信息的家族对,可以计算成对似然性以找到最可能要合并的候选。
如果使用双链体UMI,形成双链体的一对家族可以看起来像:
UMI_A1-正链-UMI_B1
UMI_B2-负链-UMI_A2
如果使用单链体UMI,形成双链体的一对家族可以看起来像:
UMI_A1-正链-NNN
NNN-负链-UMI_A2
类似于从相同链合并家族,使用UMI和位置信息计算似然性“L=P(A=B)/P(A!=B)”。
2.8.2.1.4.UMI信息
如果使用单链体UMI,则“LUMI=1”。如果使用双链体UMI,则可以如下计算概率:假设在家族A和家族B之间不同的UMI的侧是s1和s2;将“seq_er”设定为“测序错误=0.001”;将s1和s2之间的汉明距离计算为“dis1”;P(A=B):“min(1,seq_er^dis1+P(j跳跃概率))”;如果s1等于s2,则P(A!=B):“P(UMI频率)”;如果s1'不等于s2',则P(A!=B):1。
假设唯一分子的数量遵循二项式分布—二项式(候选数量,P(插入_大小))。候选数量=max(具有相同开始和链的候选数量,具有相同结束和链的候选数量)。
如下计算概率:P(A=B):Pr(分子数=1)以及P(A!=B):Pr(分子数>1)。如果家族A和B的位置不精确匹配,则如下计算模糊窗口的概率:将indel错误设置为“Indel_ER=0.001”;将在家族A和家族B之间不同的片段末端的数量计算为“frag_end_diff_n”;如果家族A和B对于位置不具有完全相同的匹配,则“P(A=B)=P(A=B)*Indel_ER^frag_end_diff_n”。
TLpos可以从“L位置=P(A=B)/P(A!=B)”计算。最终可能性“L=Lumi*L位置”,如果L高于预定义阈值,则合并家族A和B。
2.9.读段塌缩
2.9.1.读段过滤
在利用不同类型的校正进行家族分组之后,如果满足以下条件中的任一个条件,则将在塌缩之前过滤出家族:(1)读段1或读段2具有小于umi最小支持读段的支持读段,以及(2)家族单链体/双链体状态不匹配umi发射多重性(例如,如果umi发射多重性=双链体,则所有单链体家族将被丢弃)。如果umi发射多重性=单链体,则所有双链体家族将被丢弃。
2.9.2.读段堆积构造和候选选择
在一些实施方案中,采用塌缩器列表来处理家族,将它们所包含的多个输入读段对信息组合成共有读段对。在一些实施方案中,可以进行两种类型的塌缩:单链体塌缩,其中累积的读段堆积被组合成一条链上的共有读段;以及交叉家族塌缩,其中共有读段是其UMI、取向和位置表明它们来自相同双链源分子的那些共有读段。
当家族是单链体时,可以使用以下步骤进行单链体塌缩:(1)按照CIGAR串的组读段;(2)为每个读段组产生堆积;(3)以读段计数下降、以indel距离上升对堆积进行排序;(4)从第一组(例如,具有最大读段计数和最低距参考距离的组)创建共有读段;(5)如果第二候选的读段计数>第一候选的读段计数*最小比(默认值0.5),则保存第二候选。
当家族是双链体时,交叉家族塌缩可以根据以下步骤进行工作:(1)从每条链获得读段组候选;(2)比较两条链的两个配对以找到最佳匹配读段组(例如,比较正链的读段1与负链的读段2);(a)精确匹配的CIGAR假设;(b)与参考具有较小差异的匹配的CIGAR串;(3)基于最佳匹配读段组输出一个共有读段;(4)如果没有来自两条链的匹配的CIGAR假设,则两条链可以被报告为两个单独的单链体家族。
2.9.3.共有碱基生成
一旦选择了最佳读段组(CIGAR假设),软件将开始使用具有相同CIGAR假设的所有读段生成共有读段对。
共有碱基可以根据以下规则设置。软件可计算最频繁观察到的碱基和第二最频繁观察到的碱基。如果没有观察到碱基,则可将共有碱基设置为“N”。如果仅观察到1个碱基,则可将共有碱基设置为观察到的碱基。如果观察到两个或更多个碱基,则可以将共有碱基设置为最频繁观察到的碱基。如果前两个碱基包含相等的频率,则可将共有碱基设置为具有较高缩合qscore的共有碱基。如果第二最频繁基数的“计数*“大比”(默认值4/3)大于或等于优胜者的计数,则共有碱基可被设置为“N”。对于交叉家族合并,仅比较两个堆积(例如,读段1来自一条链,读段2来自相对链)以生成共有碱基。
2.9.4.质量分数计算
为了计算共有碱基的新质量分数,可以应用Fisher方法来表示塌缩后更高的质量分数。Fisher分数累积碱基调用似然性的自然对数的总和,而Max分数简单地保持遇到的最大分数。详细步骤描述如下。
软件如下将原始碱基的qscore转换为p值:“p=10^(-q/10)”。该软件接下来通过如下组合与堆积位置处的共有碱基一致的所有碱基的p值来计算卡方统计X2:“X2=-2*所有ln(p)之和”。该软件可以如下计算卡方统计X2的p值:“p值=chisqr(自由度,两倍Cv)”,其中从上得出“自由度=2*qscores数”和“Cv=X2”。对于最终缩合qscore,软件可将p值再次转化成qscore,如下:“Q=-10*log10 p值”。
2.9.5.分配共有读段QNAME
可以基于以下约定来生成塌缩读段中的每个塌缩读段:“共有_读段_refID1_pos1_refID2_pos2_取向(consensus_read_refID1_pos1_refID2_pos2_orientation)”。
其中:refID1,读段1的参考ID;pos1,读段1的基因组位置;refID2,读段2的参考ID;pos2,读段2的基因组位置;取向,读段1和读段2的方向。
其中:1,读段1为正向并且读段2为反向,读段1开始位置≤读段2结束位置;2,读段2为正向并且读段1为反向,读段2开始位置≤读段1结束位置;3,读段1为正向并且读段2为反向,读段1开始位置>读段2结束位置;4,读段2为正向并且读段1为反向,读段2开始位置>读段1结束位置;5,读段1和读段2均为正向;6,读段1和读段2均为反向。需注意,在所有这些情况下,“位置”实际上是指针对软剪辑调整的读段的最外比对位置。
2.10.重新比对塌缩读段
如上所述,“读段塌缩器线程(ReadCollapserThreads)”将一系列“塌缩区域(CollapsedRegions)”馈送到“区域串行化器线程(RegionSerializerThread)”中,这将输出读段置于期望的顺序中并且将它们向下游推入DRAGEN比对器中,并且从那里推入DRAGEN流水线的其余部分中。在该系统的初始实施方式中,观察到在一些实施方案中速度受到存储器分配器的性能的限制。“家族散列表(FamilyHashtable)”和“读段塌缩器(ReadCollapser)”逻辑均锤击分配器以构建数据结构和构造输出读段。“区域串行化器线程(RegionSerializerThread)”用数百万的调用来锤击分配器以释放存储器。通过给予每个“塌缩区域(CollapsedRegion)”其自己的“单次使用分配器(SingleUseAllocator)”对象来缓解该性能瓶颈。这些分配器获得大块内存并将小的部分分发给客户端,而不需要任何空闲()调用。稍后,当整个“塌缩区域(CollapsedRegion)”完成时,所有的内存在一个大的空闲中被释放。通过消除分配和空闲之间的锁竞争,减轻了这种主要速度限制。
唯一分子标识符(UMI)
DRAGEN流水线可处理来自全基因组和具有唯一分子标识符(UMI)的杂交捕获测定的数据。UMI是在扩增前添加到DNA片段以确定扩增片段的原始输入DNA分子的分子标签。UMI帮助减少由DNA损伤引入的错误和偏差,诸如在文库制备之前的脱氨基、PCR错误或测序错误。
在一些实施方案中,为了使用UMI流水线,输入读段文件必须来自配对末端运行。输入可以是成对的FASTQ文件或比对/未比对的BAM输入。DRAGEN可支持以下UMI类型:双重、非随机UMI,诸如TruSight Oncology(TSO)UMI试剂或IDT xGen棱镜;双重、随机UMI,诸如Agilent SureSelect XT HS2分子条形码(MBC)或IDT xGen Duplex Seq适配器;单端、随机UMI,诸如Agilent SureSelect XT HS分子条形码(MBC)或IDT xGen双索引UMI适配器。
DRAGEN使用UMI序列将读段对按它们的原始输入片段分组,并为每个这样的组或家族生成共有读段对。共有序列降低了以高准确度检测DNA样品中稀有和低频率体细胞变体的错误率。DRAGEN流水线可以如下生成共有序列:(1)比对读段;(2)将读段分组为具有匹配UMI和对比对的组(这些组被称为家族);(3)为每个读家族生成单个共有读段对。这些生成的读段具有比输入读段更高的质量分数,并且反映了通过将多个观察组合到每个碱基调用中而获得的增加的置信度。在一些实施方案中,UMI工作流程仅与DRAGEN中的小变体调用和SV相容。
UMI输入
UMI可以以以下格式中的任一者来输入:(1)读段名称-UMI序列位于读段名称(QNAME)的第八个冒号分隔的字段中,例如,“NDX550136:7:H2MTNBDXX:1:13302:3141:10799:AAGGATG+TCGGAGA”;(2)BAM标签-UMI作为RX标签存在于预先比对或比对的BAM文件(标准SAM格式)中,或者;(3)FASTQ文件-UMI位于使用与读段对相同的读段顺序的第三FASTQ文件中。为了创建FASTQ,用户可以将UMI附加到读段名称,然后在BCL转化工具中指定适当的“OverrideCycles”设置。DRAGEN支持具有两个部分的UMI,每个部分具有8bp的最大值并且被+分开,或者支持具有15bp的最大值的单UMI。
在一些实施方案中,必须使用对应于一组唯一的读段组样品名称(RGSM)/读段组库(RGLB)的一组读段来执行UMI工作流程。如果所有泳道对应于相同的RGSM/RGLB集,则DRAGEN支持多泳道。
在一些实施方案中,DRAGEN UMI不支持肿瘤正常分析,因为肿瘤正常运行对应于两种不同的RGSM。在肿瘤正常运行中,一个样品名称可用于肿瘤并且一个样品名称可用于正常。在一些实施方案中,DRAGEN UMI在运行中支持一个样品。
如果使用BAM文件或FASTQ文件列表作为输入,则该输入可以包含多个样本。DRAGEN检查在运行中是否仅包括一个样品以及样品是否仅使用单个、唯一的RGLB文库。DRAGEN也接受跨多个泳道分布的文库。如果存在单个样品和单个文库,则DRAGEN过程全部包括读段。如果存在多个样本或多个文库,则DRAGEN错误地中止分析。
UMI输入校正表
对于双重非随机UMI,用户可以提供预定义的UMI校正表或有效UMI序列的列表作为输入。为了创建UMI校正表,使用标签分隔的文件,包括报头,并且添加表5中所示的以下字段。
表5:UMI输入校正
如果未指定定制的校正表,则DRAGEN使用位于src/config/umi_correction_table.txt的TruSight Oncology(TSO)UMI试剂的默认表。另选地,用户可以为列入白名单的非随机UMI提供具有有效UMI序列的文件,每行一个。DRAGEN然后自动生成汉明距离为一的UMI校正表。
UMI选项
--umi文库类型
用户可以为不同的UMI校正设置批次选项。三种分批模式可用于优化不同UMI类型的塌缩配置。使用以下模式中的一种模式:
随机双链体
双重随机UMI。
随机单链体
单末端随机UMI。
非随机双链体
双重非随机UMI。为了使用该选项,用户可以使用“--umi度量间隔文件”来提供目标清单文件。
--umi最小支持读段
用户可以指定生成共有读段所需的匹配UMI输入读段的数量。在一些实施方案中,任何支持读段不足的家族都被丢弃。例如,以下是FFPE和ctDNA的推荐设置:[FFPE]如果变体>1%,则使用“--umi最小支持读段=1”与“--vc启用umi固体”变体调用者参数;[ctDNA]如果变体<1%,则使用“--umi最小支持读段=2”与“--vc启用umi液体”变体调用者参数;
--umi启用
为了启用读段塌缩,用户可将“--UMI启用”选项设定为“真”。在一些实施方案中,该选项与“-启用-重复标记”不相容,因为UMI流水线从一组候选输入读段生成共有读段,而不是选择最佳非重复读段。如果使用“--umi文库类型”选项,则不需要“--umi启用”。
umi发射多重性
用户可以设置要输出的共有序列类型。DRAGEN UMI允许用户从原始分子的两条链中塌缩双链体序列。在一些实施方案中,双链体序列通常为总文库的约20%-60%,这取决于文库试剂盒、输入材料和测序深度。用户可以输入以下共有序列类型中的一者:
两者
输出单链体和双链体序列。该选项是默认的。
单链体
仅输出单链体序列。
双链体
仅输出双链体序列。
--umi源
用户可以指定用于UMI序列的输入类型。以下是有效值:qname、bamtag和fastq。如果使用“--umi源=fastq”,则可以提供使用“--umi-fastq”的来自FASTQ文件的UMI序列。
--umi校正表
用户可以输入到定制的校正表的路径。默认情况下,对于Illumina TruSightOncology和Illumina的IDT UMI索引锚定试剂盒,本地运行管理器使用利用内置表的查找校正。
--umi非随机白名单
用户可以输入用于定制的有效UMI序列的路径。
--umi度量间隔文件
用户可以输入BED格式的目标区域的路径。
非随机和随机UMI校正
在一些实施方案中,DRAGEN通过按UMI和比对位置对读段进行分组来处理UMI。如果在UMI中存在测序错误,则DRAGEN可以通过使用查找表或通过使用序列相似性和读段计数来校正和检测小的测序错误。用户可以使用值“查找”、“随机”或“无”来指定具有“--umi文库类型”或“--umi校正方案”选项的校正类型。
对于稀疏的非随机UMI集合,可以创建指定哪个序列可以被校正以及如何校正它的查找表。在一些实施方案中,这种正确的文件方案在UMI集上工作得最好,在那里序列之间具有最小的汉明/编辑距离。默认情况下,对于Illumina TruSight Oncology和Illumina的IDT UMI索引锚定试剂盒,DRAGEN使用利用内置校正表的查找校正。用户可以使用“--umi校正表”选项指定他们的校正文件的路径。在一些实施方案中,用户可以采用不同组的非随机UI。
在随机UMI校正方案中,在一些实施方案中,DRAGEN流水线必须推断在给定位置处的哪些UMI相对于在相同位置处观察到的其他UMI可能是错误的。错误模式包括小的UMI错误,诸如一个错配,或来自文库制备的UMI跳跃或跳变假象。如下所述,DRAGEN实现这一点。
读段按片段比对位置分组。在每个位置(例如,1、2、3、4或5)处的小模糊窗口内,首先通过形成家族的精确UMI序列将读段分组。通过插入大小分布和某些位置处不同UMI的数量来估计UMI跳跃或跳变概率。在模糊窗口内,计算成对似然比以评估具有不同UMI序列和基因组位置的两个家族是否来源于相同的原始分子。将可能性低于阈值的家族合并。例如,默认阈值为1。
合并双链体UMI
双链体UMI适配器同时标记双链DNA片段的两条链。然后可以鉴定由原始片段的每条链的扩增产生的读段。
在一些实施方案中,DRAGEN认为,如果两个塌缩的读段对具有相同的比对位置(在模糊窗口内),互补的取向,并且它们的UM从读段1和读段2交换,那么它们就是DNA的相同原始片段的两条链的序列。如果仅存在单端UMI,则DRAGEN比较来自两条链的家族的开始-结束位置,并计算成对似然性以确定它们是否可能起源于两个不同的家族或应当作为双链体序列合并。默认情况下,DRAGEN输出单链体和双链体共有序列。
--umi发射多重性
可用于改变共有序列输出类型。
示例性UMI命令
从FASTQ生成共有BAM
以下是用于从具有Illumina UMI的输入读段生成共有BAM文件的示例性DRAGEN命令:
dragen\
-r<REF>\
-1<FQ1>\
-2<FQ2>\
--output-dir<OUTPUT>\
--output-file-prefix<PREFIX>\
--enable-map-align true\
--enable-sort true\
--umi-library-type nonrandom-duplex\
--umi-metrics-interval-file<valid target BED file>
使用FASTQ UMI输入
为了运行其他随机UMI文库类型,改变
--umi文库类型为随机单链体或随机双链体。
dragen\
-r<REF>\
-1<FQ1>\
-2<FQ3>\
--umi-source=fastq\
--umi-fastq<FQ2>\
--output-dir<OUTPUT>\
--output-file-prefix<PREFIX>\
--enable-map-align true\
--enable-sort true\
--umi-library-type nonrandom-duplex\
--umi-metrics-interval-file[valid target BED file]
使用定制校正表
dragen\
-r<REF>\
-1<FQ1>\
-2<FQ2>\
--umi-correction-table<valid umi correction table>\
--output-dir<OUTPUT>\
--output-file-prefix<PREFIX>\
--enable-map-align true\
--enable-sort true\
--umi-library-type nonrandom-duplex\
--umi-metrics-interval-file<valid target BED file>
UMI输出
塌缩的BAM
如果用户启用BAM输出,则DRAGEN生成包括所有UMI共有读段的“<output_prefix>.bam”。用于读段的QNAME基于以下约定生成:
共有_读段_refID1_pos1_refID2_pos2_取向
(consensus_read_refID1_pos1_refID2_pos2_orientation)
其中:refID1,读段1的参考ID;pos1,读段1的基因组位置;refID2,读段2的参考ID;pos2,读段2的基因组位置;取向,读段1和读段2的取向。
取向可以是以下值中的一个值(位置是指读段的最外比对位置并且针对软剪辑进行调整):1,读段1为正向,读段2为反向,读段1的开始位置小于或等于读段2结束位置;2,读段1为反向,读段2为正向,读段2的开始位置大于或等于读段1结束位置;3,读段1为正向,读段2为反向,读段1的开始位置大于读段2的结束位置;4,读段1为反向,读段2为正向,读段2的起始位置大于读段1结束位置;5,读段1和读段2为正向;以及6,读段1和读段2为反向。
UMI度量
DRAGEN输出“<output_prefix>.umi_metrics.csv”文件,其描述UMI塌缩的统计值。该文件总结了关于输入读段,它们如何被分组到家族中,UMI如何被校正以及家族如何生成共有读段的统计值。当针对应用调整流水线时,下文描述的以下度量可为有用的。
丢弃的家族
具有少于“--umi最小支持读段”输入或具有与以下指定不同的双链体/单链体状态的任何家族:
--umi发射多重性可被丢弃。这些读段可被记录为滤出读段。家族可以被记录为丢弃家族。
UMI校正
家族可以以各种方式组合。此类校正的数量可以报告如下:(1)移位的家族,其中具有片段比对坐标的家族达到由以下指定的距离;
umi模糊窗口大小
参数被合并。默认“umi模糊窗口大小”参数是3;(2)根据上下文校正的家族,其中具有完全相同的片段比对坐标和相容UMI的家族被合并;或(3)双链体家族,其中具有紧密比对坐标和互补UMI的家族被合并。
当用户指定“--umi度量间隔文件”的有效路径时,DRAGEN输出仅包含指定BED文件内的家族的单独的目标上UMI统计集。
如果用户需要分析观察到的UMI覆盖可能的UMI序列的全部空间的程度,则每个片段位置度量的唯一UMI的直方图可能是有帮助的。它是基于零的直方图,其中索引指示特定片段位置处的唯一UMI的计数,并且值表示具有该计数的位置的数量。
下面的表6和图33至图35描述了可用UMI度量的非限制性示例。
表6:UMI度量
/>
/>
/>
/>
分组序列读段
图36为示出对序列读段进行分组的示例性方法3600的流程图。对序列读段进行分组的方法可包括对序列读段进行分组,可包括将序列读段分组为序列读段家族;以及合并(或塌缩)序列读段家族。在一些实施方案中,读段按片段比对位置分组。在每个位置(例如,1、2、3、4或5)处的小模糊窗口内,首先通过形成家族的精确UMI序列将读段分组。通过插入大小分布和某些位置处不同UMI的数量来估计UMI跳跃或跳变概率。在模糊窗口内,计算成对似然比以评估具有不同UMI序列和基因组位置的两个家族是否来源于相同的原始分子。将可能性低于阈值的家族合并。例如,默认阈值为1。
方法3600可体现在存储在计算系统的计算机可读介质(诸如一个或多个磁盘驱动器)上的一组可执行程序指令中。例如,图37所示并且在下文更详细地描述的计算系统3700可执行一组可执行程序指令以实施方法3600。当发起方法3600时,可将可执行程序指令加载到存储器诸如RAM中,并由计算系统3700的一个或多个处理器执行这些可执行程序指令。尽管相对于图37所示的计算系统3700描述了方法3600,但该描述仅仅是例示性的,并且不旨在进行限制。在一些实施方案中,方法3600或其部分可由多个计算系统串行地或并行地执行。
在方法3600在框3604处开始之后,方法3600进行到框3608,其中计算系统(例如,参考图37描述的计算系统3700)接收多个序列读段,每个序列读段包括片段序列和唯一分子标识符(UMI)序列(或标识符序列)。可以从样品中产生多个序列读段。样品可以从受试者获得。样品可从获自受试者的另一样品产生。其他样品可直接从受试者获得。样品可以包括细胞、无细胞DNA、无细胞胎儿DNA、环状肿瘤DNA、羊水、血液样品、活检样品或它们的组合。计算系统可将多个序列读段加载到其存储器中。序列读段可通过诸如边合成边测序、边结合边测序(sequencing by binding)或连接测序(sequencing by ligation)等技术生成。可使用诸如来自因美纳公司(加利福尼亚州圣地亚哥)的MINISEQ、MISEQ、NEXTSEQ、HISEQ和NOVASEQ测序仪器等仪器生成序列读段。
序列读段的长度可以是例如50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、300、400、500、600、700、800、900、1000、1250、1500、1750、2000或更多个碱基对(bp)。例如,序列读段的长度为约50个碱基对至约500个碱基对。序列读段可包以括配对末端序列读段。序列读段可包括单末端序列读段。序列读段可通过全基因组测序(WGS)产生。该WGS可为临床WGS(cWGS)。序列读段可包括单末端序列读段。多个序列读段可通过全基因组测序(WGS),例如临床WGS(cWGS)产生。序列读段可通过靶向测序生成,诸如5、10、20、30、40、50、100、200或更多个基因的测序。样品可以包括细胞、无细胞DNA、无细胞胎儿DNA、羊水、血液样品、活检样品或其组合。
序列读段可包括一个UMI序列。序列读段可以包括两个UMI序列(例如,第一UMI序列和第二UMI序列)。第一UMI序列可以在片段序列的5'。第二UMI序列可以在片段序列的3'。另选地,第一UMI序列可以在片段序列的3'。第二UMI序列可以在片段序列的5'。第一UMI序列和第二UMI序列可以具有不同的长度。第一UMI序列和第二UMI序列可以具有相同的长度。第一UMI序列和第二UMI序列可以是不同的。第一UMI序列和第二UMI序列可以是相同的。UMI序列的长度可以是例如3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50或更多或更少个碱基。UMI序列可以是随机的。UMI序列可以是非随机的。
方法3600从框3608进行到框3612,其中计算系统使用序列读段的片段序列将多个序列读段中的序列读段与参考序列进行比对。参考序列可以是参考基因组序列(例如,hg38或hg19,或它们的一部分)。计算系统可使用比对器或比对方法将序列读段与参考序列比对,所述比对器或比对方法诸如Burrows-Wheeler Aligner(BWA)、iSAAC、BarraCUDA、BFAST、BLASTN、BLAT、Bowtie、CASHX、Cloudburst、CUDA-EC、CUSHAW、CUSHAW2、CUSHAW2-GPU、drFAST、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、GMAP和GSNAP、Geneious Assembler、LAST、MAQ、mrFAST和mrsFAST、MOM、MOSAIK、MPscan、Novoaligh&NovoalignCS、NextGENe、Omixon、PALMapper、Partek、PASS、PerM、PRIMEX、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTInvestigator、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3和SOAP3-dp、SOCS、SSAHA和SSAHA2、Stampy、SToRM、Subread和Subjunc、Taipan、UGENE、VelociMapper、XpressAlign和ZOOM。
方法3600从框3612进行到框3620,其中计算系统基于UMI序列和/或与参考序列比对的序列读段的片段序列的位置,将多个序列读段中的序列读段分组为多个序列读段家族。家族可包括一个序列读段。家族可包括多个序列读段中的至少2个序列读段(例如,至少2、3、4、5、10、15、20、30、40、50、60、70、80、90、100、250、500、1000、2000或更多或更少个序列读段)。家族可包括具有相同UMI序列、相同比对位置(本文中称为精确相同开始-结束)和相同链(本文中称为相同链,例如正链或负链)的序列读段。家族可包括具有相同UMI序列、在模糊窗口内不同的比对位置(例如,比对位置可相差一个位置(本文称为错配≤1))和相同链取向(本文称为相同链,例如,正链或负链)的两个序列读段。模糊窗口可以是例如1、2、3、4或5。多个家族可包括例如至少100,000、200,000、300,000、400,000、500,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、10,000,000或更多或更少个家族。
方法3600从框3616进行到框3620,其中计算系统执行多个家族的UMI统计估计。为了执行UMI统计估计,计算系统可以确定片段(或片段插入)大小频率、UMI跳跃率和/或UMI频率。参见上文第2.8章节的说明。
计算系统可以对多个家族中的家族的子集执行UMI统计估计。家族的子集可以包括多个家族中的至少5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000或更多或更少个家族。家族的子集可以包括多个家族中的至少0.1%、0.5%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、20%或更多或更少的家族。
方法3600从框3620进行到框3624,其中计算系统执行多个家族中的家族的基于概率的合并(在本文中也被称为读段或UMI分组或塌缩)。参见上文第2.9章节的说明。为了执行基于概率的合并,计算系统可以执行家族鉴定和合并(或塌缩)。计算系统可以执行双链体鉴定和合并(或塌缩)。参见图2和随附描述。计算系统可以使用概率图执行多个家族中的家族的基于概率的合并(参见图12和用于说明的随附描述)。在基于概率的合并之后,多个家族可包括例如至少100,000、200,000、300,000、400,000、500,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、10,000,000或更多或更少个家族。在执行基于概率的合并之前的多个家族可以包括比在执行基于概率的合并之后的多个家族多至少0.5%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%的家族。基于概率的合并后的家族可以包括一个序列读段。基于概率的合并后的家族可包括多个序列读段中的至少2个序列读段(例如,至少2、3、4、5、10、15、20、30、40、50、60、70、80、90、100、250、500、1000、2000或更多或更少个序列读段)。
计算系统可以使用UMI统计估计的结果(例如,片段大小频率、UMI跳跃率和/或UMI频率)来执行多个家族中的家族的基于概率的合并。计算系统可以使用片段大小频率、UMI跳跃率和/或UMI频率来执行多个家族中的家族的基于概率的合并。计算系统可以使用测序错误率(例如,0.0001、0.0002、0.0003、0.0004、0.0005、0.0006、0.0007、0.0008、0.0009、0.001、0.002、0.003、0.004、0.005或更多或更少)和/或错配概率(例如,0.15、0.17、0.2、0.23、0.24、0.25、0.26、0.27、0.3、0.33、0.35或更多或更少)来执行多个家族中的家族的基于概率的合并。测序错误率可以是预先确定的。错配概率可以是预先确定的。
为了执行基于概率的合并,计算系统可以确定两个家族来源于(或起源于)相同的原始核酸(例如,DNA)分子的相对似然性(或概率)(本文中也称为L)。计算系统可以使用P(C1=C2)和P(C1!=C2)确定两个家族来源于相同的原始核酸分子的相对似然性(详情参见等式1和表1)。计算系统可以使用等式4至11中的一者或多者确定两个家族来源于相同的原始核酸分子的相对似然性。计算系统可以使用片段大小频率、UMI跳跃率和/或UMI频率来确定两个家族来源于相同的原始核酸分子的相对似然性。计算系统可以确定相对似然性高于合并阈值(例如,1、1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2、3、4、5、6、7、8、9、10或更多或更少)。计算系统可以合并多个家族中的两个家族。计算系统可以将两个家族的较小家族(例如,具有较少序列读段)合并成两个家族的较大家族(例如,具有较多序列读段)。
为了确定两个家族来源于相同的原始核酸分子的相对似然性,计算系统可以确定在给定片段位置的情况下的唯一分子(或家族)相对于非唯一分子(或家族)的似然比(在本文中也称为Lpos)。计算系统可以确定唯一分子(或家族)相对于非唯一分子(或家族)的UMI转变的似然比。该UMI转变的似然比在本文中称为LUMI。UMI转变可以是UMI跳跃或测序错误的结果。计算系统可将两个家族来源于相同原始核酸分子的相对似然性确定为(i)在给定片段位置的情况下的唯一分子相对于非唯一分子的似然性(或概率)比和(ii)唯一分子相对于非唯一分子的UMI转变的似然性(或概率)比的乘积(例如,乘法乘积)。计算系统可以使用测序错误率和/或错配概率来确定两个家族来源于相同的原始核酸分子的相对似然性。
为了执行基于概率的合并,计算系统可以(i)对于多个家族中的一个、一个或多个或每对家族,确定该对中的家族来源于相同的原始核酸分子的相对似然性(或概率)。计算系统可以(ii)对于具有最高相对似然性(或概率)的一对家族,如果具有最高相对似然性(或概率)的该对中的家族来源于相同的原始核酸分子的相对似然性高于合并阈值(例如,1),则合并该家族。在一些实施方案中,计算系统可以(iii)重复(i)和(ii),直到具有最高相对似然性(或概率)的对中的家族的相对似然不高于合并阈值。
计算系统可将共有片段序列与参考序列比对。在一些实施方案中,计算系统可以确定家族的序列读段所来源的原始核酸分子的片段序列和/或UMI序列。家族的序列读段所来源的原始核酸分子的片段序列可以是家族的共有片段序列。家族的UMI读段所来源的原始核酸分子的片段序列可以是家族的共有UMI序列。计算系统可将片段序列与参考序列比对。
在一些实施方案中,计算系统可以创建文件或报告和/或生成包括UI元件的用户界面(UI),该UI元件针对多个家族中的一个、一个或多个或每个家族表示或包括(i)家族。文件或报告和/或UI元件可以表示或包括(ii)家族的序列读段、家族的片段序列、和/或家族的UMI序列。文件或报告和/或UI元件可表示或包括(iii)家族的共有片段序列、共有片段序列与参考序列比对的位置、和/或家族的共有UMI序列。UI元件可为窗口(例如,容器窗口、浏览器窗口、文本终端、子窗口或消息窗口)、菜单(例如,菜单栏、上下文菜单或额外菜单)、图标或标签。UI元件可用于输入控制(例如,复选框、单选按钮、下拉列表、列表框、按钮、切换、文本字段或日期字段)。UI元件可为导航性的(例如,痕迹导航(breadcrumb)、滑块、搜索字段、分页、滑块、标签、图标)。UI元件可为信息性的(例如,工具提示、图标、进度条、通知、消息框或模式窗口)。UI元件可以是容器(例如,折叠面板(accordion))。
方法3600在框3628处结束。
执行环境
图37描绘了被配置成执行过程并实现本文中所描述的特征的示例性计算设备3700的一般架构。图37所描绘的计算设备3700的一般架构包括计算机硬件和软件部件的布置。计算设备3700可包括比图37所示的那些更多(或更少)的元件。然而,为了提供能够实现的公开内容,没有必要示出所有这些一般常规的元件。如图所示,计算设备3700包括处理单元3710、网络接口3720、计算机可读介质驱动器3730、输入/输出设备接口3740、显示器3750和输入设备3760,所有这些元件都可通过通信总线彼此通信。网络接口3720可提供与一个或多个网络或计算系统的连接。因此,处理单元3710可经由网络从其他计算系统或服务接收信息和指令。处理单元3710还可与存储器3770进行通信,并且进一步经由输入/输出设备接口3740为任选的显示器3750提供输出信息。输入/输出设备接口3740还可接受来自任选的输入设备3760(诸如键盘、鼠标、数字笔、麦克风、触摸屏、手势识别系统、语音识别系统、游戏板、加速度计、陀螺仪或其他输入设备)的输入。
存储器3770可包含处理单元3710执行以便实现一个或多个实施方案的计算机程序指令(在一些实施方案中被分组为模块或部件)。存储器3770通常包括RAM、ROM和/或其他持久性、辅助性或非暂态计算机可读介质。存储器3770可存储操作系统3772,该操作系统提供计算机程序指令以供处理单元3710在计算设备3700的一般管理和操作中使用。存储器3770还可包括用于实现本公开的各方面的计算机程序指令和其他信息。
例如,在一个实施方案中,存储器3770包括用于对序列读段进行分组的序列读段分组模块3774(其可以包括合并或塌缩序列读段家族)。序列读段分组模块3774可以执行参考图36描述的方法3600的一个或多个动作。另外,存储器3770可包括数据存储库3790和/或存储正被处理的序列读段或数据以及分组序列读段的结果(例如,中间结果或最终结果)的一个或多个其他数据存储库,或与其通信。
附加考虑因素
在前述实施方案中的至少一些实施方案中,在一个实施方案中使用的一个或多个元件可在另一个实施方案中互换使用,除非这种替换在技术上不可行。本领域的技术人员应当理解,在不脱离要求保护的主题的范围的情况下,可对上述方法和结构进行各种其他省略、添加和修改。所有此类修改和更改旨在落入由所附权利要求所限定的主题的范围内。
本领域技术人员将理解,对于本文所公开的这种过程和方法和其他过程和方法,在这些过程和方法中执行的功能可以不同的顺序实现。此外,所概述的步骤和操作仅作为示例提供,并且这些步骤和操作中的一些步骤和操作可以是任选的,组合成更少的步骤和操作,或者扩展成附加的步骤和操作,而不减损所公开的实施方案的实质。
关于本文中基本上任何复数和/或单数术语的使用,本领域的技术人员可根据上下文和/或应用适当地从复数转换成单数和/或从单数转换成复数。为清楚起见,本文可明确示出各种单数/复数排列。如在本说明书和所附权利要求书中所用的,单数形式“一个”、“一种”和“所述”包括复数指代物,除非上下文另有明确规定。因此,短语诸如“一个设备被配置为”旨在包括一个或多个所述设备。此类一个或多个所述设备还可以被共同配置为执行所述表述。例如,“被配置为执行表述A、B和C的处理器”可包括被配置为执行表述A并与被配置为执行表述B和C的第二处理器协同工作的第一处理器。除非另外指明,否则本文中对“或”的任何提及旨在包括“和/或”。
本领域的技术人员应当理解,一般来讲,本文所用的术语,尤其是所附权利要求(例如,所附权利要求的主体)中的术语一般旨在作为“开放的”术语(例如,术语“包括”应解释为“包括但不限于”,术语“具有”应解释为“至少具有”,术语“包含”应解释为“包含但不限于”等)。本领域的技术人员还应当理解,如果引入的权利要求表述的具体数量是有意的,则这种意图将在权利要求中明确表述,并且在不存在这种表述的情况下,不存在这种意图。例如,为了有助于理解,以下所附权利要求可包含使用引导短语“至少一个”和“一个或多个”来引入权利要求表述。然而,即使当同一权利要求包括引导短语“一个或多个”或“至少一个”和不定冠词诸如“一个”或“一种”(例如,“一个”和/或“一种”应被解释为意指“至少一个”或“一个或多个”)时,此类短语的使用不应理解为暗示通过不定冠词“一个”或“一种”引入权利要求表述将包含这种引入的权利要求表述的任何特定权利要求限制为仅包含一个这种表述的实施方案;这同样适用于使用定冠词来引入权利要求表述。此外,即使明确表述了引入的权利要求表述的具体数量,本领域的技术人员也将认识到,这种表述应被解释为意指至少所表述的数量(例如,在没有其他修饰语的情况下,对“两个表述”的直接表述意指至少两个表述、或者两个或更多个表述)。此外,在使用类似于“A、B和C等中的至少一者”的惯例的那些情况下,一般来讲,这种惯例意图在本领域的技术人员将理解该惯例的意义上使用(例如,“具有A、B和C中的至少一者的系统”将包括但不限于具有单独的A、单独的B、单独的C、A和B一起、A和C一起、B和C一起和/或A、B和C一起等的系统)。在使用类似于“A、B或C等中的至少一者”的惯例的那些情况下,一般来讲,这种惯例意图在本领域的技术人员将理解该惯例的意义上使用(例如,“具有A、B或C中的至少一者的系统”将包括但不限于具有单独的A、单独的B、单独的C、A和B一起、A和C一起、B和C一起和/或A、B和C一起等的系统)。本领域的技术人员还应当理解,事实上,无论在说明书、权利要求书还是附图中,呈现两个或更多个另选术语的任何转折的词语和/或短语都应当理解为考虑包括术语中的一者、术语中的任一者或这两个术语的可能性。例如,短语“A或B”将被理解为包括“A”或“B”或“A和B”的可能性。
此外,在以马库什群组描述本公开的特征或方面的情况下,本领域的技术人员将认识到,也由此以马库什群组的任何单个成员或成员子组来描述本公开。
如本领域技术人员将理解的,出于任何和所有目的,诸如就提供书面描述而言,本文所公开的所有范围还包括任何和所有可能的子范围及其子范围的组合。任何列出的范围均可容易地被识别为充分地描述并使得同一范围能够被分解为至少相等的二分之一、三分之一、四分之一、五分之一、十分之一等。作为非限制性示例,本文所讨论的每个范围可容易地分解为下三分之一、中三分之一和上三分之一等。如本领域的技术人员还将理解的,所有语言诸如“至多”、“至少”、“大于”、“小于”等包括所引用的数字并且是指可随后分解为如上所述的子范围的范围。最后,如本领域技术人员将理解的,范围包括每个单独的成员。因此,例如,具有1-3个条款的组是指具有1、2或3个条款的组。类似地,具有1-5个条款的组是指具有1、2、3、4或5个条款等的组。
应当理解,出于说明的目的,本文已描述了本公开的各种实施方案,并且可在不脱离本公开的范围和实质的情况下作出各种修改。因此,本文所公开的各种实施方案并非旨在进行限制,其中真实范围和实质由以下权利要求书指示。
应当理解,并非所有目标或优点都可根据本文所述的任何具体实施方案来实现。因此,例如,本领域的技术人员将认识到,某些实施方案可被配置为以实现或优化如本文所提出的一个优点或一组优点而不一定实现如本文可能提出或建议的其他目的或优点的方式操作。
本文所述的过程中的所有过程可包括在由包括一个或多个计算机或处理器的计算系统执行的软件代码模块中,并且通过这些软件代码模块实现完全自动化。代码模块可存储在任何类型的非暂态计算机可读介质或其他计算机存储设备中。一些或所有方法可包括在专用计算机硬件中。
从本公开可以看出除本文所述的那些变型之外的许多其他变型。例如,根据实施方案,本文所述的算法中的任一算法的某些动作、事件或功能可以不同的顺序执行,可以添加、合并或完全省略(例如,并非所有所述动作或事件对于算法的实践都是必要的)。此外,在某些实施方案中,动作或事件可例如通过多线程处理、中断处理、或多个处理器或处理器内核或者在其他并行架构上同时执行而非顺序地执行。此外,不同的任务或过程可由可一起运行的不同机器和/或计算系统执行。
结合本文所公开的实施方案描述的各种示例性逻辑框和模块可由被设计成执行本文所述功能的机器实现或执行,该机器诸如处理单元或处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散栅极或晶体管逻辑部件、分立硬件部件或它们的任何组合。处理器可以是微处理器,但在替代方案中,处理器可以是控制器、微控制器或状态机、它们的组合等。处理器可包括被配置为处理计算机可执行指令的电路系统。在另一个实施方案中,处理器包括在不处理计算机可执行指令的情况下执行逻辑操作的FPGA或其他可编程设备。处理器也可被实现为计算设备的组合,例如DSP和微处理器的组合、多个微处理器、与DSP内核结合的一个或多个微处理器或任何其他此类配置。尽管本文主要相对于数字技术进行描述,但处理器也可主要包括模拟部件。例如,本文所述的信号处理算法中的一些或全部算法可在模拟电路系统或混合模拟和数字电路系统中实现。举例来说,计算环境可包括任何类型的计算机系统,包括但不限于基于微处理器的计算机系统、大型计算机、数字信号处理器、便携式计算设备、设备控制器或设备内的计算引擎。
本文所述和/或附图中所示的流程图中的任何过程描述、元件或框应被理解为潜在地表示包括用于在该过程中实现特定逻辑功能或元件的一个或多个可执行指令的代码的模块、区段或部分。如本领域的技术人员将理解的,另选的具体实施包括在本文所述的实施方案的范围内,其中元件或功能可被删除,按所示或所讨论的顺序(包括基本上同时或以相反顺序)执行,这取决于所涉及的功能。
应当强调的是,可对上述实施方案进行许多变型和修改,其中的元件应被理解为在其他可接受的示例中。所有此类修改和变型旨在包括在本公开的范围内并且受以下权利要求保护。
序列表
<110> 因美纳有限公司
赵晨
姜婷婷
A·比恩鲍姆
R·美雄
S·卡特瑞克斯
S·W·车
<120> UMI塌缩
<130> 47CX-311974-WO
<150> 63/190,716
<151> 2021-05-19
<160> 5
<170> PatentIn 3.5版
<210> 1
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 读段_1
<400> 1
catcggggag 10
<210> 2
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 读段_2
<400> 2
gagttactgg 10
<210> 3
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 读段_3
<400> 3
gcgggggaac 10
<210> 4
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 读段_4
<400> 4
gcgtgggaac 10
<210> 5
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 读段_5
<400> 5
ttaatgagct 10

Claims (63)

1.一种用于对序列读段进行分组的方法,包括:
在硬件处理器的控制下:
接收多个序列读段,每个序列读段包括片段序列和唯一分子标识符(UMI)序列;
使用所述序列读段的所述片段序列将所述多个序列读段中的序列读段与参考序列进行比对;
基于所述UMI序列以及与所述参考序列比对的所述序列读段的所述片段序列的位置,将所述多个序列读段中的序列读段分组为多个序列读段家族;
执行所述多个家族的UMI统计估计;以及
使用所述UMI统计估计的结果执行所述多个家族中的家族的基于概率的合并。
2.根据权利要求1所述的方法,
其中执行UMI统计估计包括:确定片段大小频率、UMI跳跃率和/或UMI频率,并且
其中执行基于概率的合并包括:使用片段大小频率、UMI跳跃率和/或UMI频率来执行所述多个家族中的家族的基于概率的合并。
3.根据权利要求2所述的方法,其中执行基于概率的合并包括:
使用所述片段大小频率、所述UMI跳跃率和/或所述UMI频率来确定两个家族来源于相同的原始核酸分子的相对似然性;
确定所述相对似然性高于合并阈值;以及
合并所述多个家族中的所述两个家族。
4.根据权利要求3所述的方法,
其中确定所述两个家族来源于所述相同的原始核酸分子的所述相对似然性包括:
确定在给定片段位置的情况下的唯一分子相对于非唯一分子的似然比;以及
确定唯一分子相对于非唯一分子的UMI转变的似然比,以及
其中所述相对似然性是(i)在给定片段位置的情况下的唯一分子相对于非唯一分子的所述似然比和(ii)唯一分子相对于非唯一分子的UMI转变的所述似然比的乘积。
5.根据权利要求3至4中任一项所述的方法,其中确定所述两个家族来源于所述相同的原始核酸分子的所述相对似然性包括:使用测序错误率和/或错配概率确定所述两个家族来源于所述相同的原始核酸分子的似然性,任选地其中所述测序错误率是0.001,任选地其中所述测序错误率是预先确定的,任选地其中所述错配概率是0.25,任选地其中所述错配概率是预先确定的。
6.根据权利要求3至5中任一项所述的方法,其中所述合并阈值为1。
7.根据权利要求3至6中任一项所述的方法,其中合并所述两个家族包括:将所述两个家族的较小家族合并成所述两个家族的较大家族。
8.根据权利要求1至7中任一项所述的方法,其中执行基于概率的合并包括:家族鉴定和合并。
9.根据权利要求8所述的方法,其中执行基于概率的合并包括:双链体鉴定和合并。
10.根据权利要求1至9中任一项所述的方法,其中执行基于概率的合并包括:使用概率图执行所述多个家族中的家族的基于概率的合并。
11.根据权利要求1至10中任一项所述的方法,其中执行基于概率的合并包括:
(i)对于所述多个家族中的一个、一个或多个或每对家族,确定所述对中的所述家族来源于所述相同的原始核酸分子的相对似然性;以及
(ii)对于具有最高相对似然性的所述对家族,如果具有所述最高相对似然性的所述对中的所述家族来源于所述相同的原始核酸分子的所述相对似然性高于合并阈值,则合并所述家族。
12.根据权利要求11所述的方法,其中执行基于概率的合并还包括:(iii)重复(i)和(ii),直到具有所述最高相对似然性的所述对中的所述家族的所述相对似然不高于所述合并阈值。
13.根据权利要求1至12中任一项所述的方法,其中执行UMI统计估计包括:对所述多个家族中的家族的子集执行UMI统计估计。
14.根据权利要求13所述的方法,其中所述家族的子集包括所述多个家族中的至少50,000个家族和/或所述多个家族中的至少10%的家族。
15.根据权利要求1至14中任一项所述的方法,其中所述多个家族包括至少500,000个家族。
16.根据权利要求1至15中任一项所述的方法,其中在执行基于概率的合并之前的所述多个家族包括比在执行基于概率的合并之后的所述多个家族多至少10%的家族。
17.根据权利要求1至16中任一项所述的方法,其中在合并之前或之后的所述多个家族中的每个家族包括所述多个序列读段中的至少5个序列读段。
18.根据权利要求1至17中任一项所述的方法,其中所述多个序列读段中的一个、一个或多个或每个序列读段包括第二UMI序列。
19.根据权利要求18所述的方法,其中所述UMI序列在所述片段序列的5',并且其中所述第二UMI序列在所述片段序列的3'。
20.根据权利要求18所述的方法,其中所述UMI序列在所述片段序列的3',并且其中所述第二UMI序列在所述片段序列的5'。
21.根据权利要求1至20中任一项所述的方法,其中所述UMI序列和/或所述第二UMI序列的长度为4-20个碱基。
22.根据权利要求1至21中任一项所述的方法,其中所述UMI序列是随机的。
23.根据权利要求1至21中任一项所述的方法,其中所述UMI序列是非随机的。
24.根据权利要求1至23中任一项所述的方法,还包括:在对所述多个家族中的一个、一个或多个或每个家族进行基于概率的合并之后,确定所述家族的共有片段序列、所述共有片段序列与所述参考序列比对的位置、和/或所述家族的共有UMI序列,任选地其中所述方法还包括:将所述共有片段序列与所述参考序列进行比对。
25.根据权利要求1至24中任一项所述的方法,还包括:创建文件或报告和/或生成用户界面(UI),所述UI包括UI元件,所述UI元件对于所述多个家族中的一个、一个或多个或每个家族表示或包括:(i)所述家族,(ii)所述家族的序列读段、所述家族的片段序列、和/或所述家族的UMI序列,以及/或者(iii)所述家族的共有片段序列、所述共有片段序列与所述参考序列比对的位置、和/或所述家族的共有UMI序列。
26.根据权利要求1至25中任一项所述的方法,其中所述多个序列读段包括各自长度为约50个碱基对至约1000个碱基对的片段序列。
27.根据权利要求1至26中任一项所述的方法,其中所述多个序列读段包括配对末端序列读段和/或单末端序列读段。
28.根据权利要求1至27中任一项所述的方法,其中所述多个序列读段通过全基因组测序(WGS)生成,任选地其中所述WGS是临床WGS(cWGS)。
29.根据权利要求1至28中任一项所述的方法,其中所述多个序列读段从获自受试者的样品生成。
30.根据权利要求29所述的方法,其中所述样品包括细胞、无细胞DNA、无细胞胎儿DNA、环状肿瘤DNA、羊水、血液样品、活检样品或它们的组合。
31.根据权利要求1至30中任一项所述的方法,其中所述参考序列包括参考基因组序列。
32.一种用于对序列读段进行分组的系统,包括:
非暂态存储器,所述非暂态存储器被配置为存储可执行指令和多个序列读段,每个序列读段包括片段序列和唯一分子标识符(UMI)序列;以及
硬件处理器,所述硬件处理器与所述非暂态存储器通信,所述硬件处理器由所述可执行指令编程以执行:
使用所述序列读段的所述片段序列将所述多个序列读段中的序列读段与参考基因组序列进行比对;
基于所述UMI序列以及与所述参考基因组序列比对的所述序列读段的所述片段序列的位置,将所述多个序列读段中的序列读段分组为多个序列读段家族;以及
执行所述多个家族中的家族的基于概率的合并。
33.根据权利要求32所述的系统,其中执行基于概率的合并包括:执行所述多个家族的UMI统计估计。
34.根据权利要求33所述的系统,
其中执行UMI统计估计包括:确定片段大小频率、UMI跳跃率和/或UMI频率,并且
其中执行基于概率的合并包括:使用片段大小频率、UMI跳跃率和/或UMI频率来执行所述多个家族中的家族的基于概率的合并。
35.根据权利要求34所述的系统,其中执行基于概率的合并包括:
使用所述片段大小频率、所述UMI跳跃率和/或所述UMI频率来确定两个家族来源于相同的原始核酸分子的相对似然性;
确定所述相对似然性高于合并阈值;以及
合并所述多个家族中的所述两个家族。
36.根据权利要求35所述的系统,其中所述两个家族来源于所述相同的原始核酸分子的所述相对似然性是(i)在给定片段位置的情况下的唯一分子相对于非唯一分子的似然比和(ii)唯一分子相对于非唯一分子的UMI转变的似然比的乘积。
37.根据权利要求36所述的系统,其中所述硬件处理器由所述可执行指令编程以执行:
确定在给定片段位置的情况下的唯一分子相对于非唯一分子的所述似然比;以及
确定唯一分子相对于非唯一分子的UMI转变的所述似然比。
38.根据权利要求34至37中任一项所述的系统,其中确定所述两个家族来源于所述相同的原始核酸分子的所述相对似然性包括:使用测序错误率和/或错配概率确定所述两个家族来源于所述相同的原始核酸分子的所述相对似然性,任选地其中所述测序错误率是0.001,任选地其中所述测序错误率是预先确定的,任选地其中所述错配概率是0.25,任选地其中所述错配概率是预先确定的。
39.根据权利要求34至38中任一项所述的系统,其中所述合并阈值为1。
40.根据权利要求34至39中任一项所述的系统,其中合并所述两个家族包括:将所述两个家族的较小家族合并成所述两个家族的较大家族。
41.根据权利要求32至40中任一项所述的系统,其中执行基于概率的合并包括:家族鉴定和合并。
42.根据权利要求41所述的系统,其中执行基于概率的合并包括:双链体鉴定和合并。
43.根据权利要求32至42中任一项所述的系统,其中执行基于概率的合并包括:使用概率图执行所述多个家族中的家族的基于概率的合并。
44.根据权利要求32至43中任一项所述的系统,其中执行基于概率的合并包括:
(i)对于所述多个家族中的一个、一个或多个或每对家族,确定所述对中的所述家族来源于所述相同的原始核酸分子的相对似然性;以及
(ii)对于具有最高相对似然性的所述对家族,如果具有所述最高相对似然性的所述对中的所述家族来源于所述相同的原始核酸分子的所述相对似然性高于合并阈值,则合并所述家族。
45.根据权利要求44所述的系统,其中执行基于概率的合并还包括:(iii)重复(i)和(ii),直到具有所述最高相对似然性的所述对中的所述家族的所述相对似然不高于所述合并阈值。
46.根据权利要求32至45中任一项所述的系统,其中执行UMI统计估计包括:对所述多个家族中的家族的子集执行UMI统计估计。
47.根据权利要求46所述的系统,其中所述家族的子集包括所述多个家族中的至少50,000个家族和/或所述多个家族中的至少10%的家族。
48.根据权利要求32至47中任一项所述的系统,其中所述多个家族包括至少500,000个家族。
49.根据权利要求32至48中任一项所述的系统,其中在执行基于概率的合并之前的所述多个家族包括比在执行基于概率的合并之后的所述多个家族多至少10%的家族。
50.根据权利要求32至49中任一项所述的系统,其中在合并之前或之后的所述多个家族中的每个家族包括所述多个序列读段中的至少5个序列读段。
51.根据权利要求32至50中任一项所述的系统,其中所述多个序列读段中的一个、一个或多个或每个序列读段包括第二UMI序列。
52.根据权利要求51所述的系统,其中所述UMI序列在所述片段序列的5',并且其中所述第二UMI序列在所述片段序列的3'。
53.根据权利要求52所述的系统,其中所述UMI序列在所述片段序列的3',并且其中所述第二UMI序列在所述片段序列的5'。
54.根据权利要求32至53中任一项所述的系统,其中所述UMI序列和/或所述第二UMI序列的长度为4-20个碱基。
55.根据权利要求32至54中任一项所述的系统,其中所述UMI序列是随机的。
56.根据权利要求32至54中任一项所述的系统,其中所述UMI序列是非随机的。
57.根据权利要求32至56中任一项所述的系统,其中所述硬件处理器由所述可执行指令编程以执行:在对所述多个家族中的一个、一个或多个或每个家族执行基于概率的合并之后,确定所述家族的片段序列、所述片段序列与所述参考基因组序列比对的位置和/或所述家族的UMI序列,任选地其中所述硬件处理器由所述可执行指令编程以执行:将所述家族的所述片段序列与所述参考序列进行比对。
58.根据权利要求32至57中任一项所述的系统,其中所述硬件处理器由所述可执行指令编程以执行:创建文件或报告和/或生成用户界面(UI),所述UI包括UI元件,所述UI元件对于所述多个家族中的一个、一个或多个或每个家族表示或包括:(i)所述家族,(ii)所述家族的序列读段、所述家族的片段序列、和/或所述家族的UMI序列,以及/或者(iii)所述家族的片段序列、所述片段序列与所述参考基因组序列比对的位置、和/或所述家族的UMI序列。
59.根据权利要求32至58中任一项所述的系统,其中所述多个序列读段包括各自长度为约50个碱基对至约1000个碱基对的片段序列。
60.根据权利要求32至59中任一项所述的系统,其中所述多个序列读段包括配对末端序列读段和/或单末端序列读段。
61.根据权利要求32至60中任一项所述的系统,其中所述多个序列读段通过全基因组测序(WGS)生成,任选地其中所述WGS是临床WGS(cWGS)。
62.根据权利要求32至61中任一项所述的系统,其中所述多个序列读段从获自受试者的样品生成。
63.根据权利要求62所述的系统,其中所述样品包括细胞、无细胞DNA、无细胞胎儿DNA、环状肿瘤DNA、羊水、血液样品、活检样品或它们的组合。
CN202280041976.6A 2021-05-19 2022-05-19 Umi塌缩 Pending CN117597739A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163190716P 2021-05-19 2021-05-19
US63/190716 2021-05-19
PCT/US2022/030023 WO2022246062A1 (en) 2021-05-19 2022-05-19 Umi collapsing

Publications (1)

Publication Number Publication Date
CN117597739A true CN117597739A (zh) 2024-02-23

Family

ID=82319831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280041976.6A Pending CN117597739A (zh) 2021-05-19 2022-05-19 Umi塌缩

Country Status (6)

Country Link
US (1) US20220392575A1 (zh)
EP (1) EP4341940A1 (zh)
CN (1) CN117597739A (zh)
AU (1) AU2022277902A1 (zh)
CA (1) CA3219179A1 (zh)
WO (1) WO2022246062A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10844428B2 (en) * 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
EP3874511A1 (en) 2018-10-31 2021-09-08 Illumina, Inc. Systems and methods for grouping and collapsing sequencing reads

Also Published As

Publication number Publication date
AU2022277902A9 (en) 2024-01-11
CA3219179A1 (en) 2022-11-24
WO2022246062A1 (en) 2022-11-24
EP4341940A1 (en) 2024-03-27
WO2022246062A9 (en) 2024-02-01
AU2022277902A1 (en) 2023-12-14
US20220392575A1 (en) 2022-12-08

Similar Documents

Publication Publication Date Title
US11702708B2 (en) Systems and methods for analyzing viral nucleic acids
US20240011074A1 (en) Systems and methods for epigenetic analysis
WO2016141294A1 (en) Systems and methods for genomic pattern analysis
JP2020505947A (ja) 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム
WO2017147124A1 (en) Systems and methods for genotyping with graph reference
US11062793B2 (en) Systems and methods for aligning sequences to graph references
US20190325990A1 (en) Process for aligning targeted nucleic acid sequencing data
WO2018213235A1 (en) Methods for compression of molecular tagged nucleic acid sequence data
US11803554B2 (en) Flexible seed extension for hash table genomic mapping
US20180247016A1 (en) Systems and methods for providing assisted local alignment
Pan et al. OMGS: optical map-based genome scaffolding
CN117597739A (zh) Umi塌缩
Khan et al. Optimizing safe flow decompositions in DAGs
US20230386608A1 (en) Targeted calling of overlapping copy number variants
US20220301655A1 (en) Systems and methods for generating graph references
Cheong et al. The context sensitivity problem in biological sequence segmentation
Kuosmanen Third-generation RNA-sequencing analysis: graph alignment and transcript assembly with long reads.
AU2023235242A1 (en) Single-pass methylation mapping
WO2016040287A1 (en) Variant-calling data from amplicon-based sequencing methods
WO2023021205A1 (en) Computer-implemented methods and systems for transcriptomics
Bristow De novo sequence assembly of viral quasispecies
CN113963749A (zh) 高通量测序数据自动化组装方法、系统、设备及存储介质
Iakovishina Detection of structural variants in cancer genomes using a Bayesian approach. You will find below the abstract of my PhD thesis
Rezar Sestavljanje genoma iz odčitkov zaporedja
Brudno et al. ISMB 2008 Special Interest Group on Algorithms for Short Read Sequencing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40100814

Country of ref document: HK