CN117457074A - 测序数据读段重新比对的方法 - Google Patents

测序数据读段重新比对的方法 Download PDF

Info

Publication number
CN117457074A
CN117457074A CN202311487928.2A CN202311487928A CN117457074A CN 117457074 A CN117457074 A CN 117457074A CN 202311487928 A CN202311487928 A CN 202311487928A CN 117457074 A CN117457074 A CN 117457074A
Authority
CN
China
Prior art keywords
alignment
candidate
indels
realignment
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311487928.2A
Other languages
English (en)
Inventor
G·贝里
庄瀚宇
J·戈登
陈晓
S·坦纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Illumina Inc
Original Assignee
Illumina Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Illumina Inc filed Critical Illumina Inc
Publication of CN117457074A publication Critical patent/CN117457074A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Eye Examination Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及测序数据读段重新比对的方法。一种方法是从序列比对数据集获得读段序列与参考序列的初始比对,并对所述初始比对进行重新比对处理。重新比对处理包含鉴定候选插入缺失,所述候选插入缺失包含比对读段中的零或多个插入缺失以及在比对读段近端比对的零或多个插入缺失,如序列比对数据集指示;至少基于从比对读段中去除由初始比对指示的任何插入缺失来创建扁平化比对读段;并基于针对候选重新比对中的每个候选重新比对将候选插入缺失中的至少一个相应候选插入缺失引入扁平化比对读段来确定读段序列与参考序列的候选重新比对。所述方法进一步基于选择标准来提供初始比对或候选重新比对中的所选候选重新比对。

Description

测序数据读段重新比对的方法
本申请是申请号为201780077066.2、申请日为2017年11月15日、发明名称为“测序数据读段重新比对的方法”的发明专利申请的分案申请。
技术领域
本申请涉及一种测序数据读段重新比对的方法。
背景技术
下一代测序数据分析的持续挑战是插入和缺失(“插入缺失”)的准确调用。这种困难的原因包含较低的发生率、难以作图到基因组中的正确位置以及基因组中存在阻止唯一作图的重复区域。另一个原因是当前的比对工具无法正确地鉴定在读段的末端处的变异体或鉴定准确性不够。这是由于缺少调用变异体的双侧位置信息(two-sided context)而造成的。
发明内容
通过提供计算机实现方法、计算机系统和计算机程序产品,克服了现有技术的缺点并提供了另外的优点。
根据一个实施例,一种用于测序数据读段(read)重新比对的计算机实现方法包含:从序列比对数据集获得读段序列与参考序列的初始比对,所述初始比对包括比对读段;对所述初始比对进行重新比对处理,所述重新比对处理将所述读段序列与所述参考序列重新比对以产生一或多个候选重新比对,并且所述重新比对处理包括:鉴定一或多个候选插入缺失,所述一或多个候选插入缺失包括所述比对读段中的零或多个插入缺失以及在所述比对读段近端比对的零或多个插入缺失,如由所述序列比对数据集指示;至少基于从所述比对读段中去除由所述初始比对指示的任何插入缺失来创建扁平化比对读段;和基于针对所述一或多个候选重新比对中的每个候选重新比对将所述一或多个候选插入缺失中的相应至少一个候选插入缺失引入所述扁平化比对读段来确定所述读段序列与所述参考序列的一或多个候选重新比对;和基于一或多个选择标准来提供所述初始比对或所述一或多个候选重新比对中的所选候选重新比对。
所述一或多个候选插入缺失可以包括多个候选插入缺失,并且所述确定所述一或多个候选重新比对可以包括开始迭代地将所述多个候选插入缺失引入所述扁平化比对读段,其中通过将所述候选重新比对的所述相应至少一个候选插入缺失引入所述扁平化比对读段,所述迭代地引入的每次迭代提供了所述一或多个候选重新比对中的候选重新比对。
所述迭代地引入可以将所述多个候选插入缺失中的一或多个候选插入缺失的排列引入所述扁平化比对读段,以针对所述排列中的每个排列获得所述一或多个候选比对中的不同候选重新比对。
所述重新比对处理可以进一步包括:检查所述一或多个候选重新比对中的所提供候选重新比对,以确定所提供候选重新比对的比对读段(即具有所引入的一或多个相应候选插入缺失的所提供候选重新比对的所述比对读段)是否与所述参考序列比对并且所提供候选重新比对的所述比对读段和所述参考序列之间不存在错配碱基;基于确定所提供候选重新比对的所述比对读段与所述参考序列比对并且不存在错配碱基来停止所述迭代地引入;和选择所提供候选重新比对作为所选候选重新比对,其中所述提供基于所提供候选重新比对的所述比对读段与所述参考序列比对来输出所选候选重新比对。
所述重新比对处理可以进一步包括针对所述迭代地引入对所述多个插入缺失进行优先级排序,其中所述迭代地引入基于所述优先级排序按优先级顺序引入所述多个插入缺失。
所述优先级排序可以使由参考插入缺失数据集指示为预知插入缺失的插入缺失优先于未由所述参考插入缺失数据集指示为预知插入缺失的插入缺失。另外或可替代地,所述优先级排序可以使较长长度的插入缺失优先于较短长度的插入缺失。另外或可替代地,所述优先级排序可以使以所述序列比对数据集的较大数量的比对读段指示的插入缺失优先于以所述序列比对数据集的较小数量的比对读段指示的插入缺失。另外或可替代地,所述优先级排序可以使对应于所述插入缺失相对于所述参考序列的位置以所述序列比对数据集的较大比例的比对读段指示的插入缺失优先于以所述序列比对数据集的较小比例的比对读段指示的插入缺失。另外或可替代地,在以所述序列比对数据集的相同数量的比对读段指示的不同插入缺失之间,所述优先级排序可以使相对于由所述序列比对数据集指示的参考基因组序列的位置(相较于针对另一插入缺失指示的相对于所述参考基因组序列的位置)处于上游的插入缺失优先。
所述选择标准可以至少部分地基于以下中的一或多个:错配碱基的数量、插入缺失的数量、插入缺失相对于由所述序列比对数据集指示的参考基因组序列的位置、和软切碱基的数量。
所述选择标准可以对以下中的一或多个进行优先级排序:针对所述提供,没有插入缺失且仅有一个错配碱基的比对优先于具有一或多个插入缺失的比对;针对所述提供,具有较小数量的错配碱基的比对优先于具有较大数量的错配碱基的比对;在具有相同数量的错配碱基的不同比对之间,针对所述提供,具有较小数量的特定类型的软切的比对优先于具有较大数量的所述特定类型的软切的比对;和在具有相同数量的错配碱基的不同比对之间,针对所述提供,具有较小数量的插入缺失的比对优先于具有较大数量的插入缺失的比对。
所述重新比对处理可以进一步包括基于所述一或多个选择标准中的第一标准来选择所述一或多个候选重新比对中的最佳候选重新比对,其中所选候选重新比对是所选最佳候选重新比对,并且其中所述输出基于所述一或多个选择标准中的第二标准在所述初始比对和所述最佳重新比对候选之间进行选择。
计算机实现方法的一个实施例可以进一步包括确定所获得初始比对是否适合于重新比对,所述确定至少部分地基于以下中的一或多个:鉴定所述初始比对的所述比对读段和所述参考序列之间是否存在一或多个错配碱基;鉴定所述比对读段是否包括软切;鉴定所述初始比对是否不是二次比对;和鉴定所述序列比对数据集的参考基因组序列的碱基区域中的所述比对读段周围是否存在候选插入缺失。
计算机实现方法的一个实施例可以进一步包括确定所获得初始比对是否适合于重新比对,并且基于确定所获得初始比对适合于重新比对来进行所述重新比对处理和所述提供所述初始比对或所选候选重新比对;针对所述序列比对数据集的一或多个另外的初始比对中的每个另外的初始比对,重复所述获得和所述确定所获得另外的初始比对是否适合于重新比对;和针对所述一或多个另外的初始比对中的每个另外的初始比对进行处理,所述进行处理包括(i)按原样提供所述另外的初始比对,不进行所述重新比对处理,或(ii)进行所述重新比对处理和所述提供所述另外的初始比对或所选候选重新比对。
此外,一种用于测序数据读段重新比对的计算机系统,其包括存储器和至少一个处理器,可以被配置成执行程序指令以进行根据本文描述的各个方面的方法。
此外,一种用于测序数据读段重新比对的计算机程序产品,其包括存储供执行的程序指令的有形存储介质,可以进行根据本文描述的各个方面的方法。
通过本文描述的概念实现了另外的特征和优点。本文公开了许多发明方面和特征,并且除非不一致,否则每个公开的方面或特征可与特定应用所期望的任何其它公开的方面或特征组合,例如以促进检测图像障碍。
附图说明
在说明书结论处的权利要求中,特别地指出并清楚地要求本文描述的各个方面作为实例。通过以下结合附图的详细描述,本发明的前述和其它目的、特征和优点是显而易见的,在附图中:
图1A-1D示出了如何可以使用双侧位置信息来解释朝向读段末端的变异碱基;
图2示出了根据本文描述的各个方面的读段的清除以进行处理;
图3描绘了根据本文描述的各个方面的用于处理初始比对的示范性方法;
图4A和4B描绘了根据本文描述的各个方面的含有软切、插入和缺失的读段的示范性位置图;
图5A-5C描绘了根据本文描述的各个方面的比对读段的扁平化;
图6A-6D描绘了根据本文描述的各个方面的将候选插入缺失引入扁平化比对读段;
图7描绘了根据本文描述的各个方面的读段重新比对处理的一个实例;
图8描绘了根据本文描述的各个方面的用于选择最佳候选重新比对的示范性过程;
图9描绘了根据本文描述的各个方面的示范性与目标重新比对处理;
图10A和10B描绘了根据本文描述的各个方面的左和右锚定重新比对结果的示范性过程;
图11描绘了根据本文描述的各个方面的用于添加插入缺失以获得所得重新比对的示范性过程;
图12描绘了根据本文描述的各个方面的在模拟分析中使用的变异体长度的分布;
图13描绘了根据本文描述的各个方面的真值变异体评价的可能结果;
图14描绘了由iSAAC利用非重新比对、GATK重新比对或根据本文所公开的重新比对方法的各个方面重新比对的先验生成的模拟BAM的真和假阳性率;
图15描绘了由iSAAC利用非重新比对、GATK重新比对或根据本文所公开的重新比对方法的各个方面重新比对的先验生成的模拟BAM的真和假阳性率;
图16描绘了非重新比对、GATK重新比对或根据本文所公开的重新比对方法的各个方面重新比对的样本的总每样本体细胞突变计数;
图17描绘了非重新比对、GATK重新比对或根据本文所公开的重新比对方法的各个方面重新比对的样本的按突变类型细分的每样本体细胞突变计数;
图18描绘了GATK和根据本文描述的各个方面的重新比对方法的各个方面的每百万比对的重新比对时间;
图19描绘了根据本文描述的各个方面的用于序列比对处理的示范性过程;
图20描绘了根据本文描述的各个方面的用于测序数据读段重新比对处理的示范性过程;
图21描绘了根据本文描述的各个方面的用于确定初始比对的合格性以经历测序数据读段重新比对处理的示范性过程;
图22描绘了结合和/或使用本文描述的各个方面的计算机系统和相关装置的一个实例;
图23描绘了可以与本文描述的各个方面结合使用的测序装置的一个实例;和
图24描绘了根据本文描述的各个方面的云计算环境的一个实施例。
具体实施方式
下一代测序技术(NGS)的开发已经改变了基因测序,允许生成大量基因序列的拷贝(例如,来自生物体的基因组),比对这些序列以创建拷贝基因序列的核苷酸序列的推定重现。通过鉴定比对拷贝中核苷酸碱基对的序列,可以确定原始序列中的核苷酸序列。此技术的一种用途是用于对疾病的鉴定、理解、预防、治疗或治愈。例如,可以使用NGS来鉴定个体的基因组序列以鉴定其是否具有被认为是特定疾病的基础或表现出特定疾病易感性的核苷酸序列,或鉴定可能会这样做的此些序列,或确定给定药理学或其它治疗是否可能有益于治疗此个体的病症。
必须处理以从其拷贝的比对中获得核苷酸序列的大量序列信息在许多情况下是非常可观的。例如,人类基因组中有大约三十亿个碱基对。确定此大核苷酸序列的能力需要先进的计算机处理技术。例如,经由高通量处理合成大量基因序列(例如,整个参考基因组中的数十亿个核苷酸、一或多个染色体中的数千万或数亿个核苷酸、或染色体或其它基因组序列的长部分)的某些重叠和/或相邻部分的许多拷贝并随后将它们彼此比对以重现并鉴定拷贝序列的核苷酸序列通常需要通过计算机处理大量数据。
在许多情况下,可能存在错误,导致在其创建的比对中基因组序列的不准确表示。NGS技术的一个重要组成部分包含鉴定和纠正此些错误的能力。在对大的基因序列进行测序的情况下,潜在错误的数量也可能因此很大。因此,期望计算机技术来鉴定此些潜在错误的位置,确定它们是否是错误,并且如果是,则确定正确的序列应是什么,通常需要在多个可能正确的序列之间进行选择。由于可能存在跨越大量基因序列的大量此些潜在错误,非常需要将鉴定和改正此些错误的自动化处理作为NGS中使用的计算机处理的组成部分。
例如,可能抑制大多数群体所具有的染色体内的核苷酸序列。然后可以确定个体序列并将其与此些已知序列进行比较。个体序列和已知序列之间的差异在医学上、谱系上或其它方面可能是重要的。然而,NGS为个体确定的比对序列中存在错误或潜在错误使得个体基因序列与已知序列之间的差异的鉴定变得复杂,例如,如果存在错误但是未鉴定,或者错误地未检测到个体序列与已知序列之间的差异。本公开包含用于改进NGS中可能存在的某些类型的错误的自动化鉴定和纠正的计算机技术以及用于产生序列比对的相关信息学处理。优点包含处理时间减少和错误鉴定和纠正增加,从而提高NGS工具和相关技术的可用性。
具体地,本文描述的各个方面解决了由含有插入缺失的测序数据读段与参考基因组的不适当比对引起的假阳性(通常是单核苷酸变异体)和假阴性(通常是插入缺失)变异体调用的问题。本文描述的过程可以以尊重真插入缺失的现有表示并拒绝低频“有噪声的”变异体的方式重新比对读段,所有这些都在短运行时间内完成。通常,一或多个读段或读段序列可以对应于由NGS测序的基因序列中的位置。随着多个读段的产生,总的来说,对序列的所有位置进行测序,并且将其以从对应于被测序序列的一端的位置到对应于被测序序列的另一端的位置的顺序比对,并且鉴定由此表示的核苷酸的顺序,完整序列可以被确定。由于对应于被测序的基因序列中的位置的每个读段或多个读段被鉴定为对应于所述位置,因此它们可以被视为已经比对或是比对读段。然而,由于难以用由比对读段指示的确定性插入缺失准确地鉴定,因此在鉴定或调用比对中的插入缺失的存在方面可能出现错误。
缺少双侧位置信息对插入缺失的准确调用提出了挑战。在调用插入缺失时,双侧位置信息可以有助于指示变异开始和结束的位置。图1A-1D示出了如何可以使用双侧位置信息来解释朝向读段末端的变异碱基。图1A描绘了读段序列102(在本文中也被称为“读段”)到参考序列104(在本文中也被称为“参考”)的初始比对100,从而产生比对读段。在实践中,“读段”和“参考”实际上可以是较长核苷酸序列的一部分,其也可以被称为读段序列和参考序列。在参考序列104上方注明核苷酸碱基位置1到12。比对读段102(在本实例中为七个核苷酸长)与读段102的前五个碱基的参考104的部分匹配。也就是说,碱基位置2到6的序列T-C-G-T-A在比对读段102和参考104之间匹配。序列在碱基位置7开始分歧,其中在位置7和8处的读段序列中观察到序列C-G。图1B到1C描绘了通过以不同的双侧位置信息示出变异体来解释本变异的三种替代方式。在图1B中,由下游序列(例如,本实例中的另一比对读段103b)提供的另外的位置信息将位置7和8的变异碱基C-G鉴定为点突变。在图1C中,由103c提供的另外的位置信息指示所述变异由位置7和8的两个碱基长的缺失解释。在图1D中,由103d提供的另外的位置信息指示所述变化由位置6和7之间的两个碱基长的插入解释。按102比对的给定读段序列的双侧位置信息的差异可能产生所述读段序列的不同读段比对(例如,102'、102"或102"')。
作为序列分析的一部分收集的测序数据存储在序列比对数据集中。用于存储序列比对数据的常见文件类型是SAM(.sam)和BAM(.bam)文件格式。序列比对软件(“比对工具”)输出序列比对数据集文件,例如BAM文件,其指示读段序列与参考基因组的比对并指示插入缺失可能存在于这些比对读段中的证据。相较于针对分配错配,比对工具针对打开“缺口”(插入缺失)通常会具有更高的罚分,这在读段的末端处会变得尤其明显。因此,即使当其它读段证据指示可能存在插入缺失时,许多序列变异也可能被错误地称为错配或者可能被软切。
本文描述的各个方面重新处理序列比对数据集文件,如源/原始/输入序列比对数据集中指示从附近比对的读段获取信息以形成周围位置信息。本方法如输入序列比对数据集中指示从初始比对收集现有的插入缺失观察,并通过尝试重新比对观察到的插入缺失周围的不完美比对读段来处理它们,使得错配最小化。在一些实例中,最初未指示含有任何插入缺失的读段被重新比对,使得它们确实指示相对于参考的插入缺失。序列比对数据集中最初可能没有证据表明特定读段含有任何插入缺失。然而,当插入缺失的存在更适合于由重新比对指示时,本文描述的各个方面可以“挽救”读段。作为具体的实例,可能的情况是,与输入序列比对数据集中指示的参考基因组序列的区域比对的仅一个读段反映了插入缺失,但是在如本文所述处理初始比对之后,例如由本文描述的过程输出的输出序列比对数据集的几个读段支持存在的插入缺失。
除了如上所述减少假阴性之外,本文描述的方法还可以通过消除在输入序列比对数据集的一或多个读段中最初指示的一些错配或一些插入缺失来减少假阳性。
本文描述的过程呈现局部插入缺失重新比对算法。这可以通过重新比对插入缺失周围的输入读段来有助于最小化错配,例如在输入序列比对数据集文件中观察到的和/或在参考插入缺失数据集中指示的那些,例如‘先验’变异体调用格式(.VCF)文件。VCF先验可以作为算法的输入提供,并在源序列比对数据集文件中指示假定的插入缺失。
在高级别,计算机系统可以接收输入序列比对数据集作为输入并执行算法以通读输入数据集,收集现有的插入缺失观察,并通过尝试重新比对观察到的插入缺失周围的每个初始比对的读段来处理来自序列比对数据集的一或多个初始比对。所述算法可以提供新的‘重新比对的’分类索引序列比对数据集,例如作为输出BAM或其它序列比对数据集文件。在读段与参考的重新比对好于读段与参考的初始比对的情况下,可以输出重新比对来代替初始比对。否则,可以从输入序列比对数据集按原样输出初始比对。输出序列比对数据集可以是与原始序列比对数据集分开的另一文件,或者可以是输入序列比对数据集的修改版本,其中算法可以直接修改/重写原始序列比对数据集。
在特定实例中,算法逐步通过输入序列比对数据集,收集现有的插入缺失观察并将它们添加到一组候选插入缺失中以用于特定初始比对的重新比对处理。观察到的插入缺失是否被视为候选可以取决于任何期望的参数,例如观察到的插入缺失的等位基因频率。在一些实例中,提供用户可配置的阈值等位基因频率作为算法的参数或其它输入,例如作为命令行参数或作为软件设置中指定为选项的参数。至少与由阈值指示的频率一样频繁地出现的观察到的插入缺失可以被视为候选插入缺失。频率可以包含与参考序列中的给定位置比对的读段的总数,其指示在所述位置处存在给定的插入缺失。或者,所述频率可以包含与参考序列中的给定位置比对的读段总数中的一部分,其指示在所述位置处存在给定的插入缺失。可配置阈值可以被设置为低至1,指示在与参考序列的给定位置比对的仅一个读段中的插入缺失的存在构成了将插入缺失视为候选的足够证据。或者,可配置阈值可以是在0和1之间的与参考序列中的给定位置比对的读段的数量占此些读段的总数的预定比例,指示插入缺失的存在构成了将插入缺失视为候选的足够证据。在实践中,噪声和其它考虑因素可能要求将频率设置为更高的频率。此外,任选的先验VCF参考插入缺失数据集中提供的任何插入缺失可以被视为候选插入缺失。
通读序列比对数据集的计算机系统通常可以从被作图的参考基因组序列的起点到末端进行。与个体比对相关的候选插入缺失可以在所述比对的原始位置之前或之后存在(即相对于参考基因组序列的上游或下游)。接下来的待处理读段可以为候选插入缺失提供进一步的支持。因此,所述算法可以在存储器中保持遇到的初始比对,直到它们被视为被清除以进行处理,而不是在不读取读段与参考基因组序列进一步向下的位置的比对的情况下立即处理那些初始比对。清除的比对是如序列比对数据集中指示的位置在窗口(具有可配置的窗口大小)的上游端的上游超过比对的末端位置的那些。这允许从所述读段之前和之后的区域收集给定读段的候选插入缺失。基因组窗口大小与超过初始比对的碱基数量相关,所述初始比对必须在收集被认为可能与比对相关的信息的算法得到满足之前进行读取。窗口大小可以是可配置的,例如作为命令行参数。较大的窗口大小允许考虑更大和更远的插入缺失,但是如果由于对资源有更大需求而将窗口大小设置得太大,则计算机系统的性能可能受到负面影响。在特定实例中,250-1000个碱基的窗口大小可能足以用于一般用途。
图2示出了根据本文描述的各个方面的读段的清除以进行处理。基因组块或窗口大小由206表示。读段202在水平方向(在本实例中)单独地与相对于参考基因组序列(未示出)的对应位置比对。插入缺失208a-208d是以各种读段表示的插入缺失。210表示第一组读段(图2中最顶部的8个读段202)被清除以进行处理的点。这是所述组的最后一个读段(202a)的末端的一个窗口大小。延迟可配置窗口的比对处理确保在处理例如读段202b的初始比对时,不仅将考虑插入缺失208b(其是初始比对的一部分)和上游插入缺失208a,而且下游插入缺失208c和208d也将被考虑,因为它们位于点210上游的窗口206内,前8个读段的比对在此点处被清除以进行处理。
被清除以进行处理的初始比对可以经历处理,其示范性方法参考图3进行描述和描绘。图3的方法是可以由一或多个计算机系统进行的过程。所述过程最初确定比对是否适合于包含在输出序列比对数据集(302)中(在本实例中,BAM文件)。在这方面,进行处理的软件可以具有某一配置设置,所述配置设置使得处理能够跳过并去除某些比对,例如PCR复制比对,使得如果启用所述设置则忽略这些。如果初始比对不适于包含,则初始比对的处理结束而不输出比对。否则,通过确定初始比对是否适合于重新比对处理(304)来继续处理。可以基于任何期望的因素确定合格性。作为实例,可以确定(i)它是否被完美地比对,例如,在比对的比对读段和与其比对的参考序列之间是否存在一或多个错配碱基,(ii)比对读段是否包含软切,(iii)初始比对是否是二次比对和/或(iv)序列比对数据集中指示的参考基因组序列的碱基区域中的比对读段周围是否存在候选插入缺失。在一个特定实例中,如果比对被完美地比对,不存在软切,它是二次比对或所述区域中不存在候选插入缺失,则确定比对不适于重新比对处理(304-否),并且所述过程按原样输出比对(306),例如通过将其缓冲以直接输出到输出序列比对数据集。
相反,如果在304确定比对适合于重新比对处理(304-是),例如,如果它未完美地比对,存在软切,它不是二次比对和/或区域中存在候选插入缺失,则所述过程通过尝试重新比对处理以重新比对初始比对(308)来继续。下面作为读段重新比对程序的一部分进一步详细描述此重新比对。本重新比对程序提供了被视为是“最佳”重新比对的重新比对。在重新比对处理之后,确定最佳重新比对是否至少与原始初始比对一样好(310)。若否,则按原样输出初始比对(306)。否则,输出最佳重新比对(312)。因此,在处理初始比对的任何情况下,给定读段与参考的比对可以通过输出做出,其中所述比对是初始比对(306)或重新比对的比对(312)。
在考虑将比对进行重新比对(308)之前,已经收集了所有被观察并且可能影响比对的所述读段序列的候选插入缺失(包含来自原始比对本身的任何插入缺失、周围的插入缺失和任何“先验”)以形成一组候选插入缺失,所述候选插入缺失作为引入候选以提供读段与参考的候选重新比对。开始迭代过程,其将每个候选插入缺失(并且在一些实例中,两个或两个以上此些候选插入缺失的组合)引入比对读段的扁平化版本。在一些实例中,插入缺失从扁平化比对读段的左侧(即,从上游或5'方向)和右侧(即,从下游或3'方向)引入。每次迭代都会提供一个所得‘候选重新比对’,并对其进行评价以确定重新比对的好坏程度。评价可以考虑任何期望的质量指标,例如作为实例的重新比对的比对读段和参考之间的错配碱基的数量、插入缺失的数量、插入缺失的位置和/或软切碱基的数量。
本文描述的一个概念是位置图,其是读段中每个碱基的染色体坐标阵列。位置图是用于表示序列比对数据集中的序列的数据结构。图4A描绘了根据本文描述的各个方面的含有软切和缺失的比对读段的示范性位置图,图4B描绘了根据本文描述的各个方面的含有插入的比对读段的示范性位置图。首先参考图4A,示出了比对读段402a与参考404比对,相应的CIGAR操作412a在读段下方示出。在CIGAR操作412a下方是位置图414a。位置图通常反映参考404上方示出的碱基位置,只是未作图到参考基因组的软剪切或插入碱基在位置图中被给予“-1”的位置,并且缺失的碱基(在位置7和8示出)不存在于读段中,所以它们没有自己的位置。相反,通过两个连续读段碱基之间的位置跳跃表现明显的缺失,例如如位置图414a中所示,从6到9的跳跃指示2碱基对(bp)缺失。因此,图4A描绘了反映chrN:2(1S5M2D2M)的读段的示范性位置图,其具有软切和2bp缺失。图4A中指示的软切是N型软切。初始比对工具已经软切了读段的一部分,为其分配“N”,并指示它无法分辨出碱基是什么碱基。“N”是一种特殊类型的软切;其它类型的软切可能具有鉴定的碱基但仍被视为软切。
图4B描绘了反映chrN:2(5M2I2M)的读段的另一示范性位置图414b,其具有2bp插入(在位置6和7之间)。所述插入在参考404中示出,并且在比对读段402b、CIGAR操作412b和位置图414b中反映。
读段重新比对可以涉及位置图的操纵和随后的核苷酸-位置对与参考基因组的比较。重新比对的每个比对读段可以首先剥离其现有的插入缺失和非N型软切以创建“白板”。这提供了一个以其不含插入缺失的假定有效地开始的读段。不含插入缺失的读段在本文中被称为“扁平化”读段序列或扁平化比对读段(初始比对中的读段的扁平化版本)。然后将候选插入缺失迭代地引入扁平化比对读段并评价其与参考的一致性。可以通过操纵位置图来完成本引入。然后可以将所得核苷酸-位置对与参考基因组进行比较。
图5A-5C描绘了根据本文描述的各个方面的比对读段的扁平化。图5A示出了如相对于参考504指示比对的初始比对读段502a,并示出了相应的CIGAR操作512a。位置图514a指示位置1中的N型软切和位置7和8中的2bp缺失。图5B示出了扁平化比对读段502b,其左锚定,是指其扁平化以将碱基向左移位(即,上游或5'方向)。已经如指示更新了CIGAR操作512b和相应的位置图514b。图5C示出了扁平化比对读段502c,其右锚定,是指其扁平化以将碱基向右移位。已经如图5C中指示更新了CIGAR操作512c和相应的位置图514c。
图6A-6D描绘了将候选插入缺失引入或‘注入’扁平化比对读段。候选插入缺失可以是在所处理的读段的基因组接近度内发现的那些,以及如果被使用则由参考插入缺失数据集指示的任何‘先验’。在图6A-6D的实例中,近端候选插入缺失包含:chrN:6ATC>A、chrN:6A>ACG和chrN:10GA>G。
图6A描绘了与重新比对读段602a的候选重新比对,其扁平化且左锚定,与参考604比对。不存在插入缺失,并且结果是候选重新比对的重新比对读段602a和参考序列604之间的四个错配碱基——见位置7-10。
图6B描绘了与重新比对读段602b的另一候选重新比对,其具有在位置7和8中引入的chrN:6ATC>A缺失插入缺失。读段的最后4个碱基C-G-T-C向下移位2个位置以便引入所述缺失。结果是候选重新比对的读段序列602b和参考序列604之间的两个错配碱基——见位置11和12。
图6C描绘了与重新比对读段602c的又一个候选重新比对,其具有在位置6和7之间添加的chrN:6A>ACG插入插入缺失。结果是候选重新比对的读段序列602c和参考序列604之间不存在错配碱基。如下面进一步描述,在确定此候选重新比对时,所述迭代地将插入缺失引入扁平化比对读段可能会由于候选完全匹配参考而中断以返回所述候选重新比对,这将被视为是完美的比对。
图6D描绘了与重新比对读段602d的候选重新比对,其具有在位置7和8中添加的chrN:6ATC>A缺失插入缺失以及在位置11中添加的chrN:10GA>G缺失插入缺失。本实例示出了将两个插入缺失注入扁平化比对读段。这里的结果也是候选重新比对的读段序列602d和参考序列604之间不存在错配碱基。图6D是与图6B相同的比对,但具有添加的插入缺失。
找到期望的重新比对的一个目的可以是使最小化错配优先,然后最小化插入缺失的数量以达到最佳重新比对。具有单个插入缺失且没有错配的重新比对可以被视为是最好的,在这种情况下,所述比对的重新比对处理可以停止并返回重新比对。然后可以将其与初始比对进行比较以确定哪个是待输出的较好的比对。可替代地,当在重新比对处理期间没有遇到‘完美的比对’时,可以将来自考虑的组合的‘最佳’候选重新比对与原始比对进行比较,并且如下所述选择其中较好的用于输出。
当确定“最佳”候选比对时,可以以顺序或优先级使用或应用规则。在一些实例中,存储当前最佳候选重新比对并将其与下一个确定重新比对候选进行比较。根据规则比较两者,并且如果重新比对候选较好,则将其优先化为新的最佳候选重新比对,替换旧的候选重新比对。此些规则和优先级排序的一个实例是:
(i)如果读段的一个比对仅有一个与参考错配的碱基且没有插入缺失,而读段的另一个比对具有一或多个插入缺失,则优选具有单个错配且没有插入缺失的比对。没有插入缺失且仅有一个错配碱基的比对优先于具有一或多个插入缺失的候选比对;
(ii)不管插入缺失的数量如何,最小化错配碱基(即,比对的比对读段和参考之间的错配)的数量。具有较小数量的错配碱基的比对优先于具有较大数量的错配碱基的比对;
(iii)倘若与参考错配的碱基的数量相同,优选具有较少的非N软切的比对。在具有相同数量的错配碱基的比对之间,具有较小数量的特定类型(例如,N)的软切的比对优先于具有较大数量的特定类型的软切的比对;和
(iv)倘若与参考错配的碱基的数量相同,优选具有较少的插入缺失的比对。在具有相同数量的错配碱基的不同比对之间,具有较小数量的插入缺失的比对优先于具有较大数量的插入缺失的比对。
输入序列比对数据集可以由计算机系统处理,以逐个比对地读取数据。这些初始比对被读入存储器,并且每个初始比对最终清除以基于如上所述的滑动窗口进行处理。如果本处理确定清除的初始比对适合于重新比对处理,则针对被清除以进行处理的每个初始比对进行如参考图7所描述和描绘的读段重新比对处理。图7的处理可以由一或多个计算机系统进行。
所述过程通过获得本最初比对的读段的所有近端候选插入缺失,即在所述区域中观察到的插入缺失(702)开始。近端插入缺失可以是被认为与本读段比对相关的区域或窗口内的那些,因此可以是在序列比对数据集中指示的几个不同比对中的任何一个中看到的任何插入缺失。这组插入缺失,任选地与在参考插入缺失数据集中指示为‘先验’的插入缺失或者已知/假定将存在的插入缺失一起,形成候选插入缺失组。
然后,所述过程对与初始比对相关的这些候选插入缺失进行排序(704)。本排序或优先级排序可以基于任何期望的规则,其实例如下并且按以下顺序应用:
(i)“已知”/先验优先(如果使用)——优先级排序可以使由参考插入缺失数据集指示为预知插入缺失的插入缺失优先于未由参考插入缺失数据集指示为预知插入缺失的插入缺失,即使未被指示为“先验”的所述插入缺失在序列比对数据集中大量指示;
(ii)较大/较长的插入缺失优先——优先级排序可以使较长长度的插入缺失优先于较短长度的插入缺失。较长的插入缺失可能比较小的插入缺失排序更高,即使是可能在序列比对数据集中更频繁出现的那些;
(iii)更高的频率优先,例如指示在给定位置存在插入缺失的存在于更高数量的读段中的插入缺失——优先级排序可以使以序列比对数据集的较大总数的读段序列或其更大比例指示的插入缺失优先于分别以对应于参考序列中的给定位置的序列比对数据集的较小数量或比例的比对读段指示的插入缺失;
(iv)如果频率相同,最左侧插入缺失优先——在以序列比对数据集的相同数量的比对读段指示的不同插入缺失之间,优先级排序可以使相对于由序列比对数据集指示的参考基因组序列的位置(相较于针对另一插入缺失指示的参考基因组序列中的位置)处于上游的插入缺失优先。作为一个实例,当处理尝试重新比对读段202b时,插入缺失208a实际上可能比插入缺失208b排序更高。
所述排序指示,与其它插入缺失相比,哪些插入缺失在存在概率方面的加权更重。如果两个可能的候选插入缺失可能提供了具有相同数量的(零或多个)错配碱基的两个不同的候选重新比对,则优先级排序指示哪些插入缺失将更加可信。上面的示范性优先级规则推动已知的、更长的、更频繁出现的插入缺失。优先级排序反映了存在的更可能真的插入缺失。
图7的过程通过获得‘最佳’重新比对(706)而继续,参考图8进一步详细描述。最佳重新比对是逐步通过候选插入缺失并将它们迭代地引入原始比对的比对读段的扁平化版本以产生候选重新比对的结果。所述迭代通过排序的候选插入缺失使读段与一个插入缺失,两个插入缺失等(多至并且包含n个插入缺失)的排列重新比对。在一些实施例中,n是3。每次迭代产生候选重新比对。可以使用选择标准来选择这些重新比对中的‘最佳’。一个目的可以是在具有注入的插入缺失的修改的读段和参考之间实现尽可能少的错配。
继续图7的过程,在获得最佳候选重新比对之后,所述过程确定重新比对的读段是否与参考完美地比对(708),即候选重新比对的比对读段(具有引入其中的一或多个插入缺失的比对读段)是否与参考序列比对且重新比对的比对读段和参考之间不存在错配碱基。其一个实例在图6C中示出。利用位置6和7之间的C-G插入插入缺失,比对读段602c与参考604完美地比对。如果所选最佳重新比对呈现了完美的重新比对(708-Y),则所述过程输出所选最佳重新比对710来代替来自输入序列比对数据集的原始比对。
否则,如果最佳候选重新比对的重新比对读段和参考之间存在错配碱基(708-N),则所述过程通过将最佳候选重新比对与原始比对进行比较(712)来进行。最终,目的是输出两者中较好的比对。因此,基于所述比较,所述过程确定由706提供的最佳候选重新比对是否好于原始比对(714)。若是,则所述过程输出本最佳重新比对(710)。在一个特定实例中,如果最佳候选重新比对好于原始比对或与原始比对一样好,则在适当时调整作图质量(例如,如果原始质量为20或更低并且重新比对没有错配,则设置为40),并且所述过程在本作图质量调整之后将最佳候选重新比对输出到输出序列比对数据集。返回询问714,如果最佳候选重新比对未好于原始比对或未与原始比对一样好(714-N),则所述过程输出原始比对(716)。
用于选择的原始比对和最佳候选重新比对中的较好者的选择标准可以与用于从706确定最佳重新比对候选的选择标准相同或不同。在特定实例中,用于选择最佳候选重新比对和/或最佳候选重新比对和原始比对中的较好者的选择标准可以基于:比对的比对读段和参考序列之间错配的碱基的数量、由比对指示的插入缺失的数量、对应于序列比对数据集中指示的参考基因组序列中的插入缺失的位置和/或由比对指示的软切碱基的数量。前述中的“比对”涵盖比对(如在原始比对中)和重新比对(如在候选重新比对中),因为两种情况都呈现了相应读段与参考序列的比对。
作为一个实例,选择标准可以使以下中的一或多个优先:没有插入缺失且仅有单个错配碱基(在读段和比对的参考之间)的比对优先于具有一或多个插入缺失的比对;具有较小数量的错配碱基的比对优先于具有较大数量的错配碱基的比对;在具有相同数量的错配碱基的比对之间,具有较小数量的特定类型(例如,N)的软切的比对优先于具有较大数量的指定类型的软切的比对;和/或在具有相同数量的错配碱基的不同比对之间,具有较小数量的插入缺失的比对优先于具有较大数量的插入缺失的比对。
图8描绘了根据本文描述的各个方面的用于选择最佳候选重新比对的示范性过程。图8的处理可以由一或多个计算机系统进行。在高级别,所述过程将一或多个插入缺失的排列引入经历重新比对处理的初始比对的比对读段的修改(例如,扁平化)版本。每次引入都会产生候选重新比对。所述过程首先将每个插入缺失单独地引入扁平化比对读段,提供候选重新比对,然后将两个插入缺失的每个组合引入读段以提供另外的候选重新比对。这可以针对3个、4个等多个插入缺失而重复,直到满足一些可配置的阈值。在一些实例中,在将3个插入缺失的排列引入读段之后满足本阈值。在重新比对处理中引入插入缺失的优先级遵循如前所述的那些插入缺失的排序。而且,在一些实例中,处理被配置成每当确定完美比对时中断(退出/停止)。
作为具体实例,假定存在按优先级顺序排序的n个候选插入缺失{I1,I2,I3,…,In},并且所述迭代通过1个插入缺失、然后2个插入缺失、然后3个插入缺失的组合而进行。所述迭代地将插入缺失引入扁平化比对读段将按以下顺序进行,其中每次迭代提供候选重新比对:
-[一个插入缺失的迭代:]引入I1,然后I2,然后I3,……,然后In;然后
-[两个插入缺失的迭代:]引入I1+I2,然后I1+I3,……,然后I1+In,然后I2+I3,然后I2+I4,……,然后I2+In,……,然后In-1+In;然后
-[三个插入缺失的迭代:]引入I1+I2+I3,……,然后In-2+In-1+In。
插入缺失的引入将插入缺失注入扁平化比对读段并检查修改的读段比对如何与参考基因组对齐,所述检查可以由产生的修改位置图辅助。
如所指出,如果在迭代期间的任何点处提供了与参考完美地比对的候选重新比对,则处理可以中断并选择所述候选作为待提供的最佳候选重新比对(图7,#706)。
参考图8,所述过程通过启动最佳重新比对开始。在一个实例中,这最初为空或默认为原始比对作为占位符,但是随着图8的处理继续将被在处理主题原始比对时遇到的当前最佳重新比对替换。所述过程进入循环,所述循环通过确定是否存在更多个需尝试的插入缺失排列(804)开始。如果存在,则所述过程获得/鉴定下一个需尝试的排列(806)。然后,当下一个需尝试的排列包含多个插入缺失时,进行任选的确定808。一些插入缺失可能不会共存,在这种情况下,将它们引入扁平化比对读段以提供候选重新比对是没有意义的。当仅引入单个插入缺失时,可以在初始迭代期间不进行确定808。最后,如果重新比对处理达到2个或2个以上插入缺失的排列,则可以在每次迭代时进行确定808。如果在808处确定待引入扁平化读段的插入缺失不能共存,则所述过程通过返回到804来进行到下一次迭代以确定是否存在更多个需尝试的插入缺失排列。否则,或者如果由于在当前迭代中仅考虑单个插入缺失而未进行确定808,则所述过程通过进行‘与目标重新比对’过程来获得结果(810)来进行。参考图9进一步详细描述本过程。
从810获得的结果是候选重新比对。然后,图8的过程确定所述结果是否好于当前最佳重新比对(812)。若是,则结果变为新的当前最佳重新比对(814)。在一个实例中,结果替换先前存储的最佳重新比对,先前存储的最佳重新比对被丢弃。因为结果被确定为好于本处理中的任何先验获得的候选重新比对,所以所述过程通过确定结果(新的最佳重新比对)是否是完美比对(即重新比对的比对读段和参考之间是否没有错配碱基)(816)来进行。若是,则所述过程结束,并且最佳重新比对被用作所选最佳重新比对。在一些实例中,将其输出到输出序列比对数据集作为最佳比对(图7,710)。
如果在816处确定新的最佳重新比对不是完美比对,或者如果在812处确定获得的结果未好于当前最佳重新比对,则所述过程返回到804以确定是否存在另外的需尝试的插入缺失排列。若否,则所述过程返回当前最佳重新比对(818)。可以看出,本过程继续迭代,直到没有更多个需尝试的插入缺失排列(804-否),或者由确定的候选重新比对提供完美比对(816-是)。
图9描绘了根据本文描述的各个方面的示范性‘与目标重新比对’(图8的810)处理。图9的处理可以由一或多个计算机系统进行。所述过程获得参考图10A描述的左锚定结果(902),得到参考图10B描述的右锚定结果(904),并返回两者中的较好者(906)。用于在两者之间进行选择的选择标准可以是期望的任何选择标准,例如上述选择标准。在一个修改的实例中,代替从左和右锚定处理获得候选重新比对,由左锚定结果提供的重新比对通过图8(812-816)处理,并且图10B的右锚定结果处理仅在确定左锚定结果未导致完美比对时才进行(816-否)。
图10A-10B描绘了根据本文描述的各个方面的左和右锚定重新比对结果的示范性过程。图10A和10B的处理可以由一或多个计算机系统进行。左侧或右侧的锚定反映了假定读段的哪一侧在其鉴定碱基方面更准确。如果读段的一端比另一端更可信,则从所述端锚定读段,并且从所述端进行插入缺失的注入。在左锚定重新比对中,左侧比右侧更可信。针对左锚定结果处理,图10A,所述过程通过将读段位置左移(1002)任何前缀软切的长度(在一些实例中,除了N-软切)来获得调整的开始位置。如果读段以(i)插入或(ii)软切和插入开始,则读段位置向左移位所述插入的长度。所述锚定对应于最外侧的匹配核苷酸。然后,所述过程创建扁平化读段、序列和位置图(1004)。图5B中描绘了一个实例。然后,针对当前排列组合中的一或多个插入缺失中的每一个,并且按排序顺序,所述过程添加插入缺失以获得所得重新比对(1006)。图6C示出了引入扁平化左锚定读段的一个插入缺失的一个实例,图6D示出了引入扁平化读段的两个插入缺失的一个实例。
针对右锚定结果处理,图10B,所述过程通过找到位置图中的最大位置并添加在读段的末端存在的插入/软切碱基的数量(1008)来获得调整的结束位置。读段的调整的开始位置将是所述最大位置减去读段的长度,不包含N型软切。然后,所述过程创建扁平化比对读段、序列和位置图(1010)。图5C中描绘了一个实例。然后,针对当前排列组合中的一或多个插入缺失中的每一个,并且按从右侧(或上游,朝向5'末端)到左侧(或下游,朝向3'末端)的顺序,所述过程添加插入缺失以获得所得重新比对(1012)。例如,如果三个待引入的插入缺失,则所述过程从右向左引入它们,首先添加三者中的最上游的插入缺失,然后添加其余两者中的最上游者,然后是第三个。
参考图11描述‘添加插入和获得结果’处理(图10A的1006,图10B的1012)。图11的处理可以由一或多个计算机系统进行。这是针对每个待添加的插入缺失进行的。在存在多个待添加的插入缺失的情况下,通过添加插入缺失而产生的重新比对是通过添加下一个插入缺失来修改的(对所得重新比对在每个连续的插入缺失上进行分层)。最终由图10A或10B的处理产生并且由图8的810返回的候选重新比对是根据图11添加组合的每个插入缺失的进行的最终重新比对。
图11的过程假定一些起始重新比对候选,其最初将是没有引入插入缺失的扁平化读段,但是在添加每个插入缺失时用更新的所得重新比对替换。所述过程通过确定位置图是否允许引入插入缺失(1102)开始。若否,例如,如果待引入的插入缺失的参考位置偏离位置图或者是位置图中的最终位置,则无法添加插入缺失,并且所述过程返回NULL(1114)或一些其它期望的结果,然后结束。
如果位置图允许引入插入缺失,则所述过程确定新位置图(具有插入的插入缺失)是否有效(1104)。若否,则无法添加插入缺失,并且所述过程返回NULL(1114)或一些其它期望的结果,然后结束。否则,所述过程通过确定候选插入缺失是否是插入(1106)来进行。若是,则确定读段序列的碱基是否与推定插入匹配(1108)。如果推定插入位置处的读段序列中的碱基与推定插入中指定的那些碱基相同,则读段序列的碱基可以与推定插入匹配。作为一个说明性实例,如果以下读段序列ATCTGA锚定在位置10(即,5'A在chrN:10处),并且推定插入是chrN:12C>CTG,则将其视为匹配,因为在chrN:12处的C之后的读段序列中的接下来的两个碱基是TG。相反,作为另一个说明性实例,如果推定插入是chrN:12C>CAA,则其不匹配,因为在chrN:12处的C之后的读段序列中的接下来的两个碱基不是AA。如果读段序列的碱基与推定插入不匹配,则无法添加插入缺失,并且所述过程返回NULL(1114)或一些其它期望的结果,然后结束。
相反,如果在1108处确定读段序列的碱基与推定插入匹配(1108-是),或者如果在1106处确定插入缺失不是插入(例如,其是缺失),则所述过程通过基于调整的位置图确定新的CIGAR位置字符串和开始位置(1110)来进行。然后其返回具有添加的插入缺失的所得重新比对(1112)并结束。
下面提供针对示范性GetBestAlignment例程(对应于图8)的伪代码和针对示范性子例程RealignToTargets(对应于图9)的伪代码。
GetBestAlignment是指对引入扁平化读段的排序候选插入缺失的列表进行的例程。在本过程中,对每个单独的候选插入缺失以及每个候选插入缺失与其它候选插入缺失的组合进行RealignToTargets。如果在任何时候引入单个插入缺失导致读段没有错配,则所述过程可以退出,其中所述重新比对被视为是最佳重新比对候选。否则,所述过程返回“最佳”重新比对,如通过上述规则/选择标准从一到n个插入缺失的所有评估组合测量,其中n是需引入的插入缺失的最大数量。
GetBestAlignment例程伪代码:
将BestResultSoFar初始化为空;
针对每个候选插入缺失A,按排序顺序:
//尝试与一个插入缺失比对:
进行RealignToTargets例程,得到结果ResultA;
如果ResultA好于BestResultSoFar,则ResultA变为BestResultSoFar;
如果BestResultSoFar具有1个插入缺失和0个错配,中断并将其保持为最佳比对。
//尝试与两个插入缺失比对:
针对每个另外的候选插入缺失B:
如果插入缺失A和B不能共存,则跳过这一对;
进行RealignToTargets例程,得到结果ResultAB;
如果ResultAB好于BestResultSoFar,则ResultAB变为BestResultSoFar
//尝试与三个插入缺失比对:
如果被配置成尝试三者的组合,针对每一个另外的候选插入缺失C:
如果插入缺失A、B和C不能共存,则跳过这由三者构成的一组;
如果BestResultSoFar具有>0个错配:
进行RealignToTargets例程,得到ResultABC;
如果ResultABC好于BestResultSoFar,则ResultABC变为BestResultSoFar;
返回BestResultSoFar;
RealignToTargets例程伪代码:
已知:CombinationIndels,其是例如待组合评估的一到三个候选插入缺失的列表:
//使用左锚定获得结果:
获得调整的位置:将读段位置左移前缀软切(除了N-软切)的长度。如果读段以插入或软切+插入开始,则将读段位置左移所述插入的长度;
创建假定全部匹配的具有CIGAR、序列和位置图(除了末端N)的扁平化读段。针对读段(除了末端N)中的每个碱基,所得读段将具有为“M”的CIGAR字符串;
初始化ResultLeftAnchored;
针对CombinationIndels中的每个插入缺失X,按位置升序排序:
进行AddIndelAndGetResult例程(图11),修改ResultAlignment(在每个连续的插入缺失上进行分层);
//使用右锚定获得结果:
获得调整的位置:找到位置图中的最大位置,并在其中添加读段的末端存在的插入或软切碱基的数量。读段的调整的开始位置将是所述最大位置减去读段长度;
创建假定全部匹配的具有CIGAR、序列和位置图(除了末端N)的扁平化读段。针对读段(除了末端N)中的每个碱基,所得读段将具有为“M”的CIGAR字符串;
初始化ResultRightAnchored
针对CombinationIndels中的每个插入缺失X,按位置降序排序:
进行AddIndelAndGetResult例程,修改ResultAlignment(在每个连续的插入缺失上进行分层);
返回ResultLeftAnchored和ResultRightAnchored中的较好者。在平局的情况下,返回ResultLeftAnchored。
本文描述的各个方面可以用于调整和改进从初始比对工具输出的测序数据比对。比对工具可以输出初始序列比对数据集,其被提供作为被配置成进行本文描述的各个方面的软件的输入。所述软件输出序列比对数据集,其具有一或多个初始比对的重新比对。
以下给出了根据本文描述的各个方面(以下被称为Realigner)的插入缺失重新比对与GATK插入缺失重新比对工具(由麻省理工学院和哈佛大学的伊莱和伊迪特L.博德研究所(Eli and Edythe L.Broad Institute of MIT and Harvard)(“博德研究所”),剑桥市,马萨诸塞州,美国提供)的插入缺失重新比对的比较。
Realigner的区别在于它能够准确地重新比对观察到的突变周围的读段,并且能够比现有方法在更短的时间内完成。为了证明这一点,将Realigner与生物信息学界中可能最知名的局部插入缺失重新比对工具(即GATK插入缺失重新比对工具(参见例如迪普利斯托,M.(DePristo,M.)、班克斯,E.(Banks,E.)、波普兰,R.(Poplin,R.)、加里梅拉,K.(Garimella,K.)、马奎尔,J.(Maguire,J.)和哈特尔,C.(Hartl,C.)等人,使用下一代DNA测序数据进行变异发现和基因分型的框架(A framework for variation discovery andgenotyping using next-generation DNA sequencing data),自然遗传学(NatureGenetics),43(5),491-498,(2011)))进行比较,以确定它是否至少也在较短的时间内进行。
对模拟变异体数据的灵敏性和特异性:
方法
为了评价灵敏性,进行了以下实验:
1.模拟长度为4-25bp的200个插入和200个缺失的个体变异体FASTQ文件(总共400个模拟FASTQ)。
2.使用iSAAC比对工具(由亿明达公司(Illumina,Inc.),圣地亚哥,加利福尼亚州,美国提供)比对模拟的FASTQ文件。评估了两个条件:有和没有‘先验’。向iSAAC提供先验列表允许列表中的插入缺失优先于所述位置处的一串错配的调用。
3.使用Realigner、GATK和无重新比对中的每一个重新比对上述每个条件(有先验,没有先验)。
4.使用由亿明达公司提供的Pisces变异体调用工具调用变异体。
5.评价调用变异体的灵敏性和特异性。
分析中使用的样本:
从约2000个中长度(4-25bp)插入缺失的库中随机选择200个插入和200个缺失。图12描绘了根据本文描述的各个方面的模拟分析中使用的变异体长度的分布。
调用变异体的评价
期望每个模拟样本只有一个调用变异体。为了评价结果的灵敏性和特异性,从VCF中提取所有调用变异体(产生0到多个变异体,其中的0到1将与期望的变异体匹配)。将所得变异体与期望的“真值”变异体进行比较,得到图13中列出的结果之一,其描绘了根据本文描述的各个方面的真值变异体评价的可能结果。
结果
在最初的iSAAC比对中使用先验提高了所有条件的灵敏性。在没有重新比对的情况下,48.5%的变异体被成功调用,没有假阳性。利用GATK重新比对,所述部分上升到48.8%,而Realigner达到75.3%。在所有情况下,如果变异体被正确调用并通过,则不存在其它通过的变异体。在一些实例中,与先验一起使用的Realigner可以产生比GATK重新比对更少的假阴性和更少的假阳性。
图14描绘了由iSAAC利用非重新比对、GATK重新比对或根据本文所公开的重新比对方法的各个方面重新比对的先验生成的模拟BAM的真和假阳性率。图15描绘了由iSAAC利用非重新比对、GATK重新比对或根据本文所公开的重新比对方法的各个方面重新比对的先验生成的模拟BAM的真和假阳性率。应当注意,这些结果基于插入缺失的具体期望表示,其可能不总是左比对表示。插入缺失的GATK表示将始终是最左比对的,而Realigner为它在输入BAM中看到的插入缺失的原始表示保持保真度。
对FFPE正常样本的特异性:
方法
为了评价对实际样本的特异性,使用正常(非疾病)样本。为了充分挑战重新比对工具,使用FFPE样本,其通常具有差的DNA质量,从而导致大量低频“有噪声的”变异体。特别是对于Realigner,这些低频变异体中的每一个都代表了一次引入假变异体的机会。
因为这些是正常的非癌样本,我们假定所有真变异体都是二倍体频率(杂合变异体为约50%,纯合变异体为约100%)。因此,任何处于“体细胞”范围(<20% VAF)中的情况都可以被视为假阳性。此外,在所有其它条件相同的情况下,所得体细胞突变计数越低,重新比对方法可以被视为越准确。
进行了以下实验:
1.使用含有来自癌症体细胞突变目录(COSMIC)在线数据库的靶向变异体的先验VCF运行iSAAC变异体调用工具。
2.使用Realigner或GATK重新比对BAM文件。
3.使用Pisces变异体调用工具调用变异体。
4.评估体细胞突变率。
对20个FFPE正常样本进行所述分析,所述样本使用由亿明达公司提供的TruSightTumor 170测定法制备和测序,并且已经通过TruSight Tumor 170信息学管道进行处理直至比对步骤。
结果
相较于非重新比对或GATK重新比对的结果,Realigner全面地表现出较低的体细胞突变率(代表非癌样本中的假阳性率)(在二十个病例中,Realigner仅在三例中具有相比于GATK较高的FP(假阳性),并且三者都非常接近)。相较于非重新比对或GATK重新比对,Realigner似乎具有更积极的缺失调用(参见图16)。通常,插入缺失重新比对显著地减少了假阳性,对于Realigner来说尤其如此。
图16描绘了非重新比对、GATK重新比对或根据本文所公开的重新比对方法的各个方面重新比对的样本的总每样本体细胞突变计数(代表非癌样本中的假阳性计数)。图17描绘了非重新比对、GATK重新比对或根据本文所公开的重新比对方法的各个方面重新比对的样本的按突变类型细分的每样本体细胞突变计数(代表非癌样本中的假阳性计数)。
运行时评价:
方法
对用于FFPE正常评价的相同的20个样本进行评估,持续从输入BAM到重新比对的输出BAM所需的计算时间。输入的BAM文件各自含有大约6000万个读段。
结果
在所有情况下,Realigner在中型BAM上明显快于GATK。图18描绘了GATK和根据本文描述的各个方面的重新比对方法的各个方面的每百万比对的重新比对时间。在测试计算机系统上,每百万比对的重新比对时间的范围为GATK每百万比对约1.5-5分钟,而Realigner每百万比对始终低于10秒。
Realigner是一种快速且准确的插入缺失重新比对算法,其为现有的插入缺失的表示保持保真度。它依赖于现有信号在输入序列比对数据集中的存在以在插入缺失周围重新比对。在上面的实例中,Realigner在用于由iSAAC考虑到先验而生成的BAM文件时做得尤其好,因为这最大化了输入BAM将含有至少一个具有插入缺失的读段的可能性。
局部重新比对的期望黄金标准将涉及具有共识生成和共识的局部重新比对的堆积方法。然而,基于共识的解决方案已被证明在时间和计算要求方面是昂贵的。相比之下,Realigner使用近端观察到的插入缺失的位置信息单独地处理每个读段,以获得更简单的基于候选的方法。
因此,本文描述了用于序列比对处理的过程。图19描绘了根据本文描述的各个方面的用于序列比对处理的示范性过程。图19的处理可以由一或多个计算机系统进行。在一个特定实例中,计算机系统上运行的软件打开输入序列比对数据集文件并读取其内容,作为一个实例,其包含读段序列与参考序列的比对的二进制表示。所述过程通过确定是否存在下一个需处理的初始比对(1902)开始。若否,则所述过程结束。如果存在下一个需处理的初始比对,则所述过程通过从序列比对数据集获得读段序列与参考序列(如果尚未读入存储器)的初始比对(1904)来继续。然后,对本初始比对进行处理。最初,所述处理确定所获得初始比对是否适合于重新比对(1906)。若否,则所述过程按原样提供初始比对,不进行重新比对处理(1908)。否则,如果初始比对适合于重新比对,则所述过程通过对初始比对进行重新比对处理(1910)来继续。重新比对处理将读段序列与参考序列重新比对。下面参考图20描绘和描述示范性重新比对处理。作为所述过程的一部分,产生一或多个候选重新比对。然后,图19的过程基于一或多个选择标准来提供初始比对或一或多个候选重新比对中的所选候选重新比对(1912)。
选择标准可以至少部分地基于:错配碱基的数量、插入缺失的数量、插入缺失相对于由序列比对数据集指示的参考基因组序列的位置、和/或和软切碱基的数量。在一些实例中,选择标准进行优先级排序:针对所述提供,没有插入缺失且仅有一个错配碱基的比对优先于具有一或多个插入缺失的比对;针对所述提供,具有较小数量的错配碱基的比对优先于具有较大数量的错配碱基的比对;在具有相同数量的错配碱基的不同比对之间,针对所述提供,具有较小数量的特定类型的软切的比对优先于具有较大数量的特定类型的软切的比对;和/或在具有相同数量的错配碱基的不同比对之间,针对所述提供,具有较小数量的插入缺失的比对优先于具有较大数量的插入缺失的比对。
再次参考图19,在提供适当的比对(1908,1912)之后,所述过程通过返回到1902来重复。这可以针对若干初始比对(例如,已经被清除以进行处理的若干初始比对)中的每个另外的初始比对而重复。因此,所述过程通过针对一或多个另外的初始比对中的每个另外的初始比对进行处理来重复。也就是说,所述过程针对序列比对数据集的一或多个另外的初始比对中的每个另外的初始比对而重复所述获得和所述确定所获得另外的初始比对是否适合于重新比对。
图20描绘了根据本文描述的各个方面的用于重新比对处理的示范性过程。图20的处理可以由一或多个计算机系统进行。所述过程通过鉴定一或多个候选插入缺失(2002)开始。一或多个候选插入缺失可以是比对读段中的任何一个,并且可能是在比对读段附近或近端比对的其它插入缺失。可能存在初始读段比对中指示的零或多个和在比对序列附近的零或多个,因此候选插入缺失可以包含比对读段中的零或多个插入缺失以及在比对读段近端比对的零或多个插入缺失,如序列比对数据集指示。另外,并且任选地,参考插入缺失数据集可以向候选插入缺失组提供一或多个插入缺失以用于引入。
然后,图20的过程对候选插入缺失进行优先级排序(2004)。所述优先级排序使用任何期望的方法对候选插入缺失进行优先级排序或排序。例如,所述优先级排序使由参考插入缺失数据集指示为预知插入缺失的插入缺失优先于未由所述参考插入缺失数据集指示为预知插入缺失的插入缺失。另外或可替代地,所述优先级排序使较长长度的插入缺失优先于较短长度的插入缺失。另外或可替代地,所述优先级排序使以所述序列比对数据集的较大数量的比对读段指示的插入缺失优先于以所述序列比对数据集的较小数量的比对读段指示的插入缺失。另外或可替代地,在以所述序列比对数据集的相同数量的比对读段指示的不同插入缺失之间,所述优先级排序使相对于由所述序列比对数据集指示的参考基因组序列的位置(相较于针对另一插入缺失指示的参考基因组序列中的位置)处于上游的插入缺失优先。
图20的过程通过至少基于从读段序列中去除由初始比对指示的任何插入缺失来创建扁平比对读段(2006),然后确定读段序列与参考序列的一或多个候选重新比对(2008)而继续。基于针对一或多个候选重新比对中的每个候选重新比对将一或多个候选插入缺失中的相应至少一个候选插入缺失引入扁平化比对读段来进行候选重新比对的确定。一或多个候选插入缺失可以包含多个候选插入缺失,并且所述确定一或多个候选重新比对可以包含开始迭代地将多个候选插入缺失引入扁平化比对读段,其中通过将候选重新比对的相应至少一个候选插入缺失引入扁平化比对读段,所述迭代地引入的每次迭代提供了一或多个候选重新比对中的候选重新比对。所述迭代地引入可以基于所述优先级排序按优先级顺序引入所述多个插入缺失。
所述迭代地引入将多个候选插入缺失中的一或多个候选插入缺失的排列引入扁平化读段,以针对排列中的每个排列获得一或多个候选比对中的不同候选重新比对。
重新比对处理(图20)最终基于选择标准选择一或多个候选重新比对中的最佳候选重新比对(2010)。针对本选择,可以使用与图19中用于在初始比对和最佳候选重新比对之间进行选择的标准不同的标准。因此,最佳候选重新比对的选择可以基于一或多个选择标准中的第一标准,其中所选候选重新比对是所选最佳候选重新比对,并且其中输出(图19,1912)基于一或多个选择标准中的第二标准在初始比对和最佳重新比对候选之间进行选择。
本最佳候选重新比对的选择可以包含检查所提供候选重新比对,以确定所提供候选重新比对的比对读段(即具有所引入的一或多个相应候选插入缺失的比对读段)是否与参考序列匹配并且所提供候选重新比对的比对读段和参考序列之间不存在错配碱基。基于确定所提供候选重新比对的比对读段与参考序列匹配并且不存在错配碱基,所述将候选插入缺失迭代地引入扁平化比对读段可以停止,并且不存在错配碱基的所提供候选重新比对可以被提供作为所选候选重新比对(2010)。在这些情况下,所述提供(图19,1912)可以基于所提供候选重新比对的比对读段与参考序列匹配来输出所选候选重新比对。
图21描绘了根据本文描述的各个方面的用于确定初始比对的合格性以经历重新比对处理的示范性过程。本合格性确定在图19(1906)中进行。图21的处理可以由一或多个计算机系统进行。所述过程通过确定在初始比对的比对读段和参考序列之间是否存在任何(例如,一或多个)错配碱基或者比对读段是否包含软切(2102)开始。若二者皆为否,则所述过程确定比对不适于重新比对(2108)。否则,存在一或多个错配碱基和/或软切,并且所述过程通过确定比对是否是二次比对(2104)来继续。在一个实例中,可以在序列比对数据集中指示比对是否是二次比对。如果鉴定出比对是二次比对,则所述过程确定比对不适于重新比对(2108)。否则,所述过程鉴定初始比对不是二次比对,并继续确定序列比对数据集的参考基因组序列的碱基区域中的比对读段周围是否存在任何候选插入缺失(2106)。因此,如果什么都不存在,则所述过程确定比对不适于重新比对(2108)。否则,所述过程确定初始比对适合于重新比对处理(2110),并且所述过程结束。
图21的实例仅示出了用于确定比对是否适合于重新比对处理的一些可能标准。相同或其它标准可以单独地使用,或者与一或多个其它标准组合使用。
本文描述的过程可以由一或多个计算机系统单独地或共同地进行。图22描绘了结合和/或使用本文描述的各个方面的此计算机系统和相关装置的一个实例。计算机系统在本文也可以被称为数据处理装置/系统或计算装置/系统/节点,或简称为计算机。图22中描绘的计算机系统2200可以被实现为个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持或膝上型装置、移动装置、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统和/或包含任何上述系统或装置的分布式云计算环境等中的一或多个。
系统2200包含一或多个处理器或处理单元2250和包含易失性存储器2254(例如,随机存取存储器,RAM)和非易失性存储器2056的存储器2252。存储器2252可以进一步包含可移动/不可移动、易失性/非易失性计算机系统存储介质。此外,存储器2252可以包含用于读取和写入不可移动的非易失性磁介质(例如,硬盘驱动器)的一或多个读取器、用于读取和写入可移动的非易失性磁盘的磁盘驱动器和/或用于读取或写入可移动的非易失性光盘(例如,CD-ROM、DVD-ROM)光盘驱动器。系统2200还可以包含各种计算机可读有形存储介质。此些介质可以是任何可用的介质,例如易失性和非易失性介质以及可移动和不可移动介质。
存储器2252可以包含至少一个程序产品,所述程序产品具有被实现为可执行指令的程序模块组(例如,至少一个),所述可执行指令在被执行时执行本文描述的功能。可执行指令2258可以包含操作系统、一或多个应用程序、其它程序模块以及程序数据或其它类型的软件。通常,程序模块可以包含进行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。程序模块可以执行本文描述的功能、过程、方法等,包含但不限于测序数据读段重新比对。
计算机系统2200的组件可以通过内部总线2260联接,所述内部总线可以被实现为若干类型的总线结构中的任何一或多种,包含存储器总线或存储器控制器、外围总线、加速图形端口、和使用各种总线架构中的任何一种的处理器或局部总线。
计算机系统2200还可以与一或多个外部装置(例如,键盘、指示装置、显示器2262等)和/或使计算机系统2200能够与一或多个其它计算机系统(例如,托管在云计算环境中的服务器或其它系统)通信的任何装置(例如,网卡,调制解调器等)通信。此通信可以经由I/O接口2264进行,所述I/O接口可以包含用于经由合适的网络适配器与一或多个网络(例如,局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,因特网))结合的网络接口。
现在描述使用计算机系统进行测序的其它方面。图23是可以与例如参考图24描述的云计算环境结合使用的测序装置2300的示意图。序列装置2300可以根据任何测序技术实现,例如结合合成测序方法或连接测序技术的那些。一些实施例可以利用纳米孔测序,其中靶核酸链或从靶核酸核酸外切去除的核苷酸通过纳米孔。当靶核酸或核苷酸通过纳米孔时,可以通过测量孔的电导的波动来鉴定每种类型的碱。其它实施例包含检测在将核苷酸掺入延伸产物中时释放的质子。例如,基于释放质子的检测的测序可以使用电检测器和相关技术。特定实施例可以利用涉及DNA聚合酶活性的实时监测的方法。可以通过携带荧光团的聚合酶和y-磷酸根标记的核苷酸之间的荧光共振能量转移(FRET)相互作用或使用零模波导来检测核苷酸掺入。其它合适的替代技术包含例如荧光原位测序(FISSEQ)和大规模并行签名测序(MPSS)。在特定实施例中,测序装置16可以是来自亿明达公司的HiSeq、MiSeq或HiScanSQ。
在描绘的实施例中,测序装置2300包含单独的样本处理装置2318和相关计算机系统2320。然而,如所指出,这些可以被实现为单个装置。此外,相关计算机2320可以是在样本处理装置2318的本地或与其联网(例如,作为云或其它远程提供)。在一些实施例中,计算机2320可以是远离测序装置2300的云计算装置。也就是说,计算机2320可以能够通过云计算环境与测序装置2300通信。在描绘的实施例中,生物样本可以作为样本载玻片2370加载到样本处理装置2318中,样本载玻片被成像以生成序列数据。例如,响应于由成像模块2372生成的激发光束,与生物样本相互作用的试剂在特定波长发荧光,从而返回用于成像的辐射。例如,荧光组分可以通过荧光标记的核酸生成,所述荧光标记的核酸与组分的互补分子杂交或与使用聚合酶掺入寡核苷酸的荧光标记的核苷酸杂交。如本领域技术人员所理解,样本染料被激发的波长和它们发荧光的波长将取决于具体染料的吸收和发射光谱。此返回的辐射可以通过引导光学器件传播回来。本返回光束通常可以指向成像模块2372的检测光学器件。
成像模块检测光学器件可以基于任何合适的技术,并且可以是例如电荷耦合器件(CCD)传感器,其基于影响装置中的位置的光子生成像素化图像数据。然而,应当理解,也可以使用各种其它检测器中的任何一种,包含但不限于被配置用于时间延迟积分(TDI)操作的检测器阵列、互补金属氧化物半导体(CMOS)检测器、雪崩光电二极管(APD)探测器、盖格模式光子计数器或任何其它合适的探测器。TDI模式检测可以与线扫描结合。其它有用的检测器例如描述于本文先前在各种核酸测序方法的上下文中提供的参考中。
成像模块2372可以受处理器控制(例如,经由处理器2374),并且样本接收装置2318还可以包含I/O控制2376、内部总线2378、非易失性存储器2380、RAM 2382、和使得存储器能够存储可执行指令的任何其它存储器结构、以及可以类似于关于图22描述的那些的其它合适的硬件组件。此外,相关计算机2320还可以包含处理器2384、I/O控制2386、通信模块2387和存储器架构,所述存储器架构包含RAM 2388和非易失性存储器2390,使得存储器架构能够存储可执行指令2392。硬件组件可以通过内部总线2394连接,内部总线也可以连接到显示器2396。在测序装置被实现为一体化装置的实施例中,可以消除某些冗余的硬件元件。
现在转向图24,以图表方式示出了生物数据的云计算环境2410。如本文使用,术语“云”或“云计算环境”可以是指通常将基于因特网的各种演进布置、基础设施、网络等。所述术语可以是指任何类型的云,包含客户端云、应用云、平台云、基础设施云、服务器云等。如本领域技术人员将理解,此些布置通常将允许测序装置的所有者或用户使用,提供软件即服务(SaaS),提供计算平台即服务(PaaS)的各个方面,提供各种网络基础设施即服务(IaaS)等。此外,本术语中应包含这些产品和服务的各种类型和业务布置,包含公共云、社区云、混合云和私有云。任何或所有这些都可以由第三方实体提供服务。然而,在某些实施例中,私有云或混合云可以允许在授权用户之间共享序列数据和服务。
云设施2412包含多个计算机系统/节点2414。节点2414的计算资源可以被合并以服务于多个消费者,其中根据消费者需求动态地分配和重新分配不同的物理和虚拟资源。资源的实例包含存储、处理、存储器、网络带宽和虚拟机。节点2414可以彼此通信以分配资源,并且此资源分配的通信和管理可以由驻留在一或多个节点2414中的云管理模块控制。节点2414可以经由任何合适的布置和协议进行通信。此外,节点2414可以包含与一或多个供应商相关联的服务器。例如,某些程序或软件平台可以经由程序所有者提供的一组节点2414访问,而其它节点2414由数据存储公司提供。某些节点2414还可以是在较高负载时间期间使用的溢出节点。
在一个实施例中,云管理模块负责负载管理和云资源。可以通过考虑各种因素(包含云计算环境中的用户访问级别和/或总负载(峰值时间与平均负载时间))来实现负载管理。也可以考虑项目类型。在一个实施例中,公共卫生紧急事件可以优先于其它类型的项目。此外,用户可以通过以较低优先级提供某些运行(保持其直到云使用率低于某个阈值)来管理成本。
云设施2412被配置成与各个用户(例如,用户计算机系统)通信以生成生物数据。此数据可以包含经由测序装置2416生成的序列数据,所述测序装置在特定实施例中可以包含测序装置2418(其包含用于接受生物样本并生成序列数据的模块)和相关计算机2420(其包含用于分析序列数据或将其传递到云设施2412的可执行指令)。应当理解,在某些实施例中,测序装置2416还可以被实现为一体化装置。测序装置2416被配置成经由合适的通信链路2424与云设施2412通信。与云设施2412的通信可以包含经由通信链路2424的经由局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,因特网)的通信。特别地,通信链路2424将序列数据2426和认证信息2428(在某些实施例中)发送到云计算环境2412。认证信息可以确认测序装置2416是云设施2412的客户端。
如上所述,云设施2412可以为具有相关装置(例如,装置2416a、2416b和2416c)的多个用户或客户端服务。此外,云设施2412还可以由其它类型的客户端访问,例如次级用户2430或第三方软件持有者。因此,云设施2412可以取决于特定客户端的访问级别而提供不同类型的服务。测序客户端可以访问存储和数据分析服务,而次级用户2430仅可以访问共享或公共序列。第三方软件持有者可以与测序客户端协商以确定适当的访问权限。例如,开源软件可以免费或基于有限许可提供,而其它类型的软件可以根据各种费用或订阅基础提供。
此外,主要用户(或次级用户)还可以通过任何适当的访问装置(例如,移动装置或包含与关于计算机2420描述的那些类似的组件的其它计算机系统)与云设施2412交互。也就是说,一旦序列数据已被传送到云设施2412,与序列数据的进一步交互和对序列数据的访问可能不一定与序列装置2416结合。此些实施例在生物样本和/或序列数据的所有者已经承揽测序(例如,对于核心实验室设施)的实施例中可能是有益的。在此些实施例中,主要用户可以是所有者,而与测序装置2416相关联的核心实验室设施最多是在序列数据已被传送到云设施2412之后的次要用户。在某些实施例中,序列数据可以通过安全参数(例如,云设施2412中的密码保护的客户端帐户或与特定机构或IP地址的关联)来访问。可以通过从云设施2412下载一或多个文件或者通过登录基于web的界面或软件程序来访问序列数据,所述基于web的界面或软件程序提供图形用户显示,其中序列数据被描绘为文本、图像和/或超链接。在此实施例中,序列数据可以以经由通信链路或网络传输的数据包的形式提供给主要用户或次级用户。
云设施2412可以执行为用户提供图形用户界面并且促进对序列数据的访问的用户交互软件(例如,经由基于web的界面或应用平台)、研究人员团体或群组、数据分析程序、可用第三方软件以及负载平衡和仪器设置的用户选择。例如,在特定实施例中,可以经由云设施2412设置测序装置2416上的测序运行的设置。因此,云设施2412和单独的测序装置2416可以能够进行双向通信。此实施例对于控制远程测序运行的参数可能特别有用。
作为实例,测序运行和各种分析的结果可以以FASTQ文件、二进制比对文件(bam)、*.bcl、*.vcf和/或*.csv文件的形式存储在文件中。输出文件可以是与序列数据查看、修改、注释、操纵、比对和重新比对软件兼容的格式。因此,本文提供的可访问序列比对数据集可以是原始数据、部分处理或处理数据和/或与特定软件程序兼容的数据文件的形式。在这方面,作为实例,计算机系统(例如,测序装置的计算机系统或与测序装置通信的计算机系统,或云设施计算机系统)可以获得bam或其它测序比对数据集,并通过例如读取其数据并进行操作以执行本文描述的各个方面来处理文件。然后,计算机系统可以输出具有测序比对数据的文件(例如,另一个bam文件)。此外,输出文件可以与其它数据共享平台或第三方软件兼容。
尽管上面描述了各个实施例,但这些仅是实例。例如,可以使用其它架构的计算环境来结合和使用一或多个实施例。
本文使用的术语仅用于描述特定实施例,并非旨在是限制性的。如本文使用,单数形式“一个/一种(a/an)”和“所述(the)”旨在也包含复数形式,除非上下文另有明确说明。将进一步理解,当在本说明书中使用时,术语“包括(comprises和/或comprising)”指定所述特征、整数、步骤、操作、元件和/或组件的存在,但不排除一或多个其它特征、整数、步骤、操作、元件、组件和/或组的存在或添加。
以下权利要求中的所有装置或步骤加功能元件的相应结构、材料、动作和等同物(如果有的话)旨在包含用于结合具体要求的其它要求元件进行功能的任何结构、材料或动作。已经出于说明和描述的目的给出了一或多个实施例的描述,但是其并不旨在穷举或受限于所公开的形式。多种修改和变型对于本领域普通技术人员来说是显而易见的。选择并描述实施例是为了最好地解释各个方面和实际应用,并使本领域普通技术人员能够理解具有适于预期的特定用途的各种修改的各个实施例。

Claims (15)

1.一种用于测序数据读段重新比对的计算机实施方法,所述方法包括:
从序列比对数据集获得读段序列与参考序列的初始比对,所述初始比对包括比对读段;
对所述初始比对进行重新比对处理,所述重新比对处理将所述读段序列与所述参考序列重新比对以产生一或多个不用于所述初始比对的候选重新比对,并且所述重新比对处理包括:
鉴定多个候选插入缺失,所述多个候选插入缺失包括以下中的一个或多个:(i)所述比对读段中的一个或多个插入缺失以及(ii)在所述比对读段近端比对的一个或多个插入缺失,如所述序列比对数据集指示;
至少基于从所述比对读段中去除由所述初始比对指示的任何插入缺失来创建扁平化比对读段;和
基于迭代地将所述多个候选插入缺失中的至少一些引入所述扁平化比对读段来确定所述读段序列与所述参考序列的所述一或多个候选重新比对,其中所述迭代引入的每次迭代是通过针对候选重新比对将所述一个或多个候选插入缺失的至少一个相应候选插入缺失引入所述扁平化比对读段来提供所述一或多个候选重新比对中的候选重新比对;和
基于一或多个选择标准来提供所述初始比对或所述一或多个候选重新比对中的所选候选重新比对。
2.根据权利要求1所述的方法,其中所述迭代引入是将所述多个候选插入缺失中的一或多个候选插入缺失的排列引入所述扁平化比对读段,以针对所述排列中的每个排列获得所述一或多个候选比对中的不同候选重新比对。
3.根据权利要求2所述的方法,其中所述重新比对处理进一步包括:
检查所述一或多个候选重新比对中的所提供候选重新比对,以确定所提供候选重新比对中的比对读段是否与所述参考序列比对并且所提供候选重新比对中的所述比对读段和所述参考序列之间不存在错配碱基;
基于确定所提供候选重新比对中的所述比对读段与所述参考序列比对并且不存在错配碱基来停止所述迭代引入;和
选择所提供候选重新比对作为所选候选重新比对,其中所述提供是基于所提供候选重新比对中的所述比对读段与所述参考序列比对来输出所选候选重新比对。
4.根据权利要求1所述的方法,其中所述重新比对处理进一步包括针对所述迭代引入对所述多个插入缺失进行优先级排序,其中所述迭代引入是基于所述优先级排序按优先级顺序引入所述多个插入缺失。
5.根据权利要求4所述的方法,其中所述优先级排序包括以下一者或多者:
使参考插入缺失数据集指示为预知插入缺失的插入缺失优先于所述参考插入缺失数据集未指示为预知插入缺失的插入缺失,
使较长长度的插入缺失优先于较短长度的插入缺失,
使所述序列比对数据集的较大数量的比对读段中所指示的插入缺失优先于所述序列比对数据集的较小数量的比对读段中所指示的插入缺失,
使所述序列比对数据集中的与所述插入缺失相对于所述参考序列的位置对应的较大比例的比对读段中所指示的插入缺失优先于所述序列比对数据集中的较小比例的比对读段中所指示的插入缺失,以及
在所述序列比对数据集中的相同数量的比对读段中所指示的不同插入缺失之间,所述优先级排序使相对于所述序列比对数据集中所指示的参考基因组序列的位置在相对于所述参考基因组序列的针对另一插入缺失指示的位置上游的插入缺失优先。
6.根据权利要求1所述的方法,其中所述选择标准至少部分地基于以下中的一或多个:错配碱基的数量、插入缺失的数量、插入缺失相对于所述序列比对数据集所指示的参考基因组序列的位置,和软切碱基的数量。
7.根据权利要求1、2、3、4或6所述的方法,其中所述选择标准对以下中的一或多个进行优先级排序:
针对所述提供,没有插入缺失且仅有一个错配碱基的比对优先于具有一或多个插入缺失的比对;
针对所述提供,错配碱基数量较小的比对优先于错配碱基数量较大的比对;
在错配碱基数量相同的不同比对之间,针对所述提供,特定类型的软切数量较小的比对优先于所述特定类型的软切数量较大的比对;和
在错配碱基数量相同的不同比对之间,针对所述提供,插入缺失数量较小的比对优先于插入缺失数量较大的比对。
8.根据权利要求1、2、3、4或6所述的方法,其中所述重新比对处理进一步包括基于所述一或多个选择标准中的第一标准来选择所述一或多个候选重新比对中的最佳候选重新比对,其中所选候选重新比对是所选最佳候选重新比对,并且其中所述提供是基于所述一或多个选择标准中的第二标准在所述初始比对和所述最佳候选重新比对之间进行选择。
9.根据权利要求1、2、3、4或6所述的方法,其进一步包括确定所得初始比对是否适合于重新比对,所述确定至少部分地基于以下中的一或多个:
鉴定所述初始比对中的所述比对读段和所述参考序列之间是否存在一或多个错配碱基;
鉴定所述比对读段是否包括软切;
鉴定所述初始比对是否并非二次比对;和
鉴定所述序列比对数据集中的参考基因组序列的碱基区域中的所述比对读段周围是否存在候选插入缺失。
10.根据权利要求1、2、3、4或6所述的方法,其进一步包括:
确定所得初始比对是否适合于重新比对,并且基于确定所得初始比对适合于重新比对来对所述初始比对或所选候选重新比对进行所述重新比对处理和所述提供;
针对所述序列比对数据集中的一或多个另外初始比对中的每个另外初始比对,重复获得和确定所得另外初始比对是否适合于重新比对;和
对所述一或多个另外初始比对中的每个另外初始比对进行处理,所述进行处理包括(i)按原样提供所述另外的初始比对,不进行所述重新比对处理,或(ii)对所述另外的初始比对或所选候选重新比对进行所述重新比对处理和所述提供。
11.一种用于测序数据读段重新比对的计算机系统,所述计算机系统包括存储器和至少一个处理器,所述计算机系统被配置成执行程序指令以执行包括以下的方法:
从序列比对数据集获得读段序列与参考序列的初始比对,所述初始比对包括比对读段;
对所述初始比对进行重新比对处理,所述重新比对处理将所述读段序列与所述参考序列重新比对以产生一或多个不用于所述初始比对的候选重新比对,并且所述重新比对处理包括:
鉴定多个候选插入缺失,所述多个候选插入缺失包括以下中的一个或多个:(i)所述比对读段中的一个或多个插入缺失以及(ii)在所述比对读段近端比对的一个或多个插入缺失,如所述序列比对数据集指示;
至少基于从所述比对读段中去除由所述初始比对指示的任何插入缺失来创建扁平化比对读段;和
基于迭代地将所述多个候选插入缺失中的至少一些引入所述扁平化比对读段来确定所述读段序列与所述参考序列的所述一或多个候选重新比对,其中所述迭代引入的每次迭代是通过针对候选重新比对将所述多个候选插入缺失的至少一个相应候选插入缺失引入所述扁平化比对读段来提供所述一或多个候选重新比对中的候选重新比对;和
基于一或多个选择标准来提供所述初始比对或所述一或多个候选重新比对中的所选候选重新比对。
12.根据权利要求11所述的计算机系统,其中所述迭代引入是将所述多个候选插入缺失中的一或多个候选插入缺失的排列引入所述扁平化比对读段,以针对所述排列中的每个排列获得所述一或多个候选比对中的不同候选重新比对。
13.根据权利要求12所述的计算机系统,其中所述重新比对处理进一步包括:
检查所述一或多个候选重新比对中的所提供候选重新比对,以确定所提供候选重新比对的比对读段是否与所述参考序列比对并且所提供候选重新比对的所述比对读段和所述参考序列之间不存在错配碱基;
基于确定所提供候选重新比对的所述比对读段与所述参考序列比对并且不存在错配碱基来停止所述迭代引入;和
选择所提供候选重新比对作为所选候选重新比对,其中所述提供是基于所提供候选重新比对的所述比对读段与所述参考序列比对来输出所选候选重新比对。
14.根据权利要求12或13所述的计算机系统,其中所述重新比对处理进一步包括针对所述迭代引入对所述多个插入缺失进行优先级排序,其中所述迭代引入是基于所述优先级排序按优先级顺序引入所述多个插入缺失。
15.根据权利要求14所述的计算机系统,其中所述优先级排序包括以下一者或多者:
使参考插入缺失数据集指示为预知插入缺失的插入缺失优先于所述参考插入缺失数据集未指示为预知插入缺失的插入缺失,
使较长长度的插入缺失优先于较短长度的插入缺失,
使所述序列比对数据集的较大数量的比对读段中所指示的插入缺失优先于所述序列比对数据集的较小数量的比对读段中所指示的插入缺失,
使所述序列比对数据集中的与所述插入缺失相对于所述参考序列的位置对应的较大比例的比对读段中所指示的插入缺失优先于所述序列比对数据集中的较小比例的比对读段中所指示的插入缺失,以及
在所述序列比对数据集中的相同数量的比对读段中所指示的不同插入缺失之间,所述优先级排序使相对于所述序列比对数据集中所指示的参考基因组序列的位置在相对于所述参考基因组序列的针对另一插入缺失指示的位置上游的插入缺失优先。
CN202311487928.2A 2016-11-16 2017-11-15 测序数据读段重新比对的方法 Pending CN117457074A (zh)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US201662422841P 2016-11-16 2016-11-16
US62/422,841 2016-11-16
US201762447103P 2017-01-17 2017-01-17
US62/447,103 2017-01-17
US201762480330P 2017-03-31 2017-03-31
US62/480,330 2017-03-31
CN201780077066.2A CN110168647B (zh) 2016-11-16 2017-11-15 测序数据读段重新比对的方法
PCT/US2017/061661 WO2018093804A1 (en) 2016-11-16 2017-11-15 Methods of sequencing data read realignment

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201780077066.2A Division CN110168647B (zh) 2016-11-16 2017-11-15 测序数据读段重新比对的方法

Publications (1)

Publication Number Publication Date
CN117457074A true CN117457074A (zh) 2024-01-26

Family

ID=60543712

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201780077066.2A Active CN110168647B (zh) 2016-11-16 2017-11-15 测序数据读段重新比对的方法
CN202311487928.2A Pending CN117457074A (zh) 2016-11-16 2017-11-15 测序数据读段重新比对的方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201780077066.2A Active CN110168647B (zh) 2016-11-16 2017-11-15 测序数据读段重新比对的方法

Country Status (10)

Country Link
US (1) US20190287647A1 (zh)
EP (2) EP3542293B1 (zh)
JP (1) JP7052955B2 (zh)
KR (1) KR102425673B1 (zh)
CN (2) CN110168647B (zh)
AU (2) AU2017361069B2 (zh)
BR (1) BR112019009830A2 (zh)
CA (1) CA3043875A1 (zh)
SG (1) SG10202104266VA (zh)
WO (1) WO2018093804A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109935275B (zh) * 2018-12-29 2021-09-07 北京安诺优达医学检验实验室有限公司 序列变异校验方法和装置、生产变异序列的方法和装置及电子设备
CN109754845B (zh) * 2018-12-29 2020-02-28 浙江安诺优达生物科技有限公司 模拟目标疾病仿真测序文库的方法及其应用
CN112825267B (zh) * 2019-11-21 2024-05-14 深圳华大基因科技服务有限公司 确定小核酸序列集合的方法及其应用
MX2021012019A (es) * 2019-12-05 2021-10-26 Illumina Inc Deteccion rapida de fusiones genicas.
CN112530522B (zh) * 2020-12-15 2022-10-28 中国科学院深圳先进技术研究院 序列纠错方法、装置、设备和存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120053845A1 (en) * 2010-04-27 2012-03-01 Jeremy Bruestle Method and system for analysis and error correction of biological sequences and inference of relationship for multiple samples
KR20190002733A (ko) * 2010-12-30 2019-01-08 파운데이션 메디신 인코포레이티드 종양 샘플의 다유전자 분석의 최적화
US20120203792A1 (en) * 2011-02-01 2012-08-09 Life Technologies Corporation Systems and methods for mapping sequence reads
JP2012235723A (ja) * 2011-05-11 2012-12-06 National Cancer Center 大規模塩基配列解析方法、プログラム及び装置
WO2014041380A1 (en) * 2012-09-11 2014-03-20 Kps Zrt. Method and computer program product for detecting mutation in a nucleotide sequence
US9916416B2 (en) * 2012-10-18 2018-03-13 Virginia Tech Intellectual Properties, Inc. System and method for genotyping using informed error profiles
KR101480897B1 (ko) * 2012-10-29 2015-01-12 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
US20140235456A1 (en) * 2012-12-17 2014-08-21 Virginia Tech Intellectual Properties, Inc. Methods and Compositions for Identifying Global Microsatellite Instability and for Characterizing Informative Microsatellite Loci
KR101482010B1 (ko) * 2013-01-23 2015-01-14 숭실대학교산학협력단 전체 유전체 서열분석을 위한 초고속 범용 검색장치 및 방법
CN103146823A (zh) * 2013-02-27 2013-06-12 西北农林科技大学 一种设计碱基替换或插入缺失的snp分子标记的方法
US10191929B2 (en) * 2013-05-29 2019-01-29 Noblis, Inc. Systems and methods for SNP analysis and genome sequencing
US9898575B2 (en) * 2013-08-21 2018-02-20 Seven Bridges Genomics Inc. Methods and systems for aligning sequences
CN104834833B (zh) * 2014-02-12 2017-12-05 深圳华大基因科技有限公司 单核苷酸多态性的检测方法及装置
CN106462670B (zh) * 2014-05-12 2020-04-10 豪夫迈·罗氏有限公司 超深度测序中的罕见变体召集
CN105989246B (zh) * 2015-01-28 2018-10-26 深圳华大智造科技有限公司 一种基于基因组组装的变异检测方法和装置
CN104794371B (zh) * 2015-04-29 2018-02-09 深圳华大生命科学研究院 检测逆转座子插入多态性的方法和装置
CN105631242B (zh) * 2015-12-25 2018-09-11 中国农业大学 一种利用全基因组测序数据鉴定转基因事件的方法

Also Published As

Publication number Publication date
US20190287647A1 (en) 2019-09-19
SG10202104266VA (en) 2021-05-28
KR102425673B1 (ko) 2022-07-26
BR112019009830A2 (pt) 2019-08-13
CN110168647B (zh) 2023-10-31
AU2017361069B2 (en) 2023-09-21
WO2018093804A1 (en) 2018-05-24
CN110168647A (zh) 2019-08-23
CA3043875A1 (en) 2018-05-24
EP3542293B1 (en) 2023-12-27
KR20190082854A (ko) 2019-07-10
AU2023266266A1 (en) 2023-12-07
EP4300501A2 (en) 2024-01-03
EP4300501A3 (en) 2024-03-27
EP3542293A1 (en) 2019-09-25
JP7052955B2 (ja) 2022-04-12
JP2020506447A (ja) 2020-02-27
AU2017361069A1 (en) 2019-06-06

Similar Documents

Publication Publication Date Title
CN110168647B (zh) 测序数据读段重新比对的方法
Giordano et al. De novo yeast genome assemblies from MinION, PacBio and MiSeq platforms
Deshpande et al. Exploring the landscape of focal amplifications in cancer using AmpliconArchitect
Eggertsson et al. GraphTyper2 enables population-scale genotyping of structural variation using pangenome graphs
Sahraeian et al. Deep convolutional neural networks for accurate somatic mutation detection
US11894135B2 (en) Cloud computing environment for biological data
Wagih et al. A resource of variant effect predictions of single nucleotide variants in model organisms
Li et al. SPRINT: ultrafast protein-protein interaction prediction of the entire human interactome
Korneliussen et al. ANGSD: analysis of next generation sequencing data
Rougemont et al. Probabilistic base calling of Solexa sequencing data
Novák et al. Graph-based clustering and characterization of repetitive sequences in next-generation sequencing data
US20140278461A1 (en) System and method for integrating a medical sequencing apparatus and laboratory system into a medical facility
Zhang et al. SVseq: an approach for detecting exact breakpoints of deletions with low-coverage sequence data
CN112768089B (zh) 用于预测药物敏感状态的方法、设备和存储介质
Song et al. A multi-sample approach increases the accuracy of transcript assembly
Xiao et al. FastClone is a probabilistic tool for deconvoluting tumor heterogeneity in bulk-sequencing samples
US20200303038A1 (en) Variant calling in single molecule sequencing using a convolutional neural network
Alachiotis et al. Scalable linkage-disequilibrium-based selective sweep detection: a performance guide
Shajii et al. Statistical binning for barcoded reads improves downstream analyses
Zhang et al. ANPELA: Significantly Enhanced Quantification Tool for Cytometry‐Based Single‐Cell Proteomics
Karaoğlanoğlu et al. VALOR2: characterization of large-scale structural variants using linked-reads
Lin et al. MapCaller–An integrated and efficient tool for short-read mapping and variant calling using high-throughput sequenced data
Li et al. SeqMapReduce: software and web service for accelerating sequence mapping
Wei et al. invMap: a sensitive mapping tool for long noisy reads with inversion structural variants
AU2022202798A1 (en) Processing sequencing data relating to amyotrophic lateral sclerosis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40100513

Country of ref document: HK