CN110692101A - 用于比对靶向的核酸测序数据的方法 - Google Patents

用于比对靶向的核酸测序数据的方法 Download PDF

Info

Publication number
CN110692101A
CN110692101A CN201980002652.XA CN201980002652A CN110692101A CN 110692101 A CN110692101 A CN 110692101A CN 201980002652 A CN201980002652 A CN 201980002652A CN 110692101 A CN110692101 A CN 110692101A
Authority
CN
China
Prior art keywords
sequence
primer
sequences
target
reference genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980002652.XA
Other languages
English (en)
Other versions
CN110692101B (zh
Inventor
G·J·比恩
J·布吕昂
R·M·凯利
C·李
D·M·埃米格-阿希乌斯
E·艾伦
Y·孙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Irumina Co Ltd
Original Assignee
Irumina Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Irumina Co Ltd filed Critical Irumina Co Ltd
Publication of CN110692101A publication Critical patent/CN110692101A/zh
Application granted granted Critical
Publication of CN110692101B publication Critical patent/CN110692101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种计算机实施的比对RNA的方法,所述方法包括:在数据存储单元上接收引物序列和基于基因模型从参考基因组可转录的转录物序列;生成从引物序列和转录物序列的组合扩增的靶序列;基于所述多个靶序列,生成修正参考基因组;将从包含RNA扩增子分子的供试样品生成的序列读段与靶序列比对;以及基于比对,生成供试样品的比对谱。本发明还提供执行前述方法的计算机系统。

Description

用于比对靶向的核酸测序数据的方法
相关申请的交叉引用
本申请要求2018年1月5日提交的美国临时专利申请号62/614,088的优先权益,所述文献的完整内容通过引用方式并入本文。
发明领域
本文公开的主题涉及比对RNA的方法和计算机系统。更具体地说,本公开涉及将来自表达的RNA的读段(reads)与修正参考基因组比对,所述修正参考基因组包含根据基因模型使用引物可从参考基因组转录的转录物。
发明背景
RNA比对包括鉴定供试样品中的RNA转录物,如细胞或细胞群体产生的RNA。标准的全基因组比对分析并不能良好地适应于处理扩增子测序数据,因为扩增子数据含有独有的引物伪影,受假阳性(脱靶)扩增影响,并且显示出质性差异,所述质性差异违背标准工具的某些假设,如缺少覆盖均匀度、多重复等。另外,常规的RNA比对方法在计算上高度低效,从而限制了可以用于执行这类方法的计算机系统种类及这类方法和系统的实用性。例如,常规的RNA比对方法需要大量的RAM,高达32吉字节,致使许多计算机系统和具有处理器的测序设备在需要的时间期限中不能够实现RNA比对或不适合执行RNA比对。
此外,将RNA与完整参考基因组比对的常规RNA比对方法包括在比对读段后鉴定与这些读段对应的靶。仅在此后,才可以定量每个靶的读段数。即,在定量供试样品中存在的每个给定靶的RNA量的应用中,根据常规方法,RNA首先与完整的参考基因组比对。因为RNA转录物可能包含在这些转录物所转录自的基因组中并不充分邻接的已装配序列,故通过该比对并不允许直接鉴定与读段对应的目标转录物。反而,根据常规的RNA比对方法,需要附加的分析来鉴定与比对的读段对应的转录物靶。此需要使作业流程复杂化,给此类方法的用户和实施这类方法的计算机系统造成额外的时间和精力要求、以及分析延迟,并对计算能力带来额外的要求,阻碍输出量。
本公开涉及克服常规RNA比对方法和用于其的计算机系统的这些和其他缺陷。
发明概述
在一个方面,本发明提供一种计算机实施的RNA比对方法,所述方法包括:在数据存储单元上接收多个引物序列和来自参考基因组的多个转录物序列,所述转录物序列基于基因模型可从参考基因组转录;使用微处理器,生成从所述多个转录物序列和所述多个引物序列的组合扩增的多个靶序列;使用微处理器,基于所述多个靶序列生成修正的参考基因组;使用微处理器,将从包含RNA扩增子分子的供试样品生成的序列读段,与修正的参考基因组比对;和基于比对,生成供试样品的比对谱(alignment profile)。
在一个实施方案中,该方法还可以包括向引物序列分配(assign)单个基因座,所述基因组与相应转录物序列的基因座(locus)对应。例如,该方法可以包括基于如下依据移出一个或多个生成的靶序列,依据是该一个或多个生成的靶序列跨越一个以上的中靶(on-target)序列。在另一个实例中,所述多个引物序列可以包括多个引物对,并且第一引物对可以包括针对第一基因座的第一引物和第二引物,并且第二引物对可以包括所述第一引物和针对第二基因座的第二引物。
在另一个实施方案中,基因模型可以包括在参考基因组中标识(identification)剪接点(splice junction)、融合点(fusion junction)或两者。例如,该方法还可以包括转映射(translation)与自剪接点和融合点导出的靶比对的序列读段。
在又一个实施方案中,所述多个靶序列可以包括中靶序列和脱靶序列。例如,该方法可以包括通过从所述多个引物序列中排除一个或多个引物序列,来减少多个脱靶序列。
在再一个实施方案中,该方法包括以计算方式比较两个或更多个样品的基因表达,其中将从第一RNA样品生成的比对读段(aligned reads)与从第二RNA样品生成的比对读段比较,其中所述比对使用所述多个靶序列执行。在另一个实施方案中,比对谱可以包括供试样品的序列读段的定位、质量评分和序列完整性中至少之一。在又一个实施方案中,该方法可以包括使用映射的靶序列(mapped target sequences)和修正的参考基因组,将来自供试样品的序列读段转映射(translation)到完整的参考基因组上。
在另一个实施方案中,生成比对谱还可以包括,将包含非比对融合点(unalignedfusion junction)的序列读段比对到参考基因组的非邻接序列上,其中所述的非比对融合点未标识在基因模型中。在又一个实施方案中,比对谱可以包括融合点并且该融合点已经标识在基因模型中。
在又一个实施方案中,提供一种计算机实施的比对RNA的方法,所述方法包括:在数据存储单元上接收多个引物序列和来自参考基因组的多个转录物序列,所述转录物序列使用基因模型可从参考基因组转录,所述基因模型包括在参考基因组中标识剪接点、融合点或两者;向引物序列分配单个基因座,所述基因座与相应转录物序列的基因座对应;使用微处理器,生成从所述多个转录物序列和所述多个引物序列的组合扩增的多个靶序列;使用微处理器,基于所述多个靶序列生成修正的参考基因组;使用微处理器,将从包含RNA扩增子分子的供试样品生成的序列读段与所述修正的参考基因组比对;生成比对谱,其中比对谱包含供试样品的序列读段的定位、质量评分和序列完整性中至少之一;和使用映射的靶序列和修正的参考基因组,将来自供试样品的序列读段转映射到完整的参考基因组上。
在另一个方面,提供一种比对RNA的计算机系统,所述计算机系统包含一个或多个微处理器、一个或多个存储多个引物序列和来自参考基因组的多个转录物序列和基因模型的存储器(memory),其中所述转录物序列可基于该基因模型从参考基因组转录;一个或多个存储指令的存储器,其中由一个或多个微处理器执行时,所述指令引起计算机系统:生成从多个引物序列和多个转录物序列的组合扩增的多个靶序列、基于该多个靶序列生成修正参考基因组、将从包含RNA扩增子分子的供试样品生成的序列读段与修正参考基因组比对、并且基于该比对来生成供试样品的比对谱。
在一个实施方案中,指令可以引起计算机系统向引物序列分配单个基因座,所述基因座与相应转录物序列的基因座对应。在一个实例中,指令可以引起计算机系统基于如下依据移出一个或多个生成的靶序列,所述依据是该一个或多个生成的靶序列跨越一个以上的中靶序列。在另一个实例中,所述多个引物序列可以包含多个引物对,并且第一引物对可以包含针对第一基因座的第一引物和第二引物,并且第二引物对可以包含所述第一引物和针对第二基因座的第二引物。
在另一个实施方案中,基因模型可以包括在参考基因组中标识剪接点(splicejunction)、融合点(fusion junction)或两者。在又一个实施方案中,所述多个靶序列可以包括中靶序列和脱靶序列。在一个实例中,指令可以引起计算机系统通过从所述多个引物序列中排除一个或多个引物序列来减少多个脱靶序列。
在又一个实施方案中,指令可以引起计算机系统比较两个或更多个样品的基因表达,其中将从第一RNA样品生成的比对读段与从第二RNA样品生成的比对读段比较。
在另一个实施方案中,生成比对谱还可以包括:将包含非比对融合点的序列读段比对到参考基因组的非邻接序列上,其中所述非比对融合点未标识在基因模型中。在又一个实施方案中,比对谱可以包括融合点并且该融合点已标识在基因模型中。
附图说明
参考附图,阅读以下详细描述,将更好地理解本公开的这些和其他特征、方面和优点,其中:
图1是对参考序列实施脱靶匹配检测的一个实例系统的框图。
图2是脱靶匹配检测的一个实例方法的流程图。
图3是验证候选匹配的一个实例系统的框图。
图4是验证候选匹配的一个实例方法的流程图。
图5是对候选字符串中的共同区域具有高速缓存的一个实例系统的框图。
图6是通过高速缓存识别候选字符串的匹配的一个实例方法的流程图。
图7是建立用于候选引物序列的高速缓存的一个实例方法的流程图。
图8是实施多级高速缓存的一个实例系统的框图。
图9是使用k-mer索引的一个实例系统的框图。
图10是实施脱靶预测器的一个实例系统的框图。
图11是对候选引物序列生成脱靶预测的一个实例方法的流程图。
图12是实施序列接近度分组(sequence proximity groupings)的一个实例系统的框图。
图13是通过序列接近度分组来识别脱靶匹配的一个实例方法的流程图。
图14是示例脱靶匹配状况的框图。
图15是将序列接近度分组用于脱靶判定的一个实例系统的框图。
图16是显示将多级高速缓存用于共同区域的框图。
图17显示通过高速缓存忽略(skipped)的候选者。
图18显示共同区域的延伸。
图19显示使用规则满足高速缓存(rule satisfaction cache)的结果。
图20显示参考基因组正链上的命中与负链上的命中之间的相关性。
图21显示,对不同序列长度,候选者数目和命中数之间的相关性。
图22显示,命中数的历史数据vs.使用计算A的预测。
图23和图24显示,进行匹配检索之前,应用匹配预测的结果。
图25是一个实例计算系统的简图,在该系统中可以实施描述的实施方案。
图26显示根据本公开的RNA比对的流程图。
图27显示,在创建修正参考基因组时,确定引物集合的引物与转录物序列的匹配以生成靶的方法的一个实例。
图28显示如何将基因座分配给引物的实例。
图29的示意图显示滤除预期的交叉基因座靶(cross-loci target)的一个实例。
图30示意性显示,可以从共有一些序列但不共有其他序列的不同RNA转录物生成的不同可扩增靶。
图31是对与自剪接点导出的靶比对的序列读段进行转映射的一个实例的示意图。
图32是融合点假阳性相对于排除标准的作图。
发明详述
下文详细讨论本文公开的主题的一些实施方案。在描述实施方案时,出于清晰目的,使用具体术语。但是,所公开的方法和计算机系统不意在限于如此选择的这些具体术语。相关领域的技术人员将认识到,在不偏离本文公开主题的情况下,可以使用其他等同组分,并且可以开发其他方法。本说明书中任何地方(包括发明背景和发明详述部分)引用的全部参考文献均通过引用的方式并入,如同每份参考文献已经单独并入那样。
鉴定(如来自细胞或细胞群体的)供试样品(无论是人体样品或来自另一种生物的样品)中存在的RNA转录物,可以包括:扩增RNA的副本(copy)、对扩增的副本测序、和相对于参考基因组(如RNA所取自的样品的细胞类型的参考基因组),比对测序的副本或读段。由细胞或细胞群体产生的全体RNA分子(可以称作该供试样品的细胞或细胞群“转录组”),可以被扩增、测序和比对,以鉴定在给定细胞(如给定组织类型的细胞或可能的患病组织(如肿瘤)的细胞)中转录的所有基因组序列,或用于比较不同个体的转录组,或用于比较不同环境因素或治疗可以对给定细胞中的转录产生的影响。这类方法涉及:将细胞或细胞群体的RNA逆转录成DNA,随后扩增逆转录的DNA以允许测序和比对从而确定转录组。
DNA扩增是增加靶核酸分子(如RNA或DNA,包括从细胞RNA(包括全部或基本上全部的细胞RNA)逆转录的DNA)的副本数目的技术。DNA扩增的实例是多重聚合酶链反应(多重PCR,multiplex PCR)。多重PCR分析涉及在单一反应中扩增多个靶核酸分子。一般,对于每个靶核酸分子的扩增,选择一对寡核苷酸引物。为了比对RNA,扩增涉及将RNA逆转转录成DNA、使用成对核苷酸来产生并扩增与存在的RNA序列对应的DNA序列,即,称作逆转录PCR的过程。如本文所用的术语PCR包括逆转录PCR。含有包含靶核酸分子的模板核酸的样品,与选定的寡核苷酸引物对,在允许引物对与样品中模板上的靶杂交的条件下接触。引物在合适条件下延伸、从模板上解离、再退火、延伸和解离,以扩增靶核酸分子的副本数目。可以根据需要表征扩增的产物,例如通过核酸测序表征。
靶核酸分子可以是包含在样品的模板核酸中的任何核酸分子,包括从细胞RNA逆转录的DNA。用于多重PCR分析的靶核酸分子可以具有70-1000个碱基对长度,如100-150、200-300、400-500、和甚至70-120个碱基对长度。选定用于多重PCR分析的引物对的成员,将与靶核酸分子的上游和下游端杂交以启动扩增。
引物是核酸分子,通常是约10-50或20-25个核苷酸长度(长度也可以更长)的DNA寡核苷酸。引物也可以具有最大长度,例如不多于25、40、50、75或100个核苷酸长度。一个特定引物的杂交特异性一般随其长度而增加。因此,例如,包含20个连续核苷酸的引物一般将比仅10个核苷酸的相应引物,以更高的特异性与靶退火。用于多重PCR分析的寡核苷酸引物的5'末端可以连接附加部分(包括附加的寡核苷酸)以用于分析已扩增的靶。例如,引物对中的引物的5'末端可以与有利于已扩增靶的测序和所得序列读段的分析的附加寡核苷酸序列(例如,接头(adapter)序列、条形码序列(barcode sequence)等)连接。
如本文中讨论,设计和选择用于多重PCR分析的引物可以包括:筛选具有候选序列的候选引物,以确定是否存在候选引物与具有参考序列(参考字符串)的模板核酸分子发生脱靶杂交事件(脱靶匹配)的可能性,其中所述脱靶杂交事件将会干扰多重PCR分析。这包括:鉴定模板核酸分子上引物可以杂交的候选杂交位置(候选匹配性位置);并且根据一个或多个验证标准(匹配验证规则),基于候选引物序列与候选匹配性位置的序列比较,确定候选杂交位置是否为验证的杂交位置(验证的匹配性位置)。就本文所述的技术而言,候选序列可以采取引物序列的形式,表示为配对的引物(例如,字符串)。出于便利目的,此内部表示方式有时简单地称作
“序列”。实际物理序列在内部由一串字符代表。参考基因组序列可以采取代表该参考基因组或引物靶向的部分参考基因组的形式。因此,参考基因组序列可以是核苷酸的序列并且可以指出指定的3’末端和5'末端。在下述技术中正链和负链可以由单一参考基因组序列代表,所述技术生成引物的反向互补物并且纳入它们作为候选字符串。与参考基因组序列匹配的引物反向互补物,指示在参考基因组负链上在匹配所示的位置处的匹配。引物反向互补物的这类匹配是有意义的,因为若它们处于阈值距离(例如,脱靶状况窗口长度)范围内,则它们可能干扰正确的PCR反应并产生脱靶状况(off-target condition)。
如果候选杂交位置因满足验证规则而被确定为验证的杂交位置,则可以进行附加分析以确定:候选引物与该验证的杂交位置的杂交,结合用于多重PCR分析的其他候选引物与模板核酸分子上的相应验证杂交位置的杂交,是否可能干扰靶核酸分子的扩增和/或扩增非靶核酸分子(形成脱靶状况)。如果第一候选引物的验证标准也适用于第二候选引物(例如,由于两个候选引物的序列的相似性),则为了效率,用于判定该第一候选引物是否满足验证标准的分析可以重复用于该第二候选引物。
可以基于两个字符是否为互补性核苷酸(例如,它们是否会结合),计算候选引物序列和参考基因组序列之间在字符水平上的匹配。因此,‘A’视为与‘T’互补并且‘C’视为与‘G’互补。如将理解的,在DNA序列包含‘T’核苷酸的情况下,RNA将包含‘U’核苷酸替代‘T’,‘A’核苷酸互补于该‘U’核苷酸。一旦将RNA逆转录成DNA并对该逆转录的DNA进行多重扩增(multiplex amplification)后,与供试样品的RNA序列相对应的DNA序列将具有‘T’核苷酸以替代‘U”核苷酸,因此,在自供试样品RNA逆转录和扩增的序列中存在‘T’核苷酸,将表示在逆转录和扩增产生该序列的RNA序列中存在‘U’核苷酸。
在通过扩增与供试样品的RNA对应的序列(即,从供试样品的转录RNA逆转录出DNA并扩增所述的逆转录物)来比对供试样品的转录组时,与参考基因组的比对在计算上具有高要求。信使RNA(mRNA)的核苷酸序列可以缺少外显子,这意味着它们是由基因组中不直接邻接的序列区段组成的,这些序列区段在基因组DNA转录后通过剪接机制而接合在一起。而且,不同的细胞类型或不同器官或组织的细胞可以以不同的方式剪接给定转录物,不同于其他细胞类型、器官或组织中该转录物的剪接方式;并且一个给定的细胞类型或组织或器官可以在不同条件下或在不同时间产生不同的剪接转录物,这就导致在这类不同细胞类型或器官或组织中存在剪接变体。不同个体的细胞或组织的转录组或患病组织的转录组也可以不同,展现出与来自其他个体或非患病组织的细胞、器官或组织中的RNA转录物不同的剪接变体。此外,RNA融合(其中,起初并非是初级RNA转录物的组成部分的、从基因组DNA的不同区域转录的RNA,变得彼此接合以形成连续RNA转录物),将进一步加剧RNA比对时的变异性和复杂性。在其他情况下,基因组DNA从一个基因座易位至另一个基因座可能导致产生作为融合物出现的RNA转录物,其中转录物的一个部分具有与基因组DNA易位到达的基因座对应的序列,而与之邻接的转录物的另一个部分具有与基因组DNA易位离开的基因座对应的序列。
转录组中存在例如剪接变体和RNA融合物,将在常规核苷酸比对方法的复杂性上,又增加一层计算复杂度。常规的RNA比对方法高度地耗费计算力,为了执行比对处理,传统上需要高达32吉字节RAM。在许多情况下,这类计算需求将导致不可能用可获得的计算机系统来执行RNA比对,或需要使用的计算机系统要么不可获得、或者要么在功率或价格上过高、或要么不能作为用于测序的其他硬件的组件而轻易的提供。如本文中公开的,通过将引物设计与修正参考基因组的生成组合(所述修正参考基因组代表可以从供试样品扩增的序列),可以实质性地降低在RNA比对上的计算要求,从而可以使用仅16吉字节或更小的RAM执行RNA(如供试样品的转录组)的比对。本文公开的此简化方法和执行该方法的计算机系统,通过降低对处理能力的需求,改进了计算机功能,并且通过消除因而不必要的步骤而进一步改进了作业流程。
为了比对RNA,如下文更充分地解释,鉴定可以从给定基因组可转录的完整一组RNA,并且使用这组鉴定的可转录序列,来简化如本文中公开的RNA比对。完整的参考基因组包括显著部分的不转录DNA、和转录但具有内含子性质并因此从RNA移除的其他部分。从参考基因组也可能不能直接鉴定剪接变体或融合RNA转录物,不过它含有决定转录的RNA序列可以在何处剪接或融合在一起的序列。理论上从参考基因组可转录的全部RNA的集合,在计算机系统中将占据远比参考基因组少得多的存储器储存空间(memory storage),从而减少访问其序列信息所需的存储需求,排除不可转录的DNA,也可以包括在参考基因组中并不直接存在的剪接变体和融合RNA。因为供试样品中存在的RNA更可能类似于可从参考基因组虚拟转录的序列部分而不是参考基因组本身,因此,如本文中公开,从参考基因组可转录的序列转录物可以作为参考序列的来源用于比对供试样品的RNA。
参考基因组的转录物序列可以由计算机参照参考基因组和基因模型构建。基因模型可以包括辨识规则的计算机处理器可执行的指令集,其中所述规则基于如下方式来规定可以从参考基因组可转录的序列,所述方式为识别参考基因组中指导具体序列转录的区域、转录终止点、已转录序列内部的外显子-内含子边界、可变剪接的排列组合、可以产生的RNA融合产物以及其他因素,所述的因素为可以决定在所有可能的转录事件发生时要纳入及排除参考基因组的哪些序列以及决定哪些转录产物变异是可能的因素。基因模型可以包括基于参考基因组的如下序列在转录物序列中纳入可转录序列的指令,其中所述序列已知可以指示转录序列的出现和顺序、以及其基于剪接、RNA融合或两者而可能不同的序列排列。基因模型还可以包括基于如下依据在修正的转录物序列中纳入可转录序列的指令,所述依据为已知由具有给定参考基因组的细胞产生的转录物。
如前所述,比对供试样品的RNA可以涉及,通过使用引物,扩增供试样品的RNA。对于在多重合成和扩增与供试样品RNA对应的DNA时使用的引物,所述引物的选择可以决定可以从样品扩增的中靶序列和脱靶序列,这些序列将用于产生读段用于比对。美国专利申请系列号15/705,079中描述了用于鉴定可以从供试样品的核苷酸序列扩增的中靶序列和脱靶序列的系统和方法,所述文献的内容完整并入本文。对于给定的一组引物序列,可以确定从参考基因组或从转录物序列可扩增的序列,其中所述转录物序列为根据基因模型自参考基因组可转录的转录物序列。在这些序列当中,可以鉴定代表中靶序列的序列(通过扩增与参考基因组的靶序列对应的序列而产生)、和代表脱靶序列的序列(通过探针在非靶序列处的杂交以及随后非靶序列的扩增而产生)。基于规则规定所扩增的靶是否满足中靶定义或脱靶定义,可修正对中靶序列和脱靶序列的鉴定,其中所述中靶序列和脱靶序列为可以通过给定的一组引物、从参考基因组的一组给定参考转录物扩增的中靶序列和脱靶序列。例如,可以设定在引物序列和参考基因组的转录物序列的区域之间可允许的错配数目上限,其中所述的区域为引物可以与之比对并在多重扩增中促进扩增的区域。或者,可以设定在引物末端(如其3’末端)核苷酸和参考基因组的转录物序列的区域之间可允许的最大错配数,其中所述的区域为引物可以与之比对并在多重扩增中促进扩增的区域。
基于这类引物与这类区域的杂交而得出的引物可以视为将在多重扩增期间导致脱靶序列生成。增加或减少最大错配数或引物末端错配数,可以分别减少或增加当在多重扩增中使用该给定引物时分类为脱靶的靶数目。若优选更少的脱靶序列或无脱靶序列,则可以使用更严格的参数来鉴定脱靶序列,并且可以在扩增中排除使用将导致脱靶序列扩增的引物。
为了鉴定和比对从供试样品的RNA生成的读段,可以从根据基因模型产生自参考基因组的转录物序列,生成修正的参考基因组。相比于将来自供试样品RNA的读段与参考基因组比对(如上文解释)、以及与包含了从参考基因组可转录的全部可能序列的虚拟转录组比对,通过预先确定可从供试样品的RNA产生的扩增产物,可以使供试样品RNA的比对在计算上高效得多。在RNA比对方法中,预期将仅有如下序列与读段对应,所述序列为在多重扩增过程中利用合适引物可以被刺激扩增的序列。如本文中公开,在RNA比对方法中,可以分析引物集合,以确定扩增产物以及可以由这些扩增产物形成的读段。
根据基因模型从参考基因组可转录的转录物序列、和引物序列,可以由数据存储单元接收。一个或多个微处理器随后可以鉴定在多重扩增过程中通过这些引物可以生成的转录物。由此鉴定的靶将充当修正参考基因组,其中与供试样品的RNA对应的读段将与所述修正参考基因组进行比对。修正参考基因组的大小将取决于用来生成它的引物的数目,并且还可以取决于用于定义脱靶序列的参数和用于在修正参考基因组中纳入或排除脱靶序列的规则的严格性。选择引物以扩增与供试样品中存在的全部RNA转录物对应的序列并不是必须的,但是扩增供试样品中的全部RNA序列也包括在本文公开的方法和系统中。在任何一种情况下,均可以首先分析意图在RNA比对中用于多重扩增过程的引物或提议的候选引物,以便根据基因模型、参照参考基因组的转录物序列,确定哪些序列预测将被这些引物扩增。
在本文的任何实例中,候选引物序列可以分解成长度为k的子字符串或子序列(k-mer),以促进找到匹配。可以对候选引物序列生成k-mer。在实践中,可以生成全部这类子字符串或子序列,但其他排列是可以的。
在本文的任何实例中,鉴定候选引物序列在参考基因组序列上的匹配性位置可以包括,将候选引物序列分解成k-mer并用这些k-mer检索k-mer索引。
引物序列或k-mer可以与来自参考基因组的转录物序列进行匹配,以确定引物是否将导致扩增靶。可以设定参数用于判定k-mer是否匹配,所述参数包括在引物和转录物序列之间匹配的连续碱基对的最小数目、跨一个引物所允许的最大错配数目、和在引物5'末端与转录物序列之间允许的最大错配数目。在使用给定的引物集合从参考基因组的转录物序列生成修正参考基因组时,还可以在规则中包括:纳入修正参考基因组中的预测靶的最大和最小长度。设定参数用于定义可以生成靶的引物,不符合该参数设定的引物可以予以排除;设定可以纳入参考基因组中的靶的定义,不符合该定义设定的靶可以予以排除。
在鉴定可以纳入修正的参考基因组中的靶的一个实例中,引物与参考基因组的转录物序列进行匹配,始于5'末端并延续至3’末端。转录物序列包含来自正链和互补性负链的序列信息,并且可以根据建立的参数来分析引物是否与每条链匹配,其中所述建立的参数为如上所述的用于将引物划分为匹配的参数。如果引物匹配于正链上的序列,则可以将该引物及其匹配位置存储在高速缓存存储器中。如果引物匹配于负链,则可以将该引物存储至高速缓存存储器中。在多重扩增期间,引物对(正向引物和反向引物,分别与参考基因组转录物序列的互补链对的一条链匹配)一起生成扩增产物。因此,在鉴定并高速缓存与负链匹配的引物后,可以将其与先前因与参考基因组转录物序列的序列匹配而高速缓存的引物比较。当确定高速缓存的引物(一者为正向和一者为反向)导致靶扩增时,可以将该靶加入修正的参考基因组。
随着沿转录物序列从5’至3’推进引物与转录物序列的匹配,以及随着其它引物的匹配被鉴定用于与上游引物匹配比较以确定可以从这些引物扩增的靶,在此过程中,可以针对每一个先前匹配,核查是否新的引物匹配可以与先前的上游匹配形成可扩增的靶。随着沿模板序列向下的推进,先前匹配的匹配序列和新匹配的匹配序列的位置将分开得更远,并且两者之间潜在可扩增的靶将更长。如果新引物匹配和先前上游引物匹配之间的可扩增靶的长度超过了为纳入修正参考基因组中的靶设定的参数,则可以在后续的可扩增靶评估中忽略该上游靶。
在满足引物匹配和靶尺寸的任何参数的情况下,一对引物将导致靶的生成以及靶在修正参考基因组中的纳入。但是,一个引物可能与参考基因组的转录物序列中的一个以上序列匹配。除非鉴定并移除这类重复,否则可能在修正参考基因组中导致靶的重复。在一个实例中,为了避免这类重复,为匹配性引物确定单一基因座。对于独特于转录物序列中某一区域的每种引物,可以向引物分配该基因座。如果在经确定导致模板扩增的引物对中至少一个引物与一个以上的转录物中的序列匹配,则可以向该引物分配如下转录物的基因座,所述转录物如果存在的话将具有与两个引物均匹配的序列。倘若存在多个转录物都具有与两个引物匹配的序列,则可以使用任意规则,将所述多个转录物之一分配为每个引物或两个引物的基因座。在一个实例中,可以将根据基因座ID按字母顺序排序的第一个转录物,分配给每个引物。当引物对中一个引物与多个转录物的序列匹配时,如果不存在单一转录物具有与该对引物的两个引物均匹配的序列,则可以使用任意规则,将所述多个转录物之一分配为所述一个引物的基因座。例如,可以向每个引物分别分配具有与其匹配的序列的第一个转录物(根据其基因座ID按字母顺序排序)。
当两个靶彼此相对接近时,也可能检测到在其内包含了这两个靶的较长靶。这类交叉基因座(cross-loci)并不会在比对中带来突出问题,因为在扩增期间从该交叉基因座可能可以形成邻近的靶,但从任一较小靶均不能形成该较大的靶,这意味着它们将具有较低的拷贝数并且因此被更少地代表。然而,通过将这类交叉基因座靶表征为脱靶序列,可以将其从修正参考基因组中滤除,或不加入修正参考基因组。为了从修正参考基因组滤除,较大靶的上游引物必须与一个预期靶中的序列匹配,并且其下游引物必须与一个不同靶匹配,并且该较大靶必须大于与其引物匹配的任一个靶。
随后可以将修正参考基因组中的序列映射(map)回参考基因组,以在修正参考基因组中纳入相应的基因组位置信息。归因于剪接和RNA融合,修正参考基因组的连续序列需要分段,以便映射到参考基因组中的位置上。当多重扩增期间由引物集合中的引物扩增时,样品中彼此不同的RNA转录物有可能生成彼此相同的扩增产物或扩增子。例如,对于互为剪接变体的两个剪接变体,当一对引物导致跨两个剪接变体均含有的毗邻外显子的序列扩增时,即使剪接变体的其它部分不同,也可以产生彼此相同的扩增子。其他引物对可以从剪接变体产生彼此不同的扩增子。例如,在一个剪接变体中在两个引物之间存在一个外显子,而该外显子在另一个剪接变体中并不存在,则使用该对引物将从这两个剪接变体生成不同的扩增子。对于多个RNA模板,如果采用在多重扩增中使用的引物集合从这些模板可扩增的靶,在基因组中对应于彼此相同的位置,则这些RNA模板被视为彼此相同。
一旦构建了修正的参考基因组,则可以将这样的引物用于供试样品中的RNA序列的多重PCR扩增,所述引物具有在构建修正参考基因组时使用的引物集合的引物的序列。可以生成与自供试样品检测到的扩增子对应的读段,随后映射回修正的参考基因组上。映射(mapping)涉及,基于任何的重叠末端,对序列进行连续比对,并且鉴定修正参考基因组中与读段对应的位置。通常,作为序列分析的一部分收集的测序数据存储于序列比对数据集中。存储序列比对数据的常用文件类型是SAM(.sam)和BAM(.bam)文件格式。序列比对软件(“比对器(Aligner)”)输出序列比对数据集文件,例如BAM文件,所述文件指出读段序列与参考基因组、或(根据本公开)与修正的参考基因组的比对情况,其中所述修正的参考基因组由来自参考基因组的转录物序列的可扩增靶组成。
比对文件可以包括基于该比对得到的供试样品比对谱。比对谱可以含有与包含在比对文件中的比对序列(aligned sequence)相关的其他信息。例如,如本文实例中公开,纳入修正参考基因组中的序列信息可以含有与修正参考基因组中序列对应的参考基因组位置的标识,在此情况下,通过将来自供试样品的读段与修正参考基因组比对,参考该比对读段所属的修正参考基因组序列中包含的参考基因组位置信息,也可以将这些读段映射到参考基因组上。在一些情况下,这可以包括转映射与自剪接点和融合点导出的靶比对的序列读段。例如,来自修正参考基因组的靶可以含有外显子-外显子边界,并且读段或读段内部的序列可以跨该边界比对上。或者,来自修正参考基因组的靶可以包含RNA融合,包括在RNA序列之间的连接点(junction),其中所述RNA序列并非源自单一转录物、而是源自从参考基因组的不同独立基因座转录的不同转录物分子。在另一个实例中,融合可以因基因组DNA易位产生,导致RNA转录物具有来自两个先前非邻接基因座的序列信息。如果修正参考基因组包含染色体基因座标识信息,则读段的比对可以包括生成比对读段(aligned read)的谱(profile),所述谱包括对参考基因组中下述染色体基因座的标识,其中所述比对读段或比对读段内部的序列从所述染色体基因座转录产生。类似地,对于不跨越外显子-外显子边界或RNA融合序列内两融合序列间边界的比对读段,也可以将该比对读段转映射回参考基因组的染色体基因座上,并且可以将这类信息纳入比对谱。
在一些实例中,样品可以含有在基因模型中得到说明的RNA融合产物。在这种情况下,因为该基因模型已经将其标识为可从参考基因组转录的,故该融合点可以存在于修正参考基因组中。当存在与这种融合点对应的序列读段时,其可以比对到修正参考基因组上,并被分类为比对的融合点。这种分类可以反映在比对谱中。
在一些实例中,样品可以含有在基因模型中不存在的RNA融合产物。在这种情况下,相应的融合点可以不存在于修正参考基因组中。与来自样品的含有该融合点的转录物对应的序列读段,可能因此不能比对到修正参考基因组上,或可能形成不完全的或不良的比对。例如,它们可能与修正参考基因组中两个非邻接或分散的基因座的每一个都仅部分地对齐,其中一个基因座与融合点5’侧上存在的序列对应,而另一个基因座与融合点3’侧上存在的序列对应。与这类融合点对应的序列读段的比对,可能是不能对齐到修正参考基因组上的。在这种实例中,该序列读段与修正参考基因组的不成功比对尝试,可以导致将其分类为非比对融合点(non-aligned fusion junction)。
如本文中公开,对于非比对融合点,仍然可以进行比对并且将其比对结果纳入生成的比对谱中。非比对融合点可以与参考基因组比对,而非与装配自参考基因组可转录的多个靶序列的修正参考基因组比对。在这种实例中,将非比对融合点与参考基因组比对,可以导致鉴定这样的基因组基因座,其与融合点的每侧均对应,即代表在融合点产生时由剪接而连接的序列或通过基因组DNA易位而连接的序列。比对与RNA转录物对应的序列读段,经常涉及将读段映射至基因组DNA的多个区域,这些区域可以是分离的,例如当从RNA转录物中移除内含子并将内含子两侧的外显子剪接在一起时,将最终导致产生带有如下5’部分和3’部分的序列读段,其中所述5’部分具有与参考基因组的一个基因组DNA部分对应的序列,而所述3’部分具有与参考基因组中不同的基因组DNA区域对应的序列。按照相似方式,可以将非比对融合点与参考基因组比对,并鉴定在产生该序列读段的转录物形成时相遇在一起的、在参考基因组中完全不同的基因座。
如上文讨论,将序列读段与参考基因组比对,可以是计算上费力和费时的计算机实施方法。这种高度计算需求的原因包括可以从样品生成并需要比对的序列读段的数目大。本文公开方法和系统的实例的益处可以是,可以减少需要与参考基因组比对的读段的数目。例如,在将序列读段与修正参考基因组进行比对并且转映射回参考基因组后,可以不必随后再进行这些序列读段与参考基因组的直接比对,如所述,它们在参考基因组中的相应位置已经得以鉴定。对于已经分类的非比对融合点,可以将它们直接与参考基因组比对。但是,在这种情况下,与这些连接点在不经首先分类为非比对融合点(即,相对于修正的参考基因组未比对上)的情况下进行的比对相比,可以实质地降低计算需求和时间需求。通过将序列读段与修正参考基因组比对并且分类非比对融合点,可以进行非比对融合点与参考基因组的比对,而无需还比对已经比对到修正参考基因组上的序列读段。通过首先将序列读段与修正参考基因组比对,可以实质地降低用于与参考基因组比对的序列读段的总数,即减少到仅非比对融合点。用于与参考基因组直接比对的序列读段的数目的这种减少,显著地减少为进行非比对融合点与参考基因组的比对而需要的计算需求和时间需求,否则所述非比对融合点将不得不连同来自样品的全套序列读段一起与参考基因组进行比对。
在一些这类实例中,对于并非是未比对到修正参考基因组上的序列读段,其可以比对到参考基因组上并且该比对可以指示该序列读段代表融合点,但是该指示可是不正确的,因为该序列读段实际上不代表融合点。这种实例可以称作融合点假阳性。在鉴定分类为非比对融合点的序列读段时,在一些实例中,不包含实际融合点的序列读段可能会被纳入待与参考基因组比对的非比对融合点当中,并且它们中的某些可能会比对到参考基因组上并且被错误地识别为融合点;而之前未比对到修正参考基因组上的其它序列读段,可以在比对到参照基因组上后被正确识别为融合点。可能有利的是,区分比对到修正参考基因组上并被准确识别为融合点的非比对融合点和融合点假阳性。
在准确识别的融合点和融合点假阳性之间实现区分的几个筛选实例,根据本公开,可以单独或组合使用。例如,可以建立最小序列读段比对长度,由此,对于在分类为非比对融合点并随后比对到参考基因组上后被识别为融合点的序列读段,除非该序列读段的比对长度低于最小序列读段比对长度,否则不将该序列读段分类为假阳性。例如,当某序列读段的比对长度不大于70时,可以将它分类为融合点假阳性。作为替代,可以使用其他最小比对长度,如50、60、80、90、100、150或200个核苷酸作为最小序列读段比对长度。
在另一个实例中,为避免被表征为融合点假阳性,可以要求序列读段具有至少最小数目的副本反映在序列读段的样品中。例如,如果某个非比对融合点被比对到参考基因组上并被识别为融合点,则可以应用如下必要条件:即,通过该必要条件,可以将该非比对融合点表征为融合点假阳性,除非其具有至少100个读段。在一些实例中,最少读段数目可以是200、或300、或500、或750或1000。也可以使用其他最小值。
再其他实例中,为了不将序列读段分类为融合点假阳性,可以要求序列读段的比对长度/局部比对长度的比值超过最小值。例如,当序列读段的一个末端可以比对到参考基因组的一个部分上,而该读段的另一个末端可以比对到参考基因组中与第一个部分并非邻接的另一个区域(例如,在不同染色体上,或在相同染色体上迥异于第一部分的区域)上时,序列读段可以表现为是融合点。但是,该序列读段也可以表现出与参考基因组的另一个区域以连续的方式(即,以不跨越非邻接区域或预示融合点的方式)至少部分地可比对。替代预示融合点的比对,后面的这种比对可以称作局部比对。预示融合点存在的比对可以具有这样的比对长度,所述比对长度是比对到参考基因组(部分比对到一个基因座并且部分比对到另一个基因座)上的其序列的长度。替代性局部比对也可以具有这样的局部比对长度,所述局部比对长度是备选地与参考基因组的连续序列可比对的其序列的长度。为了不表征为融合点(即,达到表征为假阳性的标准),可以要求作为融合点比对的序列读段的比对长度超过该序列读段的替代性局部比对长度。倘若序列读段可以具有一个以上的可能局部比对长度,则可以选择最长的局部比对长度并且用于与融合点比对长度比较。
在一些实例中,可以要求序列读段满足这些标准中的任一者或两者或全部三者,以不将其分类为融合点假阳性。一旦未比对到修正参考基因组上的融合点被比对到参考基因组上,并且一旦证实其不分类为融合点假阳性,则该融合点及在参考基因组中的相应位置可以纳入比对谱中。
附加信息也可以纳入比对谱中。例如,该谱可以包含:指示具体读段是否被错误比对的评分(称作质量评分),或序列读段完整性,或读段准确度或完整度的其他指标、插入或缺失或其他错配的推定性存在,等。
除相对于参考基因组检查任何给定样品(如本文中公开,通过与修正参考基因组比对)之外,本文所公开的方法也可以用来将不同供试样品的RNA比对结果进行彼此比较。可以从参考基因组构建修正的参考基因组,随后可以从不同供试样品包含的RNA创建序列比对。不同样品可以来自不同个体、源于个体的不同组织、或患病组织如肿瘤细胞群体和非患病组织。可以创建每个样品的比对文件,并且每个文件也可以包含比对谱。随后可以在两个或更多个样品的比对文件之间比较,以鉴定每个样品类型中存在的RNA的差异。差异性表达软件可以用来比较不同供试样品相对于共同的修正参考基因组生成的比对文件,并且分析比对文件之间的表观差异是否和何时代表样品的RNA之间的实际差异。
实施例
以下实施例意在举例说明本公开的具体实施方案,但无论如何不意在限制其范围。
在本文的任何实施例中,可以用本发明技术进行引物在多重聚合酶链反应场景下的特异性计算。因此,可以实施对多重聚合酶链反应引物设计的快速特异性核查。多重聚合酶链反应广泛用于诊断性检测和法医检测,以同时扩增多个目的DNA区域(靶)。多重PCR的成功运行包括设计合适的引物对集合。每个引物对包含从靶的上部区域和下部区域提取的正向引物和反向引物。理想地,每个设计的引物对应当仅扩增该预期靶,而不扩增任何非预期靶(脱靶)。核查潜在脱靶的过程称作特异性核查,其是引物设计中的关键步骤。
可以基于参考基因组序列的靶区,将引物序列归入簇(cluster)。例如,如果使用引物生成工具来生成在多重PCR中针对多个靶区域的引物候选物,则可以基于靶区域,将这些引物存储为关联的(例如,针对不同靶区域的引物存储在不同簇中)。基于这类簇,可以如本文所述进行共同区域确定。
因此,可以已知本文的候选引物序列与靶匹配,并且可能合乎需要的是,对于这些候选引物,存在很少的或不存在脱靶匹配。候选引物序列对可以与参考基因组上代表其靶的已知位置关联,并允许确认脱靶状况。在靶处的匹配被视为中靶。
特异性核查任务并非是容易的,因为在决定DNA或RNA区域是否可以被引物扩增时存在几个考虑因素:尤其是,靶的总体相似性和3’末端的稳定性。常见的现有方案仅报告最多数百个引物的结果。本文所述的技术可以容易地扩展至数百个至数千个引物。因此,这些技术可以通过如下方式大幅度减少特异性核查的运行时间:规则计算高速缓存、脱靶预测和序列接近度分组。
可以如本文所述的对多个候选引物序列实施脱靶检测。高速缓存可以对具有共同区域的候选引物序列重复使用规则满足计算结果。匹配预测可以用来过滤候选物,并且序列接近度分组可以用来促进鉴定脱靶匹配状况。涉及共同区域延伸的其他特征可以用于实施如本文所述的技术。
这些技术的益处包括更大的可扩展性,尤其是对于靶向某庞大参考基因组序列上多个区域的大量候选引物序列。
脱靶检测可以用于如本文所述的特异性计算。
因此,可以如本文所述增强脱靶检测的总体性能。
实施例1–实施脱靶匹配检测的实例系统
图1是实施脱靶匹配检测用于从转录物序列180生成修正参考基因组序列的实例系统100的框图。在本文的任何实例中,字符串可以采取代表一串值的字符序列的形式。尽管本文中称作“字符串”,但内部表示方式可以采取字符串、阵列或其他数据结构的形式。字符可以采取字符或代表字符的代码的形式。
在本实施例中,多个候选引物序列110作为输入项由脱靶检测工具150接收。如本文所述,这些候选引物序列110可以采取靶向转录物序列180上特定位置的引物对的形式,所述转录物序列180代表如本文所述从参考基因组可转录的转录物序列的正链和负链。因此,候选引物序列110旨在瞄准转录物序列180上的靶。在一些情况下,与同一引物对中的引物或与另一引物对中的引物联合,也可能发生脱靶匹配(例如,基因座间脱靶匹配)。在多重场景中,候选引物序列110可能靶向转录物序列180的多个位置,导致寻找脱靶匹配时更高的计算复杂度。这种较高的计算复杂度导致资源消耗更多和处理时间更长。
脱靶检测工具生成可接受序列160(例如,根据检测到的脱靶匹配,被视为可接受的输入候选引物序列(例如,引物对))。
在确定引物序列是否与转录物序列180的位置匹配时,脱靶检测工具150在内部可以应用多数个规则120。工具150还可以利用转录物序列180的k-mer索引170来辅助匹配判定。在实践中,一个匹配可以最初被视为候选匹配并随后被验证为经验证的匹配。
规则满足计算结果高速缓存125可以用来降低与多重场景相关的计算复杂度。如本文所述,高速缓存125可以利用候选引物序列110的簇中的共同区域。
脱靶相关器127可以接受经验证的匹配并确定该验证的匹配是否导致脱靶匹配状况。如本文所述,可以应用序列接近度分组来减少脱靶匹配状况鉴定时涉及的计算。
脱靶检测工具150还可以接受用于配置操作的设定值作为输入项,如用于规则120的参数等。
在本文的任何实例中,虽然一些子系统显示在单个框中,但在实践中,可以将它们作为具有一个以上设备的计算系统来执行。组件之间的边界可以变动。例如,虽然脱靶检测工具150作为单一实体显示,但它可以由跨多个位置的多个设备实施。规则120可以在多个工具150之间共享,等。
在实践中,本文显示的系统,如系统100,可以在复杂度方面变动,具有增加的或较少的功能,更多或更少的复杂组件等。例如,可以实施额外的索引、表格等,作为系统100的一部分。可以纳入额外组件以执行安全性、冗余性、负载平衡、审核等。
在实践中,可以对大数量的候选引物序列110和大参考基因组序列180进行多重场景下的脱靶匹配核查。
所描述的计算系统可以借助有线或无线网络连接进行联网。备选地,系统可以经内网接口连接(例如,在公司环境、政府环境、教育环境、研究环境等中)。
系统100和本文所述的任何其他系统可以结合本文所述的任何硬件组件,如下文描述的计算系统(例如,处理单元、存储器等)。在本文的任何实例中,输入、输出、高速缓存、索引、字符串、规则等可以存储在一个或多个计算机可读取存储介质或计算机可读取存储设备中。本文描述的技术可以对具体操作系统或硬件是一般适用的,并且可以应用于任何多种环境中以利用所述特征。
实施例2–检测脱靶匹配的实例方法
图2是实施脱靶匹配检测的实例方法200的流程图并且可以例如在诸如图1中所示的系统中实施。可以支持靶向转录物序列上多个靶的多个候选引物序列。
在实践中,可以在该方法开始之前采取措施,如使用引物生成工具等生成候选引物序列对。
在220,接收候选引物序列。候选引物序列可以采取本文所述的任何形成。
在230,对于候选引物序列,鉴定在转录物序列上的匹配。匹配判定可以包括:应用如本文所述的多个规则。例如,可以在转录物序列上(例如,借助如本文所述的匹配规则)鉴定多个候选匹配状况。从这些候选匹配性位置当中,可以识别转录物序列上的经验证的匹配性位置。这种验证可以包括确定转录物序列上哪些候选位置满足如本文所述的匹配规则。
鉴定候选匹配性位置或验证匹配性位置可以包括:如本文所述的,重复使用已经针对与候选引物序列具有共同区域的另一候选引物序列计算的规则满足计算结果。
在240,确定经验证的匹配性位置是否在转录物序列上形成脱靶匹配状况。如本文所述,一个匹配可以结合另一候选引物序列的匹配(例如,在另一、相反方向,如本文所述表示的转录物序列)加以考虑,从而找到导致脱靶匹配的候选引物序列对。
基于验证的匹配性位置是否形成脱靶匹配状况,确定候选引物序列是否可接受。例如,可以应用阈值脱靶匹配数,或可以允许无脱靶匹配。如果满足脱靶阈值,则将候选引物序列对,或与其关联的候选靶,纳入可接受的引物序列中。较多的脱靶匹配将导致较低的特异性,从而使得候选引物序列较不合乎需要。
如本文所述,可以对多个候选引物序列执行方法200(例如,对其他候选引物序列重复该方法)。在实践中,可以应用平行和/或并行计算。
本文所述的方法200和任何其他方法可以由计算机可执行指令执行(例如,引起计算系统执行该方法),所述指令储存在一个或多个计算机可读取介质(例如,存储装置(storage)或其他有形介质)中或储存在一个或多个计算机可读取存储设备中。可以在软件、固件、硬件或其组合中执行这类方法。这类方法可以至少部分地由计算系统(例如,一个或多个计算设备)实施。
在本文所述的任何技术中,可以从替代性视角描述所示措施,同时仍实施这些技术。例如,在220,该方法描述接收候选引物序列。但是,从一个不同视角,也可以将这个动作描述为“发送候选引物序列”。
实施例3–实例脱靶匹配检测
在本文的任何实例中,脱靶匹配可以采取一对候选引物序列(例如,来自原始引物对或两个不同引物对)的形式,其在如本文所述的邻近位置处匹配。在实践中,邻近位置可以是在如本文所述的两个不同(例如,一个原始,一个与原始反向互补)转录物序列上;通过取候选引物序列的反向互补序列并将其纳入候选引物序列中,可以用单个转录物序列来实施计算。如本文所述,检测这种脱靶匹配可以用来确定候选引物序列是否可接受或不可接受。超过脱靶匹配状况阈值的候选引物序列(及其引物对)可以视为不可接受。
实施例4–实例k-mer
在本文的任何实例中,候选引物序列可以分解成长度为k的子字符串或子序列(k-mer),以促进找到匹配。可以对候选引物序列生成k-mer。在实践中,可以生成全部这类子字符串或子序列,但其他排列也是可以的。
在本文的任何实例中,鉴定候选引物序列在转录物序列上的匹配性位置可以包括,将候选引物序列分解成k-mer并用该k-mer检索k-mer索引。
实施例5–实例匹配
在本文的任何实例中,当规则满足时,认为一个序列与特定位置的转录物序列匹配。实例匹配规则可以包括以下规则:
规则1.存在至少k个连续的匹配性字符(例如,在字符水平的匹配)。
规则2.总计存在不多于e*l个字符错配,其中l是候选引物序列的长度,并且e是参数(例如,百分数、分数等)。
规则3.在候选引物序列的一端存在不多于m个字符错配。
可以基于如本文所述的字符间互补性匹配,确定匹配性字符和错配性字符。在匹配处理期间,一个匹配可以被处理为候选匹配,直至经验证满足三个规则为止,此时该匹配可以成为经验证的匹配。
在本文的任何实例中,可以将上述三个匹配规则整合以确定匹配。可以指定一个或多个规则为初始规则,而指定一个或多个其他规则为匹配验证规则。例如,可以指定关于连续匹配的规则#1为初始规则,并且可以通过其他规则验证满足该初始规则的候选匹配。可以实施其他规则排列。
在本文的任何实例中,匹配可以采取在转录物序列上该匹配出现的位置的形式(例如,指示距转录物序列起点i个字符的整数、指向该位置的指针等)。该匹配还可以采取指明所涉及的候选引物序列(和引物对的标识符或该引物对中另一个候选引物序列的标识符)的形式。在具有多个转录物序列或其表示的情形下,该匹配还可以指明该匹配出现在哪个转录物序列上。
经验证的匹配可以采取匹配的形式并且还包括该匹配已经被验证的指明。验证可以被暗示(例如,因为该匹配出现在已验证匹配的列表中)。
实施例6–实例候选匹配验证
在本文的任何实例中,鉴定转录物序列上的匹配可以采取验证候选匹配的形式。图3是验证候选引物序列310的候选匹配的实例系统300的框图,可以用于本文的任何实例中。通过将用于判定匹配的计算结果分开,一些计算结果可以重复用于具有共同区域的候选引物序列。例如,可以安全地忽略某些候选匹配325。这种排布方式可以用来实施图1中所示的系统。
在本实施例中,脱靶检测工具350利用匹配搜索器340,后者应用匹配规则320确定验证的匹配360。
在实践中,转录物序列380的k-mer索引370可以用来鉴定候选匹配325(例如,可以针对候选引物序列的分解的k-mer,检索转录物序列的k-mer索引,并且命中表示候选匹配)。一些匹配328A、328B被验证为经验证的匹配360,而其他匹配被从考虑中丢弃掉。
实施例7–验证候选匹配的实例方法
图4是验证候选匹配的实例方法400的流程图,并且可以例如在诸如图3中所示的系统中实施。
在430,可以鉴定候选匹配(例如,转录物序列上的位置)(例如,使用k-mer索引检索候选引物序列的k-mer的出现,以查明是否满足或部分地满足初始匹配规则,如本文所述的规则#1)。随后在440借助匹配验证规则验证候选匹配。例如,可以考虑候选引物序列的其它部分或其他规则。
可以对多个候选匹配执行方法400(例如,可以对其他候选匹配重复实施该方法)。
实施例8–用于共同区域的规则计算结果高速缓存实例
图5是具有用于候选引物序列中共同区域的规则满足计算结果高速缓存的实例系统500的框图,其可以在本文所述任何实例中使用。在本实施例中,簇510A、510B或候选引物序列520A-F与共同区域530A-B相关,后者又与转录物序列580上的位置相关。
共同区域530A-B是候选引物序列的区域(例如,子字符串,子序列,等),所述区域在这些候选引物序列之间共有(例如,这些候选物含有相同的子字符串、子序列等)。
规则满足计算结果高速缓存540依据不同的共同区域来组织,并且存储规则满足计算结果532A-B,其分别用于与输入的候选引物序列520A-F的不同簇510A-B分别相关的共同区域530A-B。如本文所述,对于这些候选引物序列,可以安全地忽略某些候选匹配538A、538B,因为先前的计算已经确定匹配规则未被满足(例如,规则#2未满足,原因存在太多错配)。
实施例9–实例规则满足计算结果高速缓存
在本文的任何实例中,可以在规则满足计算结果高速缓存(例如,匹配规则满足计算结果高速缓存)中,高速缓存用于确定规则是否满足的计算结果,供多个候选引物序列使用。如本文所述,可以确定候选引物序列之间的共同区域。
基于规则的逻辑,可以重复使用与规则满足相关的某些计算结果。例如,如果已知某共同区域具有至少k个连续匹配,则含有该区域的任何候选引物序列都将满足规则#1(例如,它仅可以具有k个或更多个连续匹配)。因此,该区域满足规则#1的该判定结果可以再用于具有该共同区域的候选引物序列。类似地,如果已知某共同区域具有多于e*l个错配,则长度为l的任何候选引物序列都将不满足规则#2(例如,它可以具有不少于e*l个错配)。因此,该区域不满足规则#2的该判定结果将可以再用于具有该共同区域的候选引物序列。
高速缓存的规则满足计算结果可以包括存储的位置,所述位置是所述计算结果所应用的位置(例如,参考基因组序列上涉及该高速缓存计算结果的位置,如匹配出现的位置、错配出现的位置,等)。
多级高速缓存可以存储用于不同序列条件或不同序列长度(例如,l、l+1、l+3等)的规则满足计算结果。
在实践中,随后可以将非共同区域并入该判定结果中。例如,如果高速缓存显示在共同区域中存在m个错配,则可以将其他错配加入m以确定总体的候选引物序列错配并且计算该总体错配是否符合规则#2。
因此,可以高速缓存总的规则满足计算结果(例如,某规则的条件是否满足)或部分的规则满足计算结果(例如,某规则的条件是否满足的部分计算结果)。
实施例10–借助高速缓存鉴定匹配的实例方法
图6是借助高速缓存鉴定候选引物序列的匹配的实例方法600的流程图,并且可以例如在诸如图5中所示的系统中实施。在实践中,一般通过匹配搜索器或脱靶验证工具的其他部分执行这种方法,并且其可以作为图4中所示方法的一部分实施。
可以在开始匹配处理时接收候选引物序列。
在630,鉴定候选引物序列的共同区域。当建立高速缓存时,可以存储候选引物序列和共同区域之间的相关性。
在640,该共同区域的规则满足计算结果被重复用于候选匹配。换句话说,可以咨询(consult)高速缓存而非重新进行规则满足的计算。例如,可以使用该计算结果,安全地忽略候选匹配(例如,候选引物序列不可能匹配转录物序列上的位置)。或,该计算结果可以用来确认候选引物序列符合规则条件。
可以对多个候选引物序列进行方法600。因此,可以对其他候选引物序列重复实施该方法。
实施例11–借助规则满足计算结果高速缓存鉴定匹配的实例方法
图7是建立高速缓存用于候选引物序列的实例方法700的流程图,并且可以例如在使用高速缓存的任何系统(如图5中所示的系统)中实施。可以在匹配处理之前或与之一起(例如,如图4中所示),进行高速缓存的创建。
在730,接收分组到簇中的候选引物序列。在实践中,可能已知一个候选引物序列集合与一个共同来源相关,并因此可以将其分为一个簇。或,可以通过寻找序列之间可能的共同区域,进行分簇。
在740,识别簇的共同区域。进入的簇(incoming cluster)可以已经具有共同区域或可能的共同区域的一些初始表现,或可以比对候选引物序列以确定共同区域。该初始共同区域可以在延伸之前称作“种子”。
在本文的任何实例中,如在750所示,共同区域可以被延伸。可以权衡由延伸共同区域带来的计算资源增长与计算资源减少。在确定是否延伸共同区域时,可以考虑延伸共同区域的优点和缺点。例如,可以计算用于延伸该区域的计算资源增长(例如,用于创建该高速缓存所消耗的资源),可以计算用于延伸该共同区域的计算资源减少(例如,在高速缓存下检索所节省的资源),并且可以计算不延伸该区域的计算资源增长(例如,无高速缓存下检索所消耗的资源)。确定是否延伸共同区域可以通过权衡计算资源增长与计算资源减少来决定。例如,延伸共同区域可以仅达到簇中候选引物序列的一个子集。
在760,如本文所述,存储共同区域的规则满足计算结果。这种计算结果可以在高速缓存中与共同区域关联,以便随后在处理具有共同区域的候选引物序列时使用。类似地,可以存储共同区域和含有共同区域的候选引物序列之间的关联性。
方法700可以对多个簇执行。例如,可以对其他簇重复该方法。
在本文的任何实例中,可以鉴定一个候选引物序列和另一个候选引物序列之间的共同区域。可以对共同区域执行规则满足计算,并且规则满足计算结果可以存储在高速缓存中。基于该高速缓存,可以(例如,对于候选引物序列)忽略该计算。如本文所述的,该高速缓存可以支持多级(例如,用于相应的不同长度的候选引物序列)。
实施例12–实施多级高速缓存的实例系统
图8是实施多级高速缓存810的实例系统800的框图,并且可以在使用高速缓存的本文任何实例中实施。
在本实施例中,规则满足计算结果高速缓存810依据共同区域830A组织,并且包括在高速缓存810的不同层级存储的分开的规则满足计算结果832AA和832AB。
例如,可以存储对不同规则的计算结果或对规则的不同参数(例如,不同候选引物序列长度)的计算结果。
可以将共同区域和转录物序列880的各种候选匹配,与该高速缓存关联。某些候选匹配838A、838B可以被指示为不符合规则,并且因此当处理含有该共同区域的其他候选引物序列时可以被安全地忽略。通过不同长度的候选引物序列,可以将计算结果的再应用局限于那些适宜规则的候选引物序列(例如,以上规则#2并入长度元素)。
实施例13–实施k-mer索引的实例系统
图9是实施k-mer索引950的实例系统900的框图。该实施例显示一个基础实施方案。在实践中,任何数目的变化都是可以的。任何种类的k-mer索引方案都可以用于这些技术。
在本实施例中,索引950包含k-mer密码(key)952A-N和在转录物序列980中k-mer出现的相应位置954A-N。这些位置可以采取列表形式(例如,指明在转录物序列980中位置的整数、指针等)。
实施例14–实例脱靶预测器
在核查引物特异性的实施中,可以根据引物是否将扩增基因组的非预期区域,进行脱靶判定。图14是实例脱靶匹配状况的框图。
当扩增非预期区域时,存在引物的脱靶匹配状况。引物对可以包含正向引物和反向引物。当引物对在非预期位置结合时,可以产生非预期扩增。因此,在自RNA或参考基因组可转录序列得到的扩增子的一条链的一个位置处检测到一个引物的匹配,并且在该扩增子或相应转录物序列的另一条链的邻近位置处检测到另一个引物的匹配时,将指示脱靶匹配状况。当引物来自另一引物对时,脱靶匹配状况仍可以产生并且称作“基因座间脱靶”条件。采用多重PCR引物设计,将同时设计针对几个靶的引物集合,这使得引物选择更复杂的和更有挑战性。
一种检测脱靶的方法可以接收在转录物序列上归集的匹配(collected match)(例如,符合规则条件的引物的匹配性位置)并且核查是否存在彼此在转录物序列上相距在阈值距离(例如,脱靶条件窗口长度)范围内的匹配。此方法可以执行以下的确定:当结合至少一个其他候选引物序列的至少一个其他匹配考虑时,经验证的匹配性位置是否在转录物序列上形成脱靶匹配状况。如所述,可以纳入引物的反向互补物以解释负链。将不在转录物序列上所需靶位置的这类归集的匹配视为脱靶匹配。一种检测脱靶状况的方法可以简单地将每个匹配位置与其他匹配位置(例如,每一个其他匹配位置)比较以观察它们是否在阈值距离范围内,从而产生n2阶次(order)计算。一旦在阈值距离范围内检测到两个匹配位置,可以进一步处理(例如,以确认这些匹配在转录物序列的不同链上)以确认脱靶状况。匹配的链可以作为其表示方式的一部分存储(例如,如果关联的候选引物是反向互补物,则指示它是负链上的匹配;否则,它是正链上的匹配)。在预期靶处的匹配集合不指示为脱靶状况。
在本文的任何实例中,如本文所述的,脱靶状况窗口长度可以等于或基本上类似于PCR反应中靶核酸分子的最大预期长度(例如,一般25-1000个碱基对长度,200-1000、500-1000、200-800或300-700个碱基对长度)。本文所述的实施例中,值1000用于脱靶状况窗口长度。脱靶是基于其长度的评分。
图10是实施脱靶预测器的实例系统1000的框图,并且可以在本文的任何实例中用于候选引物序列。这种预测器可以配合具有或没有高速缓存的实施方案使用。在检索匹配之前,可以预测多个匹配。匹配的大数量可以与脱靶匹配相关。由此,如果预测的匹配数符合阈值,则可以弃去候选引物序列(例如,忽略),因而减少计算数并增加性能。
一个预测器采取以下计算A的形式,其中使用训练的参数a、b、c和d:
y=e(a*log x+b*l+c*floor[l*e]+d)
其中:
y:命中数(+或-链,它们高度相关)
x:对于候选引物序列由k-mer索引返回的候选者命中(匹配)的数目
l:候选引物序列的长度
e:允许的错配分数(来自规则#2)或允许的错配率或允许的错误率。
可以从历史数据计算参数a、b、c和d。线性回归可以用来将y命中和x命中的观测数据集拟合到计算A预测模型。如果随后给予额外值x但不伴随值y,则可以应用参数a、b、c和d,并且可以用该拟合的模型来预测值y。
在本实施例中,脱靶预测器1050收到候选引物序列1010作为输入并且将参数a、b、c和d应用于预测引擎1060(上文显示的计算),以生成转录物序列上匹配的预测数。l和x可以从候选引物序列1010导出。如果匹配符合(或超过)阈值,则可以从考虑中弃去该候选引物序列(例如,无需对该候选引物序列或其配对的序列实施匹配处理)。因此,脱靶检测工具可以存储该阈值并如所述应用该阈值。
在本文的任何实例中,脱靶预测技术可以用作前置过滤器,以弃去具有超过命中数阈值的那些候选引物。在一个涉及人类基因组的实施方案中,使用阈值(例如,脱靶状况窗口长度)1,000,但也可以使用800-1200范围内其他值(例如,900、1100等)。涉及根据基因模型从人类基因组可转录的转录物的其他实施方案也可以使用,包括1000、或800-1,200、或900或1,100的相应阈值、或其他更高或更低或居间的阈值。如本文所述,对候选引物生成预测,并且如果预测的命中数符合阈值,则从考虑中弃去候选引物(例如,不必对该候选引物序列考虑高速缓存)。
图23描述一个框图,其显示在检索匹配之前,使用人类基因组,连同这些参数,借助上文所述计算A应用匹配预测的结果。在本实施例中,设定1000的匹配阈值。如果对特定候选引物序列的预测符合该阈值,则从考虑中弃去它。导致了运行时间改善和存储器(memory)利用率大幅度减少。脱靶核查时间从1小时减少至10分钟。直接的方法导致5.5秒/引物;该高速缓存的方法导致0.38秒/引物;该预测/过滤方法导致0.29秒/引物。通过过滤14%的序列,过滤掉56.4%的匹配(命中)。滤除具有太多命中的序列可以减少存储器利用。
如图24中所示,超过93%过滤的序列具有超过800个实际观测命中。因此,基于计算A生成的预测进行过滤,可以视为有效。
还可以使用其他阈值约250、约500、约1000、约1500或约2000。
因此,可以通过移除据预测具有许多命中(例如,并且因此可能导致脱靶匹配状况)的引物序列,实现一些候选引物序列的过滤。图10和图11的实施方案可以实施这种方法。因此,在本文的任何实例中,可以通过移除据预测具有阈值命中(匹配)数的那些引物,预过滤引物。可以基于实际匹配的观察结果(例如,其基于引物的长度而变动)来训练计算结果,生成这种预测。可以使用任何数目的计算生成预测。以下计算A可以作为一个实例配合如本文所述的参数使用:
y=e(a*logx+b*l+c*floor[l*e]+d)
可以实施以下任何实施方案。例如,可以在任何多重PCR场景下使用图10和图11的匹配预测技术(独立于高速缓存技术和序列接近度分组技术),预过滤候选引物。因此,对于被考虑作为引物纳入多重PCR反应中的候选引物序列,可以接收该序列,可以针对该候选引物序列生成转录物序列上匹配数的预测,并且响应于预测匹配数超过阈值的判定,可以从考虑中弃去(例如,滤除)该候选引物序列。计算和阈值可以采取本文所述的形式。
借助序列接近度分组的脱靶检测可以在任何多重PCR引物特异性评估场景下应用,独立于高速缓存技术和匹配预测技术。因此,对于多个候选引物的多个已验证匹配,可以将该验证的匹配放入如本文所述的序列接近度分组中。这些匹配可以借助除本文所述的高速缓存技术之外的技术来验证(例如,在无本文所述高速缓存下,应用匹配规则)。随后可以核查该接近度分组,以识别脱靶匹配状况。
实施例15–脱靶预测的实例方法
图11是生成候选引物序列的脱靶预测的实例方法1100的流程图,并且可以例如在诸如图10中所示的系统中实施。这种方法可以配合利用或不利用高速缓存的实施方案使用。
在1130,接收候选引物序列。
在1140,通过应用诸参数至预测引擎,生成转录物序列上匹配数的预测。
在1150,响应于预测匹配数超过阈值的判定,从考虑中弃去候选引物序列(例如,不进行实际匹配的确定)。
在实践中,可以对多个候选引物序列执行方法1100(例如,对其他候选引物序列反复进行)。
实施例16–实施接近度分组的实例系统
图12是实施字符串或序列接近度分组的实例系统1200的框图,并且可以在本文的任何实例中用于中识别脱靶匹配状况。脱靶相关器1250可以并入脱靶检测工具中(例如,作为图1的工具150中的相关器127)。序列接近度分组可以用于没有高速缓存的系统中。
相关器1250收到验证的匹配1210和预期的靶1220。在实践中,该系统可以处理大量候选引物序列的已验证匹配1210,其中所述经验证的匹配可以借助本文所述的任何技术来确定。预期靶1220表示意图用于候选引物序列的靶,其中候选引物序列可以如本文所述成对地组织。
相关器1250可以创建序列接近度分组1260,后者辅助判定候选引物序列的已验证匹配是否为脱靶匹配。如本文所述,可以对两个转录物序列进行处理,参照该两个转录物序列进行此判定;两个序列可以如本文所述由单一序列表示。
基于序列接近度分组1260,相关器1250可以输出脱靶判定结果1280。此判定结果可以表明,特定候选引物序列产生脱靶匹配。可以包括其他信息,如脱靶匹配在转录物序列上出现的位置,它是否为基因座间脱靶匹配等。
实施例17–借助接近度分组识别脱靶匹配状况的实例方法
图13是借助序列接近度分组来识别脱靶匹配的实例方法1300的流程图,并且可以例如在诸如图12中所示的系统中(例如,由脱靶相关器)实施。序列接近度分组可以用于使用或不使用高速缓存的方法中。
在1330,接收多个候选引物序列的多个已验证匹配。如本文所述,验证的匹配可以包括该匹配在转录物序列上出现位置的指示。
在1340,根据这些匹配在基因组序列上何处出现,将匹配放入或分簇入序列接近度分组中。分组可以基于脱靶状况窗口长度进行。
在1350,可以核查序列接近度分组以鉴定如本文所述的脱靶匹配状况。
实施例18–实例序列接近度分组
在本文的任何实例中,可以将转录物序列划分成位置范围。范围的大小可以基于脱靶状况窗口长度。因此,第一组覆盖位置1至窗口_长度,第二组覆盖位置窗口_长度+1至窗口_长度*2等。组g的范围因而是1+(窗口_长度*(g-1))至(窗口_长度*g)。
该组含有在该组范围内的位置上出现的已验证匹配的列表。脱靶匹配对的核查可以被简化,因为仅需要在如下匹配对之间进行核查,其中所述的匹配对出现在转录物序列的邻近位置(例如,邻近组)中。以这种方式,可以识别彼此相距在脱靶状况窗口长度内的匹配,并对其进行处理以检测脱靶状况。
实施例19–实施实例:引物对的特异性计算
如本文所述,可以应用k-mer索引,并且中间结果可以高速缓存在规则满足计算结果高速缓存中,以减少运行时间,同时不损失准确度。
特异性核查任务可以借助两个阶段推进:检索引物命中(匹配),并且核查两个引物的匹配是否产生脱靶匹配状况。设长度l的引物p和基因组区域r,当引物满足以下三个条件(匹配规则)时,r是引物的命中:1.存在至少k个连续匹配2.不能存在总计超过e*l个错配和3.引物的3’末端上不能存在超过m个错配。这些条件可以作为如本文所述的匹配规则实施。(在本实施例中,可以理解,来自RNA或根据基因模型从参考基因组可转录的转录物的DNA扩增子中的T将对应于RNA分子中的U。)
Figure BDA0002295863810000361
例如,当以下情况时,转录物区域r可以是命中:1.在引物核苷酸序列和转录物区域r的核苷酸序列之间存在至少6-10个(如至少6-8个)连续匹配,例如,至少6、7、8、9或10个连续匹配;2.在引物核苷酸序列和转录物区域r的核苷酸序列之间不多于20%(如不多于15%或不多于10%)的引物核苷酸错配;和3.在来自引物3’末端的20%引物(依据核苷酸)上,引物核苷酸序列和转录物区域r的核苷酸序列之间存在(例如,连续存在)不多于5个错配(如不多于4个、不多于3个、或不多于2个错配,或不多于1个错配)。在一些实施方案中,引物的3’末端可以定义为5个碱基对长度。在其他实施方案中,引物的3’末端可以定义为1-5个碱基对长度。例如,取决于聚合酶而非引物的长度,该截断值可以是在最后的5个碱基配对中不多于3个错配或在最后的三个碱基配对中不多于2个错配。一般,3’末端错配可以阻止扩增(聚合酶或许不能够从错配延伸)。但是,高保真聚合酶一般可以回切掉错配碱基并且再合成,由此纠正错误,但也增加了脱靶扩增的几率。
因此,这些技术允许规定引物和靶之间的总错配数,其可以表示为引物长度的百分数。可以定义3’处的定制区域(custom region),并且可以指定在该区域内在引物和靶之间允许的错配数。可以确定多个先前存在的引物的特异性。这些技术可以扩展至数百个至数千个引物。
转录物链上的匹配可以视为候选匹配,直至验证三个规则均被满足。
实施例20–实施实例:脱靶判定
图15是将序列接近度分组用于脱靶判定的实例系统1500的框图,并且可以用于图12或13中所示的排布方案中。在本实施例中,转录物序列的靶序列链1580由根据脱靶状况窗口长度1525A划分成多个范围的转录物序列集合来代表。因为也纳入引物的反向互补物作为候选引物序列,故负链由转录物序列1580代表。由此,可以鉴定在PCR过程期间将会造成非期望扩增或干扰靶位置扩增的脱靶位置。以这种方式,实施如本文所述的序列接近度分组。在一个备选实施方案中,两个不同序列(彼此反向并互补)可以用来代表不同链。
根据验证的匹配在链上出现的位置,将针对链1580的经验证的匹配放入列表1520A-N中。例如,可以对引物序列和引物序列的反向互补物,执行图2的方法,对两条链产生验证的匹配。随后可以使用这些列表识别脱靶匹配。
可以通过核查相同组内部和邻近组中的匹配1530,实现脱靶匹配状况核查。因为核查可以对各组逐一推进,在实践中,一个组可以仅相对于下一个组进行核查(例如,当处理列表1520B时,不需要相对于列表1520A进行核查,因为这在处理1520A时已经进行过)。例如,可以将列表1520A中的匹配相对于列表1520B中的匹配进行核查以观察是否存在脱靶匹配状况(例如,存在两个引物命中,其彼此在脱靶状况窗口长度的范围内且不是所需的靶),随后可以将1520B中的匹配相对于1520C进行核查,以此类推。若存在脱靶匹配状况,则处于脱靶匹配状况中的引物可以备注为参与脱靶匹配状况。引物对也可以如此备注。
1520A-N列表因此可以发挥作用,作为匹配的索引,以大幅度提高脱靶检测处理速度。
由此可以基于每个引物或每个引物对检测到的脱靶匹配状况数,计算特异性。特异性可以采取计数的脱靶匹配数形式。一些应用可以要求将单脱靶匹配视为不可接受。但是,根据应用,可以使用更复杂的统计技术,因为或许并不总是可能找到满足此严格条件的候选引物。
可以实现脱靶预测,其中候选字符串采取候选引物序列的形式。当该预测符合如本文所述的阈值时,可以从进一步考虑中预先过滤这些候选引物序列。对于这些预先过滤的序列,无需执行高速缓存计算和脱靶考虑计算。反而,可以忽略这类计算。
实施例21–实例其他描述
图16是显示共同区域的高速缓存的框图。在本实施例中,找到引物簇的种子序列。延伸种子序列至共同区域。多级高速缓存存储具有k个连续匹配的共同区域的计算结果。因此,该共同区域可以被视为满足规则#1,而无需对其他引物进行再计算。
多级高速缓存存储总计具有最多e*l个错配的共同区域的计算结果。因此,这类共同区域可以被视为未满足规则#2,而无需对长度为l的其他引物进行再计算。另一级高速缓存存储总计具有最多e*(l+1)个错配的共同区域的计算结果。因此,这类共同区域可以被视为未满足规则#2,而无需对长度为l+1的其他引物进行再计算。
图17是显示借助高速缓存已忽略(skipped)候选者的框图。在本实施例中,待检索空间包括那些具有被判定为满足规则#1和#2的共同区域的引物序列。可以安全地忽略不满足规则#2的那些引物序列。可以针对共同区域外部的引物序列的区域,核查新的k-mer列表。
图18是一个框图,其显示用于延伸已分簇的引物序列1840的共同区域的排布方案1800。该图下半部分的线1820反映在引物的特定位置具有相同核苷酸的引物的数目(例如,当依据重叠区域比对引物时)。在本实施例中,考虑起初发现的共同区域1825(例如,有时称作“种子序列”)的延伸。当确定计算是否将增加或减少时,可以如本文所述考虑在一个位置共有相同值的引物序列的数目1820。在一些情况下,延伸共同区域1825将产生逻辑上分离的共同区域,其中一些所述共同区域为不同引物1840共有。
实施例22–实例实施结果:高速缓存
实施高速缓存允许用该高速缓存检索一些序列。可以借助高速缓存验证或忽略一些候选者,从而导致判定时间提速10倍。
一种直接方法不使用高速缓存、过滤或序列接近度分组。取而代之,该方案单纯地将引物分解成k-mer,针对位置列表检索k-mer索引,取全部列表的联合、并且随后验证候选者以获得最终结果。这种方法可以已经用位运算优化。该方法平均每个引物序列耗时5.5秒,这对115,116个引物序列(具有687个靶)产生175小时运行时间。
图19是显示用规则满足高速缓存的结果的框图。在本实施中(作为一个实例,使用人类参考基因组序列,但可以同等地使用从人类参考基因组序列可转录的转录物序列),可以用高速缓存检索96.9%的序列,其中32.5%是验证的候选者,并且67.5%是忽略的候选者。所得的完成该判定的时间是每个引物0.38秒,相对于直接方法(例如,无高速缓存)的每个引物5.5秒,导致提速10倍。
实施例23–实例实施结果:脱靶预测
图20是显示参考人类基因组序列的正链和负链上命中之间相关性的框图。如所示,例如在人类基因组上,引物的正链上命中数和负链上命中数通常可以高度相关。因此,对一条链的预测可以用于两条链,而无负面后果。因此,如本文中显示的预测器可以对单条链生成单一预测并且用来过滤候选引物序列,而无过滤过度或过滤不足。如果使用根据基因模型从参考人类基因组可转录的转录物,则相当的分析将适用。
图21是,针对不同序列长度,显示候选者数和命中数之间相关性的框图。如所示,跨不同序列长度,存在相关性。在引物的序列长度和参考人类基因组序列上实际命中数之间观察到的相关性现象(例如,对于多种序列长度),可以作为基础用于构建如本文所述的基于序列长度的预测器。当使用根据基因模型从参考人类基因组可转录的转录物替代该参考人类基因组时,相当的分析可以适用。
图22显示,命中数的历史数据vs.使用上述计算A时的预测结果(例如,预测的命中数)。在本实施例中,使用人类基因组,并且训练产生了所示的参数。使用的参数是a=1.97、b=1.23、c=1.96、d=-4.43。使用这些参数,可以在检索匹配之前预测一个引物的匹配(命中)数。历史数据确立预测器是准确的,原因是在该图中显而易见实际匹配数和预测匹配数之间的强相关性。这些参数可以基于历史数据导出,并且可以根据使用的基因组版本而变动。如果使用根据基因模型从参考人类基因组可转录的转录物替代人类基因组,则相当的分析将适用。
实施例24–其他组合
另外,这些技术可以如此组合,从而高速缓存、通过匹配预测进行的过滤、和序列接近度分组一起发挥作用。在这个实施例中,一种在转录物序列上识别脱靶匹配的计算机实施的方法包括:接收候选引物序列;针对候选引物序列,识别转录物序列上的多个候选匹配性位置;从候选匹配性位置当中,识别转录物序列上经验证的匹配性位置,其中识别验证的匹配性位置包括:确定转录物序列上哪些候选匹配性位置满足一个或多个匹配验证规则,以及重复使用已经针对与候选引物序列具有共同区域的不同候选引物序列计算的规则满足计算结果;和确定验证的匹配性位置,当组合至少一个其他候选引物序列的至少一个其他匹配进行考虑时,是否在转录物序上形成脱靶匹配状况;其中该方法还包括:过滤至少一个其它候选引物序列,其中该过滤包括针对所述的其他候选引物序列生成转录物序列上的匹配数预测,并且响应于匹配数超过阈值的判定,弃去所述的其它候选引物序列;其中该方法还包括将验证的匹配放入序列接近度分组中,并且核查该接近度分组以识别脱靶匹配状况。
实施例25–实例计算系统
图25举例说明适宜的计算系统2500的一个通用实例,其中可以实施几种所述的创新。计算系统2500不意在表示对使用或功能性范围的任何限制,因为可以在多样性计算系统(包括专用计算系统)中实施所述的创新。在实践中,计算系统可以包含所示计算系统的多个联网实例。
参考图25,计算系统2500包括一个或多个处理单元2510、2515和存储器(memory)2520、2525。在图25中,这种基本配置2530被包括在短划线内部。处理单元2510、2515执行计算机可执行指令。处理单元可以是中央处理单元(CPU)、专用集成电路(ASIC)中的处理器、或任何其他类型的处理器。在多处理系统中,多个处理单元执行计算机可执行指令以增加处理能力。例如,图25显示中央处理单元2510以及图形处理单元或协处理单元2515。有形存储器2520、2525可以是处理单元可访问的易失性存储器(例如,寄存器、高速缓存、RAM)、非易失性存储器(例如,ROM、EEPROM、快闪存储器等)、或两者的一些组合。存储器2520、2525存储实施本文所述的一个或多个创新的软件2580,所述软件为适于用处理单元实施的计算机可执行指令形式。
计算系统可以具有附加特征。例如,计算系统2500包括存储装置(storage)2540、一个或多个输入设备2550、一个或多个输出设备2560、和一个或多个通讯连接2570。互联机制(未显示)如总线(bus)、控制器或网络,使计算系统2500的组件互联。一般,操作系统软件(未显示)为计算系统2500中正在执行的其他软件提供操作环境,并且协调计算系统2500的组件的活动。
有形存储装置2540可以是移动式或非移动式的,并且包括可以用来以非临时方式存储信息并且可以在计算系统2500内部被访问的磁盘、磁带或盒式磁带、CD-ROM、DVD或任何其他介质。存储装置2540存储用于实施本文所述的一个或多个创新的软件2580的指令。
输入设备2550可以是触摸式输入设备如键盘、鼠标、手写笔或轨迹球(trackball)、语音输入设备、扫描设备、或向计算系统2500提供输入的其它设备。对于视频编码,输入设备2550可以是以模拟形式或数字形式接受视频输入的照相机、视频卡、TV调谐卡或相似设备,或将视频样品读入计算系统2500的CD-ROM或CD-RW。输出设备2560可以是显示器、打印机、扬声器、CD刻录机、或从计算系统2500提供输出的其它设备。
通讯连接2570能够实现经通讯媒介与另一个计算实体通讯。通讯媒介传输信息如计算机可执行指令、音频或视频输入或输出、或调制数据信号中的其他数据。调制数据信号是这样的信号,其具有一个或多个特征集、或以编码所述信号中信息的方式改变。以举例方式并且并非限制,通讯媒介可以使用电、光、RF或其他载体(carrier)。
可以在计算机可执行指令(如纳入程序模块、正在计算系统中在目标真实或虚拟处理器上执行的那些)的一般背景下描述这些创新。通常,程序模块包括实施特定任务或实施特定抽象数据类型的例行程序、程序、库、对象、类、组件、数据结构等。在多种实施方案中,程序模块的功能可以在程序模块之间酌情组合或分解。程序模块的计算机可执行指令可以在本地或分布式计算系统内部执行。
为了展示目的,发明详述使用多个术语如“识别/确定/鉴定”和“使用”来描述计算系统中的计算机操作。这些术语是计算机执行的操作的高级抽象,并且不应当与人执行的动作混淆。与这些术语对应的实际计算机操作根据实施方案而变动。
还提供为执行如本文进一步公开的RNA比对方法而结构化的计算机系统。计算机系统可以包括能够执行代码的一个处理器或多个处理器,如一个微处理器或多个微处理器,所述代码用于执行如所述的方法。计算机系统还可以具有用于存储信息的(一个或多个)存储设备如硬盘驱动器,所述信息例如是参考基因组序列、从参考基因组可转录的转录物序列、引物集合中引物的序列、用引物集合的引物序列从参考基因组的转录物序列可转录的靶、包括扩增的靶序列的修正参考基因组、和与从供试样品(一个或多个)的RNA获得的读段对应的序列读段文件。所述(一个或多个)微处理器与所述(一个或多个)存储单元通讯,微处理器访问存储于其中的信息,并且其中可以存储由该微处理器在执行该方法时生成的序列和其他数据。计算机系统可以具有高速缓存用于临时存储在RNA比对期间所生成和访问的信息,和具有RAM用于执行在实施本方法各方面时所用的代码。
计算机系统可以是其他硬件的部分,如随测序装置一起或作为其部分包括的计算机系统,或可以独立于这类其他装置。计算机系统还可以是自持的或它可以在网络系统上联网,处理器和存储单元处于不同位置但彼此可以跨网络通讯。网络可以是有线的或可以是无线的或可以集成两种形式的连通性。计算机系统的一些部分可以随测序装置或其他装置一起或作为其部分而包括,而该计算机系统的其他部分可以是分开的,同时该计算机系统的全部方面以有线通讯或无线方式通讯。计算机系统还可以是基于云的系统,其中系统的某些组件在一个位置并且其他组件在另一个位置,并且组件彼此通过互联网通讯。
实施例26–计算机可读介质
本文的任何计算机可读取介质可以是非临时的(例如,易失性存储器如DRAM或SRAM、非易失性存储器如磁性存储器、光学存储器等)和/或有形的。本文所述的任何存储动作可以通过存储在一个或多个计算机可读取介质(例如,计算机可读取存储介质或其他有形介质)中来实施。被描述为存储的任何事物(例如,实施期间生成和使用的数据)可以存储在一个或多个计算机可读取介质(例如,计算机可读取存储介质或其他有形介质)中。计算机可读取介质可以限于不包括信号的实现方式。
本文所述的任何方法可以由一个或多个计算机可读取介质(例如,计算机可读取存储介质或其他有形介质)或一个或多个计算机可读取存储设备(例如,存储器、磁性存储装置、光学存储装置等)中(例如,在其上存储、在其上编码或其他)的计算机可执行指令实施。这类指令可以造成计算设备执行该方法。本文所述的技术可以用多种编程语言实施。
实施例27–RNA与修正参考基因组比对
图26显示如本文中公开的RNA比对的流程图2600。可以将转录物序列和引物序列接收2610入计算机系统的一个或多个数据存储单元。引物可以已进行选择或设计用于扩增选择的靶、或可以被提出以用于识别未知的靶(经判定可用该引物扩增),或二者的组合。转录物序列包括可以根据基因模型从参考基因组转录的转录物。取决于基因模型的结构和参数,转录物序列将含有,基于参考基因组中所含的如下序列信息,可以从参考基因组转录的初级转录物,其中所述序列信息指示了何种序列与转录区域对应;还可以包括与(预测将在转录物中发生的)剪接事件和(已知的、预测的或推测的在转录物之间发生的)RNA融合事件相关的信息,或可以包括以上全部。如将理解,引物序列和修正参考基因组无需一起接收,因为两者可以分开制备和提供。
随后生成从修正参考基因组可扩增的靶序列2620。微处理器识别转录物序列上的靶序列,其中所述靶序列被预测当RNA供试样品中存在所述的转录物序列时将从RNA供试样品和给定的引物集合扩增。随后从可扩增自转录物序列的靶序列,生成修正参考基因组2630。修正参考基因组包含据预测将从参考基因组的转录物序列生成的靶序列。一些靶可以是中靶序列。一些可以是脱靶序列,这取决于是否脱靶序列被预测将在靶序列产生期间生成,以及如果预测其生成的话,用于生成修正参考基因组时所采纳的参数是否允许将被判定为脱靶序列的序列纳入其中。
随后将一个或多个序列读段文件接收2640到存储单元中,并由使用比对软件的微处理器与修正参考基因组2650比对。比对软件可以生成比对谱2660,所述比对谱可以包括定位、质量评分和序列完整性,或序列读段的其他特征或指标。
实施例28–将引物与转录物序列匹配
图27显示,在创建修正参考基因组时,用于判定引物集合中的引物与转录物序列的匹配以生成靶的一个方法实例。显示了一个转录物序列,并且在该转录物序列内部突出显示了与多个引物具有匹配性序列的序列,一些引物为正向引物(fwdA1、fwdB1’,fwdB1、fwdB2和fwdA3)并且其他引物为反向引物(revA1、revB1、revA2、revB2、revA3)。自转录物序列的3'端开始,可以鉴定潜在的引物匹配位点。当鉴定到一个正向引物匹配位点后,该引物和其位置可以被高速缓存,随后可以在该第一个位点下游核查其他引物的可能匹配位点。如果鉴定到另一个反向引物的匹配位点,可以将它与先前高速缓存的引物位置参比,以确定靶是否满足靶序列纳入修正参考基因组中时所需符合的参数(例如,最小长度)。如果满足,则该靶可以纳入修正的参考基因组。一旦出现如下情形,可以从高速缓存中移除正向引物:与转录物序列匹配的引物的位置沿转录物序列向下离得足够远,以致于在该高速缓存的引物和当前匹配的引物之间可扩增的任何靶序列都超出了最大靶序列长度参数。
例如,参考图27中的转录物序列和引物,引物匹配将始于转录物序列的3’(左上)末端,其中引物序列fwdA1与所述末端匹配并且因此将加入高速缓存。按3’至’5’方向沿转录物序列下向移动,将revA1加入高速缓存。尽管fwdA1和revA1是一对面对面的引物,但在这种情况下,不将fwdA1-至-revA1的靶序列加入修正参考基因组,因为其长度低于为本实施例选定的最小靶序列长度(25个碱基)。接下来,将fwdB1’加入高速缓存,并把revA1-至-fwdB1’的序列加入修正参考基因组,接下来,也加入revA1-至-fwdB1。接下来,加入revB1,相对于fwdA1和revA1进行核查,并将fwdA1-至-revB1加入修正的参考基因组。随后将revA2加入高速缓存。随后相对于fwdA1、revA1、revA2核查fwdB2,并且将fwdB2-至-revA1和fwdB2-至-revA2加入修正参考基因组。随后加入revB2并相对于fwdA1、revA1和revA2进行核查,并且将fwdA1-至-revB2加入修正的参考基因组。因为这是在本实施例中最长的可接受靶序列长度(200个碱基),故可以从相对于revB2下游的后续引物匹配进行的核查中弃去fwdA1。
实施例29–向引物分配基因座
图28显示如何将一个或多个基因座分配给一个或多个引物的一个实例。如果一个引物序列与仅一个转录物序列基因座匹配,则向它分配该基因座。如果一个引物序列与二个转录物序列基因座匹配,则向该引物分配的基因座取决于扩增靶时与之配对的引物(即,扩增转录物序列时与之配对的相反取向的引物)。如果仅存在一个转录物序列基因座与两个引物都匹配,则将该基因座分配给这两个引物。倘若一个引物根据前述规则将被分配多个基因座,则向它分配根据字母顺序具有第一个基因座ID的基因座。
例如,在图28中,向跨4个基因座的7个引物对分配基因座。对于引物对正向_1_2和反向_1,向两者分配基因座1,因为这是与引物反向_1匹配的唯一基因座。对于引物正向_1_2和反向_2_3,向两者分配基因座2,因为这是与两者匹配的唯一基因座。对于引物正向_3和反向_2_3,向两者分配基因座3,因为这是与它们均匹配的唯一基因座。对于引物正向_4和反向_4,向它们分配基因座4,因为这是与每个引物匹配的唯一基因座。对于引物正向_3和反向_1,分别向它们分配基因座3和基因座1,因为它们分别仅与1个基因座但非相同基因座匹配。对于引物正向_4和反向_2_3,向它们分配不同基因座,因为不存在与它们两者均匹配的单一基因座;向引物正向_4分配基因座4,因为这是与它匹配的唯一基因座;并向引物反向_2_3分配基因座2,因为与之匹配的基因座当中,基因座2在字母顺序上是第一个。对于引物正向_1_2和反向_4,向它们分配不同基因座,因为不存在与它们两者均匹配的单一基因座;向引物正向_1_2分配基因座1,因为与之匹配的基因座当中,基因座1在字母顺序上是第一个;并向引物反向_4分配基因座4,因为这是与它形成匹配的唯一基因座。
实施例30–过滤交叉基因座靶
图29显示滤除预期的交叉基因座靶的实例的示意图。当引物集合中的一些引物对预测将扩增出彼此相对接近的靶时,可以预期交叉基因座靶。在这种情况下,负责扩增这些靶的引物子集也可能组合,从多基因座扩增出包括两个原始靶的更大靶。显示三个预期靶,旁侧是其相应的上游基因座特异性寡聚物(ULSO)和下游基因座特异性寡聚物(DLSO)。如下文显示,从用来扩增这些预期靶的6个引物,也可以产生非用于扩增预期靶的其它ULSO和DLSO组合。例如,使用来自最左侧预期靶的ULSO和来自最右侧预期靶的DLSO,可以扩增产生交叉基因座靶,所述交叉基因座靶将涵盖全部靶的序列。同样,可以扩增涵盖两个最右侧预期靶或两个最左侧预期靶的交叉基因座靶。可以从修正参考基因组滤除这种脱靶杂交基因座靶。例如,如果脱靶序列具有与两个分开的预期靶匹配的ULSO和DLSO并大于两个靶之任一,则可以将它从修正参考基因组中作为交叉基因座靶过滤掉。
实施例31–识别来自多个转录物的扩增子
图30是不同可扩增靶的示意图,其中所述可扩增靶可以从共有一些序列(例如,一些外显子)但不共有其它序列的不同RNA转录物生成。预测不同的引物对将从一个或另一个或两个转录物扩增序列。在生成修正的参考基因组时,保持提及何种靶可以从参照基因组的何种转录物序列扩增。例如,引物绿色A和绿色B将从红色转录物和蓝色转录物扩增出相同的序列,而引物橙色A和橙色B/黄色B将从红色转录物和蓝色转录物扩增出彼此不同的序列(归因于蓝色转录物中存在间插性外显子3,但红色转录物中不存在),并且引物黄色A和橙色B/黄色B将从蓝色转录物扩增序列,但不从红色转录物扩增序列(因为引物黄色A与外显子3的序列形成匹配)。
实施例32–转映射(translate)与自剪接点和融合点导出的靶比对的序列读段。
在一些实例中,已比对到修正的参考基因组上的读段,可以进一步与参考基因组比对,其中所述修正参考基因组自该参考基因组产生,如通过基于本文公开的基因模型鉴定可转录的转录物序列来产生。在一些情况下,序列跨外显子-外显子边界的RNA读段,可以比对到修正的参考基因组上。例如,读段可以被识别为与来自修正参考基因组的给定靶对应。该靶可以包含外显子-外显子连接点,如在该读段内的连续序列部分中反映的。可能期望,标识在修正参考基因组所源自的参考基因组中与该读段对应的基因座。修正的参考基因组可以包括有关其序列(尤其是例如其外显子)源自参考基因组的给定染色体上的哪个位置的相应信息。将理解,这类外显子序列可以被参考基因组的非转录部分分隔开,或被基因组中与剪接期间移除的内含子序列对应的转录部分分隔开。当读段与含有了这类基因组基因座标识的修正参考基因组比对时,该读段不仅可以比对到修正的参考基因组上,还可以转映射回修正参考基因组中的相应位置上,以指示基因组的哪些部分被转录以生成该读段的部分。
图31中显示一个实例。图31以示意图显示,将RNA读段转映射到与该RNA读段部分转录自的位点对应的染色体基因座上的方法3100。在这个实例中,sn RNA读段3110比对到修正的参考基因组靶3120上。在这个靶t中,存在几个外显子、3120A、3120B、3120C、3120D和3120E。RNA读段3110与这些外显子之间的边界比对上。修正的参考基因组3120包含基因座标识符,所述基因座标识符指示参考基因组3130上与这些外显子对应的基因座,即,所述外显子自参考基因组3130的给定染色体上的该基因座转录。与修正参考基因组中的靶t比对的RNA读段3110可以转映射到标识的参考基因组3130染色体c和该染色体的具体基因座l(编码所述比对的外显子)。在一些实例中,可以生成比对谱,其包含定位信息,所述信息标识与RNA读段中所含序列对应的染色体位置。
在一些实例中,RNA读段可以与缺少外显子-外显子边界的靶或与缺少这种边界的靶的一部分对应,例如其中该靶或读段由单一外显子或单一外显子内的序列组成。这类读段也可以按照如图31中所示的相当方式转映射到参考基因组上。在其他实例中,RNA读段可以与对应于融合RNA的靶比对,包括自转录物融合在一起的序列(其中所述转录物在初始转录时源自分开的RNA分子)。当修正的参考基因组包含这类潜在的融合靶和相应的染色体基因座标识信息时,也可以将与这类融合RNA靶对应的RNA读段部分转映射到参考基因组中的染色体位置上,方式与图31中所示可以将跨外显子-外显子边界的RNA读段转映射到参照基因组上的方式相当。此类例子可以包括将读段的各部分转映射回不同的染色体。若读段的序列比对到融合RNA中不包含融合点的部分,同样也可以将该读段转映射回其染色体起源基因座。
实施例33–非比对融合点与参考基因组比对。
如本文中公开,序列读段可能与修正的参考基因组不可比对或比对不上,例如,如果该序列读段对应于融合点并且该融合点未纳入用于生成修正参考基因组的基因模型中。在这种情况下,未比对上修正参考基因组而分类为非比对融合点的序列读段,可以与参考基因组比对。只要该比对满足了避免将序列读段表征为融合点假阳性的最低要求,则该序列读段可以被表征为融合点并且其本身可以纳入比对谱中。
在一个实例中,从四个样品的每一者生成序列读段,已知两个样品缺少融合点并且已知两个样品拥有融合点。使用每样品八次重复,生成总计32份样品。在样品的序列读段与如本文中公开的修正参考基因组比对后,识别了非比对融合点。这些非比对融合点随后与参考基因组比对。随后一些非比对融合点被确认对应于样品中存在的融合点(即,融合点不存在于基因模型中并且因此与修正的参考基因组比对不上或不可比对,但可以比对到参考基因组上并被准确地识别为融合点)。之前独立地被确认为存在于一些样品中并在与修正参考基因组比对后被分类为非比对融合点的融合点,在与修正参考基因组的后续比对后,被正确地识别为样品中存在的融合点。
与参考基因组比对后,其他融合点被表征为融合点假阳性。例如,它们的融合比对长度不超过最小融合比对长度阈值,或存在数目足够低的相应序列读段,或序列读段的比对长度/局部比对长度的比值不大于1。在一个实例中,超过2,100个序列读段(2,165个)与参考基因组比对上,就如同它们是融合点一样,但它们经确认并不准确地代表样品中存在的融合点。但是,当针对如本文中公开的融合点假阳性分类对其进行筛选时,它们当中超过2,100个(2,107个)被正确分类为融合点假阳性。具体而言,如果满足以下三个标准的任一者或多者,这些序列读段被分类为融合点假阳性:(1)序列读段融合比对长度不超过70个核苷酸,(2)存在不多于100个与所谓的融合点对应的序列读段,和/或(3)融合比对长度至少不与比对长度一样长,或与比对到其他位置的任何其他读段相比,比对到该位置的读段具有更高的比对评分。
对于上述实施例,图32按照可以允许识别并消除所得众多假阳性的方式显示了融合点假阳性的曲线。在上述实施例中识别的2,165个假阳性当中,图32中作图了序列读段长度大于70的那些假阳性(根据以下规则)。
对于最初识别为融合点的序列读段,识别在参考基因组中与所述序列读段比对的区域(或,对于所谓的融合点,非邻接区域)。确定与该融合点比对的参考基因组的长度(序列读段融合点比对的每一端的比对长度的合并)。如果序列读段备选地与参考基因组的连续区域可比对(称作序列读段的局部比对),则确定该局部比对的长度,称作局部比对长度。如果有一个以上的局部比对是潜在地可比对的,则对于局部比对长度,选择具有最长局部比对长度的该局部比对。随后对最初鉴定为融合点的每个序列读段,计算一个比值。该比值的分子是所谓的融合点的比对长度,而比值的分母是局部比对长度。将比值沿图的x-轴标出,如图32中所示。在这个实施例中,将比值为1或更小(垂线)的任何所谓的融合点,都标识为假阳性。
另外,还确定了与每个所谓的融合点对应的序列读段的数目,在图32中标在y-轴上。在这个实施例中,如果指示该融合点的相应序列读段的数目不超过100(水平线),则将该所谓的融合点标识为假阳性。
图32中,图上的线指示本实施例中使用的融合点假阳性标准(在比对长度大于70外,还采用的标准):比对长度/局部比对长度的比值大于1(垂线)和大于100的读段数(水平线)。许多融合点假阳性被作图定位在这些排除标准之外(即,垂线左侧和水平线下方)并且因而被标识为假阳性并且最终未鉴定为指示融合点。
替代性方案
来自任何实施例的技术可以与其他实施例之任一者或多者中描述的技术组合。考虑到所公开技术的原理可以适用于许多可能实施方案,应当认识到,所示的实施方案是所公开技术的实例并且不应当理解为限制所公开技术的范围。相反,所公开技术的范围包括以下权利要求书所涵盖的范围。因此要求保护处于权利要求的范围和精神内的全体内容。
尽管已经在本文中详细阐述和描述了优选的实施方案,相关领域技术人员将显而易见,可以在不脱离本公开的精神情况下做出各种修改、添加、置换等,并且因此将这些视为处于如后续权利要求中定义的本公开范围内。

Claims (24)

1.一种计算机实施的比对RNA的方法,包括:
在数据存储单元上接收来自参考基因组的多个转录物序列和多个引物序列,转录物序列是基于基因模型从参考基因组可转录的;
使用微处理器,生成从多个引物序列和多个转录物序列的组合扩增的多个靶序列;
使用微处理器,基于多个靶序列生成修正参考基因组;
使用微处理器,将从包含RNA扩增子分子的供试样品生成的序列读段与修正参考基因组比对;以及
基于该比对,生成供试样品的比对谱。
2.根据权利要求1所述的方法,还包括向引物序列分配单个基因座,所述基因座与相应转录物序列的基因座对应。
3.根据权利要求2所述的方法,还包括基于如下依据,移出一个或多个生成的靶序列,其中所述依据为该一个或多个生成的靶序列跨越一个以上的中靶序列。
4.根据权利要求2所述的方法,其中多个引物序列包含多个引物对,并且第一引物对包含针对第一基因座的第一引物和第二引物,并且第二引物对包含所述的第一引物和针对第二基因座的第二引物。
5.根据权利要求1所述的方法,其中基因模型包括在修正参考基因组中标识剪接点、融合点或两者。
6.根据权利要求5所述的方法,还包括与自剪接点和融合点导出的靶比对的序列读段的转映射。
7.根据权利要求1所述的方法,其中所述多个靶序列包含中靶序列和脱靶序列。
8.根据权利要求7所述的方法,还包括通过从所述多个引物序列排除一个或多个引物序列,减少多个脱靶序列。
9.根据权利要求1所述的方法,还包括以计算方式比较两个或更多个样品的基因表达,其中将从第一RNA样品生成的比对读段与从第二RNA样品生成的比对读段比较,其中所述比对使用所述多个靶序列进行。
10.根据权利要求1所述的方法,其中比对谱包括供试样品的序列读段的定位、质量评分和序列完整性中至少之一。
11.根据权利要求1所述的方法,还包括:
使用映射的靶序列和修正参考基因组,将来自供试样品的序列读段转映射到完整参考基因组上。
12.根据权利要求1所述的方法,其中生成比对谱还包括,将包含非比对融合点的序列读段比对到参考基因组的非邻接序列上,其中所述非比对融合点未标识在基因模型中。
13.根据权利要求5所述的方法,其中比对谱包含融合点并且所述融合点已经标识在基因模型中。
14.一种计算机实施的比对RNA的方法,包括:
在数据存储单元上接收来自参考基因组的多个转录物序列和多个引物序列,转录物序列是使用基因模型从参考基因组可转录的,所述基因模型包括在参考基因组中标识剪接点、融合点或两者;
向引物序列分配单个基因座,所述基因座与相应转录物序列的基因座对应;
使用微处理器,生成从所述多个转录物序列和所述多个引物序列的组合扩增的多个靶序列;
使用微处理器,基于所述多个靶序列生成修正参考基因组;
使用微处理器,将从包含RNA扩增子分子的供试样品生成的序列读段与修正参考基因组比对;
生成比对谱,其中比对谱包括供试样品的序列读段的定位、质量评分和序列完整性中至少之一;以及
使用映射的靶序列和修正参考基因组,将来自供试样品的序列读段转映射到完整的参考基因组上。
15.一种比对RNA的计算机系统,包含:
一个或多个微处理器,
一个或多个存储器,其存储来自参考基因组的多个转录物序列和多个引物序列和基因模型,转录物序列是基于基因模型从参考基因组可转录的;
一个或多个存储指令的存储器,所述指令由所述一个或多个微处理器执行时引起计算机系统:
生成从所述多个引物序列和所述多个转录物序列的组合扩增的多个靶序列;
基于所述多个靶序列,生成修正参考基因组;
将从包含RNA扩增子分子的供试样品生成的序列读段与修正参考基因组比对;以及
基于该比对,生成供试样品比对谱。
16.根据权利要求15所述的计算机系统,其中所述指令引起计算机系统向引物序列分配单个基因座,其中所述基因座与相应转录物序列的基因座对应。
17.根据权利要求16所述的计算机系统,其中所述指令引起计算机系统基于如下依据移出一个或多个生成的靶序列,其中所述依据为该一个或多个生成的靶序列跨越一个以上的中靶序列。
18.根据权利要求16所述的计算机系统,其中所述多个引物序列包含多个引物对,并且第一引物对包含针对第一基因座的第一引物和第二引物,并且第二引物对包含所述第一引物和针对第二基因座的第二引物。
19.根据权利要求15所述的计算机系统,其中基因模型包括在修正参考基因组中标识剪接点、融合点或两者。
20.根据权利要求15所述的计算机系统,其中所述多个靶序列包含中靶序列和脱靶序列。
21.根据权利要求20所述的计算机系统,其中所述指令引起计算机系统通过从所述多个引物序列中排除一个或多个引物序列来减少多个脱靶序列。
22.根据权利要求21所述的计算机系统,其中所述指令引起计算机系统比较两个或更多个样品的基因表达,其中将从第一RNA样品生成的比对读段与从第二RNA样品生成的比对读段比较。
23.根据权利要求15所述的计算机系统,其中生成比对谱还包括,将包含非比对融合点的序列读段比对到参考基因组的非邻接序列上,其中所述非比对融合点未标识在基因模型中。
24.根据权利要求19所述的计算机系统,其中比对谱包含融合点并且所述融合点已经标识在基因模型中。
CN201980002652.XA 2018-01-05 2019-01-07 用于比对靶向的核酸测序数据的方法 Active CN110692101B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862614088P 2018-01-05 2018-01-05
US62/614,088 2018-01-05
PCT/US2019/012511 WO2019136364A1 (en) 2018-01-05 2019-01-07 Process for aligning targeted nucleic acid sequencing data

Publications (2)

Publication Number Publication Date
CN110692101A true CN110692101A (zh) 2020-01-14
CN110692101B CN110692101B (zh) 2024-01-26

Family

ID=65433730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980002652.XA Active CN110692101B (zh) 2018-01-05 2019-01-07 用于比对靶向的核酸测序数据的方法

Country Status (10)

Country Link
US (1) US20190325990A1 (zh)
EP (1) EP3616204A1 (zh)
JP (1) JP7319197B2 (zh)
KR (1) KR20200107774A (zh)
CN (1) CN110692101B (zh)
AU (1) AU2019205780A1 (zh)
CA (1) CA3061740A1 (zh)
NZ (1) NZ759420A (zh)
SG (1) SG11201910046SA (zh)
WO (1) WO2019136364A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681711A (zh) * 2020-06-28 2020-09-18 江苏先声医学诊断有限公司 一种兼并引物的设计筛选方法
CN115896256A (zh) * 2022-11-25 2023-04-04 臻悦生物科技江苏有限公司 基于二代测序技术的rna插入缺失突变的检测方法、装置、设备和存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942809B (zh) * 2019-11-08 2022-06-10 浪潮电子信息产业股份有限公司 一种序列比对的Seed处理方法、系统、装置及可读存储介质
CN111261223B (zh) * 2020-01-12 2022-05-03 湖南大学 一种基于深度学习的crispr脱靶效应预测方法
US20230230656A1 (en) * 2020-06-24 2023-07-20 Seegene, Inc. Computer-implemented method for providing coverage of oligonucleotide set for plurality of nucleic acid sequences
CN113241118A (zh) * 2021-07-12 2021-08-10 法玛门多(常州)生物科技有限公司 一种基因突变有害性预测的方法
CN117136411A (zh) * 2022-03-28 2023-11-28 京东方科技集团股份有限公司 融合基因的鉴定方法、装置、设备、程序及存储介质
KR20240072026A (ko) * 2022-11-16 2024-05-23 주식회사 세니젠 기준 서열 데이터와 타겟 및 비-타겟종의 교차검증을 활용한, PCR을 위한 K-mer 유전자 데이터 프로세싱 방법 및 그 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统
US20160194694A1 (en) * 2011-04-28 2016-07-07 Life Technologies Corporation Multiplex transcriptome analysis
CN107075571A (zh) * 2014-07-18 2017-08-18 生命科技股份有限公司 用于检测结构变异体的系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10971249B2 (en) * 2016-09-15 2021-04-06 Illumina, Inc. Systems and methods for off-target sequence detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160194694A1 (en) * 2011-04-28 2016-07-07 Life Technologies Corporation Multiplex transcriptome analysis
CN107075571A (zh) * 2014-07-18 2017-08-18 生命科技股份有限公司 用于检测结构变异体的系统和方法
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681711A (zh) * 2020-06-28 2020-09-18 江苏先声医学诊断有限公司 一种兼并引物的设计筛选方法
CN115896256A (zh) * 2022-11-25 2023-04-04 臻悦生物科技江苏有限公司 基于二代测序技术的rna插入缺失突变的检测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
KR20200107774A (ko) 2020-09-16
SG11201910046SA (en) 2019-11-28
EP3616204A1 (en) 2020-03-04
NZ759420A (en) 2022-07-01
CA3061740A1 (en) 2019-07-11
US20190325990A1 (en) 2019-10-24
WO2019136364A1 (en) 2019-07-11
AU2019205780A1 (en) 2019-12-12
JP2021509572A (ja) 2021-04-01
JP7319197B2 (ja) 2023-08-01
CN110692101B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
CN110692101B (zh) 用于比对靶向的核酸测序数据的方法
Rumble et al. SHRiMP: accurate mapping of short color-space reads
Zhbannikov et al. SeqyClean: a pipeline for high-throughput sequence data preprocessing
Chevreux et al. Using the miraEST assembler for reliable and automated mRNA transcript assembly and SNP detection in sequenced ESTs
US20220101944A1 (en) Methods for detecting copy-number variations in next-generation sequencing
CN110832597A (zh) 基于深度神经网络的变体分类器
US11923049B2 (en) Methods for processing next-generation sequencing genomic data
CN108595912B (zh) 检测染色体非整倍性的方法、装置及系统
US20210233612A1 (en) Systems and methods for off-target sequence detection
Liu et al. Forensic STR allele extraction using a machine learning paradigm
Prezza et al. Detecting mutations by eBWT
WO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
EP3663890B1 (en) Alignment method, device and system
Lin et al. Evaluation of classical statistical methods for analyzing bs-seq data
Martin Algorithms and tools for the analysis of high throughput DNA sequencing data
US11001880B2 (en) Development of SNP islands and application of SNP islands in genomic analysis
US20220399079A1 (en) Method and system for combined dna-rna sequencing analysis to enhance variant-calling performance and characterize variant expression status
KR102110017B1 (ko) 분산 처리에 기반한 miRNA 분석 시스템
Shomroni Development of algorithms and next-generation sequencing data workflows for the analysis of gene regulatory networks
NZ788962A (en) Process for aligning targeted nucleic acid sequencing data
Bolognini Unraveling tandem repeat variation in personal genomes with long reads
Denti Algorithms for analyzing genetic variability from Next-Generation Sequencing data
Liu Novel Computational Methods for Sequencing Data Analysis: Mapping, Query, and Classification
Iakovishina Detection of structural variants in cancer genomes using a Bayesian approach. You will find below the abstract of my PhD thesis
CN116705155A (zh) 一种全基因dna数据的定义方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant