CN113519029A - 生物测序 - Google Patents

生物测序 Download PDF

Info

Publication number
CN113519029A
CN113519029A CN202080017929.9A CN202080017929A CN113519029A CN 113519029 A CN113519029 A CN 113519029A CN 202080017929 A CN202080017929 A CN 202080017929A CN 113519029 A CN113519029 A CN 113519029A
Authority
CN
China
Prior art keywords
sequence
biological
repository
reads
biopolymer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080017929.9A
Other languages
English (en)
Inventor
D·范海夫特
A·范海夫特
I·布兰兹
E·范海夫特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biological Clues
Original Assignee
Biological Clues
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP19156086.1A external-priority patent/EP3693971A1/en
Application filed by Biological Clues filed Critical Biological Clues
Publication of CN113519029A publication Critical patent/CN113519029A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

在第一方面,本发明涉及一种考虑到包含在指纹数据串的存储库中的信息,对生物聚合物或生物聚合物片段进行测序的方法,所述方法包括:(a)使用测序器获得所述生物聚合物或生物聚合物片段的至少一个读段,和(b)通过以下计算机实现的步骤处理所述读段:(b1)在所述读段中搜索由所述指纹数据串表示的所述特征生物子序列中的一个或多个的出现,和(b2)通过在每次出现时确定与所述特征生物子序列连续的序列单元是否与所述存储库中的所述组合数据一致来验证或拒绝所述读段,以及/或(b1')在所述读段的头部和/或尾部搜索由所述指纹数据串表示的所述特征生物子序列中的一个的出现,和(b2')从所述存储库中的所述组合数据预测所述读段的一个或多个连续序列单元。

Description

生物测序
技术领域
本发明涉及生物序列信息的处理,且更具体地说,涉及例如通过测序和/或序列组装来产生所述生物序列信息。提供用于在测序过程期间产生生物序列信息的系统和方法。
背景技术
在过去的几十年里,生物测序以惊人的速度发展,使人类基因组计划成为可能,所述计划在超过15年前已经实现了对人类基因组的完整测序。为了推动这一发展,需要大量的技术进步,从样品制备和测序方法的进步到数据采集、处理和分析。与此同时,新的科学领域已经产生和发展,包含基因组学、蛋白质组学和生物信息学。
在后基因组时代对数据采集的重视的推动下,这一发展导致了大量序列数据的累积。然而,组织、分析和解释这个序列以从其中提取生物学相关信息的能力却一直落后。由于每天仍会生成大量新的序列信息,这个问题进一步复杂化。Muir等人观察到,这引发了范式转变,并且评论了由此产生的测序成本结构变化和其它相关障碍(MUIR,Paul等人,Thereal cost of sequencing:scaling computation to keep pace with datageneration.Genome biology,2016,17.1:53.)。
当前,最常采用的测序方法是所谓的“高通量”或“下一代测序”(NGS)。与第一代测序相比,NGS的典型特征是高度可扩展,从而允许一次对整个基因组进行测序。通常,这是通过将较大的序列片段化成较小的片段,随机采样片段,并对其进行测序来实现的。在对不同片段进行测序后,可使用序列组装来重构原始序列,在所述序列组装中,序列片段基于其重叠区域进行比对和合并。
然而,测序器并非完美的,且测序误差(例如插入、取代和缺失)可能总是发生,特别是在寻求高通量时。如果要组装的序列片段含有误差,那么这显然会使原始序列的重构复杂化,这是因为对应区域可能不再重叠。此外,误差还可能传播到最终序列中,例如导致错误的变体识别。已研发出一些策略来处理这些测序误差,例如Shmilovici等人所公开(SHMILOVICI,Armin;BEN-GAL,Irad.Using a VOM model for reconstructing potentialcoding regions in EST sequences.Computational Statistics,2007,22.1:49-69.)。然而,当前还没有有效方法来直接验证(片段)序列是否正确,或其是否含有一个或多个序列误差。
基因组图用作从单一读段进行序列重构的参考,所述单一读段通常是较短的DNA或RNA序列。由此,线性参考是一个单一基因组的表示。对于完整表示,需要组合多个基因组以便发现物种可能具有的所有变化。
正确构造泛基因组图时会出现多个问题。首先,即使最好的组装参考基因组也含有缺失和错误。其次,无法找到合适的图形表示来围封所有必要信息以抵消稍后在将执行图形映射的过程时出现的问题。De Bruijn图、定向图或双定向图都不能准确地表示链。第三,似乎有可能使用当前技术创建参考群组,但由于缺少结构坐标,所构造的群组基本上不可用于实践中。
此外,曲线图缺少操作位点定义。由于对数复杂度,重复区域甚至更难使用已知的基于k-mer的技术来表示。结论,由于不可能使用现有技术保持所有必要数据,因此几乎不可能在1物种的图形结构中构造变化群组,更不可能针对所有生物物种构造变化群组。
结构变体在癌症和其它疾病的发展中发挥重要作用,并且与单核苷酸变异相比研究较少,部分原因是缺乏从读段数据中进行可靠识别。当使用k-mer技术时,变化的检测窗口根据定义小于k-mer的总长度。使用克服k-mer窗口问题的算法,不能有效地识别结构变体。需要高覆盖率才能找到仅一个结构变化的证据。因此,k-mer的使用需要一个大池才能有效地从噪声和读段误差中识别出真正的变化。由于缺乏动态算法来比对k-mer,许多k-mer会导致计算难题。问题由于使用动态规划而出现;这种动态方法的不可行性导致启发式的固有使用。此又说明需要启发式或参数化来缩小搜寻空间。然而,后者导致不可避免的误差累积,这表明k-mer不是有效的统一空间模式。目前,这仅以严格单维的句法方式解决。
由于映射和组装过程的NP-困难性质,贪婪算法通常用于解决这些问题,由此根据某一输入使用扩展矩阵来计算相关结果。
已使用动态规划,但与其相关的问题在于源数据(如位置、读段ID等的参数)丢失并且无法再进行回溯。
所有上述问题使得有效且准确的图形折叠几乎不可能。这导致不可能提供构造可用泛基因组图所需的必要准确度或位置数据。此外,k-mer的使用缺乏区分遗传信息中的多维参数的特异性。这进一步添加到当前基因组图的低效构造,其展示为不能识别结构变异、偏差或有效地包围高重复区域。
因此,本领域仍然需要进一步改进测序和序列组装。
发明内容
本发明的目的是提供一种产生生物序列信息的好方法。此目的通过根据本发明的方法、设备和数据结构来实现。
在第一方面,本发明涉及一种考虑到包含在指纹数据串的存储库中的信息,对生物聚合物或生物聚合物片段进行测序的方法,方法包括:(a)使用测序器获得所述生物聚合物或生物聚合物片段的至少一个读段,和(b)通过以下计算机实现的步骤处理读段:(b1)在读段中搜索由指纹数据串表示的特征生物子序列中的一个或多个的出现,和(b2)通过在每次出现时确定与特征生物子序列连续的序列单元是否与存储库中的组合数据一致来验证或拒绝读段,和/或(b1')在读段的头部和/或尾部中搜索由指纹数据串表示的特征生物子序列中的一个的出现,和(b2')从存储库中的组合数据预测读段的一个或多个连续序列单元。在本文中,指纹数据串的存储库用于生物序列数据库,每个指纹数据串表示由序列单元构成的特征生物子序列,每个特征生物子序列在生物序列数据库中具有小于其可用的不同序列单元的总数的组合数,生物子序列的组合数定义为作为生物子序列的连续序列单元出现在生物序列数据库中的不同序列单元的数目,存储库进一步包括表示作为对应特征生物子序列的连续序列单元出现在生物序列数据库中的不同序列单元的组合数据。
本发明的实施方案的优点在于,获得系统和方法,从而提供降低的复杂度。
本发明的实施方案的优点在于,获得确定性的系统和方法,即产生给定解决方案。
本发明的实施方案的优点在于,可通过依赖包含在指纹数据串的存储库中的信息来改进生物聚合物和生物聚合物片段的测序(例如通过降低误差的可能性或通过加快过程)。
本发明的实施方案的优点在于,可验证或拒绝临时建议的生物序列。本发明的实施方案的优点在于,可减少在测序期间发生的误差。
本发明的实施方案的优点在于,可通过预测序列中的下一单元或通过限制其选项的数目来提高测序的速度。
本发明的实施方案的优点在于,系统和方法具有确定性特性,即方法和系统导致确定用于识别/表征生物聚合物或生物聚合物片段的序列的特定解决方案。
本发明的实施方案的优点在于,系统和方法允许跟踪读段的ID。系统和方法允许例如回溯,例如回溯读段的误差或不确定性。
本发明的实施方案的优点在于,与至少大多数现有技术系统相比,在本发明的实施方案中,即使在测序仍在运行时,也可以立即分析每个所产生的读段。以这种方式,根据本发明的至少一些实施方案,数据处理,例如子图的构建,可在测序开始期间接收到第一读段时立即开始,且因此这种数据处理可以是渐进的过程。其可与读段的集合并行执行。本发明的实施方案的另一个优点在于,当确定正在测序的生物序列在完成完整测序之前已经充分识别时,可提前终止测序。
在第二方面,本发明涉及一种适于执行根据第一方面的任何实施方案的方法的步骤a的测序器。
在第三方面,本发明涉及一种系统,其包括:(i)根据第二方面的测序器,和(ii)数据处理系统,其适于从测序器接收读段,且通过执行根据第一方面的任何实施方案的方法的步骤b来处理读段。
本发明的实施方案的优点在于,取决于应用,方法的步骤可由多种系统和设备来实现,例如基于计算机的系统或测序器。本发明的实施方案的另一个优点在于,方法可由基于计算机的系统(包含基于云的系统)来实现。
在第四方面,本发明涉及一种包括指令的计算机程序,所述指令在由计算机执行程序时使得计算机执行根据第一方面的任何实施方案的方法。
在第五方面,本发明涉及一种包括指令的计算机可读介质,所述指令在由计算机执行时使得计算机执行根据第一方面的任何实施方案的方法。
在所附的独立权利要求和从属权利要求中阐述了本发明的特定方面和优选方面。来自从属权利要求的特征可与独立权利要求的特征以及与其它从属权利要求的特征适当地组合,而不仅仅是如权利要求中明确阐述的那样。
尽管本领域中的设备一直在不断改进、变化和演变,但本发明的概念被认为代表着实质上新的和新颖的改进,包含背离先前实践的改进,这导致提供具有这种性质的更加有效、稳定和可靠的设备。
本发明的上述和其它特性、特征和优点将从以下结合附图的详细描述中变得显而易见,附图以举例的方式说明了本发明的原理。这一描述仅出于示例的目的给出,而不限制本发明的范围。下面引用的参考图是指附图。
附图简述
图1和图2是展示由本发明的实施方案实现的预期进展的曲线图。
图3至图6是描绘根据本发明的实施方案的系统的图。
图7说明可在根据本发明的实施方案的用于测序的方法中执行的处理步骤的示意性概览。
图8至图11是可在根据根据本发明的实施方案中使用的若干步骤的示意性表示。
图12至图16是展示根据本发明的实施方案的关于处理过的蛋白质数据库(PDB)的分析的各种指标的图表。
图17是相互对照绘制使用两种不同的匹配策略在PDB数据库中找到的HYFTTM匹配的数目的图表。
图18和图21是比较一方面使用现有技术方法(虚线)和另一方面使用根据本发明的示例性实施方案的方法(实线)的搜索结果的总长度的曲线图。
图19和图22是比较一方面使用现有技术方法(虚线)和另一方面使用根据本发明的示例性实施方案的方法(实线)的搜索结果的Levenshtein距离的曲线图。
图20和图23是比较一方面使用现有技术方法(虚线)和另一方面使用根据本发明的示例性实施方案的方法(实线)的搜索结果的最长公共子串的曲线图。
在不同的图中,相同的附图标记是指相同或类似的元件。
具体实施方式
将关于特定实施方案并参考某些附图描述本发明,但本发明不限于此,而仅受权利要求的限制。描述的附图仅仅是示意性的,而非限制性的。在附图中,为了说明目的,一些元件的大小可被放大,而未必按比例绘制。尺寸和相对尺寸并不对应于本发明实践的实际减小。
此外,说明书和权利要求中的术语第一、第二、第三等用于区分相似的元件,而不一定用于以时间、空间、排列或任何其它方式描述顺序。应当理解,这样使用的术语在适当的情况下可互换,并且本文所描述的本发明的实施方案能够以不同于本文所描述或说明的顺序操作。
此外,说明书和权利要求中的在...之前、在...之后等术语用于描述目的,而不一定用于描述相对位置。应当理解,这样使用的术语在适当的情况下可与其反义词互换,并且本文所描述的本发明的实施方案能够以不同于本文所描述或说明的其它取向操作。
需要注意的是,在权利要求中使用的术语“包括”不应被解释为仅限于其后列出的装置;其不排除其它元件或步骤。因此,其被解释为指定所提及的所陈述特征、整体、步骤或组件的存在,但不排除一个或多个其它特征、整体、步骤或组件或其群组的存在或添加。因此,术语“包括”涵盖仅存在所陈述特征的情况以及存在这些特征和一个或多个其它特征的情况。因此,表述“包括装置A和B的设备”的范围不应被解释为仅限于仅由组件A和B组成的设备。这意味着就本发明而言,设备的唯一相关组件是A和B。
在整个说明书中对“一个实施方案”或“实施方案”的引用意味着结合实施方案描述的特定特征、结构或特性包含在本发明的至少一个实施方案中。因此,在本说明书全文中的不同位置出现的短语“在一个实施方案中”或“在实施方案中”不一定全部指相同的实施方案,但可指相同的实施方案。此外,在一个或多个实施方案中,特定特征、结构或特性可以任何合适的方式组合,如本领域的普通技术人员从本公开内容中将显而易见的。
类似地,应当理解,在对本发明的示例性实施方案的描述中,有时将本发明的各种特征组合在单个实施方案、图或对其的描述中,以简化公开内容并帮助理解各种本发明方面中的一个或多个。然而,本公开的方法不应被解释为反映以下意图:受权利要求书保护的发明要求比每项权利要求中明确叙述的特征更多的特征。相反,如以下权利要求所反映的,发明的方面在于比单个前述公开的实施方案的所有特征更少的特征。因此,具体实施方式之后的权利要求据此明确并入此具体实施方式中,每项权利要求独立地作为本发明的独立实施方案。
此外,如本领域那些技术人员将理解的,虽然本文所描述的一些实施方案包含一些特征而不是其它实施方案中包含的其它特征,但不同实施方案的特征的组合意味着在本发明的范围内,并且形成不同的实施方案。例如,在以下权利要求中,任何受权利要求书保护的的实施方案均可以任何组合使用。
此外,一些实施方案在本文中被描述为可由计算机系统的处理器或由执行功能的其它装置来实现的方法或方法要素的组合。因此,具有用于执行此类方法或方法要素的必要指令的处理器形成了用于执行所述方法或方法要素的装置。此外,本文所描述的装备实施方案的元件是出于执行本发明的目的而执行由元件执行的功能的装置的实例。
在本文提供的描述中,阐述了许多特定细节。然而,应当理解,本发明的实施方案可在没有这些特定细节的情况下实践。在其它情况中,未详细展示熟知的方法、结构和技术以免妨碍对此描述的理解。
提供以下术语仅用于帮助理解本发明。
如本文所使用,生物序列是至少限定生物聚合物的一级结构的生物聚合物序列。生物聚合物可以是例如脱氧核糖核酸(DNA)、核糖核酸(RNA)或蛋白质。生物聚合物通常是生物单体(例如核苷酸或氨基酸)的聚合物,但在一些情况下可进一步包含一种或多种合成单体。
如本文所使用,生物序列中的“序列单元”在生物序列与蛋白质相关时是氨基酸,并且在生物序列与DNA或RNA相关时是密码子。
如本文所使用,生物子序列是生物序列的一部分,小于完整的生物序列。生物子序列可例如具有100个序列单元或更少,优选50个或更少,还更优选20个或更少的总长度。
如本文所使用,在“特征生物子序列”(或“(HYFTTM)指纹”)、“(HYFTTM)指纹数据串”和“(HYFTTM)指纹标记”之间进行区分。第一个是具有如下文更详细解释的特定特征的子序列。第二个是此类HYFTTM指纹的数据表示——任选地与额外数据组合(参见下文)——其可例如存储在对应存储库中。在一些实施方案中,一个HYFTTM指纹数据串可同时表示多个等效HYFTTM指纹(例如通过编码相同结果而等效,例如在编码相同氨基酸的多个密码子的情况下,或通过翻译等效;参见下文)。第三个是指向HYFTTM指纹的指针,例如可定位HYFTTM指纹的内存地址或允许在指纹数据串的存储库中找到HYFTTM指纹的参考。然而,鉴于其密切关系,在不需要对这三个术语进行严格区分的情况下,或者在上下文中的含义很明确的情况下,在本文中可将这些简单地称为“HYFTsTM”。
如本文所使用,在“生物序列”与“处理过的生物序列”之间进行区分。前者是本领域中众所周知的生物序列,而后者是包括与本发明的HYFTTM指纹相关联的指纹标记的重构/重写的生物序列。
很明显,HYFTTM指纹数据串、处理过的生物序列或存储这些的存储库都不能被视为认知数据,并且其不针对(人类)用户。相反,其旨在通过计算机(或类似的技术系统)在各种计算机实现的方法中用作功能数据,并且被构造成这种效果。例如,存储库可以是如关系数据库(例如基于SQL)或NoSQL数据库(例如面向文档的数据库,例如XML数据库)的结构。同样,HYFTTM指纹数据串和/或处理过的生物序列可被构造为此类数据库的合适条目。
如本文所使用,将通过与蛋白质相关的实例来说明一些概念,并且将假定可能的单体序列单元是20个规范(或“标准”)氨基酸。然而,很明显,这仅仅是为了简化说明,并且类似的实施方案同样可用扩展数目的氨基酸(例如添加非规范氨基酸或甚至合成化合物)来配制,或与DNA或RNA相关。在DNA或RNA的情况下,可通过密码子与氨基酸之间的对应关系容易地建立DNA或RNA与蛋白质之间的链接。
如本文所使用,“二级/三级/四级”是指“二级和/或三级和/或四级”。
在本发明中令人惊讶地认识到,在先前假定生物序列的一级结构由基本上独立选择的序列单元组成的情况下,使得原则上存在例如基于m个可能的序列单元的长度为n的mn个生物序列,(例如,基于20个标准氨基酸的20n),这实际上本质上没有观察到。事实上,人们发现,从特定长度开始,并不是所有的理论组合都能被看到。仅给出一个实例:在公共数据库中的任何蛋白质中都没有发现蛋白质子序列“MCMHNQA”。已经考虑到这不仅仅是数据库中的中断,而是这种缺失具有物理起源和/或化学起源。不受理论的束缚,仅列举一种可能的效应,相邻氨基酸(例如上述实例中的“MCMHNQ”)的空间位阻可阻止一个或多个其它氨基酸(例如上述实例中的“A”)与其结合。因此,一旦已识别缺失的子序列,就可使用计算研究来验证这个子序列是否可能发生,或者其存在是否是物理上不可能的(或不大可能的,例如因为其在化学上不稳定)。上文提到的“特定长度”取决于所考虑的数据集,但例如对应于公开可用的蛋白质序列数据库的约5或6个氨基酸(这基本上反映了本质上可见的总多样性)。对于更有限的集合(例如,基于特定标准过滤的集合或针对特定生物序列数据库,例如针对特定结构域制定的集合),对于约4或5的长度,已经发现小于mn个组合的理论最大值。
同时,因为子序列“MCMHNQA”不存在,所以子序列“MCMHNQ”不仅是5个氨基酸的随机组合,而且获得了额外意义;此类子序列将进一步称为“特征生物子序列”或“(HYFTTM)指纹”。由于这些HYFTTM指纹的附加意义或含义,可认为本发明以更语义的方式处理生物序列信息。一般而言,特征子序列的特征在于,对于其连续序列单元(即直接跟随或先于其的序列单元)具有比序列单元的最大数目(即可用于其的不同序列单元的总数;例如小于20个标准氨基酸)更少的可能选项(即更低组合数);换句话说,序列单元中的至少一个不能跟随(或先于)其。然而,可选择更严格的定义:例如,仅那些具有15个或更少序列单元的子序列可能跟随其,或者10个或更少,5个或更少,3个、2个甚至1个。此外,可选择将每个此类子序列视为HYFTTM指纹,或仅将那些尚未包含另一个HYFTTM指纹的子序列视为HYFTTM指纹(即非冗余)。例如:将“MCMHNQ”作为HYFTTM指纹,将存在更长的子序列,其包括“MCMHNQ”且还具有可跟随(或先于)其的小于理论数目的序列单元;在这种情况下,可选择将较长的子序列和“MCMHNQ”都视为HYFTTM指纹,或仅将“MCMHNQ”视为HYFTTM指纹。后一种方法通常可能是优选的,以便控制HYFTTM数据串的存储库的大小,同时加速与其相关的方法。实际上,随着串长度的增加,在生物序列中搜索与串的匹配通常会变得更加资源密集且更慢。此外,随着HYFTTM数据串的存储库的大小增加,搜索和检索特定HYFTTM数据串通常花费更长的时间。在这种非冗余方法中,仍然可识别具有有限组合可能性的较长子序列,但随后将识别为HYFTsTM的模式(有或没有间距)。因此,这种方法所提供的优点并不一定会导致对应的信息损失。尽管如此,请注意,前一种方法仍然是可能的,并且这样做仍然优于现有技术。
随后令人惊讶地发现,可识别特征生物子序列的有限集合。此外,观察到这些特征生物子序列在以下方面之间取得了平衡:一方面足够特异以使得并非每个特征生物子序列都发现于每个生物序列中,另一方面足够普遍以使得已知的生物子序列通常包括这些HYFTTM指纹中的至少一个。
从上文提供的叙述中,可制定用于识别HYFTTM指纹且构建HYFTTM数据串的对应存储库(或“HYFTTM存储库”)的协议。实际上,由于目的是识别在生物序列数据库中具有有限组合可能性的那些子序列,因此挖掘所述生物序列数据库中未出现的子序列就足够了。一旦识别出此类未出现的子序列(例如“MCMHNQA”),则短一个序列单元的子序列(例如“MCMHNQ”)对应于HYFTTM指纹(前提是确实出现了更短的子序列)。一旦被识别,则可推导出关于HYFTTM指纹的额外数据。例如,可通过在生物序列数据库中搜索识别出的HYFTTM指纹与其它序列单元的组合(例如,每次用其它可能的氨基酸中的一个替换“MCMHNQA”中的“A”)且对发现出现的组合的数目进行计数来获得组合数。任选地,未发现的组合也可单独存储;这些组合可例如用于误差检测。此外,由于DNA、RNA和蛋白质之间的对应关系通常可通过适用的密码子表获知,因此一旦识别出特定类型的HYFTTM指纹(例如蛋白质HYFTTM),就可将其翻译为不同类型的对应HYFTTM指纹(例如DNA和/或RNA HYFTTM)。通过重复上述过程且以合适的格式至少存储识别出的HYFTsTM——任选地与任何额外数据和翻译的HYFTsTM一起存储——可构建HYFTTM指纹数据串的存储库。作为替代或补充,至少一些HYFTTM指纹可通过实验或计算方法发现,例如通过合成或模拟各种子序列并随后识别那些不能——或不太可能——出现在所考虑的生物序列数据库的上下文中的子序列。
在上文中,生物序列数据库可以是公开可用的数据库,例如蛋白质数据库(Protein Data Bank;PDB),或专有数据库。在实施方案中,生物序列数据库可以是多个单独数据库的组合。例如,可从组合可访问的尽可能多的(可信赖的)生物序列数据库的生物序列数据库中制定HYFTTM指纹数据串的存储库,从而寻求到HYFTTM指纹数据串的通用存储库,所述存储库基本上代表本质上已发现的所有生物序列。相反,在特定结构域中,可证明基于代表所属特定结构域的生物序列数据库构建HYFTTM指纹数据串的特定存储库是富有成效的。在实施方案中,此特定存储库可含有通用存储库中不存在的HYFTsTM,因为其确实本质上存在但不在此特定结构域内。同样,可针对合成序列用其自己的特定内容构建HYFTTM指纹数据串的存储库。
基于上述发现,可制定在所有不同但相互关联的阶段处理生物序列信息的新方法。这些方法可被认为类似于对序列进行更多的词法分析。结果示意性地描绘于图1中,其展示了生物序列信息随着序列单元的数目(n)的增加而进行的复杂度缩放。这种复杂度可以是序列单元的可能组合的总数,但其又与处理其(例如执行相似性搜索)所需的计算工作量(例如时间和内存)相关。实线曲线描绘了假定所有序列单元都是独立选择的理论组合的数目,按mn缩放,这也对应于当前已知算法的缩放。虚线曲线描绘了本质上发现的实际组合的数目(如在本发明中观察到的),其中曲线在大约5或6个序列单元处偏离mn并且在高n处渐近地变平。虚线展示第一次对应于特征序列的序列数目,对于所述特征序列,能够跟随其的序列单元的数目等于1;这里的“第一次”意味着如果更长的序列包含已经计数的HYFTTM指纹,则从不对其进行计数。因此,当其定义被选择为仅具有1个可能跟随其的序列单元且尚未包括另一个(较短的)HYFTTM指纹的子序列时,后者对应于长度为n的HYFTTM指纹的数目(如在本发明中观察到的)(参见上文)。
图2描绘了本发明在时间上的预测益处,其中底轴上的标记描绘了当前。曲线1展示了摩尔定律作为参考。曲线2展示了采集的测序数据总量。曲线3展示了处理和维护所述测序数据的总成本。通过如本发明中所提出的处理生物序列信息,预期用于测序数据的总所需存储以及数据处理和维护的总成本将下降,如分别在曲线4和曲线5中所描绘。
请注意,虽然HYFTTM指纹数据串的存储库通常是针对特定生物序列数据库(或其组合)构建的,但这并不意味着HYFTTM指纹数据串仅适用于处理所述特定生物序列数据库中的生物序列。事实上,HYFTTM指纹数据串的通用存储库可例如用于处理更具体的生物序列。在其它情况下,HYFTTM指纹数据串的特定储存库可用于生物序列的上下文中,所述生物序列落在用于制定存储库的数据库之外。在两种情况下,仍然可获得有利的结果。在任何情况下,人们总是可通过反复试验来确定现有HYFTTM指纹数据串的存储库是否可用于特定应用,或使用专用于HYFTTM指纹数据串的存储库是否可获得更好的结果。同样,HYFTTM指纹数据串的存储库并不严格地需要涵盖可在生物序列数据库中发现的所有HYFTTM指纹。事实上,部分存储库已经产生了有益的结果。此部分存储库可例如是与选定长度的HYFTTM指纹(即,与任何长度的HYFTTM指纹相反)相关的存储库。
本发明利用指纹数据串的储存库。因此,描述了用于生物序列数据库的指纹数据串的存储库,每个指纹数据串表示由序列单元构成的特征生物子序列,每个特征生物子序列在生物序列数据库中具有小于其可用的不同序列单元的总数的组合数,生物子序列的组合数定义为作为生物子序列的连续序列单元出现在生物序列数据库中的不同序列单元的数目。在图4中示意性地描绘指纹数据串的存储库(例如数据库)100,其将在下文更详细地讨论。
本发明的实施方案的优点在于,可提供对应于特征生物子序列的指纹数据串的存储库。本发明的实施方案的另一个优点在于,生物子序列不必是单一长度,例如k-mer的情况。
本发明的实施方案的优点在于,其它数据,例如元数据,可包含在存储库中,例如关于序列单元的数据,其可与特征生物子序列连续(即直接在特征生物子序列之后或直接在特征生物子序列之前),关于特征生物子序列的二级/三级/四级结构的数据(例如当所述特征生物子序列存在于生物聚合物中时)、关于指纹之间的关系的数据(例如与特征生物子序列和一个或多个其它特征生物子序列之间的关系相关的数据)等。
在实施方案中,存储库可至少包括表示第一长度的第一特征生物子序列的第一指纹数据串和表示第二长度的第二特征生物子序列的第二指纹数据串,其中第一长度和第二长度等于4或更大,并且其中第一长度和第二长度彼此不同。
在实施方案中,长度可对应于序列单元的数目。在实施方案中,长度可高达500或更小,例如高达100或更小,优选地50或更小,还更优选地20或更小。在实施方案中,第一长度和第二长度可等于或大于5,优选地等于或大于6。在实施方案中,特征生物子序列的长度可介于4至20之间,优选介于5至15之间,还更优选介于6至12之间。
在实施方案中,指纹数据串的存储库可包括彼此长度不同的至少3个指纹数据串,优选地至少4个,还更优选地至少5个,最优选地至少6个。由于特征生物子序列不是由其长度定义的,而是由跟随(或先于)其的可能的序列单元的数目定义的,因此特征生物子序列的集合通常有利地包括不同长度的子序列。本发明中的指纹数据串的存储库与例如k-mer的集合(如本领域已知的)的不同之处在于,其包括不同长度的生物子序列。此外,k-mer的集合通常包括固定长度k的每个排列(即序列单元的每个可能的组合);对于当前的指纹数据串的存储库而言,情况并非如此。
在实施方案中,指纹数据串可以是蛋白质指纹数据串、DNA指纹数据串或RNA指纹数据串或其组合。在实施方案中,特征生物子序列可以是特征蛋白质子序列、特征DNA子序列或特征RNA子序列。在实施方案中,指纹数据串的存储库可包括蛋白质指纹数据串、DNA指纹数据串、RNA指纹数据串或这些的一个或多个的组合(例如由蛋白质指纹数据串、DNA指纹数据串、RNA指纹数据串或这些的一个或多个的组合组成)。在实施方案中,特征蛋白质子序列可翻译成特征DNA或RNA子序列,且反之亦然。这种翻译可基于众所周知的DNA和RNA密码子表。类似地,蛋白质指纹数据串可翻译成DNA或RNA指纹数据串。在实施方案中,DNA或RNA指纹数据串的存储库可包括关于等效密码子(即,编码相同氨基酸的密码子)的信息。这种关于等效密码子的信息可同样包含在指纹数据串中,或与此分开存储于存储库中。在特定实施方案中,指纹数据串可呈与序列无关的格式;这意味着指纹数据串和周围的系统和过程使得其可快速地与DNA、RNA和蛋白质序列进行比较。这可例如通过使使用指纹数据串的方法在运行中进行必要的翻译来实现。此类指纹数据串有利地允许制定普遍适用于跨序列类型的数据串的单个存储库。
在实施方案中,指纹数据串的存储库可进一步包括用于指纹数据串中的至少一个的额外数据。在优选实施方案中,所述数据可包含在指纹数据串中。在替代实施方案中,所述数据可与指纹数据串分开存储。在实施方案中,额外数据可包括组合数据、结构数据、关系数据、位置数据和方向数据中的一个或多个。
在实施方案中,组合数据可以是与一个或多个序列单元相关的数据,当所述特征生物子序列存在于生物序列中时,所述序列单元可与特征生物子序列连续(例如可真实地直接出现在其之前或之后,例如那些稳定的组合)。在实施方案中,组合数据可包括可能的序列单元的数目、可能的序列单元本身、每个序列单元的可能性(例如概率)等。
在实施方案中,结构数据可以是嵌入在指纹数据串中的结构信息和/或空间形状信息,例如当所述特征生物子序列存在于生物聚合物中时与特征生物子序列的二级/三级/四级结构相关的数据。在实施方案中,结构数据可包括可能结构的数目、可能的结构本身、每个结构的可能性(例如概率)等。在用于给定的特征生物子序列的多个可能的二级/三级/四级结构的情况下,在实施方案中,存储库可包括用于特征生物子序列和相关联的二级/三级/三级结构的每个组合的单独条目。在替代实施方案中,存储库可包括一个条目,所述条目包括特征生物子序列和多个与其相关联的二级/三级/四级结构。在实施方案中,二级/三级/四级结构可能对蛋白质比对DNA和RNA更相关——尤其是四级结构。
在实施方案中,关系数据是与特征生物子序列与一个或多个另外的特征生物子序列之间的关系相关的数据。在实施方案中,关系数据可包括通常出现在其附近的另外的特征生物子序列,另外的特征生物子序列出现在其附近的可能性,这些特征生物子序列彼此靠近出现的特定意义(例如生物学相关意义,例如性状或二级/三级/四级结构)等。在实施方案中,可以两个或更多个特征生物子序列之间的路径的形式来表达关系。在实施方案中,关系可包括特征生物子序列的顺序和/或其间距。在实施方案中,额外数据还可包括用于构建所述路径的元数据。
在实施方案中,位置数据可以是与相对于指纹数据串(例如在其代表的特征生物序列之间)的间距相关的数据。
在实施方案中,方向数据可以是与指纹数据串(例如其代表的特征生物序列)的方向(例如固有方向)相关的数据。
在一些实施方案中,可能已经从已知数据集中检索到额外数据;例如在本领域中可获得几种生物序列的二级/三级/四级结构。在其它实施方案中,可从如下所描述的处理过的生物序列或从如下所描述的处理过的生物序列的存储库中提取额外数据。举例来说,在如下所描述地处理生物序列(或如下所描述地构建处理过的生物序列的存储库)之后,可提取特征生物子序列(例如路径)之间的关系并将其添加到指纹数据串的存储库中;这在图4中通过从处理过的生物序列210和处理过的生物序列的存储库220指向指纹数据串的存储库100的虚线箭头示意性地描绘。
在实施方案中,指纹数据串可被固有地定向。在实施方案中,指纹数据串可包括方向(即可明确地包括方向)。由于HYFTTM指纹是基于生物聚合物或生物聚合物片段中出现的实际片段定义的,因此对于生物聚合物中出现的组合可能性本质上发生的固有物理、化学和结构限制固有地存在于HYFTsTM中;其中“固有地存在”被理解为此类信息被(或至少可)隐含地与HYFTTM相关联,即使其没有明确作为额外数据包含在存储库中。因此,由于生物序列本身通常具有固有的方向性(即根据DNA/RNA中的5'到3'方向和蛋白质中的N端到C端),因此这种相同的方向性固有地存在于HYFTsTM中。这种与实际片段的链接进一步定义了在HYFTTM的最后一个字符之后或在第一个字符之前可跟随的生物聚合物片段的最大数量的限制。后者还可通过表示随后或先前可能组合的总量的参数(即组合数)明确表达。这也导致HYFTTM具有固有的(严格的)方向。
在实施方案中,指纹数据串可包括位置信息。HYFTsTM中的字符以及HYFTsTM之间的字符在句法级别上是相互关联的,且因此可定义其之间或不同HYFTsTM之间的间距。此类位置或间距属于可固有地存在于HYFTsTM中的位置信息。
在实施方案中,指纹数据串还可包括结构和/或空间形状信息。某些HYFTsTM或HYFTsTM的组合的可能结构和/或空间形状也由于固有的物理、化学和结构限制而受到限制。此类信息还固有地存在于HYFTsTM或相关的HYFTsTM集合中。
在第一方面,本发明涉及一种考虑到包含在指纹数据串的存储库中的信息,对生物聚合物或生物聚合物片段进行测序的方法,方法包括:(a)使用测序器获得所述生物聚合物或生物聚合物片段的至少一个读段,和(b)通过以下计算机实现的步骤处理读段:(b1)在读段中搜索由指纹数据串表示的特征生物子序列的一个或多个的出现和(b2)通过在每次出现时确定与特征生物子序列连续的序列单元是否与存储库中的组合数据一致来验证或拒绝读段,和/或(b1')在读段的头部和/或尾部中搜索由指纹数据串表示的特征生物子序列中之一个的出现和(b2')从存储库中的组合数据预测读段的一个或多个连续序列单元。在本文中,指纹数据串的存储库用于生物序列数据库,每个指纹数据串表示由序列单元构成的特征生物子序列,每个特征生物子序列在生物序列数据库中具有小于其可用的不同序列单元的总数的组合数,生物子序列的组合数定义为作为生物子序列的连续序列单元出现在生物序列数据库中的不同序列单元的数目,存储库进一步包括表示作为对应特征生物子序列的连续序列单元出现在生物序列数据库中的不同序列单元的组合数据。图3示意性地展示了测序器350,其使用包含在指纹数据串的存储库100中的信息对生物聚合物(片段)500进行测序。
在实施方案中,所获得的读段可以是初始的(例如临时的或部分的)生物序列。
在实施方案中,步骤b1和/或步骤b1'中的搜索可如针对下文所描述的用于处理生物序列的方法的步骤b所描述。
相对于步骤b2,由于存储库含有关于可在HYFTTM指纹之后(例如之前或之后)出现的序列单元的组合数据,所以这些信息可有利地用于验证读段是否与其一致。如果不是,则可拒绝并重做临时生物序列。替代地,可通过将其与未发现的生物序列直接匹配而不是将读段与HYFTTM指纹本身进行匹配来实现相同的目的(参见上文)。替代地,这种一致性验证可与例如结构数据,关系数据,位置数据和/或方向数据的额外数据的使用组合(参见上文)。此类组合可例如允许拒绝与已知的HYFTTM指纹确实一致但不在由额外数据设置的上下文中的读段。
相对于步骤b2',基于相同的组合数据,已知一些HYFTTM指纹(或HYFTTM指纹的组合)具有非常有限的组合可能性(即对应于低组合数)。例如,在组合数为1的HYFTTM指纹的情况下,下一个序列单元是已知的。此信息可有利地用于通过直接将所述序列单元附加到读段来加速测序;从而允许实际测序跳过所述序列单元。在实施方案中,存储库可含有关于一系列两个、三个或更多个序列单元的数据,这些序列单元一起是在特定HYFTTM指纹之后出现的唯一可能选项。在这种情况下,整个系列可有利地直接附加到读段;从而允许实际测序跳过这些单元。类似地,如果存储库指示对于观察到的HYFTTM指纹,有限数目(但超过1个)的选项可作为其它序列单元(例如两个或三个选项),则这些信息仍然可允许测序器更快地识别本实例中的特定序列单元。此外,对于具有低组合数的此类HYFTTM指纹,通过将组合数据与额外数据的使用组合,可将当前情况下的可能性的数目降低到1(或者至少可能性因此可超过预定阈值)。类似地,此组合可设置允许拒绝一些组合可能性的上下文,从而例如将剩余数目减少到1并且因此揭示随后的序列单元。
在实施方案中,步骤b2和/或b2'可因此包括使用结构数据、关系数据、位置数据和方向数据中的一个或多个;如上文相对于指纹数据串的存储库所描述。
在实施方案中,测序可包括使用测序器(例如测序系统)获得用于所述生物聚合物或生物聚合物片段的多个读段。在实施方案中,可在获得生物聚合物或生物聚合物片段的所有读段之前开始步骤b。
在实施例中,步骤b可包括解析读段(例如使用指纹数据串的所述存储库的信息);例如根据下文所描述的用于处理生物序列的方法。在实施方案中,步骤b可包括在获得生物聚合物或生物聚合物片段的所有读段之前解析多个读段中的至少一个。
在实施方案中,方法可包括比对(例如匹配)处理过的读段的另一个步骤(例如包括在步骤b中);例如通过根据如下文所描述的用于比较生物序列的方法进行比对和/或组装。在实施方案中,比对可包含使用在步骤b1和/或b1'中识别的特征生物子序列。在实施方案中,指纹数据串可以是固有定向的,且可包括位置信息。在实施方案中,所述比对可包括将处理过的读段与定向图进行比对。在实施方案中,方法可包括在获得生物聚合物或生物聚合物片段的所有读段之前比对多个处理过的读段中的至少一个。在至少一些实施方案中,所述比对可以是将处理过的读段与定向的非循环图进行比对。
在一些实施方案中,可使用Navarro-Levenshtein匹配来执行比对。对Navarro-Levenshtein匹配的更详细描述可例如在Navarro,Theoretical Computer Science 237(2000)455-463中找到。基于上文所描述的数据处理步骤中的一个或多个中的结果,可产生关于测序的反馈信息。此类信息可用于控制测序过程或用于控制对应数据处理。此类控制可包括终止测序过程,例如如果出现可用的足够信息,那么将一个或多个读段识别为错误的且在进一步的数据处理中忽略这些……
然而,在现有技术中,组装步骤通常可仅在测序完全完成之后开始,这是因为此测序例如定义了必要的k-mer表,所述k-mer表可仅在所有读段信息可用时构建,根据本发明的实施方案的方法和系统允许构造子图和获得读段的渐进和并行过程。以这种方式,有利地,可以执行对所产生的读段的立即分析,即使例如测序仍在运行且并非所有读段都可用。后者允许对数据进行动态分析,由此在数据产生期间执行数据分析,例如序列数据产生。在一些实施方案中,序列数据分析将能够与数据产生,例如序列数据产生同步执行。尽管如此,应注意,数据分析也可替代地与数据产生分开执行。
上述原理导致了快速的数据分析系统和方法。上述原理进一步允许将序列分析直接并入到测序机(即测序器;参见下文)中,因此允许快速的序列数据产生和分析,甚至任选地进行在线分析。以这种方式,相关输出可能已经产生于测序器中。替代地,可经由流数据连接(参见下文)将测序器与数据处理系统连接来实现类似优点;例如在分布式计算环境中。
在实施方案中,方法进一步可包括识别组装的生物序列的变化;例如插入缺失突变、删除、插入和/或重复。
在实施方案中,方法可进一步包括通过对处理过的读段进行排序来折叠其。应注意,本发明的实施方案中的折叠步骤不是基于动态规划的。每个HYFTTM具有特定数量的位,可通过香农熵降低/优化。HYFTsTM和附加的读段可根据其拥有的信息量(位)进行排序或分类。由于这对于每个HYFTTM并不相等,因为下一个组合数可达到n-1,因此将存在HYFTsTM和具有非常少量的位的对应读段模式以及HYFTsTM和需要较高数量的位的读段模式。因此,在排序机制中,可使就绪全局位阈值以优化计算过程期间的每个时刻使用的位量。并且最多充分地最大化必须通过并行化使用的硬件,以便执行这些给定的任务。以这种方式,可执行并行化,这导致加速和真正的优化。在一些实施方案中,可基于长度执行排序。在实施方案中,可基于HYFTTM在读段中的位置进行分类。
在实施方案中,方法可进一步包括将所获得的数据转换为子读段图和/或读段图。
在实施方案中,方法可进一步包括去除死端和/或环。
在实施方案中,方法可包括基于从所述处理和/或比对获得的信息动态地调适所述测序。在实施方案中,所述动态调适可包括提供关于需要使用测序系统获得的读段的数目的反馈。在实施方案中,所述动态调适可包括基于从所述处理和/或比对获得的信息提供关于将被忽略为错误读段的读段的反馈。
在实施方案中,方法可包括朝向或直到读段的回溯。在实施方案中,方法可进一步包括捕获元数据,例如读段ID并且在整个过程中保持所述读段ID。这可有利地促进回溯,例如回溯读段的误差或不确定性。
根据本发明的实施方案,可在单独的线程中执行子图的构造和对应的处理。这可例如通过固有地可在根据本发明的实施方案中引入的自动完成功能来额外地促进。如果在图或子图构造中达到某个置信度阈值(与足够的覆盖率相当),则不需要其它读段信息来完成原始串重构。此类信息可用作反馈,且可基于此类信息决定终止测序。后者可基于人为干预来执行,但也可以是自动化的,且控制器可使用来自系统的反馈来确定何时应终止测序。
根据本发明的实施方案,方法可包括产生反馈信息的步骤和基于反馈信息控制测序的步骤。控制测序的此类步骤可包括以下中的一个或多个:基于获得的足够信息决定何时可终止测序、决定鉴于检测到的误差不应使用某些读段、决定收集其它或不同类型的读段……
在第二方面,本发明涉及一种适于执行根据第一方面的任何实施例的方法的步骤a的测序器。图3示意性地展示了测序器350,其使用包含在指纹数据串的存储库100中的信息对生物聚合物(片段)500进行测序。
在一些实施方案中,测序器可适于执行根据第一方面的任何实施方案的方法(例如执行步骤a和b)。
在其它实施方案中,测序器可适于将读段传输到数据处理系统(例如用于执行步骤b)。在实施方案中,测序器可进一步适于从数据处理系统接收反馈(例如在步骤b之后或期间)。接收到的反馈可例如是数据处理系统的输出或者可以是用于测序器的指令。指令可根据动态调适测序方法(参见上文)且可例如包括关于是否终止测序、是否重新获得某些读段等的反馈。
在实施方案中,测序器可为DNA、RNA测序器或蛋白质测序器或其组合。在实施方案中,测序器可为阵列机器。举例来说,测序器可以是第一代、下一代或第三代DNA/RNA测序器、微阵列或质谱设备。在实施方案中,测序器可组合多种测序技术,例如在基因表达阵列中。
测序器通常是更专用的设备且通常可包括用于执行测序的其它技术装置。然而,这并不排除测序器也可配置成还执行一种或多种其它方法(例如序列组装);在这种情况下,测序器例如也可称为序列组装器。类似地,测序器可以是分布式计算环境(参见下文)的部分,其中例如客户端测序器执行物理测序且与基于云的数据处理系统通信。
此类测序器可以是这样的测序器,或测序器和序列组装器的组合。在实施方案中,测序器可适于获得生物聚合物或生物聚合物片段的读段,且用于在读段所有读段之前分析读段;例如与接收另外的读段同时进行。在实施方案中,测序器可因此包括用于在获得另外的读段的同时处理传入读段的处理器。此外,一些实施方案中的测序器可包括用于根据所获得的结果控制接收读段和/或数据处理中的任一个的控制器。因此,控制器可包括用于基于从用于处理传入读段的处理器获得的反馈来控制测序器的反馈回路。
在第三方面,本发明涉及一种系统,其包括:(i)根据第二方面的测序器,和(ii)数据处理系统,其适于从测序器接收读段,且通过执行根据第一方面的任何实施方案的方法的步骤b来处理读段。
在实施方案中,数据处理系统可相对于测序器位于现场(例如在同一房间中)或场外(例如在云中)。
在第四方面,本发明涉及一种包括指令的计算机程序,所述指令在由计算机执行程序时使得计算机执行根据第一方面的任何实施方案的方法。
在第五方面,本发明涉及一种包括指令的计算机可读介质,所述指令在由计算机执行时使得计算机执行根据第一方面的任何实施方案的方法。
还描述了一种用于构建和/或更新如上文所描述的指纹数据串的存储库的计算机实现的方法,其包括:(a)识别生物序列数据库中的特征生物子序列,特征生物子序列具有小于其可用的不同序列单元的总数的组合数,生物子序列的组合数定义为作为生物子序列的连续序列单元出现在生物序列数据库中的不同序列单元的数目;(b)任选地,将识别出的特征生物子序列翻译成一个或多个另外的特征生物子序列;以及(c)用表示识别出的特征生物子序列和/或一个或多个另外的特征生物子序列的一个或多个指纹数据串填充所述存储库。
还描述了一种用于处理生物序列的计算机实现的方法,其包括:(a)从如上文所描述的指纹数据串的存储库中检索一个或多个指纹数据串,(b)在生物序列中搜索由一个或多个指纹数据串表示的特征生物子序列的出现,以及(c)构造处理过的生物序列,其包括对于步骤b中的每次出现,与表示出现的特征生物子序列的指纹数据串相关联的指纹标记。图4示意性地展示了序列处理单元310,其使用指纹数据串的存储库100处理生物序列200,从而获得处理过的生物序列210。
本发明的实施方案的优点在于,可相对容易且有效地处理生物序列。本发明实施方案的另一个优点在于,可以词法或甚至语义方式分析生物序列。
本发明的实施方案的优点在于,可通过用与对应指纹数据串相关联的标记替换其中识别的特征生物子序列来构造处理过的生物序列。
本发明的实施方案的优点在于,可以多种方式处理生物序列的不对应于特征生物子序列中的一个的部分。一些实施方案的另一个优点在于,可以完全无损的方式处理生物序列(即,没有信息因处理而丢失)。本发明的替代实施方案的另一个优点在于,可以用更压缩的格式提取更重要的信息的方式来处理生物序列。
本发明的实施方案的优点在于,可压缩处理过的生物序列,使得其占用比未处理的对应物更少的存储空间。
本发明的实施方案的优点在于,将生物序列的部分与特征生物子序列匹配不仅限于一级结构,而且还可考虑二级/三级/四级结构。
本发明的实施方案的优点在于,可基于其中含有的特征生物子序列的已知二级/三级/四级结构至少部分地阐明生物子序列的二级/三级/四级结构。本发明的实施方案的另一个优点在于,可辅助或促进生物序列设计(例如蛋白质)设计。
在实施方案中,待处理的生物序列可以是可通过用于根据第一方面测序的方法获得的生物聚合物片段的生物序列。
在一些实施方案中,标记可以是参考串。此类参考串可例如指向存储库中的对应指纹数据串。在其它实施方案中,标记可以是指纹数据串本身或其一部分。
在实施方案中,生物序列可包括:(i)一个或多个第一部分,每个第一部分对应于由一个或多个指纹数据串表示的特征生物子序列中的一个,以及(ii)一个或多个第二部分,每个第二部分不对应于由一个或多个指纹数据串表示的特征生物子序列中的任何一个。在实施方案中,在步骤c中构造处理过的生物序列可包括用对应标记替换至少一个第一部分。在实施方案中,在步骤c中构造处理过的生物序列可进一步包括将关于所述第一部分的位置信息添加到处理过的生物序列(例如附加到标记)。在实施方案中,在步骤c中构造处理过的生物序列可包括保持至少一个第二部分不变,和/或用所述第二部分的长度的指示替换至少一个第二部分,和/或完全去除至少一个第二部分。当保持第二部分不变时,有利地能够以完全无损的方式处理生物序列。
在实施方案中,可以压缩格式配制处理过的生物序列。例如,通过用参考串替换特征生物子序列(即第一部分)和/或通过用其长度的指示替换第二部分或完全去除第二部分,获得了需要比原始(即,未处理的)生物序列更少的存储空间的处理过的生物序列。可通过利用可由其相互关系表示多个指纹的路径来实现额外数据压缩。
在实施方案中,一个或多个指纹数据串可以是与生物序列不同的生物格式(例如蛋白质对DNA对RNA序列信息),并且步骤b可进一步包括在搜索之前翻译或转录特征生物子序列。
在实施方案中,步骤b中的搜索可包含搜索部分匹配或等效匹配(例如等效密码子,或产生相同二级/三级/四级结构的不同氨基酸)。在实施方案中,步骤b中的搜索可考虑特征生物子序列的二级/三级/四级结构。二级、三级和四级通常在进化上更保守,并且经常在一级结构中发生不改变生物聚合物的功能的变化,例如,因为其活性位点的二级/三级/四级结构是基本上保守的。因此,二级/三级/四级结构可揭示关于生物聚合物的相关信息,这些信息在严格搜索完全匹配的一级结构时将会丢失。
在优选实施方案中,可以特定的顺序执行在步骤b中搜索特征生物子序列的出现。在实施方案中,顺序可基于特征生物子序列的长度和组合数。在实施方案中,可按照以具有最低组合数的最长特征生物子序列开始并且以具有最高组合数的最短特征生物子序列结束的顺序执行搜索。在优选实施方案中,顺序可以是从最长特征生物子序列到最短特征生物子序列,并且——对于相同长度的特征生物子序列——从最低组合数到最高组合数。在其它实施方案中,顺序可为从最低组合数到最高组合数,并且——对于具有相同组合数的特征生物子序列——从最长特征生物子序列到最短特征生物子序列。在实施方案中,顺序可进一步考虑额外数据(例如,以确定具有相同长度和相同组合数的特征生物子序列的集合内的顺序),例如上下文数据。
在实施方案中,方法可包括在步骤c之后的基于如上文所描述的结构数据至少部分地推断处理过的生物子序列的二级/三级/四级结构的另一个步骤d。对二级/三级/四级结构的这种至少部分的阐明可帮助和/或促进生物序列设计。在其中特征生物子序列的单个一级结构链接到多个二级或三级或四级结构的实施方案中,二级/三级/四级结构可基于发现特征生物子序列的上下文,例如其所围绕的特征生物子序列来消除歧义。举例来说,可在指纹数据串的存储库中找到此类消除歧义所需的信息,所述信息呈与特征生物子序列与一个或多个另外的特征生物子序列之间的二级/三级/四级结构方面的关系相关的数据(例如,关系数据)的形式,如上文所描述。举例来说,可能已知特定的第一HYFTTM指纹采用螺旋或转角配置作为二级结构,但当特定的第二HYFTTM指纹存在于距所述第一HYFTTM一定间距内时总是采用螺旋配置。在这种情况下,HYFTTM指纹的HYFTTM模式——如果观察到——可用于消除第一个HYFTTM的二级结构的歧义。
在其中指纹数据串是固有定向的并且包括位置信息的实施方案中,步骤c可包括将处理过的生物序列构造为有向图。在实施方案中,有向图可以是有向非循环图。应注意,当提到非循环图时,这并不意味着不能出现环,而是意味着整个图不是循环的。如在本发明的实施方案中获得的重构序列的结果图表示可称为HYFTTM图。此HYFTTM图可允许通用基因组图表示。
在实施方案中,构造处理过的生物序列可包括考虑不同指纹数据串之间的间距,和/或可包括考虑指纹数据串的方向(例如固有方向)以构造有向图。
在实施方案中,构造处理过的生物序列可包括考虑嵌入在指纹数据串中的用于构造有向图的结构和/或空间形状信息,和/或可包括考虑嵌入在指纹数据串中的句法信息。
在实施方案中,步骤b中的搜索可考虑特征生物序列的不同元素之间的位置信息、间距信息、特征生物子序列的二级和/或三级和/或四级结构和/或特征生物子序列的结构变化中的任一个。
作为说明,本发明的实施方案不限于此,下文展示了如何搜索某个序列的实例。方法包括在第一步骤中识别存在于待搜索的序列中的HYFTTM。方法接着进一步包括通过搜索参考数据库中也含有所述HYFTTM的所有序列来查询参考数据库。接着对找到的不同序列进行排序,例如按长度排序,并且识别HYFTTM在序列中的位置。此外,执行比对。在一些实施方案中,可使用Navarro-Levenshtein匹配来执行比对。对Navarro-Levenshtein匹配的更详细描述可例如在Navarro,Theoretical Computer Science 237(2000)455-463中找到。可使用定向图,例如定向非循环图来执行比对。后者可以是通用基因组参考图,但实施方案不限于此。比对可包含识别特定序列的变化。为了执行以上步骤,可进一步处理序列,由此例如可去除死端和环。
还描述了一种处理过的生物序列,其可通过如上文所描述的用于处理生物序列的计算机实现的方法获得。图4中示意性地描绘了处理过的生物序列210。
还描述了一种用于构建和/或更新处理过的生物序列的存储库的计算机实现的方法,其包括用如上文所描述的处理过的生物序列填充所述存储库。图4示意性地展示了将处理过的生物序列210存储到处理过的生物序列的存储库220中的储存库构建单元320。
本发明的实施方案的优点在于,可构造和存储处理过的生物序列的存储库。
还描述了一种处理过的生物序列的存储库,其可通过用于构建和/或更新如上文所描述的处理过的生物序列的存储库的计算机实现的方法获得。图4中示意性地描绘了存储库220。
一个优点是,可快速搜索和导航处理过的生物序列的存储库。另一个优点是,与已知数据库相比,通过用压缩的处理过的生物序列填充存储库,存储库的存储大小可相对较小。
在实施方案中,处理过的生物序列的存储库可与指纹数据串的存储库组合。
在实施方案中,存储库可以是处理过的生物片段序列(即,生物聚合物片段的处理过的生物序列)的存储库。
在实施方案中,存储库可以是数据库。在一些实施方案中,处理过的生物序列的存储库可以是索引存储库。举例来说,可基于存在于每个处理过的生物序列中的指纹标记(对应于特征生物子序列)对存储库进行索引。在其它实施方案中,存储库可以是图形存储库。
还描述了一种用于将第一生物序列与第二生物序列进行比较的计算机实现的方法,其包括:(a)通过如上文所描述的计算机实现的方法处理第一生物序列以获得处理过的第一生物序列,或从如上文所描述的处理过的生物序列的存储库中检索处理过的第一生物序列,(b)通过如上文所描述的计算机实现的方法处理第二生物序列以获得处理过的第二生物序列,或从如上文所描述的处理过的生物序列的储存库中检索处理过的第二生物序列,以及(c)至少将处理过的第一生物序列中的指纹标记与处理过的第二生物序列中的指纹标记进行比较。图5示意性地展示了比较单元330,其至少将第一生物序列211与第二生物序列212进行比较以输出结果400。
本发明的实施方案的优点在于,生物序列的比较可从NP-完全问题或NP-困难问题改变为多项式时间问题。本发明的实施方案的另一个优点在于,所述比较可在大大减少的时间内执行,并且可随着复杂度的增加(例如,生物序列的长度或数目的增加)很好地扩展。本发明的实施方案的又另一个优点在于,可减少所需的计算能力和存储空间。
本发明的实施方案的优点在于,可计算生物序列之间的相似性程度。本发明的实施方案的另一个优点在于,可基于多个生物序列的相似性程度对其进行排序。
本发明的实施方案的优点在于,可快速且容易地(例如在多项式时间内)执行序列相似性搜索。
本发明的实施方案的优点在于,可容易且快速地(例如在多项式时间内)比对所比较的生物序列。
实施方案的优点在于,也可容易且快速地比较和比对多个序列。实施方案的另一个优点在于,在比对期间没有误差累积,如在当前已知的方法(例如,基于渐进比对)中的情况。
本发明的实施方案的一个优点在于,可容易且快速地比对和合并生物聚合物片段的序列以重构原始生物聚合物序列。
通过使用根据本发明的实施方案的特征生物子序列(通过处理过的生物序列中的指纹标记),比较序列的问题有利地从NP-完全或NP-困难问题重新表述为多项式时间问题。实际上,识别序列中的指纹且随后基于这些指纹比较序列(其可被认为是词法方法)在计算上比当前使用的算法(其例如基于滑动窗口方法比较全序列)简单得多。因此,即使在需要更少的计算能力和存储空间时,所述比较也可显著更快地执行,并且可随着复杂度的增加(例如,生物序列的长度或数目的增加)而很好地扩展。
在实施方案中,第二生物序列可以是参考序列。
在实施方案中,步骤c可包括识别处理过的第一生物序列中的一个或多个特征生物子序列(由指纹标记表示)是否与处理过的第二生物序列中的一个或多个特征生物子序列(由指纹标记表示)对应(例如匹配)。在实施方案中,步骤c可包括识别对应的特征生物子序列在处理过的第一生物序列中是否以与在处理过的第二生物序列中相同的顺序出现。在实施方案中,步骤c可包括识别处理过的第一生物序列中的一对或多对特征生物子序列和处理过的第二生物序列中的一对或多对对应特征生物子序列是否具有相同或相似(例如,相差小于1000个序列单元,例如小于100个序列单元,优选地小于50个序列单元,还更优选地小于20个序列单元,最优选地小于10个序列单元)间距。
在实施方案中,步骤c可进一步包括将处理过的第一生物序列的一个或多个第二部分与处理过的第二生物序列中的一个或多个第二部分进行比较。在实施方案中,比较一个或多个第二部分可包括比较对应的第二部分(即,出现在处理过的第一生物序列中的相邻对特征生物子序列之间的第二部分与出现在处理过的第一生物序列中的对应相邻对特征生物子序列之间的第二部分)。
在实施方案中,步骤c可进一步包括计算表示第一生物序列与第二生物序列之间的相似性程度(例如Levenshtein距离)的度量。在实施方案中,可基于多个变量来计算相似性程度,例如将语法相似性的度量与结构相似性的度量组合。
在实施方案中,通过将查询序列与一个或多个其它生物序列(例如,对应于待搜索的序列数据库,例如呈处理过的生物序列的存储库的形式)进行比较,方法可用于序列相似性搜索中。在实施方案中,可计算其它生物序列中的每一个的相似性程度。在实施方案中,方法可包括对生物序列进行排序(例如通过降低相似性程度)的另一步骤。在实施方案中,方法可包括过滤生物序列。可在步骤c之前和/或之后执行过滤。举例来说,可通过仅从数据库中选择那些符合特定标准的生物序列进行比较来执行过滤,例如基于其所源自的生物体或生物体群(例如植物、动物、人类、微生物等)、是否已知二级/三级/四级结构、其长度等。替代地,可在执行比较之后基于相同的标准或基于计算的相似性程度(例如,仅可选择那些超过某个相似性阈值的序列)来执行过滤。与现有技术中的序列相似性搜索相反,其中通常需要比对步骤,接着从中建立相似性的度量,根据实施方案,比对对于相似性搜索并不是严格必要的。事实上,在没有比对的情况下,通过简单地搜索具有相同指纹的序列(任选地还考虑其顺序和其间距),可能已找到相似的序列;这反过来又允许进一步加快搜索速度。尽管如此,根据实施方案(参见下文)的比对也在计算上被简化,使得可选择以任何方式进行比对,即使没有严格的要求。
本方法因此允许确定(和任选地测量)第一生物序列与第二生物序列之间的相似性。此类比较也是其它方法的基石,例如用于比对和组装的方法(参见下文)。
在实施方案中,方法可用于将第一生物序列与第二生物序列进行比对。在实施方案中,步骤c可进一步包括将处理过的第一生物序列中的指纹标记与处理过的第二生物序列中的指纹标记进行比对。图5示意性地展示了来自比较单元330(其在这种情况下更好地称为“比对单元330”)的输出结果400,其中生物序列通过其指纹标记进行比对。
因此,在实施方案中也简化了比对,因为通过简单地比对指纹可能已经获得良好的比对。再一次,这显著降低了问题的计算复杂度。此外,在现有技术方法中,例如基于渐进比对的那些方法,存在比对误差的累积,因为较早序列中的一个的未比对通常会传播且在较后序列中引起额外的未比对。相反,由于每次都是在一个(多个)比对内比对(或至少试图比对)同一离散集的指纹标记,因此不存在此类误差传播。
在实施方案中,方法可进一步包括随后比对对应的第二部分。例如,可使用现有技术中已知的比对方法中的一个来执行第二部分的比对。实际上,由于比对的“骨架”已通过比对指纹标记提供,因此仅留下这些标记之间的比对来充实。由于与总生物序列长度相比,这些第二部分中的每一个通常相对较短,因此已知方法通常可相对快速且有效地执行此类比对。
在实施方案中,方法可用于执行多序列比对(即方法可包括比对三个或更多个生物序列)。在实施方案中,方法可包括将处理过的第三(或第四等)生物序列中的指纹标记与处理过的第一和/或第二生物序列中的指纹标记进行比对。这在图5中示意性地描绘,其中比对单元330还可比较和比对任意数目的进一步处理过的生物序列213到216。
在实施方案中,方法可用于变体识别。在两个生物序列之间的序列比对的情况下,变体识别可识别查询序列与参考序列之间的变体(例如突变)。在多个序列比对的情况下,变体识别可识别相关序列的集合中的可能的变化(其可包含确定其出现频率);任选地相对于参考序列。此外,可基于一级结构识别变体,但也可考虑二级/三级/四级结构。因此,可基于一级结构,基于二级/三级/四级结构,并且还基于与序列中的HYFTTM相关或与相对于下一个或前一个HYFTTM的距离信息相关的距离的每种可能的相互关系来识别变体。识别变体还可基于密码子表的变化,因此允许在同一变体分析中收集有关DNA、RNA和氨基酸变化的即时信息。
在实施方案中,方法可用于执行序列组装。在实施方案中,方法可包括:(a)提供第一生物序列,第一生物序列是第一生物聚合物片段的生物序列,(b)提供第二生物序列,第二生物序列是第二生物聚合物片段的生物序列或是参考生物序列,(c)如上文所描述将第一生物序列与第二生物序列进行比对,以及(d)将第一生物序列与第二生物序列合并以获得组装的生物序列。图6示意性地展示了序列组装单元340,其通过首先比对(通过其指纹标记)且随后合并任意数目的生物序列500(包括至少第一生物序列501和第二生物序列502)来输出组装的生物序列510。
在实施方案中,可重复方法步骤a至步骤d,以便比对和合并任意数目的生物聚合物片段。
为了便于测序,可将更长的生物聚合物片段化,因为单独片段的测序更快且更容易(例如,其可并行测序);如本领域已知的。接着通常使用序列组装来比对和合并片段序列以重构原始序列;这也可称为“读段映射”,其中来自片段序列的“读段”被“映射”到第二生物聚合物序列。取决于正在执行的序列组装的类型,例如全新组装相对于映射组装,可视情况选择第二生物聚合物序列作为第二生物聚合物片段或参考序列。在本文中,全新组装是不使用模板(例如骨架序列)的从头组装。相反,映射组装是通过将一个或多个生物聚合物片段序列映射到现有骨架序列(例如参考序列)的组装,所述骨架序列通常与待重构序列相似(但不一定相同)。参考序列可例如基于完整的基因组或转录组(的部分),或者可从早期的全新组装中获得。
在实施方案中,方法可包括在步骤d之后的如上文所描述将组装的生物序列与第二生物序列进行比对的另一个步骤e。这种额外比对可用于执行组装的生物序列相对于第二生物序列(例如参考序列)的变体识别。
在实施方案中,指纹数据串可以是固有定向的并且包括位置信息。
在实施方案中,方法还可包括检测变化,例如——实施方案不限于此——插入缺失突变、删除、插入和/或重复。
在实施方案中,提供第一生物序列和/或第二生物序列可使用如上文所描述的方法执行。
还描述了一种存储设备,其包括如上文所描述的指纹数据串的存储库和/或如上文所描述的处理过的生物序列的存储库。
进一步描述了一种处理系统,其包括此类存储设备并且进一步包括适于从存储设备获得指纹数据串和/或适于将指纹数据串存储到存储设备和/或在存储设备中的指纹数据串中搜索的处理器。
还描述了一种数据处理系统,其适于(例如,包括用于其的装置)执行如上文所描述的计算机实现的方法中的任一个。
系统通常可取决于其打算执行的方法而采用不同的形式。在实施方案中,系统可以是或包括序列处理单元、变体识别单元、存储库构建单元、比较单元、比对单元或序列组装单元。在实施方案中,通用数据处理装置(例如个人计算机或智能电话)或分布式计算环境(例如基于云的系统)可被配置为执行这些功能中的一个或多个。分布式计算环境可例如包括服务器设备和联网的客户端设备。在本文中,服务器设备可执行一种或多种方法的大部分,包含存储指纹数据串的存储库和处理过的生物序列的存储库。另一方面,联网的客户端设备可与服务器设备传达指令(例如输入,例如查询序列,以及设置,例如搜索偏好),并且可接收方法输出。
还描述了一种包括指令的计算机程序(产品),当程序由计算机(系统)执行时,所述指令使计算机执行如上文所描述的计算机实现的方法中的任一个。
进一步描述了一种包括指令的计算机程序产品,当程序由计算机系统执行时,所述指令使计算机系统分别从指纹数据串的存储库、在指纹数据串的存储库中或向指纹数据串的存储库执行获取、搜索或存储指纹数据串。
还描述了一种包括指令的计算机可读介质,所述指令在由计算机(系统)执行时使计算机执行如上文所描述的计算机实现的方法中的任一个。
还描述了如上文所描述的指纹数据串的存储库用于选自以下的一种或多种的用途:对生物聚合物或生物聚合物片段进行测序;执行序列组装;处理生物序列;构建处理过的生物序列的存储库;将第一生物序列与第二生物序列进行比较;将第一生物序列与第二生物序列进行比对;执行多序列比对;执行序列相似性搜索和执行变体识别。
还描述了如上文所描述的处理过的生物序列或如上文所描述的处理过的生物序列的存储库用于选自以下的一种或多种的用途:将第一生物序列与第二生物序列进行比较;将第一生物序列与第二生物序列进行比对;执行多序列比对;执行序列相似性搜索和执行变体识别。
在实施方案中,任何上述方面的任何实施方案的任何特征可独立地如针对任何其它方面或其它所描述主题的任何实施方案相应地描述。
现在将通过对若干实施方案的详细描述来描述若干实施方案的各方面。显然,在不脱离本发明的真实技术教导的情况下,可根据本领域技术人员的知识配置本发明的其它实施方案,本发明仅由所附权利要求的条款限制。
实施例1:根据本发明的实施方案的测序
作为说明,本发明的实施方案不限于此,图7中展示了可能的测序实现的实例。附图展示了根据本发明的实施方案的测序方法的可能的不同方法步骤。方法包括,在获得生物聚合物或生物聚合物片段的至少第一读段之后,并且通常在进一步接收待测序的生物聚合物或生物聚合物片段的读段期间,解析传入的,例如接收的,具有指纹的读段,称为HYFTsTM。在解析之后,可以执行比对(例如匹配)以便获得代表生物聚合物或生物聚合物片段的序列的图。可通过与定向图,例如定向非循环图比对来执行比对。后者可以是通用基因组参考图,但实施方案不限于此。比对可包含识别特定序列的变化。然而,可执行中间步骤,例如构建概览图,由此处理过(例如经解析)的序列围绕一个或多个在处理过的序列之间公共的或链接的指纹进行分组,且例如通过在概览图中排序来折叠数据。可一次一个字符地执行此类折叠,并且可在字符不同时分裂节点。方法还可包括形成子读段图,由此在所述步骤中通常去除死端或气泡。应注意,去除死端和/或气泡可替代地或另外在方法的其它步骤中执行。方法还可包括形成读段图,其中组合子读段图。作为进一步说明,本发明的实施方案不限于此,图8至图11中展示了不同的步骤。图7说明了使用HYFTsTM解析传入读段的步骤。应注意,附图中所展示的序列的部分本身并不形成本发明的部分,而仅用于说明对此类数据的处理而引入。在读段中识别存储库的某个指纹,即HYFTTM的出现。图8说明了概览图的构建,由此不同的处理过的序列围绕所找到的链接的HYFTTM进行分组。图9说明了通过排序来折叠构建概述图。后者可一次一个字符地执行,并且当字符不同时通过分裂节点来执行。此外,可保持对覆盖节点的序列的跟踪。通常可从HYFTTM指纹开始并且通常在一个方向上(例如向右)移动。图11说明了清洁步骤,其中去除了松散的末端。替代地或除此之外,也可解决气泡或小的内环。
实施例2:蛋白质数据库的处理
实施例2a:关于蛋白质数据库中发现的HYFTTM指纹的对蛋白质数据库的分析
为了说明HYFTTM指纹在生物序列数据库中的普遍存在,将蛋白质数据库(PDB)作为大型的、普遍可用的生物序列数据库的实例,且使用如上文所描述获得的指纹数据串的存储库根据本发明进行处理。关于各种指标对结果进行了分析,且下文给出了其选择。
图12和图13分别展示了长度高达50和长度高达5000以上的处理过的蛋白质序列的HYFTTM覆盖率(以%计)。此处,覆盖率是总序列长度中序列单元归属于HYFTTM指纹的部分。换句话说,覆盖率是一个或多个第一部分的组合长度除以总序列长度。
对于长度高达5000以上的情况,在图14中展示了逆统计量,即,总序列长度中未被HYFTTM指纹覆盖的部分(或一个或多个第二部分的组合长度除以总序列长度)。
与上述相关联,图15以频率分布的形式给出了每个处理过的序列检索到的HYFTsTM数目的概览。
值得注意的是,这些图表展示在每个处理过的生物序列中发现至少一个HYFTTM指纹;事实上,没有一个PDB序列不被一个或多个HYFTsTM覆盖。此外,HYFTTM模式广泛覆盖长序列,其中覆盖范围通常会随着序列长度的增加而变少。平均而言,实现接近80%的覆盖率。
观察到的典型间距展示于图16中,其描绘在HYFTTM纹之前和之后出现的第二部分的长度的频率分布。
总的来说,上述结果支持实际上每个蛋白质序列(以及通过扩展DNA和/或RNA序列)可基于根据本发明的HYFTTM指纹数据串的存储库重写为一个或多个HYFTsTM的串(即HYFTTM模式)。此外,由于通常达到的良好覆盖率,处理过的序列仍然保留了其未处理的对应物的基本特征;尤其是当不仅保留所识别的HYFTsTM时,还使用额外数据(参见上文)对其进行扩展,例如在所识别的HYFTsTM之前、之间和之后的间距(即第二部分的长度)。可实现基于HYFTTM模式的高性能索引——具有近乎完美的检索率。
实施例2b:所采用的匹配策略的效果
由于在根据本发明处理生物序列时可采用不同的策略,因此研究了两种不同方法之间的差异。在第一方法中,在PDB数据库中的生物序列中搜索HYFTTM指纹的所有出现,包含重叠的HYFTsTM,使得HYFTTM指纹的顺序变得无关紧要。在第二方法中,使用更严格的方式搜索PDB数据库中的生物测序,其中以从最长HYFTTM指纹到最短HYFTTM指纹的顺序执行搜索,并且——在相同的长度的情况下——从最低组合数到最高组合数执行搜索,并且其中不允许HYFTsTM重叠(即,其中被发现对应于HYFTTM的部分从那时起被排除以搜索其它HYFTsTM)。第二方法的目标是识别最少数目的HYFTsTM以描述处理过的生物序列,同时通过不允许重叠且通过支持比不严格的HYFTsTM(即较短的长度和较高的组合数)更严格的HYFTsTM(即更长的长度和更低的组合数),仍然确保序列的良好覆盖。
在图17中相对于彼此绘制了每个生物序列发现的不同匹配的数目。可观察到,对于比第一方法更严格的第二方法,发现了实际上大约少5倍的匹配的大致线性关系。这些更少的匹配相当于增加了处理时间——识别HYFTTM指纹和随后在其它方法中使用处理过的序列——和所需的存储空间;尽管如此,却充分完全地表征了整个序列。因此,认为第二方法达到了最佳平衡并且通常是优选的。
尽管如此,但注意到使用第一方法发现的匹配的数目和性质比可比较的k-mer方法更少且更好。因此,尽管第二方法通常可优于第一方法,但第一方法仍然优于已知技术的方法。
实施例3:现有技术中已知的序列搜索与本文所描述的序列搜索之间的比较
实施例3a:使用短搜索串
基于搜索串“AVFPSIVGRPRHQGVMVGMGQKDSY”执行两次单独的搜索。这对应于长度为25个序列单元的相对较短的蛋白质序列,其可以是例如蛋白质测序中的蛋白质片段。此类搜索可例如在对片段测序之后使用,作为识别与片段一起在序列组装中使用的合适的参考测序的一部分。
第一次搜索使用BLAST(基本局部比对搜索工具)执行;更具体地说使用“蛋白质BLAST”(可在以下网址获得:https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM= blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome)。使用了以下搜索参数:数据库=蛋白质数据库蛋白质(pdb);算法=Blastp(蛋白质-蛋白质BLAST);最大靶标序列=1000;短查=自动调整短输入序列的参数;期望阈值=20000;字长=2;矩阵=PAM30;组成调整=没有调整。BLAST需要超过30秒的时间进行此搜索,之后返回604个搜索结果。
另一方面,基于本发明的原理,确定“IVGRPRHQGVM”是包括在上述短蛋白质序列中的特征生物子序列(即“HYFTTM指纹”)。因此,基于搜索串“IVGRPRHQGVM”在处理过的生物序列的存储库中执行第二次搜索。此存储库基于与BLAST中使用的相同的蛋白质数据库(即蛋白质数据库;PDB),其先前已使用指纹数据串的存储库进行处理(参见上文);即在公开可用的生物序列的集合中识别且标记由指纹数据串表示的特征生物子序列。此搜索返回661个结果。与BLAST相比,在这种情况下所需的时间帧仅为196毫秒。因此,即使对于此类相对较短的序列,观察到与已知技术方法相比,本方法能够将所需时间减少超过150倍。
现在参考图18、图19和图20,其展示了这两种搜索(BLAST=虚线;本方法=实线)在其总长度(图18)、其Levenshtein距离(图19)和最长公共子串(图20)方面的结果。对于每个图,搜索结果按照相对于绘制参数(即总长度,Levenshtein距离或最长公共子串)从低到高的顺序展示。此外,选择搜索结果中的一个,即蛋白序列5NW4_V(即BLAST列出的第一结果)作为计算Levenshtein距离和最长公共子串的参考。如在这些图中可观察到,本方法在整个搜索结果的范围内产生总长度的较小变化(特征在于跨越结果的显著部分的相对平稳段),显著较低的Levenshtein距离和显著较大的最长公共子串;与BLAST结果相比。这些的组合表明本发明的方法能够识别与执行的搜索更相关的结果。
实施例3b:使用更长的蛋白质作为搜索串
重复先前的实例,但这次搜索完整的蛋白质序列,3MN5_A(长度为359个序列单元)。
第一搜索,使用BLAST,返回88个搜索结果。
另一方面,基于本发明的原理,确定在序列3MN5_A中可找到六个特征生物子序列(即“HYFTTM指纹”);这些表示为:
+4641474444415052415646_1、+495647525052485147564d_1、+4949544e5744444d454b49_1、+494d464554464e5650414d_1、+494b454b4c435956414c44_1和+49474d4553414749484554_1,
其中,例如“49474d4553414749484554”对应于十六进制格式的相应子序列。因此,在与先前实例相同的处理过的生物序列的存储库中执行第二次搜索,以找到以相同顺序包括相同的六个特征生物子序列的那些蛋白质序列。此搜索返回661个结果。
现在参考图21、图22和图23,其展示了这两种搜索(BLAST=虚线;本方法=实线)在其总长度(图21)、其Levenshtein距离(图22)和最长公共子串(图23)方面的结果。对于每个曲线图,搜索结果按照相对于绘制参数(即总长度,Levenshtein距离或最长公共子串)从低到高的顺序展示。在这种情况下,相对于原始查询序列3MN5_A计算Levenshtein距离和最长公共子串。如在这些图中可观察到,两种方法的搜索结果的特征在极端情况下具有相对可比性。然而,本方法在中间范围内产生了一个稳定的结果,具有总长度的较小变化,较低Levenshtein距离和相当高的最长公共子串。这些的组合表明本发明的方法能够识别更大量的相关结果。
应当理解,虽然本文已经针对根据本发明的设备讨论了优选的实施方案、特定构造和配置以及材料,但是在不脱离本发明的范围和技术教导内容的情况下可在形式和细节上进行各种改变或修改。举例来说,上面给出的任何公式仅仅代表可使用的程序。可从框图中添加或删除功能,并且可在功能块之间互换操作。可在本发明的范围内描述的方法中添加或删除步骤。
序列表
<110> 生物线索股份有限责任公司(BioClue NV)
<120>生物测序
<130> 20023VTr00WO/dw/ac/av
<140> EPPCTNYK
<141> 2020-02-07
<150> EP19190900.1
<151> 2019-08-08
<150> EP19156086.1
<151> 2019-02-07
<160> 10
<170> BiSSAP 1.3.6
<210> 1
<211> 7
<212> PRT
<213>未知(Unkown)
<220>
<223>未知
<400> 1
Met Cys Met His Asn Gln Ala
1 5
<210> 2
<211> 6
<212> PRT
<213>未知(Unkown)
<220>
<223>未知
<400> 2
Met Cys Met His Asn Gln
1 5
<210> 3
<211> 25
<212> PRT
<213>未知(Unkown)
<220>
<223>未知
<400> 3
Ala Val Phe Pro Ser Ile Val Gly Arg Pro Arg His Gln Gly Val Met
1 5 10 15
Val Gly Met Gly Gln Lys Asp Ser Tyr
20 25
<210> 4
<211> 11
<212> PRT
<213>未知(Unkown)
<220>
<223>未知
<400> 4
Ile Val Gly Arg Pro Arg His Gln Gly Val Met
1 5 10
<210> 5
<211> 11
<212> PRT
<213>未知(Unkown)
<220>
<223>未知
<400> 5
Phe Ala Gly Asp Asp Ala Pro Arg Ala Val Phe
1 5 10
<210> 6
<211> 11
<212> PRT
<213>未知(Unkown)
<220>
<223>未知
<400> 6
Ile Val Gly Arg Pro Arg His Gln Gly Val Met
1 5 10
<210> 7
<211> 11
<212> PRT
<213>未知(Unkown)
<220>
<223>未知
<400> 7
Ile Ile Thr Asn Trp Asp Asp Met Glu Lys Ile
1 5 10
<210> 8
<211> 11
<212> PRT
<213>未知(Unkown)
<220>
<223>未知
<400> 8
Ile Met Phe Glu Thr Phe Asn Val Pro Ala Met
1 5 10
<210> 9
<211> 11
<212> PRT
<213>未知(Unkown)
<220>
<223>未知
<400> 9
Ile Lys Glu Lys Leu Cys Tyr Val Ala Leu Asp
1 5 10
<210> 10
<211> 11
<212> PRT
<213>未知(Unkown)
<220>
<223>未知
<400> 10
Ile Gly Met Glu Ser Ala Gly Ile His Glu Thr
1 5 10

Claims (17)

1.一种考虑到包含在用于生物序列数据库的指纹数据串的存储库(100)中的信息,对生物聚合物或生物聚合物片段(500)进行测序的方法,
每个指纹数据串表示由序列单元构成的特征生物子序列,每个特征生物子序列在所述生物序列数据库中具有小于其可用的不同序列单元的总数的组合数,生物子序列的所述组合数定义为作为所述生物子序列的连续序列单元出现在所述生物序列数据库中的不同序列单元的数目,
所述存储库进一步包括表示作为对应特征生物子序列的连续序列单元出现在所述生物序列数据库中的所述不同序列单元的组合数据;
所述方法包括:
a.使用测序器获得所述生物聚合物或生物聚合物片段的至少一个读段,和
b.通过以下计算机实现的步骤处理所述读段:
b1.在所述读段中搜索由所述指纹数据串表示的所述特征生物子序列中的一个或多个的出现,和
b2.通过在每次出现时确定与所述特征生物子序列连续的序列单元是否与所述存储库中的所述组合数据一致来验证或拒绝所述读段,和/或
b1'.在所述读段的头部和/或尾部中搜索由所述指纹数据串表示的所述特征生物子序列中的一个的出现,和
b2'.从所述存储库中的所述组合数据预测所述读段的一个或多个连续序列单元。
2.根据权利要求1所述的方法,其中所述存储库至少包括
-第一指纹数据串,其表示第一长度的第一特征生物子序列;和
-第二指纹数据串,其表示第二长度的第二特征生物子序列,
其中所述第一长度和所述第二长度等于4或大于4,且其中所述第一长度和所述第二长度彼此不同。
3.根据权利要求1或2所述的方法,其中步骤a包括获得所述生物聚合物或生物聚合物片段的多个读段,且其中步骤b在获得所述生物聚合物或生物聚合物片段的所有读段之前开始。
4.根据前述权利要求中任一项所述的方法,其中步骤b2和/或b2'包括使用以下各者:
-当所述特征生物子序列存在于生物聚合物中时,与所述特征生物子序列的二级和/或三级和/或四级结构相关的数据;和/或
-与所述特征生物子序列和一个或多个另外的特征生物子序列之间的关系相关的数据;和/或
-与相对于所述指纹数据串的间距相关的数据;和/或
-与所述指纹数据串的方向相关的数据。
5.根据前述权利要求中任一项所述的方法,其中所述指纹数据串是固有定向的,且包括位置信息,所述方法包括使用步骤b1和/或b1'中所识别的所述特征生物子序列将处理过的读段与定向图进行比对的另一个步骤。
6.根据权利要求5所述的方法,其中所述比对包括识别可能的序列的变化。
7.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括通过对所述处理过的读段进行排序来折叠所述处理过的读段。
8.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括将所获得的数据转换为子读段图和/或读段图。
9.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括去除死端和/或环中的任一个。
10.根据前述权利要求中任一项所述的方法,其中所述方法包括基于从所述处理和/或比对获得的信息动态地调适所述测序。
11.根据权利要求10所述的方法,其中所述动态调适包括提供关于需要使用测序系统获得的读段的数目的反馈和/或包括基于从所述处理和/或比对获得的信息提供关于将被忽略为错误读段的读段的反馈,且/或其中所述方法包括朝向读段回溯或回溯直到读段。
12.一种测序器(350),其适于执行据前述权利要求中任一项所述的方法的步骤a。
13.根据权利要求12所述的测序器(350),其适于执行根据权利要求1至11中任一项所述的方法。
14.根据权利要求12所述的测序器(350),其适于将所述读段传输到数据处理系统。
15.根据权利要求14所述的测序器(350),其适于从所述数据处理系统接收反馈。
16.一种系统,其包括:
i.根据权利要求14或15所述的测序器(350),和
ii.数据处理系统,其适于
-接收来自所述测序器(350)的所述读段,和
-通过执行根据权利要求1至11中任一项所述的方法的步骤b处理所述读段。
17.一种包括指令的计算机程序或计算机可读介质,所述指令在由计算机执行时使得所述计算机执行根据权利要求1至11中任一项所述的方法。
CN202080017929.9A 2019-02-07 2020-02-07 生物测序 Pending CN113519029A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP19156086.1 2019-02-07
EP19156086.1A EP3693971A1 (en) 2019-02-07 2019-02-07 Biological sequencing
EP19190900.1 2019-08-08
EP19190900 2019-08-08
PCT/EP2020/053222 WO2020161345A1 (en) 2019-02-07 2020-02-07 Biological sequencing

Publications (1)

Publication Number Publication Date
CN113519029A true CN113519029A (zh) 2021-10-19

Family

ID=69570651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080017929.9A Pending CN113519029A (zh) 2019-02-07 2020-02-07 生物测序

Country Status (10)

Country Link
US (1) US20220199200A1 (zh)
EP (1) EP3921834A1 (zh)
JP (1) JP2022519686A (zh)
KR (1) KR20210126030A (zh)
CN (1) CN113519029A (zh)
AU (1) AU2020218626A1 (zh)
CA (1) CA3131491A1 (zh)
IL (1) IL285396A (zh)
WO (1) WO2020161345A1 (zh)
ZA (1) ZA202106379B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113113083B (zh) * 2021-04-09 2022-08-09 山东大学 集体细胞突变数据和蛋白质网络的肿瘤驱动通路预测系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130317755A1 (en) * 2012-05-04 2013-11-28 New York University Methods, computer-accessible medium, and systems for score-driven whole-genome shotgun sequence assembly
CN104951672A (zh) * 2015-06-19 2015-09-30 中国科学院计算技术研究所 一种第二代、三代基因组测序数据联用的拼接方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130317755A1 (en) * 2012-05-04 2013-11-28 New York University Methods, computer-accessible medium, and systems for score-driven whole-genome shotgun sequence assembly
CN104951672A (zh) * 2015-06-19 2015-09-30 中国科学院计算技术研究所 一种第二代、三代基因组测序数据联用的拼接方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
AQIL M. AZMI 等: "On Identifying Minimal Absent and Unique Words: An Efficient Scheme", COGN COMPUT., vol. 8, 23 February 2016 (2016-02-23), pages 603 - 613, XP036028954, DOI: 10.1007/s12559-016-9385-9 *
CEES ELZINGA 等: "Algorithms for subsequence combinatorics", THEORETICAL COMPUTER SCIENCE, vol. 409, no. 3, 28 December 2008 (2008-12-28), pages 394 - 404 *
ELENA TAYCHER 等: "A novel approach to sequence validating protein expression clones with automated decision making", BMC BIOINFORMATICS, vol. 8, 13 June 2007 (2007-06-13), pages 198, XP021027525, DOI: 10.1186/1471-2105-8-198 *
MATTHEW LOOSE 等: "Real-time selective sequencing using nanopore technology", NATURE METHODS, vol. 13, 25 July 2016 (2016-07-25), pages 751 - 754, XP055563893, DOI: 10.1038/nmeth.3930 *
SARA P. GARCIA 等: "Minimal Absent Words in Four Human Genome Assemblies", PLOS ONE, vol. 6, no. 12, 29 December 2011 (2011-12-29), pages 29344 *
YAO-YUAN LIU 等: "A review of bioinformatic methods for forensic DNA analyses", FORENSIC SCIENCE INTERNATIONAL: GENETICS, vol. 33, 12 December 2017 (2017-12-12), pages 117 - 128 *

Also Published As

Publication number Publication date
IL285396A (en) 2021-09-30
AU2020218626A1 (en) 2021-08-05
JP2022519686A (ja) 2022-03-24
US20220199200A1 (en) 2022-06-23
WO2020161345A1 (en) 2020-08-13
ZA202106379B (en) 2023-08-30
KR20210126030A (ko) 2021-10-19
EP3921834A1 (en) 2021-12-15
AU2020218626A8 (en) 2021-08-26
CA3131491A1 (en) 2020-08-13

Similar Documents

Publication Publication Date Title
EP1328805A2 (en) System and process for validating, aligning and reordering one or more genetic sequence maps using at least one ordered restriction map
CA2839802A1 (en) Methods and systems for data analysis
CN113519029A (zh) 生物测序
CN113454726A (zh) 生物信息处理
EP3693970A1 (en) Biological sequence information handling
CN113454727A (zh) 生物序列信息处理
EP3693971A1 (en) Biological sequencing
Nicolas et al. Finding and characterizing repeats in plant genomes
Prytuliak Recognition of short functional motifs in protein sequences
BE1027035B1 (nl) Depot van vingerafdruk-datastrings
CN110892401B (zh) 生成用于k个不匹配搜索的过滤器的系统和方法
Shih et al. BiMFG: Bioinformatics tools for marine and freshwater species
CN117174182A (zh) 一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法
Vanitha et al. An Improved Alignment-Free Method for Oculocutaneous Albinism Sequence Analysis
Del Fabbro et al. Repeated sequences in bioinformatics: assembly, annotation and alignments
Rombo et al. Pattern discovery in biosequences: From simple to complex patterns
Rombo et al. Pattern Discovery in Biosequences: From Simple to Complex
Sanghvi IFREE: An indexed forest of representer expressions extractor for position frequency matrices to rapidly detect sequence motifs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination