CN114341988A - 用于压缩基因组序列数据的方法 - Google Patents

用于压缩基因组序列数据的方法 Download PDF

Info

Publication number
CN114341988A
CN114341988A CN202080062727.6A CN202080062727A CN114341988A CN 114341988 A CN114341988 A CN 114341988A CN 202080062727 A CN202080062727 A CN 202080062727A CN 114341988 A CN114341988 A CN 114341988A
Authority
CN
China
Prior art keywords
read
mismatch
reads
encoding
mapped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080062727.6A
Other languages
English (en)
Inventor
G·A·P·里兹克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN114341988A publication Critical patent/CN114341988A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)

Abstract

本发明涉及一种基于参考的方法,其用于压缩由测序机器产生的基因组序列数据。确定先前已与参考序列比对的核苷酸或碱基的序列与参考序列是完全映射的、不完全映射的还是未映射的;然后根据所述确定进行编码。该确定步骤包括:对于每个不完全映射的序列,将所述序列与参考序列之间的失配的数目与参考阈值进行比较,以及根椐用于压缩由测序机器产生的基因组序列数据的所述比较方法的结果,根据不同的编码过程对不完全映射的序列进行编码。

Description

用于压缩基因组序列数据的方法
技术领域
本发明整体涉及表示由测序机器产生的基因组测序数据的方法,并且更具体地涉及用于压缩这样的基因组测序数据的计算机实现的方法。本公开提供了一种基于参考的压缩方法,其允许快速压缩和解压缩,同时不引起信息丢失,并且具有高压缩比。
背景技术
下一代测序机器现在以可承受的价格产生海量的测序数据。最新的系统在36小时的单次运行中产生超过60亿个150个核苷酸长的序列,足以对20个完整的人类基因组进行测序。这为遗传疾病的诊断和个性化医疗的发展开辟了许多新的视角,旨在适应基于人基因组特异性的治疗。
然而,这也带来了新的挑战,特别是与存储海量数据相关的成本。用于原始(未比对)序列数据的最常用的文件格式为FASTQ格式,其保存序列数据(A、C、T、G核苷酸的字符串,也称为读段)、质量值(测序平台对每个核苷酸造成测序错误的概率)和序列名称。这是普通ASCII文本文件,通常用通用文本压缩方案LZ(Lempel-Ziv方案,在gzip软件中实现)来压缩。然而,使用此类压缩方法带来了几个问题:
–由于数据的冗余未被完全利用而导致的低压缩比
–压缩和解压缩缓慢
还存在专用于FASTQ编码的压缩方法,分为基于参考的方法或基于非参考的方法。然而,它们中没有一个完全令人满意,原因是:a)基于参考的方法具有良好的压缩比,但速度缓慢,b)基于非参考的方法速度较快,但压缩比较低。这种基于非参考的方法的一个示例由软件SPRING提供,该软件是用于FASTQ文件的无参考压缩器(万维网地址:github.com/shubhamchandak94/SPRING)。然而,由软件SPRING提供的压缩方法的压缩比低。
在基于参考的压缩方法中,已经提出了一些使用序列比对并且旨在具有更快的速度且具有良好压缩比的方法。然而,此类方法遭遇了几个问题,值得注意的一个主要问题是,它们并非完全无损。这种已知的基于参考的压缩方法例如描述于专利文献WO 2018/068829 A1中。在该所描述的方法中,在与一个或多个参考序列比对之后,根据匹配准确度将核苷酸序列分类(从而创建比对读段的类别),然后使用不同的源模型和熵编码器针对其中数据被分区的每一层将这些核苷酸序列编码为多层语法元素。因此,数据的类别被单独编码,并且被构造在语法元素的不同层中,每个层均包含描述符,这些描述符单义地表示所述层的经分类和比对的读段。该方法旨在获得具有简化的信息熵的不同信息源,从而允许提高压缩性能以及对特定类别压缩数据的选择性访问。然而,这种压缩方法以与在读段比对步骤结束时获得的顺序不同的顺序对读段进行重新排序(即,根据其类别对读段进行重新排序)。于是在压缩过程(尤其是初始序列排序)中丢失了一些信息。因此,一些分析结果的再现性可能受到影响,因为一些下游分析软件可能依赖于读段的顺序。此外,以与读段的初始顺序不同的顺序解压缩数据使得检查未压缩文件是否与初始文件相同更加困难。此外,这种压缩方法速度相对缓慢,尤其是在与最先进的基于非参考的压缩方法相比时。
发明内容
本公开通过提供用于压缩基因组序列数据的系统、方法、计算机程序和硬件电路系统来解决现有技术解决方案的问题。在一个方面,公开了用于压缩由测序机器产生的基因组序列数据的计算机实现的方法,所述基因组序列数据包括已与参考序列比对的核苷酸或碱基的序列的读段,从而产生比对读段,所述比对读段作为读段列表存储在初始文件中,所述方法包括:
-针对每个比对读段,确定所述读段与所述参考序列是完全映射的还是不完全映射的,或者所述读段是否与所述参考序列是未映射的,
-根据所述确定对所述读段进行编码,其中根据第一编码过程对被确定为完全映射的所述读段进行编码,并且根据第二编码过程对被确定为未映射的所述读段进行编码,
-其中所述确定步骤包括针对每个不完全映射的读段,将所述读段与所述参考序列之间的失配的数目与阈值进行比较,
-其中,在所述编码步骤中,根据所述第二编码过程或第三编码过程对被确定为不完全映射的所述读段进行编码,当所述失配数目大于所述阈值时,根据所述第二编码过程对所述不完全映射的读段进行编码,当所述失配数目低于所述阈值时,根据所述第三编码过程对所述不完全映射的读段进行编码,
-其中,在所述第二编码过程中,所述读段的每个核苷酸或碱基被单独编码,
-其中所述第一编码过程和所述第三编码过程包括不同的描述符集合,每个描述符集合单义地表示与对应的编码过程相关联的读段,所述第一编码过程和所述第三编码过程中的每一者是简化的信息源熵编码过程。
本公开克服了现有压缩方法的缺点,方式为:允许快速压缩和解压缩,同时不引起信息丢失,并且提供高压缩比。更具体地,本公开的重点是以最紧凑的方式对最频繁出现的情况进行编码,即使这意味着对于罕见的最不频繁出现的情况采用降级的编码模式。这导致压缩性能的巨大提高。此外,由于本公开所使用的基因组信息表示格式,由本文所述的方法执行的压缩更快。最后但并非最不重要的是,本公开照此保持读段的初始顺序,并且不根据读段的类别对读段进行重新排序。因此,在该过程期间没有信息丢失,这使得能够更容易地进行下游分析,以及在解压缩步骤之后进行有效的一致性检查。
根据附图和以下具体实施方式,本公开的这些和其他特征和优点将变得更加明显。此外,尽管阈值在本文中可以被称为被超过或未被超过,但是应当理解,可以概念性地采用此类阈值,使得确定此类阈值是否被满足、符合或以其他方式被检测到,而不管用于实现那些阈值评估的数目或值是使用正值还是负值来描述。
根据本公开的一个创新方面,公开了一种用于压缩基因组序列数据的方法。在一个方面,所述方法可以包括经由通过一个或多个计算机执行软件指令来进行一个或多个操作,其中所述操作包括:由所述一个或多个计算机获得读段记录;由所述一个或多个计算机确定所述读段记录是对应于被完全映射到参考序列的读段还是被不完全映射到所述参考序列的读段;基于由所述一个或多个计算机确定所述读段记录对应于被不完全映射到所述参考序列的读段,由所述一个或多个计算机确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目,以及基于确定所述失配数目满足所述预先确定的失配阈值数目,由所述一个或多个计算机将所述不完全映射的读段的每个失配编码为具有1个字节大小的记录。
其他方面包括执行如本文所公开的方法的动作的对应系统、装置和计算机程序,如由在计算机可读存储设备上编码的指令所定义的。
这些和其他版本可任选地包括以下特征中的一个或多个特征。例如,在一些具体实施中,由所述一个或多个计算机确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目可以包括由所述一个或多个计算机确定所述不完全映射的读段的所述失配数目是否大于所述预先确定的失配阈值数目。
在一些具体实施中,每个读段记录可以包括:指示比对读段相对于所述参考序列的绝对起始位置的数据;指示所述读段的长度的数据;指示所述读段是完全映射的还是不完全映射的数据;指示在所述读段中识别的失配的数目的数据;以及指示所述读段中的所述可能失配中的每一者的相对位置的数据。
在一些具体实施中,将所述不完全映射的读段的每个失配编码为具有1个字节大小的记录包括:针对每个特定失配,由所述一个或多个计算机编码所述字节的前两位以包括表示存在于所述读段中的替代核苷酸或碱基而不是所述参考序列中的相应参考核苷酸或碱基的数据;以及由所述一个或多个计算机编码所述字节的剩余六位以包括表示所述参考序列中的所述失配的位置的数据,所述位置被计算为相对于所述读段的前一个失配的偏移。
在一些具体实施中,所述方法可以还包括:由一个或多个计算机确定所述偏移是否大于最大可编码值;以及基于确定所述偏移大于所述最大编码值,由一个或多个计算机在所述特定失配与所述前一个失配之间插入至少一个假失配。
在一些具体实施中,所述方法可以还包括:基于确定所述失配数目不满足所述预先确定的失配阈值数目,由一个或多个计算机使用简化的信息熵编码过程将对应于所述失配中的每一者的位置的所述参考序列的位置列表编码到所述参考序列中。
在一些具体实施中,所述方法可以还包括:基于确定所述读段记录对应于被完全映射到所述参考序列的读段,由一个或多个计算机使用简化的信息熵编码来编码所述读段记录的至少一部分。
在一些具体实施中,所述一个或多个计算机可以包括一个或多个硬件处理器。
在一些实施方案中,所述一个或多个硬件处理器可以包括一个或多个现场可编程门阵列(FPGA)。
在一些具体实施中,所述用于压缩基因组序列数据的方法可以由一个或多个硬件处理器执行。在此类具体实施中,所述硬件处理器可以包括被配置为执行一个或多个操作的硬件处理电路系统。在一个方面,所述操作可以包括:由所述硬件处理电路系统获得读段记录;由所述硬件处理电路系统确定所述读段记录是对应于被完全映射到参考序列的读段还是被不完全映射到所述参考序列的读段;基于由所述硬件处理电路系统确定所述读段记录对应于被不完全映射到所述参考序列的读段,由所述一个或多个计算机确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目,以及基于确定所述失配数目满足所述预先确定的失配阈值数目,由所述硬件处理电路系统将所述不完全映射的读段的每个失配编码为具有1个字节大小的记录。
在一些具体实施中,每个读段记录可以包括:指示所述比对读段相对于所述参考序列的绝对起始位置的数据;指示所述读段的长度的数据;指示所述读段是完全映射的还是不完全映射的数据;指示在所述读段中识别的失配的数目的数据;以及指示所述读段中的所述可能失配的相对位置的数据。
在一些具体实施中,由所述硬件处理电路系统确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目可以包括由所述硬件处理电路系统确定所述不完全映射的读段的所述失配数目是否大于所述预先确定的失配阈值数目。
在一些具体实施中,将所述不完全映射的读段的每个失配编码为具有1个字节大小的记录可以包括:针对每个特定失配,由所述硬件处理电路系统编码所述字节的前两位以包括表示存在于所述读段中的替代核苷酸或碱基而不是所述参考序列中的相应参考核苷酸或碱基的数据;以及由所述硬件处理电路系统编码所述字节的剩余六位以包括表示所述参考序列中的所述失配的位置的数据,所述位置被计算为相对于所述读段的前一个失配的偏移。
在一些具体实施中,所述硬件处理电路系统被进一步配置为执行以下操作,所述操作包括:由所述硬件处理电路系统确定所述偏移是否大于最大可编码值;以及基于确定所述偏移大于所述最大编码值,由所述硬件处理电路系统在所述特定失配与所述前一个失配之间插入至少一个假失配。
在一些具体实施中,所述硬件处理电路系统被进一步配置为执行以下操作,所述操作包括:基于确定所述失配数目不满足所述预先确定的失配阈值数目,由所述硬件处理电路系统使用简化的信息熵编码过程将对应于所述失配中的每一者的位置的所述参考序列的位置列表编码到所述参考序列中。
在一些具体实施中,所述硬件处理电路系统被进一步配置为执行以下操作,所述操作包括:基于确定所述读段记录对应于被完全映射到所述参考序列的读段,由所述硬件处理电路系统使用简化的信息熵编码来编码所述读段记录的至少一部分。
在一些具体实施中,该硬件处理电路系统包括一个或多个现场可编程门阵列(FPGA)。
根据本公开的另一个创新方面,公开了一种用于压缩基因组序列数据的方法。在一个方面,所述方法可以包括以下操作:由所述一个或多个处理器访问存储装置,该存储装置以保留由映射和比对模块产生的多个读段记录的序列排序的方式存储所述多个读段记录,针对所述多个读段记录中的每个特定读段记录:由所述一个或多个处理器获得所述特定读段记录;由所述一个或多个处理器确定所述特定读段记录是对应于被完全映射到参考序列的读段还是被不完全映射到所述参考序列的读段;基于由所述一个或多个处理器确定所述特定读段记录对应于被不完全映射到所述参考序列的读段,由所述一个或多个处理器确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目;基于确定所述失配数目满足所述预先确定的失配阈值数目,由所述一个或多个处理器将所述不完全映射的读段的每个失配编码为具有预先确定的压缩记录大小的压缩记录;以及由所述一个或多个处理器将所述压缩记录存储在所述存储装置中,同时维持所述读段记录的所述序列排序。
其他方面包括执行如本文所公开的方法的动作的对应系统、装置和计算机程序,如由在计算机可读存储设备上编码的指令所定义的。
这些和其他版本可任选地包括以下特征中的一个或多个特征。例如,在一些具体实施中,所述多个读段记录中的每个读段记录可以包括:指示所述比对读段相对于所述参考序列的绝对起始位置的数据;指示所述读段的长度的数据;指示所述读段是完全映射的还是不完全映射的数据;指示在所述读段中识别的失配的数目的数据;指示所述读段是否包括至少一个未确定的碱基N的数据;指示所述读段中的未确定的碱基N的数目的数据;指示所述读段是映射的还是未映射的数据;指示所述读段记录在由所述映射和比对模块输出的读段记录序列中的位置的数据;以及指示所述读段中的所述可能失配的相对位置的数据。
在一些实施方案中,预先确定的压缩记录大小是一个字节。
在一些具体实施中,将所述不完全映射的读段的每个失配编码为具有一个字节大小的压缩记录可以包括:针对每个特定失配,由一个或多个处理器编码所述字节的前两位以包括表示存在于所述读段中的替代核苷酸或碱基而不是所述参考序列中的相应参考核苷酸或碱基的数据;以及由一个或多个处理器编码所述字节的剩余六位以包括表示所述参考序列中的所述失配的位置的数据,所述位置被计算为相对于所述读段的前一个失配的偏移。
在一些具体实施中,所述方法可以还包括:由一个或多个处理器确定所述偏移是否大于最大可编码值;以及基于确定所述偏移大于所述最大编码值,由一个或多个处理器在所述特定失配与所述前一个失配之间插入至少一个假失配。
在一些具体实施中,所述方法可以还包括:基于确定所述失配数目不满足所述预先确定的失配阈值数目,由一个或多个处理器使用简化的信息熵编码过程将对应于所述失配中的每一者的位置的所述参考序列的位置列表编码到所述参考序列中。
在一些具体实施中,所述方法可以还包括:基于确定所述读段记录对应于被完全映射到所述参考序列的读段,由所述一个或多个处理器使用简化的信息熵编码来编码所述读段记录的至少一部分。
在一些具体实施中,由所述一个或多个计算机确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目可以包括由所述一个或多个处理器确定所述不完全映射的读段的所述失配数目是否大于所述参考阈值。
根据本公开的另一个创新方面,公开了一种硬件处理器。在一个方面,该硬件处理器可以包括被配置为执行一个或多个操作的硬件处理电路系统。在一个方面,所述硬件处理电路系统被配置为执行的操作包括:由所述硬件处理电路系统访问存储装置,该存储装置以保留由映射和比对模块产生的多个读段记录的序列排序的方式存储所述多个读段记录,针对所述多个读段记录中的每个特定读段记录:由所述硬件处理电路系统获得所述特定读段记录;由所述硬件处理电路系统确定所述特定读段记录是对应于被完全映射到参考序列的读段还是被不完全映射到所述参考序列的读段;基于由所述硬件处理电路系统确定所述特定读段记录对应于被不完全映射到所述参考序列的读段,由所述硬件处理电路系统确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目;基于确定所述失配数目满足所述预先确定的失配阈值数目,由所述硬件处理电路系统将所述不完全映射的读段的每个失配编码为具有预先确定的压缩记录大小的压缩记录;以及由所述硬件处理电路系统将所述压缩记录存储在所述存储装置中,同时维持所述读段记录的所述序列排序。
这些和其他版本可任选地包括以下特征中的一个或多个特征。例如,在一些具体实施中,可以由所述硬件处理电路系统访问的所述多个读段记录中的每个读段记录可以包括:指示所述比对读段相对于所述参考序列的绝对起始位置的数据;指示所述读段的长度的数据;指示所述读段是完全映射的还是不完全映射的数据;指示在所述读段中识别的失配的数目的数据;指示所述读段是否包括至少一个未确定的碱基N的数据;指示所述读段中的未确定的碱基N的数目的数据;指示所述读段是映射的还是未映射的数据;指示所述读段记录在由所述映射和比对模块输出的读段记录序列中的位置的数据;以及指示所述读段中的所述可能失配的相对位置的数据。
在一些具体实施中,由所述硬件处理电路系统生成的预先确定的压缩记录大小可以是一个字节。
在一些具体实施中,将所述不完全映射的读段的每个失配编码为具有一个字节大小的压缩记录可以包括:针对每个特定失配,由所述硬件处理电路系统编码所述字节的前两位以包括表示存在于所述读段中的替代核苷酸或碱基而不是所述参考序列中的相应参考核苷酸或碱基的数据;以及由所述硬件处理电路系统编码所述字节的剩余六位以包括表示所述参考序列中的所述失配的位置的数据,所述位置被计算为相对于所述读段的前一个失配的偏移。
在一些具体实施中,硬件处理器可以被进一步配置为包括硬件处理电路系统,该硬件处理电路系统被配置为执行以下操作,所述操作包括:由所述硬件处理电路系统确定所述偏移是否大于最大可编码值;以及基于确定所述偏移大于所述最大编码值,由所述硬件处理电路系统在所述特定失配与所述前一个失配之间插入至少一个假失配。
在一些具体实施中,硬件处理器可以被进一步配置为包括硬件处理电路系统,该硬件处理电路系统被配置为执行以下操作,所述操作包括:基于确定所述失配数目不满足所述预先确定的失配阈值数目,由所述硬件处理电路系统使用简化的信息熵编码过程将对应于所述失配中的每一者的位置的所述参考序列的位置列表编码到所述参考序列中。
在一些具体实施中,硬件处理器可以被进一步配置为包括硬件处理电路系统,该硬件处理电路系统被配置为执行以下操作,所述操作包括:基于确定所述读段记录对应于被完全映射到所述参考序列的读段,由所述硬件处理电路系统使用简化的信息熵编码来编码所述读段记录的至少一部分。
在一些具体实施中,由所述硬件处理电路系统确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目包括:
由所述硬件处理电路系统确定所述不完全映射的读段的所述失配数目是否大于所述预先确定的失配阈值数目。
根据本公开的另一个创新方面,公开了一种用于压缩由测序机器产生的基因组序列数据的计算机实现的方法,所述基因组序列数据包括已与参考序列比对的核苷酸或碱基的序列的读段,从而产生比对读段,所述比对读段作为读段列表存储在初始文件中。在一个方面,所述方法可以包括针对每个比对读段的以下动作:确定所述读段与所述参考序列是完全映射的还是不完全映射的,或者所述读段是否与所述参考序列是未映射的;根据所述确定对所述读段进行编码,其中根据第一编码过程对被确定为完全映射的所述读段进行编码,并且根据第二编码过程对被确定为未映射的所述读段进行编码,其中所述确定步骤包括针对每个不完全映射的读段,将所述读段与所述参考序列之间的失配的数目与阈值进行比较,其中,在所述编码步骤中,根据所述第二编码过程或第三编码过程对被确定为不完全映射的所述读段进行编码,当所述失配数目大于所述阈值时,根据所述第二编码过程对所述不完全映射的读段进行编码,并且当所述失配数目小于所述阈值时,根据所述第三编码过程对所述不完全映射的读段进行编码,其中,在所述第二编码过程中,所述读段的每个核苷酸或碱基被单独编码,其中所述第一编码过程和所述第三编码过程包括不同的描述符集合,每个描述符集合单义地表示与对应的编码过程相关联的所述读段,所述第一编码过程和所述第三编码过程中的每一者是简化的信息源熵编码过程。
其他方面包括执行如本文所公开的方法的动作的对应系统、装置和计算机程序,如由在计算机可读存储设备上编码的指令所定义的。
这些和其他版本可任选地包括以下特征中的一个或多个特征。例如,在一些具体实施中,所述确定步骤可以包括当确定读段与所述参考序列不完全映射并且具有低于所述阈值的失配数目时的进一步确定,所述进一步确定有关于所述读段与所述参考序列是全局映射的还是局部映射的,并且其中所述第三编码过程包括第一编码子过程和第二编码子过程,根据所述第一编码子过程对被确定为全局映射的所述读段进行编码,根据所述第二编码子过程对被确定为局部映射的所述读段进行编码,所述第一编码子过程和所述第二编码子过程包括不同的描述符集合,每个描述符集合单义地表示与对应的编码子过程相关联的所述读段。
在一些具体实施中,所述第一编码子过程的所述描述符可以包括所述参考序列中的比对起始位置、读段长度和由符号替换表示的失配列表,并且其中所述第二编码子过程的所述描述符包括所述参考序列中的局部比对起始位置、读段长度、由符号替换表示的失配列表,以及不是所述比对的一部分的所述读段的剪切部分的长度。
在一些具体实施中,在所述编码步骤中,将要根据所述第二编码子过程编码的读段的所述剪切部分串联,所述剪切部分的每个核苷酸或碱基被单独编码。
在一些具体实施中,在所述编码步骤中,在1个字节上编码不完全映射的读段的每个失配。
在一些具体实施中,在所述编码步骤中,不完全映射的读段的每个失配如下编码:所述字节的前两位用于编码所述读段中存在的替代核苷酸或碱基而不是所述参考序列中的相应参考核苷酸或碱基,并且所述字节的后六位用于编码所述参考序列中的所述失配的位置,所述位置被计算为相对于所述读段的前一个失配的偏移。
在一些具体实施中,在所述编码步骤中,如果在给定失配与所述前一个失配之间计算出的所述偏移大于最大可编码值,则在所述两个失配之间插入至少一个假失配,直到所述失配中的每一者与所述至少一个假失配之间的每个偏移都低于所述最大可编码值,假失配被定义为这样的失配:对于所述失配,所述字节的位用于编码所述失配,或者用于编码与所述参考序列中的相应参考核苷酸或碱基相等的核苷酸或碱基。
在一些具体实施中,初始步骤是将所述读段列表划分为读段块,其中每个块开始于包含对所述块进行解码所需的信息的标头,其中所述压缩方法逐块进行。
在一些具体实施中,读段块具有相同的块大小。
在一些实施方案中,最终步骤是提供包含编码读段列表的压缩文件,所述编码读段以与存储在初始文件中的读段的顺序相同的顺序存储在所述压缩文件中。
在一些具体实施中,所述阈值等于31。
在一些具体实施中,针对每个比对读段,提供了确定所述读段是否包含至少一个对应于测序机器不能检出任何碱基或核苷酸的情况的失配的步骤。
在一些具体实施中,针对包含每个至少一个对应于测序机器不能检出任何碱基或核苷酸的情况的失配的读段,提供了确定此类失配的数目的步骤,以及将所述数目与参考阈值进行比较的步骤。
在一些具体实施中,在所述编码步骤中,如果此类失配的数目大于所述参考阈值,则将要根据所述第二编码过程编码的读段的每个核苷酸或碱基以4位单独编码,并且如果此类失配的数目小于所述参考阈值,则将要根据所述第二编码过程编码的读段的每个核苷酸或碱基以2位单独编码,并且所述编码步骤还包括编码沿着所述参考序列的位置的列表,所述位置对应于所述参考序列中的此类失配的位置。
附图说明
图1是示出本文所述压缩方法的一个示例的流程图。
图1A是示出图1的压缩方法的更详细示例的流程图。
图2是示出用于实施本文所述的一个或多个压缩方法的系统的一个示例的图示。
图2A是示出用于实施本文所述的压缩方法的系统的另一个示例的图示。
图2B是示出用于实施本文所述的压缩方法的系统的另一个示例的图示。
图3是示出与参考序列全局映射的读段的第一示例的示意图。
图4是示出在必须插入假失配的情况下与参考序列全局映射的读段的第二示例的示意图。
图5是可以用于实施执行图1和图1A的压缩方法的系统的计算部件的一个示例的图示。
图6描绘了示出本公开的实验结果的多个柱形图。
图7描绘了示出本公开的附加实验结果的多个柱形图。
图8描绘了示出本公开的附加实验结果的多个柱形图。
具体实施方式
本公开所提及的基因组序列包括例如但不限于核苷酸序列、脱氧核糖核酸(DNA)序列、核糖核酸(RNA)序列和氨基酸序列。尽管本文关于核苷酸序列形式的基因组信息相当详细地描述了本公开,但是应当理解,如本领域技术人员所理解的,根据本发明的压缩方法也可以被实施用于其他基因组序列,尽管有一些变化。
基因组测序信息通过测序机器以由来自限定词汇表的字母串表示的核苷酸(或更一般地,碱基)序列的形式产生。最小词汇表由五个符号表示:{A、C、G、T、N},表示存在于DNA中的4种类型的核苷酸,即腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。在RNA中,胸腺嘧啶被尿嘧啶(U)替代。N指示测序机器不能检出任何碱基,因此该位置的真实性质是不确定的。因此,出于本公开的目的,符号“N”是指未确定的碱基,并且读段中的“N”的数目是指该读段中的未确定的碱基的数目。
由测序机器产生的核苷酸序列可以被称为“读段”。序列读段的长度可以介于几十个核苷酸至几千个核苷酸之间。一些技术成对产生序列读段,其中所述对的第一读段来自一条DNA链,并且所述对的第二读段来自另一条DNA链。贯穿本公开,“参考序列”是由测序机器产生的核苷酸或碱基序列组成的读段能够与之比对/映射的任何序列。这种参考序列的一个示例实际上可以是参考基因组,即由科学家组装的作为物种的基因集合的代表性示例的序列。然而,参考序列还可以由合成序列组成,考虑到它们要被进一步处理,该合成序列被设想为仅仅改善读段的可压缩性。
在一些情况下,测序机器可能在序列读段中引入错误,并且值得注意的是,可能使用错误符号(即,表示不同的核酸)来表示实际存在于经测序的样品中的核酸或碱基。这种类型的替换错误可能最终被映射和比对模块识别为“失配”。这是因为当读段与参考序列比对时,读段中的替换错误可能与参考序列的相应位置不匹配。然而,“失配”的含义并不限于此类情况。相反,“失配”可以是由测序装置检出的读段的以下任何碱基或核苷酸:当读段以阈值水平的准确度与参考序列比对时,其与参考序列的相应位置不匹配。此类失配可以包括候选变体、变体,或者比对读段与参考序列位置之间的其他差异。
本公开涉及基于参考的压缩方法,其接收核苷酸或碱基序列的读段作为输入,此类读段先前已通过映射和比对模块与参考序列进行比对,从而产生比对读段。在一些具体实施中,先前比对的读段可以包括已使用软件映射和比对模块进行比对的读段,该模块执行所接收的读段到参考序列的映射和比对。例如,在一些具体实施中,软件映射器可以通过使用一个或多个处理器(诸如一个或多个中央处理单元(CPU)、一个或多个图形处理单元(GPU),或它们的任何组合)执行软件指令来进行所接收的读段的基于散列表的映射和比对。在其他具体实施中,先前比对的读段可以包括已使用硬件映射和比对模块进行比对的读段,该模块执行所接收的读段到参考序列的映射和比对。例如,在一些具体实施中,硬件映射和比对模块可以通过使用一个或多个硬件处理器(诸如一个或多个现场可编程门阵列(FPGA))来进行基于散列表的映射和比对,所述硬件处理器具有硬连线数字逻辑电路,该数字逻辑电路被配置为进行所接收的读段的基于散列表的映射和比对。
然后将比对读段存储为初始文件中的读段列表。比对读段以及一旦在初始文件中比对就将这些读段存储的方式对于本发明不是至关重要的,并且不是本公开的目的。然后将每个读段编码为参考序列上的位置以及与所述参考序列的差异的列表。然后可以通过如本文通过本公开所述配置的适当解压缩软件,从比对编码信息和参考序列重建每个读段。
在一些具体实施中,本公开的压缩模块可以经由由一个或多个CPU或GPU执行软件指令、执行一个或多个硬件处理器的硬连线数字逻辑电路或两者的组合来实施,以处理并压缩比对读段。在压缩读段之前,可以将读段与参考序列比对,而不考虑在序列读段中引入的某些类型的错误,诸如插入错误或缺失错误。插入错误在于,在一个序列读段中插入一个或多个不涉及任何实际存在的核酸的额外符号。缺失错误在于,从一个序列读段中缺失一个或多个代表实际存在于测序样品中的核酸的符号。更准确地讲,在给定序列读段中存在插入错误或缺失错误的情况下,比对软件随后将所得到的错误核酸视为替换错误,也称为“失配”。比对软件配置的这种优先选择允许更快的后续编码,特别是在速度与压缩比之间提供更好的折衷。
针对每个比对读段,该映射和比对模块可以生成并且提供读段记录。在一些具体实施中,每个读段记录可以直接作为输入从映射和比对模块提供给压缩模块。在其他具体实施中,由映射和比对模块生成的每个读段记录可以输出并且存储在存储器或其他存储装置中。在此类具体实施中,压缩模块随后可以访问所存储的读段记录并且压缩所存储的读段记录。
由映射和比对模块生成、提供或存储的每个读段记录包括由映射和比对模块生成的描述由读段记录表示的读段的数据。此类读段记录可以至少包括以下信息:所述比对读段相对于所述参考序列的绝对起始位置、所述读段的长度、所述读段的比对类型(诸如所述读段是映射读段还是未映射读段)、在所述读段中识别的失配的数目、有关所述读段是完全映射的读段还是不完全映射的读段的指示、所述读段中的所述可能失配的相对位置,等等。
尽管此处描述的示例指示读段记录中的数据和其中所包含的数据由映射和比对模块生成,但是本公开不限于此。相反,映射和比对模块与压缩模块之间的其他中间模块可以用于生成读段记录、其中所包含的数据。
在一些具体实施中,由映射和比对模块提供或存储的读段记录能够以保留由映射和比对模块生成的读段记录的顺序排序的方式来提供或存储。在一些具体实施中,例如,每个读段记录还可以包含以读段记录的顺序排序指示读段记录放置的数据。指示读段记录放置的这种数据可以包括例如序列_id。在一些具体实施中,该序列_id可以例如是对于由映射和比对模块产生的第一读段记录以“1”开始的数字,该数字然后对于由映射和比对模块生成的每个后续读段记录递增。本公开的压缩模块然后可以访问这些读段记录并且以其当前的顺序压缩这些读段记录,而不需要将读段记录重新排序为读段记录的簇以便压缩。以保留由映射和比对模块生成的读段记录初始排序的方式压缩这些读段记录通过实现读段记录的无损压缩而提供了优于常规方法的优点,因为甚至保留了读段记录的顺序排序。此外,在压缩期间保留读段记录的次序还使得对读段记录压缩的验证更为容易。
现在将参考图1描述本公开的压缩方法。在一些具体实施中,例如,该方法可以由图2中所示的设备20执行。设备20可以包括至少一个处理器22和至少一个可操作地耦接到至少一个处理器22以形成计算装置的存储器24。存储器24可以存储计算机程序代码或软件26,所述计算机程序代码或软件包含计算机可执行指令,这些计算机可执行指令在由处理器22执行时,使得处理器22执行压缩模块的操作,包括执行本文所述的一种或多种压缩方法的多个阶段。然而,本公开不必限于由设备20实施。
例如,在一些具体实施中,本公开的压缩方法可以由图2A所示的设备20A实施。设备20A类似于设备20,原因是设备20A也包括处理器22和至少一个可操作地耦接到至少一个处理器22以形成计算装置的存储器24。设备20A的存储器24还存储计算机程序代码或软件26,所述计算机程序代码或软件包含计算机可执行指令,这些计算机可执行指令在由处理器22执行时,使得处理器22执行包括本文所述的一种或多种压缩方法的多个阶段的操作。然而,此外,设备20A还包括计算机程序代码或软件28,所述计算机程序代码或软件包含计算机可执行指令,这些计算机可执行指令在由处理器22执行时,使得处理器22执行操作以实现映射和比对模块的功能。其功能经由执行计算机软件指令来实现的映射和比对模块可以生成一个或多个比对读段29并且将所述比对读段29存储在存储器24中。然后,处理器22可以执行压缩模块的软件指令26以访问比对读段29中的一个或多个比对读段,并且使用本文所述的一种或多种压缩方法的多个阶段来压缩所述一个或多个比对读段29。在一些具体实施中,设备20A可以是核酸测序装置。
作为另一个示例,在一些具体实施中,本公开的压缩方法可以由图2B所示的设备20B实施。设备20B不同于设备20,原因是设备20B包括一个或多个硬件处理器22B,诸如一个或多个现场可编程门阵列(FPGA)。在该示例中,一个或多个硬件处理器可以实现本文所述的一个或多个压缩方法的多个阶段的功能,以及一个或多个硬件处理器22B的硬件电路系统中的映射和比对模块的多个阶段的功能。例如,硬件处理器22B可以包括硬连线数字逻辑电路26B,其被配置为压缩模块以执行本文所述的一种或多种压缩方法的多个阶段。同样,硬件处理器22B可以包括硬连线数字逻辑电路28B,其被配置为执行映射和比对模块的操作,该映射和比对模块被配置为生成比对读段29B并且将比对读段29B存储在存储器24中。被配置为压缩模块以实现本文所述的一种或多种压缩方法的多个阶段的功能的硬连线数字逻辑电路26B可以从存储器24访问比对读段29B,并且使用本文所述的压缩方法来压缩比对读段29B。在一些具体实施中,设备20B可以是核酸测序装置。其中存储了比对读段记录作为读段列表的初始文件例如存储在设备20的存储器中。在一些具体实施中,该读段列表可以包括以保留由映射和比对模块产生的多个比对读段记录的序列排序的方式存储在该设备的存储器中的所述多个比对读段记录。所述比对读段记录的这种序列排序可以是与在映射和比对阶段结束时获得的顺序相同的顺序。
在一些具体实施中,可以将比对读段的初始列表划分为读段块。例如,在一些具体实施中,可以将比对读段的列表划分为50000个读段的块。然而,50000个读段的块的该特定值不应被理解为限制本公开的范围,因为本公开的具体实施可以使用其他值以相同的方式来实现。
在一些具体实施中,读段块可以具有相同的块大小。然而,在其他具体实施中,读段块可以具有不同的块大小。在任何情况下,每个读段块均能够开始于包含对该块进行解码所需的信息的标头,诸如该块的内容的以字节为单位的大小,以及/或者该块或其内容的标识符,以及/或者包含在该块中的读段的数目。这允许支持压缩文件的串联,以及流式传输能力(每个读段块均包含对该块的读段进行解码所需的所有信息)。此外,由于压缩方法然后可以逐块进行,所以这也允许对读段块进行多线程处理,从而允许并行化和处理时间的一些所得增益。如果给定块的所有读段具有相同的长度,则读段长度也被存储在标头中,否则在压缩方法期间明确地存储每个读段长度的列表。
返回图1,该方法优选地包括初始阶段2,其中所述设备从设备20、20A或20B的存储器获得比对读段记录。在一些具体实施中,这可以包括:由所述设备访问存储器或其他存储装置,所述存储器或其他存储装置以保留由映射和比对模块产生的多个读段记录的序列排序的方式存储所述多个读段记录。例如,所述设备可以基于前一个读段记录的序列_id和存储在存储器中的一个或多个其他读段记录的序列_id来确定用于压缩的下一个读段记录。在一些具体实施中,序列_id可以是数值,该数值针对映射和比对模块所产生的每个后续读段记录而递增,并且压缩模块可以维护计数器,该计数器在图1的压缩过程的每次迭代时递增并且提供关于应当在阶段2处访问的下一个读段记录的指示。
每个读段记录包含关于读段比对的类型的信息。关于读段的比对类型的信息可以包括描述读段相对于参考基因组的映射和比对水平的任何信息。在一些具体实施中,比对类型可以包括完全比对、不完全比对,或者“未映射”读段比对。“完全比对”或“完全映射的读段”可以包括其中读段的每个核苷酸映射至参考基因组的一部分并且与之比对的读段。在一些具体实施中,“完全比对”或“完全映射的读段”可以具有零个失配和零个未确定的碱基“N”。在其他具体实施中,“完全比对”或“完全映射”读段可以具有零个失配,但是可能具有一个或多个未确定的碱基“N”。一般而言,“不完全比对”或“不完全映射的读段”的定义取决于在本文所述的压缩方法的特定具体实施中实现的“完全映射的读段”的含义。例如,如果使用其中完全映射的读段可以包含零个失配和零个未确定的碱基N的具体实施,则“不完全比对”或“不完全映射的读段”意指与参考序列的至少一部分匹配并且包括至少一个失配或至少一个N的任何读段。然而,如果例如使用其中完全映射的读段可以包含零个由一个或多个N引起的失配的具体实施,则“不完全比对”或“不完全映射的读段”意指具有至少一个除未公开的碱基N之外的失配的任何读段,而所述读段的至少一部分与参考序列的一部分匹配(根据不完全映射的读段的这种另外的定义,不完全映射的读段可以包含一个或多个N,条件是其还包含一个或多个其他失配)。因此,任何特定的系统或具体实施如何被配置为识别完全映射的读段将确定该具体实施的不完全映射的读段的含义。“未映射读段”可以包括尚未映射至参考基因组也尚未与之比对的读段。
在一些具体实施中,每个读段记录包括描述该读段的属性的多个位标记。在一些具体实施中,所述多个位标记可以使用在读段记录开始处的一个或多个字段来存储。然而,在其他具体实施中,读段记录的其他字段可以用于存储所述多个位标记。所述多个位标记中的每个位标记可以使用多个值中的一个值来指示其对应的读段属性的值。在一些具体实施中,以下位标记可以用于指示读段记录的读段属性的值:
-第一位标记,其指示相对于参考序列的正向或反向取向,
-第二位标记,其指示完全比对或未完全比对,
-第三位标记,其指示读段是否包含至少一个N,
-第四位标记,其指示位置信息是以16位还是32位编码,
-第五位标记,其指示读段是映射的还是未映射的。
针对多个读段中的每个读段执行以下阶段4至12。如果读段被分组成块,则针对每个读段块的每个读段执行阶段4至12。
本公开的压缩方法可以包括下一个阶段4,其通过设备20、20A或20B针对每个比对读段确定所述读段与参考序列是完全映射的还是不完全映射的,或者所述读段是否与参考序列是未映射的。在一些具体实施中,设备20、20A、20B可以基于从映射和比对模块接收的信息来确定读段是完全映射的读段、不完全映射的读段,还是未映射的读段。该信息可以包括以下信息:诸如,由所获得的读段记录表示的读段是映射的还是未映射的;由读段记录表示的读段是完全映射的还是不完全映射的;总失配(诸如变体或测序错误、未确定的碱基)的数目的指示,或它们的任何组合。在一些具体实施中,该信息可以包含在所获得的读段记录本身之内。
在一些具体实施中,设备20、20A或20B可以首先确定比对读段是映射的还是未映射的。如果设备20、20A或20B确定比对读段是未映射的,则所述设备可以在阶段6处继续执行图1的过程。替代性地,如果设备20、20A或20B确定读段是映射的,则设备20、20A或20B可以确定该读段是不完全映射的还是完全映射的。
在一些具体实施中,设备20、20A或20B可以通过评估读段中的失配总数的数目来确定读段是不完全映射的还是完全映射的。在一些具体实施中,该失配总数可以由映射和比对模块提供并且从所获得的读段记录获得。在此类具体实施中,如果设备20、20A或20B确定失配总数等于零,则设备20、20A或20B可以在阶段4处确定所获得的比对读段是完全映射的读段,并且可以在阶段6处继续执行图1的过程。替代性地,如果在阶段4处,设备20、20A或20B确定失配总数大于零,则设备20、20A或20B可以在阶段4处确定与读段记录对应的读段是不完全映射的读段,并且设备20、20A或20B可以在阶段6处继续执行图1的过程。
然而,需注意,上述具体实施仅仅是有关设备20、20A或20B可以如何确定比对读段记录是完全映射的、不完全映射的或未映射的示例。例如,在一些具体实施中,这种确定可以基于所获得的读段记录中所包含的信息并且在不将失配数目与零阈值进行比较的情况下进行。以举例的方式,读段记录可以在该读段记录的标头或其他部分中保持位标记,其指示该读段是映射的、未映射的、完全映射的还是不完全映射的,等等。在此类具体实施中,设备20、20A或20B可以基于所获得的读段记录的位标记并且在不将失配数目与零阈值进行比较的情况下,在阶段4处确定比对读段记录是映射的、未映射的、完全映射的还是不完全映射的。其他具体实施也落入本公开的范围之内。例如,可以想到,可以采用以下具体实施:其中可以访问存储在与所获得的读段记录不同的数据结构中的信息,并且将其视为读段位标记或其他数据,以指示特定读段记录是映射的、未映射的、完全映射的还是不完全映射的。
在一些具体实施中,该确定步骤4可以还包括针对每个不完全映射的读段,将所述读段与所述参考序列之间的失配的数目与阈值进行比较4a。这可以包括失配总数,其中失配总数包括比对读段与参考测序之间的任何差异(包括变体、测序错误和未确定的碱基N)的总和。在一些具体实施中,失配数目可以由映射和比对模块提供并且从读段记录获得。
在一些具体实施中,所述阈值可以是31。可以选择该特定值,以便提供用于以足够紧凑的方式存储失配数目的最佳可能折衷,如稍后关于阶段12将更好理解的。实际上,已经在统计学上观察到,在绝大多数情况下,不完全映射的读段具有少于31个失配。该选择背后的原理在于以最紧凑的方式对最频繁出现的情况进行编码,留下一些非常少的降级情况。然而,尽管在一些具体实施诸如短读段具体实施(其中读段的长度为大约150个核苷酸或碱基可能是有利的)中使用31个失配的阈值,但是本公开并不仅限于其中阈值等于31的那些具体实施。相反,对于其他具体实施,可能期望使用比31更高的阈值。例如,尽管各方面(例如,31个失配的阈值)可以旨在用于压缩表示由短读段定序器生成的读段的读段记录,但是预期本发明的基因组数据压缩方法可以用于其他具体实施中,诸如用于压缩由长读段定序器生成的读段记录。因此,在此类具体实施中,在读段由长度显著长于150个核苷酸或碱基的读段记录表示的情况下,阈值可以被设定为比31更高的值,以实现用于长读段系统的本公开的压缩方法的功能。
如果读段被确定为以低于阈值的失配数目发生不完全映射,则确定阶段4还可以包括关于读段与参考序列是全局映射的还是局部映射的附加确定。“全局映射的读段”是不完全映射的读段,其整个序列(包括该读段的起点和终点)与参考序列是不完全映射的。“局部映射的读段”是含有与参考序列是不完全映射的核苷酸或碱基的区段的不完全映射的读段。因此,核苷酸或碱基的所述区段对应于初始读段的一部分。
在一些具体实施中,所述压缩方法可以还包括阶段6,其针对每个比对读段,确定所述读段是否包含至少一个未确定的碱基“N”,即,所述读段是否包含至少一个对应于测序机器不能检出任何碱基或核苷酸的情况的失配。对于包含至少一个“N”的每个读段,该方法然后包括阶段8,其确定此类未确定的碱基“N”的数目;和阶段10,其将所述未确定的碱基“N”的数目与参考阈值进行比较。在一些具体实施中,参考阈值可以等于31。然而,在其他具体实施中,可以将参考阈值设定为其他值。
无论确定阶段4的结果如何,该方法均包括下一个阶段12,其根据所述确定对读段进行编码。更准确地讲,根据第一编码过程对被确定为与参考序列完全映射的读段进行编码,无论所述读段是不包含未确定的碱基“N”,还是具有数目低于参考阈值的未确定的碱基“N”。根据第二编码过程对被确定为未映射的读段或者被确定为完全映射但具有数目大于参考阈值的未确定的碱基“N”的读段进行编码,其中每个核苷酸或碱基被单独编码,而不管所述核苷酸或碱基是比对的还是未比对的。根据第二编码过程或第三编码过程对被确定为不完全映射的读段进行编码。更准确地讲,根据第二编码过程对被确定为以大于阈值的失配数目发生不完全映射的读段进行编码。如果读段被确定为以低于阈值的失配数目发生不完全映射,则如果所述读段不包含N或具有低于参考阈值的N数目,则根据第三编码过程对所述读段进行编码。如果不是这样,即,如果读段具有大于参考阈值的N数目,则根据第二编码过程对所述读段进行编码。
不管给定读段是已被确定为完全映射的、不完全映射的还是未映射的,如果所述读段包含至少一个N但具有低于参考阈值的N数目,则编码阶段12包括编码沿着参考序列的位置的列表,所述位置对应于参考序列中的N的位置。然后将该位置列表存储在计算装置的存储器中,所述装置实施所述压缩方法。如果读段包含至少一个N但具有低于参考阈值的N数目,则将根据第二编码过程进行编码,并且该读段的每个核苷酸或碱基以2位单独编码。
如果读段包含至少一个N但具有大于参考阈值的N数目,则在任何情况下都将根据第二编码过程对所述读段进行编码,并且该读段的每个核苷酸或碱基以4位单独编码。在这种情况下,编码阶段12不包括对参考序列中的N位置的列表进行编码和存储。实际上,然后根据第二编码过程以与读段的其他核苷酸或碱基极其相同的方式对每个N失配直接进行编码。
第一编码过程和第三编码过程包括不同的描述符集合。每个描述符集合单义地表示与对应的编码过程相关联的读段,第一编码过程和第三编码过程中的每一者是简化的信息熵编码过程。更准确地讲,第三编码过程包括第一编码子过程和第二编码子过程。根据第一编码子过程对在阶段4期间被确定为全局映射的不完全映射的读段进行编码。根据第二编码子过程对在阶段4期间被确定为局部映射的不完全映射的读段进行编码。第一编码子过程和第二编码子过程包括不同的描述符集合,每个描述符集合单义地表示与对应的编码子过程相关联的读段。
于是,针对每个读段编码并且使得能够在数据解压缩期间重建整个读段序列的比对信息取决于用于所述读段的对应的编码过程或子过程。
例如,在一些具体实施中,用于第一编码过程的第一描述符集合可以包括:
o完全映射的读段相对于参考序列的绝对起始位置(以16位或32位编码),以及
o读段的长度(采用差分编码法相对于前一个读段的长度进行编码,其中可变长度码在2位至34位的范围内)。
作为另一个示例,在一些具体实施中,用于第一编码子过程的第二描述符集合可以包括:
o不完全映射的读段相对于参考序列的绝对起始位置(以16位或32位编码),
o读段的长度(采用差分编码法相对于前一个读段的长度进行编码,其中可变长度码在2位至34位的范围内),以及
o读段的失配列表。
作为另一个示例,在一些具体实施中,用于第二编码子过程的第三描述符集合可以包括:
o读段的不完全映射的部分相对于参考序列的绝对起始位置–也称为局部比对起始位置(以16位或32位编码),
o读段的长度(采用差分编码法相对于前一个读段的长度进行编码,其中可变长度码在2位至34位的范围内),
o读段的失配列表,以及
o读段的不是比对的一部分的剪切部分的长度(对于每个剪切部分以8位编码)。
优选地,在第一子过程和第二子过程中编码的失配列表可以包括标头。例如,在一些具体实施中,该标头可以使用位标记编码并且在一个字节上编码。在此类具体实施中,一字节标头的前五位可以用于编码读段中所包含的失配的数目。在其中阈值等于31的具体实施中,失配数目可以在介于0与31之间的范围内。一字节标头的一位可以用于编码不完全映射的读段是全局映射还是局部映射。一字节标头的另一位可以用于编码2位模式是否被激活用于第二编码过程。一字节标头的最后一位可以用于编码4位模式是否被激活用于第二编码过程。在一些具体实施中,针对在编码阶段12期间根据第二编码子过程编码的每个读段,将所述读段的剪切部分(即,不是局部比对的一部分的那些部分)串联,并且所述剪切部分的每个核苷酸或碱基被单独编码。在一些具体实施中,所述读段的这种剪切部分的每个核苷酸或碱基以2位单独编码。
在一些具体实施中,在不完全映射的读段的失配列表中编码(即,根据第一编码子过程或第二编码子过程编码)的每个失配可以在1个字节上编码。更准确地讲,要根据第一编码子过程或第二编码子过程编码的不完全映射的读段的每个失配可以如下编码:
o字节的前两位用于编码读段中存在的替代核苷酸或碱基,而不是参考序列中的相应参考核苷酸或碱基,
o后六位用于编码参考序列中的失配的位置,所述位置被计算为相对于读段的前一个失配的偏移。该计算出的位置可以是失配的相对位置,绝对位置被编码的读段的第一失配除外。因此,该偏移的范围(以6位编码)可以为[0-63]。
由完成图1的过程产生的编码记录或压缩记录可以存储在所述设备的存储器或其他存储装置中。在一些具体实施中,这种编码记录或压缩记录可以以维持所述读段记录的序列排序的方式存储在所述设备的存储器或其他存储装置中。这有助于确保比对读段记录的压缩是无损的,因为甚至保留了比对读段记录的初始序列排序。
在阶段102处获得比对读段记录
参考图1A的压缩方法100A更详细地描述图1的压缩方法。由设备20、20A或20B执行压缩方法100A能够开始于初始阶段102,该初始阶段包括获得比对读段记录(以下也称为“所获得的读段记录”或者“未映射读段”/“映射读段”/“完全映射的读段”/“不完全映射的读段”,基于在方法100A的执行期间所获得的读段记录的后续分类)。在一些具体实施中,该比对读段记录能够从多个比对读段记录获得,所述多个比对读段记录以使得由测序装置提供的它们的初始顺序被保留的方式存储。因此,映射和比对模块以及压缩模块的整个操作能够将读段记录以由测序装置提供的它们的初始顺序保持。在一些具体实施中,可以通过使用序列_id来存储比对读取记录以保留它们的初始顺序,该序列_id与每个比对读段记录一起存储并且随着由映射和比对模块产生的每个比对读段记录而递增。
在阶段104处确定对应于比对读段记录的读段是完全映射的、不完全映射的还是 未映射的
本公开的压缩方法可以包括下一个阶段104,其通过设备20、20A或20B确定所获得的读段记录是对应于与于参考序列完全映射的读段、与参考序列不完全映射的读段,还是与参考序列未映射的读段。在一些具体实施中,设备20、20A、20B可以基于从映射和比对模块接收的信息来确定读段是完全映射的读段、不完全映射的读段,还是未映射的读段。该信息可以包括以下信息:诸如,由所获得的读段记录表示的读段是映射的还是未映射的;由读段记录表示的读段是完全映射的还是不完全映射的;总失配(诸如变体或测序错误、未确定的碱基)的数目的指示,或它们的任何组合。在一些具体实施中,该信息可以包含在读段记录本身之内。
在一些具体实施中,设备20、20A或20B可以首先在阶段104处确定比对读段是映射的还是未映射的。如果设备20、20A或20B确定比对读段是未映射的,则所述设备可以在阶段120处继续执行图1A的过程100A。替代性地,如果设备20、20A或20B确定读段是映射的,则设备20、20A或20B可以在阶段104期间进一步确定该读段是不完全映射的还是完全映射的。
在一些具体实施中,设备20、20A或20B可以在阶段104期间通过评估读段中的失配数目来确定读段是不完全映射的还是完全映射的。在一些具体实施中,失配的数目可以由映射和比对模块提供并且从读段记录获得。对于不同的具体实施,可以以不同的方式来记录失配数目。在一些具体实施中,阶段104处的失配数目可以不包括未确定的碱基N的数目。在其他具体实施中,在阶段104处确定的失配数目可以包括失配数目和未确定的碱基N的数目的总和。
在图1A的该示例中,假设未确定的碱基N不是失配。因此,完全映射的读段可以包括0个失配和一个或多个未确定的碱基N。因此,在该具体实施中,不完全映射的读段将需要具有至少一个失配,并且可以具有或可以不具有任何未确定的碱基N。然而,在其他具体实施中,图1A的过程可以通过假设读段中存在N可能是失配来修改。在此类具体实施中,只有当读段被确定为具有0个失配和0个未确定的碱基N时,该读段才可以被确定为完全映射的读段,其中具有0个失配和一个或多个未确定的碱基N的读段被分类为不完全映射的读段。
在第一具体实施中,在阶段104处,如果设备20、20A或20B确定失配总数等于零并且未确定的碱基N的总数为零或更多,则设备20、20A或20B可以在阶段4处确定所获得的比对读段是完全映射的读段并且可以在阶段116处继续执行图1A的过程100A。替代性地,在该第一具体实施中,如果在阶段104期间,设备20、20A或20B确定失配总数大于零并且未确定的碱基N的总数为零或更多,则设备20、20A或20B可以在阶段104期间确定与所获得的读段记录对应的读段是不完全映射的读段,并且设备20、20A或20B可以在阶段106处继续执行图1A的过程100A。
在第二具体实施和替代性具体实施中,在阶段104处,设备20、20A或20B将仅在失配总数等于零并且未确定的碱基N的总数为零的情况下才确定读段是完全映射的读段,并且在这样的情形下,设备20、20A或20B可以在阶段116处继续执行图1A的过程100A。替代性地,在该第二具体实施中,如果在阶段104期间,设备20、20A或20B确定失配总数大于零或者未确定的碱基N的总数大于零,则设备20、20A或20B可以在阶段104期间确定与所获得的读段记录对应的读段是不完全映射的读段,并且设备20、20A或20B可以在阶段106处继续执行图1A的过程100A。
然而,需注意,上述具体实施仅仅是有关设备20、20A或20B可以如何在阶段104处确定对应于所获得的读段记录的读段是完全映射的、不完全映射的或未映射的示例。例如,在一些具体实施中,这种确定可以替代地基于所获得的读段记录中所包含的信息并且在不将失配数目与阈值进行比较、不将未确定的碱基N的数目与阈值进行比较,或不进行这两种比较的情况下进行。以举例的方式,读段记录可以在该读段记录的标头或其他部分中保持位标记,其指示该读段是映射的、未映射的、完全映射的还是不完全映射的,等等。在此类具体实施中,设备20、20A或20B可以基于读段记录的位标记并且在不将失配或未公开的碱基N的数目与阈值进行比较的情况下,在阶段4处确定比对读段记录是映射的、未映射的、完全映射的还是不完全映射的。其他具体实施也落入本公开的范围之内。例如,可以想到,可以采用以下具体实施:其中可以访问存储在与读段记录不同的数据结构中的信息,并且将其视为读段位标记或其他数据,以指示与特定读段记录对应的读段是映射的、未映射的、完全映射的还是不完全映射的。
阶段104的“读段不完全映射”分支
如果设备20、20A或20B在阶段104处确定与所获得的读段记录对应的读段是不完全映射的读段,则设备20、20A或20B可以在阶段106处确定所述不完全映射的读段与参考序列之间的差异的数目是否超过第一阈值。这可以包括失配总数,其中失配总数包括比对读段与参考序列之间的任何差异(包括变体、测序错误和未确定的碱基N)的总和。在其他具体实施中,阶段106处的差异数目可以仅包括失配数目而不将未确定的碱基N的数目考虑在内。在一些具体实施中,失配数目可以由映射和比对模块提供并且从读段记录获得。
在一些具体实施中,第一阈值可以是31。可以选择该特定值,以便提供用于以足够紧凑的方式存储失配数目的最佳可能折衷,如稍后关于后续阶段将更好理解的。实际上,已经在统计学上观察到,在绝大多数情况下,不完全映射的读段具有少于31个失配。该选择背后的原理在于以最紧凑的方式对最频繁出现的情况进行编码,留下一些非常少的降级情况。然而,虽然使用第一阈值31可以实现特定的优点,但是本公开不仅限于其中第一阈值等于31的那些具体实施。相反,对于其他具体实施,可能期望使用比31更高的阈值。例如,尽管各方面(例如,31个失配的阈值)可以旨在用于压缩表示由短读段定序器生成的读段的读段记录,但是预期本发明的基因组数据压缩方法可以用于其他具体实施中,诸如用于压缩由长读段定序器生成的读段记录。因此,在此类具体实施中,在读段由长度显著长于150个核苷酸或碱基的读段记录表示的情况下,阈值可以被设定为比31更高的值,以实现用于长读段系统的本公开的压缩方法的功能。
阶段106的“是”分支
如果设备20、20A或20B在阶段106处确定不完全映射的读段与参考序列之间的差异的数目超过第一阈值,则该设备可以在阶段114处继续执行过程100A。在阶段114处,设备20、20A或20B可以确定不完全映射的读段中的未确定的碱基“N”的数目是否超过第二阈值。在一些具体实施中,第二阈值也可以等于31。然而,类似于第一阈值,本公开的第二阈值也不限于值31。相反,基于在该具体实施中公布的读段的长度,可以将任何数值(包括高于31的值)用于第二阈值。此外,不需要第一阈值和第二阈值使用相同的阈值。
阶段114的“是”分支
如果由设备20、20A或20B确定在不完全映射的读段中未公开的碱基“N”的数目超过第二阈值,则设备20、20A或20B可以确定将使用第二编码模块110对该不完全映射的读段进行编码,以使用第二编码过程来编码该不完全映射的读段。第二编码过程与上文关于图1所述的第二编码过程相同,其中每个核苷酸或碱基被单独编码,而不管所述核苷酸或碱基是比对的还是未比对的。在一些具体实施中,由于设备20、20A或20B在阶段114处确定未确定的碱基“N”的数目超过第二阈值,所以设备20、20A或20B可以使用第二编码模块来使用第二编码过程将读段编码为4位110a。一旦使用第二编码过程110使用4位编码110a对读段进行编码,设备20、20A或20B就可以在阶段122处将编码读段存储在存储器或其他存储装置中。设备20、20A或20B可以在阶段124处确定是否存在要压缩的另一个顺序排序的比对读段。并且,如果存在要压缩的另一个顺序排序的比对读段,则设备20、20A或20B可以执行阶段102的操作,以便获得下一个顺序排序的比对读段记录并且再次执行过程100A。然后,设备20、20A或20B继续迭代地执行过程100A,直到在阶段124处不再识别出顺序排序的比对读段记录。在这样的确定之后,过程100A可以终止于阶段126处。
阶段114的“否”分支
如果设备20、20A或20B在阶段114期间确定,在不完全映射的读段中未公开的碱基“N”的数目不超过第二阈值,则设备20、20A或20B可以确定将使用第二编码模块110对该不完全映射的读段进行编码,以使用第二编码过程来编码该不完全映射的读段。第二编码过程与上文关于图1所述的第二编码过程相同,其中每个核苷酸或碱基被单独编码,而不管所述核苷酸或碱基是比对的还是未比对的。在一些具体实施中,由于设备20、20A或20B在阶段114处确定未确定的碱基“N”的数目不超过第二阈值,所以设备20、20A或20B可以使用第二编码模块来使用第二编码过程将读段编码为2位110b。一旦使用第二编码过程110使用2位编码110b对读段进行编码,设备20、20A或20B就可以在阶段122处将编码读段存储在存储器或其他存储装置中。设备20、20A或20B可以在阶段124处确定是否存在要压缩的另一个顺序排序的比对读段。并且,如果存在要压缩的另一个顺序排序的比对读段,则设备20、20A或20B可以执行阶段102的操作,以便获得下一个顺序排序的比对读段记录并且再次执行过程100A。然后,设备20、20A或20B继续迭代地执行过程100A,直到在阶段124处不再识别出顺序排序的比对读段记录。在这样的确定之后,过程100A可以终止于阶段126处。
阶段106的“否”分支
如果设备20、20A或20B在阶段106处确定不完全映射的读段与参考序列之间的差异的数目不超过第一阈值,则设备20、20A或20B可以在阶段108处继续执行过程100A。在阶段108处,设备20、20A或20B可以确定不完全映射的读段是否包括多于第二阈值数目的未确定的碱基“N”。
阶段108的“是”分支
如果设备20、20A或20B在阶段108处确定,在不完全映射的读段中未公开的碱基“N”的数目超过第二阈值,则设备20、20A或20B可以在阶段108处确定将使用第二编码模块110对该不完全映射的读段进行编码,以使用第二编码过程来编码该不完全映射的读段。第二编码过程与上文关于图1所述的第二编码过程相同,其中每个核苷酸或碱基被单独编码,而不管所述核苷酸或碱基是比对的还是未比对的。在一些具体实施中,由于设备20、20A或20B在阶段108处确定未确定的碱基“N”的数目超过第二阈值,所以设备20、20A或20B可以使用第二编码模块来使用第二编码过程将读段编码为4位110a。一旦使用第二编码过程110使用4位编码110a对读段进行编码,设备20、20A或20B就可以在阶段122处将编码读段存储在存储器或其他存储装置中。设备20、20A或20B可以在阶段124处确定是否存在要压缩的另一个顺序排序的比对读段。并且,如果存在要压缩的另一个顺序排序的比对读段,则设备20、20A或20B可以执行阶段102的操作,以便获得下一个顺序排序的比对读段记录并且再次执行过程100A。然后,设备20、20A或20B继续迭代地执行过程100A,直到在阶段124处不再识别出顺序排序的比对读段记录。在这样的确定之后,过程100A可以终止于阶段126处。
阶段108的“否”分支
如果设备20、20A或20B在阶段108期间确定不完全映射的读段包括数目不满足第二阈值的未确定的碱基“N”,则设备20、20A或20B可以使用第三编码模块112来使用第三编码过程对该不完全映射的读段进行编码。图1A中的第三编码过程与上文参考图1的过程所述的第三编码过程相同,并且使用与上述第三编码过程相同的描述符。一旦使用第三编码模块112的第三编码过程对读段进行编码,设备20、20A或20B就可以在阶段122处将编码读段存储在存储器或其他存储装置中。设备20、20A或20B可以在阶段124处确定是否存在要压缩的另一个顺序排序的比对读段。并且,如果存在要压缩的另一个顺序排序的比对读段,则设备20、20A或20B可以执行阶段102的操作,以便获得下一个顺序排序的比对读段记录并且再次执行过程100A。然后,设备20、20A或20B继续迭代地执行过程100A,直到在阶段124处不再识别出顺序排序的比对读段记录。在这样的确定之后,过程100A可以终止于阶段126处。
阶段104的“读段完全映射”分支
替代性地,如果在阶段104处确定与所获得的读段记录对应的读段是完全映射的读段,则设备20、20A或20B可以在阶段116处确定完全映射的读段是否包括数目超过第二阈值的未确定的碱基“N”。在一些具体实施中,第二阈值也可以等于31。然而,类似于第一阈值,本公开不限于第二阈值31。相反,基于在该具体实施中公布的读段的长度,可以将任何数值(包括高于31的值)用于第二阈值。此外,不需要第一阈值和第二阈值使用相同的阈值。
阶段116的“否”分支
如果设备20、20A或20B在阶段116处确定完全映射的读段不包括多于第二阈值数目的未确定的碱基“N”,则设备20、20A或20B可以确定使用第一编码模块122使用第一编码过程对该读段进行编码。如果完全映射的读段不包括任何未确定的碱基“N”,则第一编码模块122执行与上文参考图1所述的第一编码过程相同的第一编码过程,并且使用与上文所述的第一编码过程相同的描述符。替代性地,如果完全映射的读段包括一个或多个“N”,则第一编码模块122使用上文参考图1所述的第一编码过程并且使用用于上述第一编码过程的相同描述符来编码该完全映射的读段。此外,在其中完全映射的读段包括一个或多个N(但小于N的第二阈值数目)的特定具体实施中,第一编码模块118还可以在读段上存储未确定的碱基N的位置列表。
一旦使用第一编码模块118对读段进行编码,设备20、20A或20B就可以在阶段122处将编码读段存储在存储器或其他存储装置中。设备20、20A或20B可以在阶段124处确定是否存在要压缩的另一个顺序排序的比对读段。并且,如果存在要压缩的另一个顺序排序的比对读段,则设备20、20A或20B可以执行阶段102的操作,以便获得下一个顺序排序的比对读段记录并且再次执行过程100A。然后,设备20、20A或20B继续迭代地执行过程100A,直到在阶段124处不再识别出顺序排序的比对读段记录。在这样的确定之后,过程100A可以终止于阶段126处。
阶段116的“是”分支
然而,如果设备在阶段116处确定读段确实包括多于第二阈值数目的未确定的碱基“N”,则设备20、20A或20B可以使用第二编码模块110来使用第二编码过程将读段编码为4位110a。图1A的第二编码过程与上文关于图1所述的第二编码过程相同,其中每个核苷酸或碱基被单独编码,而不管所述核苷酸或碱基是比对的还是未比对的。一旦使用第二编码过程110使用4位编码110a对读段进行编码,设备20、20A或20B就可以在阶段122处将编码读段存储在存储器或其他存储装置中。设备20、20A或20B可以在阶段124处确定是否存在要压缩的另一个顺序排序的比对读段。并且,如果存在要压缩的另一个顺序排序的比对读段,则设备20、20A或20B可以执行阶段102的操作,以便获得下一个顺序排序的比对读段记录并且再次执行过程100A。然后,设备20、20A或20B继续迭代地执行过程100A,直到在阶段124处不再识别出顺序排序的比对读段记录。在这样的确定之后,过程100A可以终止于阶段126处。
阶段104的“未映射读段”分支
替代性地,如果在阶段104处确定与所获得的读段记录对应的读段是未映射的读段,则设备20、20A或20B可以在阶段120处确定该未映射的读段是否包括数目超过第二阈值的未确定的碱基“N”。在一些具体实施中,第二阈值也可以等于31。然而,类似于第一阈值,本公开不限于第二阈值31。相反,基于在该具体实施中公布的读段的长度,可以将任何数值(包括高于31的值)用于第二阈值。此外,不需要第一阈值和第二阈值使用相同的阈值。
阶段120的“否”分支
如果设备20、20A或20B在阶段120处确定未映射的读段不包括多于第二阈值数目的未确定的碱基“N”,则设备20、20A或20B可以确定使用第二编码模块110使用第二编码过程对该读段进行编码。第二编码过程与上文关于图1所述的第二编码过程相同,其中每个核苷酸或碱基被单独编码,而不管所述核苷酸或碱基是比对的还是未比对的。在一些具体实施中,由于设备20、20A或20B在阶段120处确定未确定的碱基“N”的数目不超过第二阈值,所以设备20、20A或20B可以使用第二编码模块来使用第二编码过程将读段编码为2位110b。一旦使用第二编码过程110使用2位编码110b对读段进行编码,设备20、20A或20B就可以在阶段122处将编码读段存储在存储器或其他存储装置中。设备20、20A或20B可以在阶段124处确定是否存在要压缩的另一个顺序排序的比对读段。并且,如果存在要压缩的另一个顺序排序的比对读段,则设备20、20A或20B可以执行阶段102的操作,以便获得下一个顺序排序的比对读段记录并且再次执行过程100A。然后,设备20、20A或20B继续迭代地执行过程100A,直到在阶段124处不再识别出顺序排序的比对读段记录。在这样的确定之后,过程100A可以终止于阶段126处。
阶段120的“是”分支
然而,如果设备在阶段120处确定未映射的读段确实包括多于第二阈值数目的未确定的碱基“N”,则设备20、20A或20B可以使用第二编码模块110来使用第二编码过程将读段编码为4位110a。图1A的第二编码过程与上文关于图1所述的第二编码过程相同,其中每个核苷酸或碱基被单独编码,而不管所述核苷酸或碱基是比对的还是未比对的。一旦使用第二编码过程110使用4位编码110a对读段进行编码,设备20、20A或20B就可以在阶段122处将编码读段存储在存储器或其他存储装置中。设备20、20A或20B可以在阶段124处确定是否存在要压缩的另一个顺序排序的比对读段。并且,如果存在要压缩的另一个顺序排序的比对读段,则设备20、20A或20B可以执行阶段102的操作,以便获得下一个顺序排序的比对读段记录并且再次执行过程100A。然后,设备20、20A或20B继续迭代地执行过程100A,直到在阶段124处不再识别出顺序排序的比对读段记录。在这样的确定之后,过程100A可以终止于阶段126处。
图3提供了根据第一编码子过程对读段的失配进行编码的一个示例。该读段是不完全映射的读段,其与参考序列是全局映射的。该读段具有两个失配:
o第一失配,其位于该读段中的第12位,其在于在该读段中用T核苷酸替换参考序列中的A核苷酸,以及
o第二失配,其位于该读段中的第21位,其在于在该读段中用G核苷酸替换参考序列中的C核苷酸。
该读段的失配列表然后被编码为:
o<12,T>,值“12”对应于该读段中的第一失配的绝对位置,以及
o<9,G>,值“9”对应于该读段中的第二失配的相对位置,即第二失配与第一失配之间的偏移。
例如,<12,T>可以被转换为值“51”(在1个字节上编码),并且<9,G>可以被转换为值“38”(在1个字节上编码)。这种字节编码用以下方式获得:
偏移位置x4+核苷酸值(其中A=0,C=1,G=2,T=3)
优选地,对于要根据第一编码子过程或第二编码子过程进行编码的每个不完全映射的读段,如果在该读段的给定失配与前一个失配之间计算出的偏移大于最大可编码值,则在所述两个失配之间插入至少一个“假”失配,直到所述失配中的每一者与所述至少一个“假”失配之间的每个偏移都低于所述最大可编码值。“假”失配被定义为这样的失配:对于该失配,字节的位用于编码该失配,或者用于编码与参考序列中的相应参考核苷酸或碱基相等的核苷酸或碱基。在一些具体实施中,最大可编码值等于63,对应于能够以6位编码的最大值。然而,本公开并不限于具有最大可编码值63的具体实施。对于具有大于63的最大可编码值的具体实施,可以使用附加的位来编码该值。在此类具体实施中,这可能需要例如调整用于该读段的标头中的其他位长度、标头大小的超过一个字节的增加,或这两者的组合。因此,本公开的算法的特征对于特定使用案例是灵活的,但是可能由设计改变引起的具体实施可能导致性能的相应折衷,这在任何特定具体实施的某些情况下可能是可接受的并且甚至是有益的。
图4提供了在必须插入“假”失配的情况下,根据第一编码子过程对读段的失配进行编码的一个示例。该读段是不完全映射的读段,其与参考序列是全局映射的。该读段具有两个失配:
o第一失配,其位于该读段中的第22位,其在于在该读段中用T核苷酸替换参考序列中的A核苷酸,以及
o第二失配,其位于该读段中的第134位,其在于在该读段中用G核苷酸替换参考序列中的C核苷酸。
第二失配与第一失配之间的位置偏移为112,其大于最大可编码值63。因此,“假”失配必须插入所述两个失配之间,使得所述失配中的每一者与该“假”失配之间的每个偏移都低于所述最大可编码值。具有T核苷酸的“假”失配(对应于参考序列中的“真”T核苷酸)例如插入该读段中的第85位。该“假”失配与第一失配之间计算出的位置偏移为63,其对应于最大可编码值。第二失配与该“假”失配之间计算出的位置偏移为49,其低于63。
该读段的失配列表然后被编码为:
o<22,T>,值“22”对应于该读段中的第一失配的绝对位置,
o<63,T>,值“63”对应于该读段中的“假”失配的相对位置,即“假”失配与第一失配之间的偏移,以及
o<49,G>,值“49”对应于该读段中的第二失配的相对位置,即第二失配与“假”失配之间的偏移。
例如,<22,T>可以被转换为值“91”(在1个字节上编码),<63,T>可以被转换为值“255”(在1个字节上编码),并且<49,G>可以被转换为值“198”(在1个字节上编码)。这种字节编码用以下方式获得:
偏移位置x4+核苷酸值(其中A=0,C=1,G=2,T=3)
所述方法包括提供包含编码读段列表的压缩文件的最终步骤14。所述编码读段以与存储在初始未压缩文件中的读段的顺序相同的顺序存储在所述压缩文件中。然后可以通过根据本发明配置的适当解压缩软件和/或方法,从比对编码信息和参考序列重建每个读段。
尽管参考计算装置20的示例性架构(出于说明的目的在图2中示出)进行了描述,但是此处公开的本发明的技术可以在硬件、软件、固件或它们的任何组合中实现。当在软件中实现时,计算机程序代码可以存储在计算机介质上,并且由包括一个或多个处理器的硬件处理单元执行,这与使用图2的装置20时的情况相同。应当理解,如本文所用的术语“处理器”旨在包括一个或多个处理装置,包括信号处理器、微处理器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他类型的处理电路系统,以及此类电路系统元件的部分或组合。另外,如本文所用的术语“存储器”旨在包括与处理器相关联的电子存储器,诸如以任何组合使用的随机存取存储器(RAM)、只读存储器(ROM)或其他类型的存储器。
因此,用于执行本文所述的方法和协议的软件指令或代码可以存储在相关联的存储器装置(例如,ROM、固定存储器或可移动存储器)中的一者或多者中,并且当准备使用时,被加载到RAM中并由处理器执行。
本公开的技术可以在各种各样的装置或设备中实施,包括例如移动电话、计算机、服务器、平板电脑和类似装置。
尽管本文已参考附图描述了本发明的说明性实施方案,但是应当理解,本发明并不限于那些确切的实施方案,并且在不脱离本发明的范围或实质的情况下,本领域的技术人员可以作出各种其他的改变和修改。
图5是可以用于实施执行图1和图1A的压缩方法的系统的计算部件的一个示例的图示。
计算装置500旨在表示各种形式的数字计算机,诸如膝上型电脑、台式电脑、工作站、个人数字助理、服务器、刀片式服务器、大型机和其他适当的计算机。计算装置550旨在表示各种形式的移动设备,诸如个人数字助理、移动电话、智能电话和其他类似的计算装置。此外,计算装置500或550可以包括通用串行总线(USB)闪存驱动器。USB闪存驱动器可存储操作系统和其他应用程序。USB闪存驱动器可包括输入/输出部件,诸如可插入到另一个计算装置的USB端口中的无线发射器或USB连接器。此处所示的部件、它们的连接和关系以及它们的功能仅意在作为示例,并不意在限制本文档中描述和/或要求保护的本发明的具体实施。
计算装置500包括处理器502、存储器504、存储装置508、连接到存储器504和高速扩展端口510的高速接口508,以及连接到低速总线514和存储装置508的低速接口512。部件502、504、508、508、510和512中的每一者使用各种总线互连,并且可以安装在公共母板上或视情况以其他方式安装。处理器502可以处理用于在计算装置500内执行的指令,包括存储在存储器504中或存储装置508上的指令,以在外部输入/输出装置(诸如耦接到高速接口508的显示器516)上显示GUI的图形信息。在其他具体实施中,可视情况将多个处理器和/或多个总线与多个存储器和多种类型的存储器一起使用。另外,可以连接多个计算装置500,每个装置提供必要操作的一些部分,例如,作为服务器库、一组刀片式服务器或多处理器系统。
存储器504将信息存储在计算装置500内。在一个具体实施中,存储器504是一个或多个易失性存储器单元。在另一具体实施中,存储器504是一个或多个非易失性存储器单元。存储器504还可以是另一种形式的计算机可读介质,诸如磁盘或光盘。
存储装置508能够为计算装置500提供海量存储。在一个具体实施中,存储装置508可以是或包含计算机可读介质,诸如软盘装置、硬盘装置、光盘装置或磁带装置、闪存存储器或其他类似的固态存储器装置,或装置阵列,包括存储区域网络中的装置或其他配置。计算机程序产品可在信息载体中有形地体现。计算机程序产品还可包含指令,该指令在被执行时,执行一种或多种方法,诸如上文所述的那些方法。信息载体是计算机可读介质或机器可读介质,诸如存储器504、存储装置508,或者处理器502上的存储器。
高速控制器508管理计算装置500的带宽密集型操作,而低速控制器512管理带宽较不密集型操作。这种功能分配仅为示例。在一个具体实施中,高速控制器508例如通过图形处理器或加速器耦接到存储器504、显示器516,并且耦接到高速扩展端口510,该端口可以接受各种扩展卡(未示出)。在该具体实施中,低速控制器512耦接到存储装置508和低速扩展端口514。低速扩展端口(该端口可包括各种通信端口,例如USB、蓝牙、以太网、无线以太网)可例如通过网络适配器耦接到一个或多个输入/输出设备,诸如键盘、指向设备、麦克风/扬声器对、扫描仪或联网设备诸如交换机或路由器。计算装置500可以多种不同的形式实施,如图所示。例如,该计算装置可被实施为标准服务器520,或者在一组此类服务器中被实施多次。它还可被实施为机架式服务器系统524的一部分。此外,该计算装置可在个人计算机诸如膝上型计算机522中实施。替代性地,来自计算装置500的部件可以与移动装置(未示出)诸如装置550中的其他部件组合。此类装置中的每一者可以包含计算装置500、550中的一个或多个装置,并且整个系统可以由彼此通信的多个计算装置500、550组成。
计算装置500可以多种不同的形式实施,如图所示。例如,该计算装置可被实施为标准服务器520,或者在一组此类服务器中被实施多次。它还可被实施为机架式服务器系统524的一部分。此外,该计算装置可在个人计算机诸如膝上型计算机522中实施。替代性地,来自计算装置500的部件可以与移动装置(未示出)诸如装置550中的其他部件组合。此类装置中的每一者可以包含计算装置500、550中的一个或多个装置,并且整个系统可以由彼此通信的多个计算装置500、550组成。
计算装置550包括处理器552、存储器564和输入/输出装置诸如显示器554、通信接口566和收发器568,以及其他部件。设备550还可设置有存储设备,诸如微驱动器或其他设备,以提供额外的存储。部件550、552、564、554、566和568中的每一者使用各种总线互连,并且这些部件中的若干部件可以安装在公共母板上或视情况以其他方式安装。
处理器552可以执行计算装置550内的指令,包括存储在存储器564中的指令。处理器可被实现为包括独立的多个模拟处理器和数字处理器的芯片的芯片组。另外,处理器可使用多种架构中的任一种架构来实现。例如,处理器510可以是CISC(复杂指令集计算机)处理器、RISC(精简指令集计算机)处理器或MISC(最小指令集计算机)处理器。处理器可以提供例如装置550的其他部件的协调,诸如对用户接口的控制、由装置550运行的应用程序,以及由装置550进行的无线通信。
处理器552可以通过耦接到显示器554的控制接口558和显示接口556与用户通信。显示器554可以是例如TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器,或其他适当的显示技术。显示接口556可以包括用于驱动显示器554以向用户呈现图形和其他信息的适当电路系统。控制接口558可以接收来自用户的命令并且转换这些命令以提交给处理器552。此外,可以提供与处理器552通信的外部接口562,以便实现装置550与其他装置的近区通信。外部接口562可以例如在一些具体实施中提供有线通信,或者在其他具体实施中提供无线通信,并且还可以使用多个接口。
存储器564将信息存储在计算装置550内。存储器564可被实施为一个或多个计算机可读介质、一个或多个易失性存储器单元或一个或多个非易失性存储器单元中的一者或多者。还可以提供扩展存储器574并且通过扩展接口572将其连接到装置550,该扩展接口可以包括例如SIMM(单列直插式存储器模块)卡接口。这种扩展存储器574可以为装置550提供额外的存储空间,或者还可以为装置550存储应用程序或其他信息。具体地讲,扩展存储器574可以包括用于执行或补充上述过程的指令,并且还可以包括安全信息。因此,例如,扩展存储器574可被提供为用于设备550的安全模块,并且可被编程为具有允许设备550安全使用的指令。此外,安全应用程序可经由SIMM卡连同附加信息一起提供,诸如将识别信息以不可破解的方式放置在SIMM卡上。
存储器可包括例如闪存存储器和/或NVRAM存储器,如下所述。在一个具体实施中,计算机程序产品在信息载体中有形地体现。计算机程序产品包含指令,该指令在被执行时,执行一种或多种方法,诸如上文所述的那些方法。信息载体是计算机可读介质或机器可读介质,诸如存储器564、扩展存储器574或处理器552上的可通过例如收发器568或外部接口562接收的存储器。
装置550可以通过通信接口566进行无线通信,该通信接口在必要时可以包括数字信号处理电路系统。通信接口566可以提供在各种模式或协议下的通信,诸如GSM语音呼叫、SMS、EMS或MMS信息收发、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等。此类通信可通过例如射频收发器568发生。此外,可发生近程通信,诸如使用蓝牙、Wi-Fi或其他此类收发器(未示出)。此外,GPS(全球定位系统)接收器模块570可向设备550提供附加的导航相关和位置相关的无线数据,该无线数据可由在设备550上运行的应用程序视情况使用。
装置550还可以使用音频编解码器560可听地通信,该音频编解码器可以从用户接收口头信息并且将其转换为可用的数字信息。音频编解码器560同样可诸如通过扬声器(例如,在设备550的手持终端中)为用户生成可听声。这种声音可以包括来自语音电话呼叫的声音,可以包括录制的声音(例如,语音消息、音乐文件等),并且还可以包括由在装置550上操作的应用程序生成的声音。
计算装置550能够以多种不同的形式实施,如图所示。例如,该计算装置可被实施为移动电话580。该计算装置还可被实施为智能电话582、个人数字助理或其他类似的移动设备的一部分。
本文所述的系统和方法的各种具体实施可在数字电子电路、集成电路、特别设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或此类具体实施的组合中实现。这些各种具体实施可包括在一个或多个计算机程序中的具体实施,该一个或多个计算机程序能够在包括至少一个可编程处理器的可编程系统上执行和/或解释,该至少一个可编程处理器可以是专用或通用处理器,被耦接以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令以及将数据和指令发送到存储系统、至少一个输入设备和至少一个输出设备。
这些计算机程序(也称为程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令,并且可以高级程序化和/或面向对象的编程语言和/或以汇编语言/机器语言来实现。如本文所用,术语“机器可读介质”、“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备,例如磁盘、光盘、存储器、可编程逻辑设备(PLD),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
为了提供与用户的交互,本文所述的系统和技术可在计算机上实现,该计算机具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器),以及用户可用来向该计算机提供输入的键盘和指向设备(例如鼠标或轨迹球)。也可使用其他类型的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以任何形式接收来自用户的输入,包括声音、语音或触觉输入。
本文所述的系统和技术可在计算系统中实现,该计算系统包括后端部件(例如,作为数据服务器)或包括中间件部件(例如,应用程序服务器)或包括前端部件(例如,具有图形用户界面或Web浏览器的客户端计算机),用户可通过该计算系统与本文所述的系统和技术的具体实施进行交互,或者与此类后端部件、中间件部件或前端部件的任何组合进行交互。该系统的部件可通过数字数据通信的任何形式或介质(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和互联网。
该计算系统可包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系借助于在相应计算机上运行并彼此具有客户端-服务器关系的计算机程序而产生。
其他实施方案
已经描述了多个实施方案。然而,应当理解,在不脱离本发明的实质和范围的情况下,可进行各种修改。此外,附图中所示的逻辑流程不需要所示的特定顺序或有序顺序来实现所需的结果。此外,可在所述流程中提供其他步骤,或者可消除步骤,并且可将其他部件添加到所述系统或从所述系统中移除。因此,其他实施方案也在以下权利要求书的范围内。
实验结果
根据本发明的压缩方法的统计和数值示例
以下比较实施例是在大小为35,770MB的未压缩数据文件上进行的,该文件含有4800万个核苷酸读段或序列。该比较实施例的结果也在图6中用图形描绘。
以下结果指示当使用每个相应算法压缩时具有4800万个读段的大小为35,770MB的未压缩文件的压缩版本的大小。这些结果描绘于图表610中。
o已用gzip软件压缩的文件的大小:6,649MB(612)
o已用基于非参考的SPRING软件压缩的文件的大小:1,402MB(614)
o已用根据本公开的基于参考的压缩方法压缩的文件的大小:1,179MB(6160
以下结果指示使用每个相应算法将大小为35,770MB的未压缩文件与4800万个读段进行比较所花费的时间量。这些结果描绘于图表620中。
o使用基于非参考的SPRING软件的压缩时间:1,722s(622)
o使用根据本发明的基于参考的压缩方法的压缩时间:181s(624)
以下结果指示当使用每个相应算法压缩时具有4800万个读段的大小为35,770MB的未压缩文件的压缩版本的以位/核苷酸定量计的平均大小。这些结果描绘于图表630中。
o未压缩数据文件的以位/核苷酸计的平均大小(ASCII编码):8位/核苷酸(630)
o已用适于4个可能字符A、T、C、G的编码压缩的文件的以位/核苷酸计的平均大小:2位/核苷酸(634)
o已用根据本发明的基于参考的压缩方法压缩的文件的以位/核苷酸计的平均大小:0.33位/核苷酸(636)
图7描绘了使用不同压缩算法来压缩使用WXS novaseq和参考基因组SRR8604734生成的样品读段的附加比较结果。
图表710示出了对使用参考基因组SRR8604734的WXS novaseq读段进行gzip压缩(712)、对使用参考基因组SRR8604734的WXS novaseq读段进行Spring压缩(716)以及对使用参考基因组SRR8604734的WXS novaseq读段进行本公开的压缩(716)之间的所得压缩大小(MB)的比较。测量结果以兆字节为单位。
图表720示出了720中的压缩算法对使用参考基因组SRR8604734的WXS novaseq读段进行压缩的压缩速度的比较。对使用参考基因组SRR8604734的WXS novaseq读段进行压缩的Spring压缩速度在(722)中示出,与之相比的对使用参考基因组SRR8604734的WXSnovaseq读段进行压缩的本公开的速度在724中示出。测量结果以秒为单位。
图表730示出了730中的压缩算法在对使用参考基因组SRR8604734的WXS novaseq读段进行压缩期间的存储器使用情况的比较。Spring压缩利用13,428MB的存储器来压缩使用参考基因组SRR8604734的WXS novaseq读段732,并且本公开使用3,604MB的存储器来压缩使用参考基因组SRR8604734的WXS novaseq读段(734)。测量结果以兆字节为单位。
图8描绘了使用不同的压缩算法来以不同的压缩比压缩使用不同的定序器和不同的参考基因组生成的样品读段的附加比较结果。
图表810示出了使用Novaseq生成的读段文件的以千兆字节(GB)为单位的原始大小(812)。使用gzip来压缩大小为100GB的Novaseq读段,gzip将原始数据压缩为17.7GB(814)。本公开将100GB Novaseq所生成读段的相同原始大小812文件压缩为3.4GB的压缩文件(816)。如810中所示,用于通过gzip和本公开两者进行的压缩的参考基因组为SRR6882909,并且压缩比为5.2x。
图表820示出了使用Hiseq X Ten生成的读段文件的以千兆字节(GB)为单位的原始大小(822)。使用gzip来压缩大小为100GB的Hiseq X Ten读段,gzip将原始数据压缩为24.9GB(824)。本公开将100GB Hiseq X Ten所生成读段的相同原始大小822文件压缩为8.1GB的压缩文件(826)。如820中所示,用于通过gzip和本公开两者进行的压缩的参考基因组为SRR7725247,并且压缩比为3x。
图表830示出了使用Hiseq 2000生成的读段文件的以千兆字节(GB)为单位的原始大小(832)。使用gzip来压缩大小为100GB的Hiseq 2000读段,gzip将原始数据压缩为27.6GB(834)。本公开将100GB Hiseq2000所生成读段的相同原始大小832文件压缩为11.3GB的压缩文件(836)。如830中所示,用于通过gzip和本公开两者进行的压缩的参考基因组为ERR174324,并且压缩比为2.4x。
上文指出的数值示例说明本发明允许快速压缩和解压缩,同时提供高压缩比。

Claims (49)

1.一种用于压缩由测序机器产生的基因组序列数据的计算机实现的方法,所述基因组序列数据包括已与参考序列比对的核苷酸或碱基的序列的读段,从而产生比对读段,所述比对读段作为读段列表存储在初始文件中,所述方法包括:
针对每个比对读段,确定所述读段与所述参考序列是完全映射的还是不完全映射的,或者所述读段是否与所述参考序列是未映射的,
根据所述确定对所述读段进行编码,其中根据第一编码过程对被确定为完全映射的所述读段进行编码,并且根据第二编码过程对被确定为未映射的所述读段进行编码,
其中确定步骤包括针对每个不完全映射的读段,将所述读段与所述参考序列之间的失配的数目与阈值进行比较,
其中,在编码步骤中,根据所述第二编码过程或第三编码过程对被确定为不完全映射的所述读段进行编码,当所述失配数目大于所述阈值时,根据所述第二编码过程对所述不完全映射的读段进行编码,并且当所述失配数目低于所述阈值时,根据所述第三编码过程对所述不完全映射的读段进行编码,
其中,在所述第二编码过程中,所述读段的每个核苷酸或碱基被单独编码,
其中所述第一编码过程和所述第三编码过程包括不同的描述符集合,每个描述符集合单义地表示与对应的编码过程相关联的所述读段,所述第一编码过程和所述第三编码过程中的每一者是简化的信息源熵编码过程。
2.根据权利要求1所述的方法,其中所述确定步骤包括当读段被确定为与所述参考序列不完全映射并且具有低于所述阈值的失配数目时的进一步确定,所述进一步确定有关于所述读段与所述参考序列是全局映射的还是局部映射的,并且其中所述第三编码过程包括第一编码子过程和第二编码子过程,根据所述第一编码子过程对被确定为全局映射的所述读段进行编码,根据所述第二编码子过程对被确定为局部映射的所述读段进行编码,所述第一编码子过程和所述第二编码子过程包括不同的描述符集合,每个描述符集合单义地表示与对应的编码子过程相关联的所述读段。
3.根据权利要求2所述的方法,其中所述第一编码子过程的所述描述符包括所述参考序列中的比对起始位置、读段长度和由符号替换表示的失配列表,并且其中所述第二编码子过程的所述描述符包括所述参考序列中的局部比对起始位置、读段长度、由符号替换表示的失配列表,以及不是所述比对的一部分的所述读段的剪切部分的长度。
4.根据权利要求3所述的方法,其中,在所述编码步骤中,将要根据所述第二编码子过程编码的读段的所述剪切部分串联,所述剪切部分的每个核苷酸或碱基被单独编码。
5.根据前述权利要求中任一项所述的方法,其中,在所述编码步骤中,在1个字节上编码不完全映射的读段的每个失配。
6.根据权利要求5所述的方法,其中,在所述编码步骤中,不完全映射的读段的每个失配如下编码:
·所述字节的前两位用于编码所述读段中存在的替代核苷酸或碱基而不是所述参考序列中的对应参考核苷酸或碱基;并且
·所述字节的后六位用于编码所述参考序列中的所述失配的位置,所述位置被计算为相对于所述读段的前一个失配的偏移。
7.根据权利要求6所述的方法,其中,在所述编码步骤中,如果在给定失配与所述前一个失配之间计算出的所述偏移大于最大可编码值,则在所述两个失配之间插入至少一个假失配,直到所述失配中的每一者与所述至少一个假失配之间的每个偏移都低于所述最大可编码值,假失配被定义为这样的失配:对于所述失配,所述字节的位用于编码所述失配,或者用于编码与所述参考序列中的对应参考核苷酸或碱基相等的核苷酸或碱基。
8.根据前述权利要求中任一项所述的方法,还包括将所述读段列表划分为读段块的初始步骤,其中每个块开始于包含对所述块进行解码所需的信息的标头,其中所述压缩方法逐块进行。
9.根据权利要求8所述的方法,其中所述读段块具有相同的块大小。
10.根据前述权利要求中任一项所述的方法,还包括提供包含编码读段列表的压缩文件的最终步骤,所述编码读段以与存储在所述初始文件中的所述读段的顺序相同的顺序存储在所述压缩文件中。
11.根据前述权利要求中任一项所述的方法,其中所述阈值等于31。
12.根据前述权利要求中任一项所述的方法,还包括:针对每个比对读段,确定所述读段是否包含至少一个对应于所述测序机器不能检出任何碱基或核苷酸的情况的失配的步骤。
13.根据权利要求12所述的方法,还包括:针对每个包含至少一个对应于所述测序机器不能检出任何碱基或核苷酸的情况的失配的读段,确定此类失配的数目的步骤,以及将所述数目与参考阈值进行比较的步骤。
14.根据权利要求13所述的方法,其中,在所述编码步骤中,如果此类失配的数目大于所述参考阈值,则将要根据所述第二编码过程编码的读段的每个核苷酸或碱基以4位单独编码,并且如果此类失配的数目低于所述参考阈值,则将要根据所述第二编码过程编码的读段的每个核苷酸或碱基以2位单独编码,并且所述编码步骤还包括编码沿着所述参考序列的位置的列表,所述位置对应于所述参考序列中的此类失配的位置。
15.一种在计算机可读存储介质上体现的计算机程序产品,所述计算机程序产品包括计算机可执行指令,所述计算机可执行指令在由处理器执行时,使得所述处理器执行包括前述权利要求中任一项所述的方法的所述步骤的操作。
16.一种具有计算机可执行指令的计算机可读存储介质,所述计算机可执行指令在由处理器执行时,使得所述处理器执行包括权利要求1至14中任一项所述的方法的所述步骤的操作。
17.一种设备,包括:
处理器;和
存储器,其可操作地耦接到所述处理器以形成计算装置,所述存储器存储处理器可执行指令,所述处理器可执行指令至少基于在所述处理器上被执行而使得所述处理器执行包括权利要求1所述的方法的所述步骤的操作。
18.一种用于压缩基因组序列数据的方法,所述方法包括:
由所述一个或多个处理器访问存储装置,所述存储装置以保留由映射和比对模块产生的多个读段记录的序列排序的方式存储所述多个读段记录;
针对所述多个读段记录中的每个特定读段记录:
由所述一个或多个处理器获得所述特定读段记录;
由所述一个或多个处理器确定所述特定读段记录是对应于被完全映射到参考序列的读段还是被不完全映射到所述参考序列的读段;
基于由所述一个或多个处理器确定所述特定读段记录对应于被不完全映射到所述参考序列的读段,由所述一个或多个处理器确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目;
基于确定所述失配数目满足所述预先确定的失配阈值数目,由所述一个或多个处理器将所述不完全映射的读段的每个失配编码为具有预先确定的压缩记录大小的压缩记录;以及
由所述一个或多个处理器将所述压缩记录存储在所述存储装置中,同时维持所述读段记录的所述序列排序。
19.根据权利要求18所述的方法,其中所述多个读段记录中的每个读段记录包括:
指示所述比对读段相对于所述参考序列的绝对起始位置的数据,
指示所述读段的长度的数据,
指示所述读段是完全映射的还是不完全映射的数据,
指示在所述读段中识别的失配的数目的数据,
指示所述读段是否包括至少一个未确定的碱基N的数据,指示所述读段中的未确定的碱基N的数目的数据,
指示所述读段是映射的还是未映射的数据,
指示所述读段记录在由所述映射和比对模块输出的读段记录序列中的位置的数据,以及
指示所述读段中的所述可能失配的相对位置的数据。
20.根据权利要求18所述的方法,其中所述预先确定的压缩记录大小是一个字节。
21.根据权利要求20所述的方法,其中将所述不完全映射的读段的每个失配编码为具有一个字节大小的压缩记录包括:针对每个特定失配,
由一个或多个处理器编码所述字节的前两位以包括表示存在于所述读段中的替代核苷酸或碱基而不是所述参考序列中的对应参考核苷酸或碱基的数据;以及
由一个或多个处理器编码所述字节的剩余六位以包括表示所述参考序列中的所述失配的位置的数据,所述位置被计算为相对于所述读段的前一个失配的偏移。
22.根据权利要求21所述的方法,所述方法还包括:
由一个或多个处理器确定所述偏移是否大于最大可编码值;
基于确定所述偏移大于所述最大编码值,由一个或多个处理器在所述特定失配与所述前一个失配之间插入至少一个假失配。
23.根据权利要求18所述的方法,其中所述方法还包括:
基于确定所述失配数目不满足所述预先确定的失配阈值数目,由一个或多个处理器使用简化的信息熵编码过程将对应于所述失配中的每一者的位置的所述参考序列的位置列表编码到所述参考序列中。
24.根据权利要求18所述的方法,其中所述方法还包括:
基于确定所述读段记录对应于被完全映射到所述参考序列的读段,由所述一个或多个处理器使用简化的信息熵编码来编码所述读段记录的至少一部分。
25.根据权利要求18所述的方法,其中由所述一个或多个计算机确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目包括:
由所述一个或多个处理器确定所述不完全映射的读段的所述失配数目是否大于所述参考阈值。
26.一种用于压缩基因组序列数据的系统,所述系统包括:
一个或多个计算机,和存储指令的一个或多个存储装置,所述指令在由一个或多个计算机执行时,能够操作以使得所述一个或多个计算机执行以下操作,所述操作包括:
由所述一个或多个计算机访问存储装置,所述存储装置以保留由映射和比对模块产生的多个读段记录的序列排序的方式存储所述多个读段记录;
针对所述多个读段记录中的每个特定读段记录:
由所述一个或多个计算机获得所述特定读段记录;
由所述一个或多个计算机确定所述特定读段记录是对应于被完全映射到参考序列的读段还是被不完全映射到所述参考序列的读段;
基于由所述一个或多个计算机确定所述特定读段记录对应于被不完全映射到所述参考序列的读段,由所述一个或多个计算机确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目;
基于确定所述失配数目满足所述预先确定的失配阈值数目,由所述一个或多个计算机将所述不完全映射的读段的每个失配编码为具有预先确定的压缩记录大小的压缩记录;以及
由所述一个或多个计算机将所述压缩记录存储在所述存储装置中,同时维持所述读段记录的所述序列排序。
27.根据权利要求26所述的系统,其中所述多个读段记录中的每个读段记录包括:
指示所述比对读段相对于所述参考序列的绝对起始位置的数据,
指示所述读段的长度的数据,
指示所述读段是完全映射的还是不完全映射的数据,
指示在所述读段中识别的失配的数目的数据,
指示所述读段是否包括至少一个未确定的碱基N的数据,
指示所述读段中的未确定的碱基N的数目的数据,
指示所述读段是映射的还是未映射的数据,
指示所述读段记录在由所述映射和比对模块输出的读段记录序列中的位置的数据,以及
指示所述读段中的所述可能失配的相对位置的数据。
28.根据权利要求26所述的系统,其中所述预先确定的压缩记录大小是一个字节。
29.根据权利要求28所述的系统,其中将所述不完全映射的读段的每个失配编码为具有一个字节大小的压缩记录包括:针对每个特定失配,
由一个或多个计算机编码所述字节的前两位以包括表示存在于所述读段中的替代核苷酸或碱基而不是所述参考序列中的对应参考核苷酸或碱基的数据;以及
由一个或多个计算机编码所述字节的剩余六位以包括表示所述参考序列中的所述失配的位置的数据,所述位置被计算为相对于所述读段的前一个失配的偏移。
30.根据权利要求29所述的系统,所述操作还包括:
由所述一个或多个计算机确定所述偏移是否大于最大可编码值;
基于确定所述偏移大于所述最大编码值,由所述一个或多个计算机在所述特定失配与所述前一个失配之间插入至少一个假失配。
31.根据权利要求26所述的系统,所述操作还包括:
基于确定所述失配数目不满足所述预先确定的失配阈值数目,由一个或多个计算机使用简化的信息熵编码过程将对应于所述失配中的每一者的位置的所述参考序列的位置列表编码到所述参考序列中。
32.根据权利要求26所述的系统,所述操作还包括:
基于确定所述读段记录对应于被完全映射到所述参考序列的读段,由一个或多个计算机使用简化的信息熵编码来编码所述读段记录的至少一部分。
33.根据权利要求26所述的系统,其中由所述一个或多个计算机确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目包括:
由所述一个或多个计算机确定所述不完全映射的读段的所述失配数目是否大于所述预先确定的失配阈值数目。
34.一种具有存储在其上的指令的计算机可读存储装置,所述指令在由数据处理设备执行时,使得所述数据处理设备执行用于压缩基因组序列数据的操作,所述操作包括:
访问存储装置,所述存储装置以保留由映射和比对模块产生的多个读段记录的序列排序的方式存储所述多个读段记录;
针对所述多个读段记录中的每个特定读段记录:
获得所述特定读段记录;
确定所述特定读段记录是对应于被完全映射到参考序列的读段还是被不完全映射到所述参考序列的读段;
基于确定所述特定读段记录对应于被不完全映射到所述参考序列的读段,确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目;
基于确定所述失配数目满足所述预先确定的失配阈值数目,将所述不完全映射的读段的每个失配编码为具有预先确定的压缩记录大小的压缩记录;以及
将所述压缩记录存储在所述存储装置中,同时维持所述读段记录的所述序列排序。
35.根据权利要求34所述的计算机可读存储装置,其中所述多个读段记录中的每个读段记录包括:
指示所述比对读段相对于所述参考序列的绝对起始位置的数据,
指示所述读段的长度的数据,
指示所述读段是完全映射的还是不完全映射的数据,
指示在所述读段中识别的失配的数目的数据,
指示所述读段是否包括至少一个未确定的碱基N的数据,
指示所述读段中的未确定的碱基N的数目的数据,
指示所述读段是映射的还是未映射的数据,
指示所述读段记录在由所述映射和比对模块输出的读段记录序列中的位置的数据,以及
指示所述读段中的所述可能失配的相对位置的数据。
36.根据权利要求34所述的计算机可读存储装置,其中所述预先确定的压缩记录大小是一个字节。
37.根据权利要求36所述的计算机可读存储装置,其中将所述不完全映射的读段的每个失配编码为具有一个字节大小的压缩记录包括:针对每个特定失配,
编码所述字节的前两位以包括表示存在于所述读段中的替代核苷酸或碱基而不是所述参考序列中的对应参考核苷酸或碱基的数据;以及
编码所述字节的剩余六位以包括表示所述参考序列中的所述失配的位置的数据,所述位置被计算为相对于所述读段的前一个失配的偏移。
38.根据权利要求37所述的计算机可读存储装置,所述操作还包括:
确定所述偏移是否大于最大可编码值;
基于确定所述偏移大于所述最大编码值,在所述特定失配与所述前一个失配之间插入至少一个假失配。
39.根据权利要求37所述的计算机可读存储装置,所述操作还包括:
基于确定所述失配数目不满足所述预先确定的失配阈值数目,使用简化的信息熵编码过程将对应于所述失配中的每一者的位置的所述参考序列的位置列表编码到所述参考序列中。
40.根据权利要求37所述的计算机可读存储装置,所述操作还包括:
基于确定所述读段记录对应于被完全映射到所述参考序列的读段,使用简化的信息熵编码来编码所述读段记录的至少一部分。
41.根据权利要求37所述的计算机可读存储装置,其中确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目包括:
确定所述不完全映射的读段的所述失配数目是否大于所述预先确定的失配阈值数目。
42.一种硬件处理器,其包括被配置为执行一个或多个操作的硬件处理电路系统,所述一个或多个操作包括:
由所述硬件处理电路系统访问存储装置,所述存储装置以保留由映射和比对模块产生的多个读段记录的序列排序的方式存储所述多个读段记录;
针对所述多个读段记录中的每个特定读段记录:
由所述硬件处理电路系统获得所述特定读段记录;
由所述硬件处理电路系统确定所述特定读段记录是对应于被完全映射到参考序列的读段还是被不完全映射到所述参考序列的读段;
基于由所述硬件处理电路系统确定所述特定读段记录对应于被不完全映射到所述参考序列的读段,由所述硬件处理电路系统确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目;
基于确定所述失配数目满足所述预先确定的失配阈值数目,由所述硬件处理电路系统将所述不完全映射的读段的每个失配编码为具有预先确定的压缩记录大小的压缩记录;以及
由所述硬件处理电路系统将所述压缩记录存储在所述存储装置中,同时维持所述读段记录的所述序列排序。
43.根据权利要求42所述的硬件处理器,其中所述多个读段记录中的每个读段记录包括:
指示所述比对读段相对于所述参考序列的绝对起始位置的数据,
指示所述读段的长度的数据,
指示所述读段是完全映射的还是不完全映射的数据,
指示在所述读段中识别的失配的数目的数据,
指示所述读段是否包括至少一个未确定的碱基N的数据,
指示所述读段中的未确定的碱基N的数目的数据,
指示所述读段是映射的还是未映射的数据,
指示所述读段记录在由所述映射和比对模块输出的读段记录序列中的位置的数据,以及
指示所述读段中的所述可能失配的相对位置的数据。
44.根据权利要求42所述的硬件处理器,其中所述预先确定的压缩记录大小是一个字节。
45.根据权利要求44所述的硬件处理器,其中将所述不完全映射的读段的每个失配编码为具有一个字节大小的压缩记录包括:针对每个特定失配,
由所述硬件处理电路系统编码所述字节的前两位以包括表示存在于所述读段中的替代核苷酸或碱基而不是所述参考序列中的对应参考核苷酸或碱基的数据;以及
由所述硬件处理电路系统编码所述字节的剩余六位以包括表示所述参考序列中的所述失配的位置的数据,所述位置被计算为相对于所述读段的前一个失配的偏移。
46.根据权利要求45所述的硬件处理器,所述硬件处理器还包括:
由所述硬件处理电路系统确定所述偏移是否大于最大可编码值;
基于确定所述偏移大于所述最大编码值,由所述硬件处理电路系统在所述特定失配与所述前一个失配之间插入至少一个假失配。
47.根据权利要求45所述的硬件处理器,所述硬件处理器还包括:
基于确定所述失配数目不满足所述预先确定的失配阈值数目,由所述硬件处理电路系统使用简化的信息熵编码过程将对应于所述失配中的每一者的位置的所述参考序列的位置列表编码到所述参考序列中。
48.根据权利要求45所述的硬件处理器,所述硬件处理器还包括:
基于确定所述读段记录对应于被完全映射到所述参考序列的读段,由所述硬件处理电路系统使用简化的信息熵编码来编码所述读段记录的至少一部分。
49.根据权利要求45所述的硬件处理器,其中由所述硬件处理电路系统确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目包括:
由所述硬件处理电路系统确定所述不完全映射的读段的所述失配数目是否大于所述预先确定的失配阈值数目。
CN202080062727.6A 2019-09-11 2020-09-11 用于压缩基因组序列数据的方法 Pending CN114341988A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/567211 2019-09-11
US16/567,211 US20210074381A1 (en) 2019-09-11 2019-09-11 Method for the compression of genome sequence data
PCT/US2020/050586 WO2021051021A1 (en) 2019-09-11 2020-09-11 Method for the compression of genome sequence data

Publications (1)

Publication Number Publication Date
CN114341988A true CN114341988A (zh) 2022-04-12

Family

ID=72521682

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202080062683.7A Pending CN114402314A (zh) 2019-09-11 2020-09-11 用于压缩基因组序列数据的方法
CN202080062727.6A Pending CN114341988A (zh) 2019-09-11 2020-09-11 用于压缩基因组序列数据的方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202080062683.7A Pending CN114402314A (zh) 2019-09-11 2020-09-11 用于压缩基因组序列数据的方法

Country Status (14)

Country Link
US (2) US20210074381A1 (zh)
EP (3) EP4029022A1 (zh)
JP (2) JP2022552779A (zh)
KR (2) KR20220061990A (zh)
CN (2) CN114402314A (zh)
AU (2) AU2020347285A1 (zh)
BR (2) BR112022003488A2 (zh)
CA (2) CA3148960A1 (zh)
DK (1) DK4029023T3 (zh)
ES (1) ES2964351T3 (zh)
FI (1) FI4029023T3 (zh)
IL (2) IL291012A (zh)
MX (2) MX2022002930A (zh)
WO (2) WO2021051019A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902937B2 (en) * 2014-02-12 2021-01-26 International Business Machines Corporation Lossless compression of DNA sequences
WO2018068829A1 (en) 2016-10-11 2018-04-19 Genomsys Sa Method and apparatus for compact representation of bioinformatics data
WO2018071054A1 (en) * 2016-10-11 2018-04-19 Genomsys Sa Method and system for selective access of stored or transmitted bioinformatics data

Also Published As

Publication number Publication date
MX2022002930A (es) 2022-05-24
AU2020346961A1 (en) 2022-02-24
KR20220061991A (ko) 2022-05-13
ES2964351T3 (es) 2024-04-05
DK4029023T3 (da) 2023-11-27
AU2020347285A1 (en) 2022-02-24
CN114402314A (zh) 2022-04-26
EP4318479A2 (en) 2024-02-07
US20220415441A1 (en) 2022-12-29
IL291012A (en) 2022-05-01
CA3148960A1 (en) 2021-03-18
WO2021051019A1 (en) 2021-03-18
FI4029023T3 (fi) 2023-11-28
EP4029022A1 (en) 2022-07-20
BR112022003488A2 (pt) 2022-05-24
IL291011A (en) 2022-05-01
JP2022549580A (ja) 2022-11-28
JP2022552779A (ja) 2022-12-20
WO2021051021A1 (en) 2021-03-18
CA3148976A1 (en) 2021-03-18
EP4029023A1 (en) 2022-07-20
BR112022003494A2 (pt) 2022-05-24
US20210074381A1 (en) 2021-03-11
MX2022002929A (es) 2022-06-08
KR20220061990A (ko) 2022-05-13
EP4029023B1 (en) 2023-09-06
EP4318479A3 (en) 2024-04-10

Similar Documents

Publication Publication Date Title
US9929746B2 (en) Methods and systems for data analysis and compression
Wandelt et al. Trends in genome compression
KR20190117652A (ko) 압축된 게놈 서열 리드로부터 게놈 참조 서열의 복원 방법 및 시스템
US11776663B2 (en) Quality score compression
US20200294629A1 (en) Gene sequencing data compression method and decompression method, system and computer-readable medium
Goel A compression algorithm for DNA that uses ASCII values
KR20190113971A (ko) 다중 게놈 디스크립터를 이용한 생명정보학 데이터의 압축 표현 방법 및 장치
JP2020509474A (ja) 圧縮されたゲノムシーケンスリードからゲノムリファレンスシーケンスを再構築するための方法とシステム
CN107633158B (zh) 对基因序列进行压缩和解压缩的方法和设备
CN114341988A (zh) 用于压缩基因组序列数据的方法
RU2815860C1 (ru) Способ сжатия данных последовательности генома
WO2021156110A1 (en) Improved quality value compression framework in aligned sequencing data based on novel contexts
RU2807474C1 (ru) Способ сжатия данных последовательности генома
Gilmary et al. Compression techniques for dna sequences: A thematic review
Voges Compression of DNA sequencing data
Kingsford et al. Compression of short-read sequences using path encoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination