CN104169927A

CN104169927A - 紧凑的下一代测序数据集及使用其的高效测序处理

Info

Publication number: CN104169927A
Application number: CN201380011406.3A
Authority: CN
Inventors: S·库马尔; R·辛格; B·查克拉巴蒂
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2012-02-28
Filing date: 2013-02-26
Publication date: 2014-11-26
Anticipated expiration: 2033-02-26
Also published as: EP2820581B1; JP6141335B2; PL2820581T3; CN104169927B; WO2013128371A3; BR112014020842A2; EP2820581A2; WO2013128371A2; EP2634717A2; JP2015515042A

Abstract

在包括通过处理组织样本采集的碱基序列的基因测序读数上操作的方法中，生成基因测序读数的紧凑文本表示。所述紧凑文本表示包括：(1)文本串，其表示碱基序列，以及(2)碱基质量文本域，其识别碱基序列的最长子序列，针对所述最长子序列，子序列的碱基的碱基质量分数满足碱基质量分数阈值；以及将基因测序读数的紧凑文本表示存储在原始读数存储器中。为了提供灵活性，所述碱基质量文本域可以识别针对两个或更多不同碱基质量分数阈值的每个的最长子序列。在读数比对期间，针对基因测序读数的偏移边界能够使用碱基质量文本域的内容高效地进行选择。

Description

紧凑的下一代测序数据集及使用其的高效测序处理

技术领域

下文涉及基因分析领域，并涉及诸如包括肿瘤学领域、兽医学领域等医学领域的相同的应用。

背景技术

高效的基因测序系统，有时被称为“下一代测序”(NGS)系统，能够迅速且实质上自动地对整个基因组进行测序。尽管NGS精确度已经足够用于临床应用，并且预期随着技术成熟而得到改善，但是与诸如桑格(Sanger)测序的较慢的常规技术相比，现有的NGS系统有时表现出较低的读数精确度。

为了评估读数精确度(或可靠性)，通常针对读数的每个碱基计算碱基质量分数。在Sanger测序的情况下，通过计算用于所测序的碱基的参数(诸如峰形和分辨率)，并将这些值与凭借经验建立的查找表进行比较，根据谱图数据计算phred质量分数。Phred分数通常被认为与错误地响应碱基的概率对数相关。例如，Q＝20的phred分数(Q)对应于99％的碱基响应(basecall)精确度，而Q＝30对应于99.9％的精确度，Q＝40对应于99.99％的精确度，等等。NGS方法采用并行处理技术，其通过数量级增强生产量。

常规phred分数计算不严格适用于NGS技术，但大多数NGS平台生成“像phred一样的”碱基质量分数，其相当于或按比例缩放到根据谱图数据计算的常规phred分数。本领域中，这些“像phred一样的”碱基质量分数有时被称为phred分数。

用于读数的公用存储器格式为FASTA格式，其中，碱基腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)的存在分别由美国信息交换标准码(ASCII)字母“A”、“C”、“G”和“T”表示。对于RNA，碱基胸腺嘧啶(T)替换为碱基尿嘧啶(U)。FASTA不存储质量分数信息。

另一方面，FASTQ格式合并质量分数。读数的FASTQ表示通常以ASCII格式，并且包括四行：标题行，其作为序列标识符；序列行，其列出由适当的ASCII字母“A”、“C”、“G”和“T”(用于DNA)或“U”(用于RNA)表示的有序的碱基序列；分隔符行，其通常仅由加号(“+”)标记构成(在某些FASTQ格式中，该行还可以包括诸如序列标识符的其他信息，例如对标题的镜像)；以及碱基质量分数行，其列出使用合适的编码的碱基质量分数(例如，将phred分数0-93映射至ASCII代码33-126，以避免在0-32范围内众多的“不可打印”的ASCII字符)。

因此，用于FASTQ读取条目的总存储器为2L_序列+[H]+K，其中L_序列为读数长度(即，构成读数的碱基的数目)，并且[H]为标题中的字符的数目。“+K”为常数偏移，其解释了“+”分隔符和分隔四行的任何定界字符(例如，回车或回车/换行)，而乘数因子2解释了每个碱基由碱基字符(“A”、“C”、“G”、“T”或“U”)和碱基质量分数二者表示的事实。对于合理长度的读数(例如，多于几个碱基)，大多数条目存储器由序列组成，总存储量为大约2L_序列。

原始读数文件的大小在NGS中能够是大的。对于全基因组数据集，最小的大小由基因组中的碱基数目施加，例如，在完整的单倍体人类基因组中的30亿个碱基对(bps)的数量级。在实践中，由于读数之间的重叠和复制，以及碱基质量值的存储，原始读数文件实质上大于此。因此，用于人类对象的全基因组数据集能够是几千兆字节的数量级。作为示意性范例，利用100bp读数和30倍覆盖范围测序的每个基因组可以由分割为多个文件的共计～150GB的数据组成。典型的FASTQ文件大小为～6.9GB，大约20个这样的文件可以足够存储整个人类基因组。大小为～6.9GB的单个文件能够通过存储在压缩gzip格式中被减少到大约2.3GB。

大的基因组数据集的大小和迅速减少的执行NGS成本的结合意味着基因数据存储器是测序应用总成本的主要部分，并且随着测序成本更加低廉并且产生更大的数据集，该部分成本预计将继续增加。此外，大的原始读数数据集转化为更高的计算成本用于下游处理(诸如比对)。

下文预期克服上述局限性及其他局限性的改进的设备和方法。

发明内容

根据一个方面，一种电子数据处理设备被配置为生成基因测序读数的紧凑文本表示，其包括具有碱基质量分数的对应有序序列的核苷酸碱基的有序序列。紧凑文本表示包括(1)文本串，其表示核苷酸碱基的有序序列，以及(2)碱基质量文本域，其识别核苷酸碱基的有序序列中的最长子序列，针对所述最长子序列，对应的碱基质量分数满足碱基质量分数阈值。原始读数存储器被配置为存储紧凑文本表示。

根据另一方面，公开了一种在包括通过处理组织样本采集的碱基序列的基因测序读数上操作的方法。所述方法包括：生成基因测序读数的紧凑文本表示，所述紧凑文本表示包括：(1)文本串，其表示碱基序列，以及(2)碱基质量文本域，其识别碱基序列中的最长子序列，针对所述最长子序列，子序列的碱基的碱基质量分数满足碱基质量分数阈值；以及，将基因测序读数的紧凑文本表示存储在原始读数存储器中。所述生成由电子数据处理设备适当地执行。

根据另一个方面，非暂态存储介质存储由电子数据处理设备可执行的指令，以处理包括核苷酸碱基的有序序列的基因测序读数，以生成基因测序读数的紧凑文本表示，所述紧凑文本表示包括：(1)文本串，其表示核苷酸碱基的有序序列，以及(2)碱基质量文本域，其识别核苷酸碱基的有序序列中的最长子序列，针对所述最长子序列，碱基质量分数满足碱基质量分数阈值。

一个优点在于在没有对应的重要信息内容的损失的情况下减少了用于读数的存储器。

另一优点在于更快且更有效的比对。

另一优点在于便于整体读数质量的有效统计特征。

另一优点在于提供上述优点的同时保留了用于读数存储器的文本格式并且同时保留了与现有下游处理部件(诸如比对器)的兼容性。

对于本领域普通技术人员，在阅读下面的详细说明后，许多附加的优点和益处将变得显而易见。

附图说明

本发明可以采取各种形式的部件和部件的布置，以及各种处理操作和处理操作的布置。附图仅用于图示优选实施例的目的，不应当被解释为限制本发明。

图1示意性地示出了在本文中描述的包括紧凑的读数存储器的基因分析系统。

图2示出了以常规FASTQ格式的原始读数文件的一部分。

图3示意性地示出了图1的系统的读数格式化模块的操作。

图4示出了由图1和图3的系统的读数格式化模块处理后的图2的原始读数文件部分。

图5示出了由图1的系统的任选的读数重格式化模块处理后的图4的原始读数文件的部分。

具体实施方式

在本文中公开的是以保留大部分有用信息的同时允许文件大小实质上减少的方式用于使包括碱基质量分数的原始读数数据格式化的方法。如前面所讨论的，在常规FASTQ格式中，读数占用比稍大于2L_序列(ASCII)字符，其中L_序列是碱基的数目。存储碱基序列和对应的碱基质量分数的其他现有的基于文本的存储格式占用相当大的存储量。例如，在Qseq格式中，碱基序列和质量分数被存储，但被布置在单行文本中。FASTA格式能够将这种存储大致减少一半——但它通过失去所有碱基质量分数信息达到这样的。备选地，任何人能够将文本格式化的读数条目转换为非文本格式(例如，二进制格式，其中，两个比特编码碱基，并且phred分数由二进制整数值表示)。然而，最下游的处理部件(例如，比对器、变异体注解器等)被设计为处理文本格式的读数。所公开的方法保留了文本格式的所有的碱基序列信息并保留实质上有用的碱基质量信息，同时仍允许实质上减少读数存储大小。

参考图1，描述了图示的临床或诊断应用。患者4在样本提取实验室6中进行组织样本提取，以生成组织样本，所述组织样本由基因组学实验室8处理，以测序和分析样本的DNA和/或RNA。例如，采样实验室6可以从对象4提取来自恶性病变的组织样本，任选地，连同从患者4的其他部位提取的正常组织样本。作为某些其他图示范例，样本提取可以包括采用活检针或其他介入仪器、为了获得含有DNA的卵泡拔取头发样本、使用皮下注射针头抽取血液等活检过程。图1示出了图示的所提取的组织样本10。应当指出，尽管图示实施例是对临床应用中的患者4操作的，但在其他应用中，组织样本可以从非人类的对象提取，诸如兽医学对象、生物学研究对象等。基因分析的应用能够是变化的，诸如：医学或兽医学诊断、监测等；生成用于人类学研究的基因数据库(例如，人口迁移研究等)；在临床或临床前研究中的对象评估等。还应当注意，在图示的图1中，样本10由图示小瓶表示；然而，应当理解，样本10通常可以采取适合于已被采样的组织类型的任何形式，并且可以由用于该类型组织的任何适合的容器或支承物来容纳或支承。例如，样本10可以是流体样本、表面样本(例如，通过口腔棉签获得的并被放置在无菌载玻片或其他适合的表面上)等。

在基因组学实验室8，组织样本10由测序仪装置14处理，以生成测序读数。测序仪装置14可以是下一代测序(NGS)装置或诸如Sanger测序设施的较常规的测序装置。测序仪装置14在某些实施例中可以是商业测序装置，诸如从美国加州圣地亚哥市的Illumina公司、美国马萨诸塞州剑桥市的Knome公司、美国康奈狄克斯州吉尔福德市的Ion Torrent公司或其他NGS系统供应商可获得的；然而，也预期非商业的或定制的测序仪。测序仪装置的一部分功能也可以手动执行。所生成的测序读数被任选过滤，以去除复制的读数和/或丢弃具有碱基质量(例如phred)分数低于20(或低于另一选定的碱基质量分数阈值)的读数。保留的测序读数16以FASTQ格式(如图所示)适当地配制，或以包括用于读数(例如，Qseq)的每个碱基的碱基质量值的另一种格式配制。在实施例中，其中测序仪装置14是自动化的商业产品，测序仪装置14以其通常的和普通的方式被适当地操作，并输出在测序仪装置14的标准输出中被格式化的测序读数16。

继续参考图1，并进一步参考图2，在图示的范例中，测序读数16被假定为是FASTQ格式的。图2示出两个读数16_ex。第一测序读数包括标题H1、用于第一读数的碱基序列B1、只包含加号标记(+)的分隔符行和具有碱基质量分数的碱基质量分数序列Q1，所述碱基质量分数由对应于第一读数序列B1的碱基的字母表示。第二测序读数包括标题H2、用于第二读数的碱基序列B2、只包含加号标记(+)的分隔符行和具有碱基质量分数的碱基质量分数序列Q2，所述碱基质量分数由对应于第二读数序列B2的碱基的字母表示。更普遍地，每个测序读数作为文本以FASTQ格式表示，并且包括：(1)限定读数的碱基序列(例如，用于第一读数的碱基序列B1和用于第二读数的碱基序列B2)和(2)具有针对碱基序列的每个碱基的碱基质量分数的碱基质量分数序列(例如，分别用于第一测序读数和第二测序读数的碱基质量分数Q1、Q2)。在其他文本格式中，这些部件(1，2)可以以不同形式进行组织——例如，在Qseq中，碱基序列(1)和对应的碱基质量分数(2)形成单行文本，而不是如在FASTQ格式中的两个独立的行。此外，测序读数表示的辅助元素(诸如在图2的范例中的标题H1、H2和分隔符加号标记)能够具有各种格式，可以完全省略，或者备选地不同于图2中所示的辅助元素可以被包括在读数表示中。更进一步地，尽管图示文本读数表示为ASCII文本，但也预期其他文本编码，诸如“扩展的”ASCII编码(其中，在十进制[128-256]范围内的值用于编码“特殊”字符)。

如从一些胸腺嘧啶(T)碱基的内含物可识别的，图2的图示性读数16_ex是DNA读数。备选地，读数可以是RNA读数。RNA不包括胸腺嘧啶碱基，而可以包括尿嘧啶(U)碱基。碱基质量分数Q1、Q2采用常规phred质量分数格式，其中，质量分数位于包含的区间[0,93]内，并通过增加33个偏移量被编码为ASCII，使得用于行Q1、Q2的字符的ASCII代码位于包含的范围[33，126]内。该偏移量确保大多数或全部字符是可打印的字符。(然而，一些显示设备和/或打印机可能无法打印某些代码，诸如通常对应于十进制ASCII代码96的重音符符号)。这些仅是图示性范例，并且能够使用其他碱基质量分数量表和/或文本编码方案。

继续参考图1，读数格式化模块20接收以FASTQ格式的读数16(或更普遍地，接收包括至少碱基序列和对应的碱基质量分数组的测序读数)。读数格式化模块20执行读数的格式化，其至少包括由指示碱基子序列的文本替代碱基质量分数Q1、Q2的序列，所述碱基子序列的碱基质量分数满足特定的阈值。这样做的效果是显著减少文本读数表示的大小，同时保留了由碱基质量分数提供的最相关的信息。

所公开的读数格式化模块20的操作是基于在此所做出的以下观察。对于许多应用，诸如决定在比对中使用的偏移，重要的是限定“优良”碱基(即质量分数超过某一碱基质量分数阈值的碱基)的子序列。通常没有做的是尝试挖掘散布在高密度的周围的“不良”碱基之中的一个或少数几个“优良”碱基。这种“碱基挖掘”方法会减慢处理速度；此外，所挖掘的被“不良”邻近的碱基包围的“良好”碱基尽管其高的碱基质量分数，但会受到怀疑，因为该区域作为整体存在质量问题。

因此，由碱基质量分数文本Q1提供的相关信息通常不是对于每个个体碱基的精确的质量分数。相反，有关信息是对读数中的“良好”碱基的主要的连续子序列的识别。“良好”碱基适当地被量化为质量分数满足特定碱基质量分数阈值的碱基。通过“满足”阈值，其意味着质量分数等于或超过阈值，例如质量分数40及更高满足阈值40；或者，在采用严格不等式的等效替代公式中，阈值能够被设定为39，并且阈值被严格超过该阈值的质量分数“满足”(同样，这些是质量分数40和更高的用于质量分数的假定整数值)。如在此所使用的，短语“满足阈值”和类似用语涵盖采用与“等于或大于”不等式结合操作的阈值的实施例，也涵盖采用与严格“大于”不等式结合操作的阈值的实施例。鉴于此，读数格式化模块20识别所有的碱基具有高于碱基质量阈值的碱基质量分数的碱基的最长子序列。针对碱基的精确碱基质量分数丢失了，但确保下游仪器或过程，在所识别的最长子序列中的所有碱基具有大于该阈值的质量分数。这可选地是对于单一阈值、或两个、三个或更多不同的阈值完成。多个阈值的任选使用使得能够决定碱基应当是如何“良好”的灵活性——即，下游仪器或处理能够在较高的所确保的碱基质量的较短的序列(通过选择由最高阈值限定的子序列)或较低的所确保的碱基质量的较长的序列(通过选择由最低阈值限定的子序列)之间选择。对于基于散列的比对算法，这是非常有用的，因为连续的质量碱基能够用作用于将读数与参考进行比对的关键。

继续参考图1，由读数格式化模块20输出的更紧凑格式的读数被存储在原始读数存储器22中。所存储的测序读数随后由一个或多个下游仪器或过程进行处理。例如，在图示性的图1中，原始读数由序列组装模块24组装，以生成针对组织样本的基因序列。由组装模块24执行的组装能够是重叠部分测序读数的重新比对，或者能够是测序读数至参考序列的映射，同时允许某小部分(例如，5-10％)的碱基错误匹配。在后者的情况下，例如，参考序列能够是人类患者4的图示性情况中的人类基因组的标准参考序列。比对处理包括限定针对读数的偏移，以考虑非固有的效果(例如，污染物、测序化学的类型等趋向于使读数的端部恶化的效果)。碱基质量分数通常在确定这些偏移中被查阅。组装模块24适当地被修改，以使用由读数格式化模块20输出的经修改的碱基质量信息。与其他序列相比较，得到的比对的序列数据集能够以不同方式被存储、分析，以检测检验的变异体等。在图示性范例中，分析、注释和报告模块28将经比对的序列与经注释的参考序列进行比较，以便识别与疾病(例如，癌症类型)或其他信息相关联的变异体。

在备选实施例中，组装模块24(或其他下游仪器或过程)是设计用于接收以FASTQ格式的原始读数的类型的常规组件。在该备选实施例中，没有对组装模块24做出变型。相反，提供前端组件26，其将被存储在存储器22中的紧凑读数格式化为与FASTQ一致的格式。这需要标记带有“良好”碱基质量分数(即，具有高于碱基质量分数阈值的碱基质量分数)的“良好”碱基的所识别的子序列中的所有碱基，并使用常规FASTQ格式将这些标签格式化。膨胀不完全复制初始(例如，FASTQ)碱基质量分数序列，但提供以FASTQ格式表示的实质上相等的碱基质量信息。

在图1的方法中，测序装置14输出以常规FASTQ格式的测序读数16，然后在读数存储之前由读数格式化模块20将其转化为在此所公开的更紧凑格式。这对于改装现有测序仪装置14以采用所公开的更紧凑格式是有利的。然而，也可以预期将测序仪装置14和读数格式化模块20集成为执行测序并输出以所公开的更紧凑格式的读数的单个单元。在这样的实施例中，不生成介于中间的FASTQ格式化数据16。

各种处理部件20、24、26、28适当地由图示性计算机或其他电子数据处理设备30体现。通过举例说明的方式，电子数据处理设备30可以包括：笔记本计算机；台式计算机；移动设备，诸如智能电话、平板电脑、个人数据助理(PDA)等；经由互联网和/或局域有线/无线数据网络可访问的网络服务器计算机；其各种组合；等等。原始读数存储器22适当地体现为随机存取存储器(RAM)、快闪存储器、或其他类型的电子存储器、或体现为硬盘或其他类型的磁性存储器，等等，其中，电子、磁性或其他类型的存储器被配置为存储由读数格式化模块20输出的以紧凑文本格式的原始读数，以便后续由电子数据处理设备检索。

所公开的用于以高效存储和高效计算的方式处理原始读数的技术也适当地体现为非暂态存储介质，其存储由图示性的计算机或其他电子数据处理设备30可执行以执行所公开的读数处理的指令。例如，存储可执行指令的非暂态存储介质可以包括：硬盘驱动或其他磁性存储介质；光盘或其他光学存储介质；闪速存储器、随机存取存储器(RAM)、只读存储器(ROM)、或其他电子存储介质；等等。

继续参考图1，并进一步参考图3，读数格式化模块20的图示性操作被描述为用于以FASTQ格式的基因测序读数30。更普遍地，至读数格式化模块20的输入是包括具有对应的碱基质量分数有序序列的核苷酸碱基的有序序列(在此也称为碱基序列)基因测序读数30。在操作32中，使用一个或多个碱基质量分数阈值对碱基质量分数进行阈值化。在图示性范例中，碱基质量分数由符号Q表示，并位于所使用的三个碱基质量分数阈值的范围内，即，图示性范例中的阈值40、50和60。更普遍地，阈值能够是与这些不同的水平，并且阈值的总数目能够是一个、两个、三个(如范例中)、四个或更多。阈值是任选的用户限定的阈值，然而也可以预期硬编码和/或自动生成的阈值。一个或多个阈值优选为研究团体或集团普遍接受的，如低的、中间的和高质量的限定碱基，(或青铜、银、金，铂或其他普遍接受的质量量表)。总体上，一个或多个阈值能够基于个体研究者的偏好来选择，或者可以是对原始读数的预处理步骤的输出，其基于原始读数的特征限定这些阈值。阈值也可以是针对具体测序仪器固定的和预先决定的。因此，阈值化操作32的输出是具有Q≥40的碱基组34、具有Q≥50的碱基组36以及具有Q≥60的碱基组38。(采用严格不等式的可选的等值是采用由具有Q>39、Q>49和Q>59的碱基分别满足的阈值39、49和59)。使用信息34，具有Q≥40的碱基的最长连续子序列在操作44中被识别。使用信息36，具有Q≥50的碱基的最长连续子序列在操作46中被识别。使用信息38，具有Q≥60的碱基的最长连续子序列在操作48中被识别。具有Q≥40的碱基的最长连续子序列由文本串“40：<start>-<end>”54(在此也被称为碱基质量文本域)适当地表示，其中，<start>指代在核苷酸碱基的有序序列中具有Q≥40的最长子序列的第一核苷酸碱基的位置的文本表示，并且<end>指代在核苷酸碱基的有序序列中具有Q≥40的最长子序列的最后一个核苷酸碱基的位置的文本表示。类似地，具有Q≥50的碱基的最长连续子序列由碱基质量文本域“50：<start>-<end>”56适当地表示，并且具有Q≥60的碱基的最长连续子序列由碱基质量文本域“60：<start>-<end>”58适当地表示。在操作60中，FASTQ碱基质量分数序列由碱基质量文本域54、56、58的串接替代，即，FASTQ碱基质量分数序列由文本字符串：“40：<start>-<end>，50：<start>-<end>，60：<start>-<end>”替代。最终输出是基因测序读数的紧凑文本表示62，其包括：(1)表示核苷酸碱基的有序序列的文本串(尽管任选地预期一些格式化，适当地未经修改地从FASTQ格式转入)，以及(2)一个或多个碱基质量文本域，其中，每个碱基质量文本域识别对应的碱基质量分数超过碱基质量分数阈值的核苷酸碱基的有序序列的最长子序列。

返回参考图2并进一步参考图4，在图2中所示的以FASTQ格式的读数16_ex在图4中被示出为紧凑文本表示62_ex。标题H1、H2和碱基序列B1、B2未经修改地从FASTQ表示转入。然而，碱基质量分数Q1、Q2的对应序列由具有由串接操作60输出的格式的碱基质量文本域QF1、QF2替代(参见图3)。

关于在此所公开的碱基质量文本域，可以做出某些观察结果。首先，具有超过给定的碱基质量分数阈值的碱基质量分数的碱基的最长子序列被识别——相应地，每个碱基质量分数阈值只有一个子序列。第二，针对任何较低的碱基质量分数阈值的子序列的长度将长于或等于针对任何较高的碱基质量分数阈值的子序列的长度。

参考图5，使用图4的范例作为测序读数的输入紧凑文本表示，对图1中所示的任选的读数重格式化模块26的操作进行了描述。如果下游仪器或处理需要诸如FASTQ格式化读数的常规测序读数格式，适当地采用读数重格式化模块26。图5的范例是图4中的紧凑文本表示62_ex的格式化版本。标题H1、H2和碱基序列B1、B2不受格式化的影响。然而，碱基质量文本域QF1、QF2每个被转换为对应于核苷酸碱基B1、B2的有序序列的经重构的碱基质量分数Q1R、Q2R的有序序列。针对由质量文本域识别的最长子序列的碱基的经重构的碱基质量分数被设置为大于或等于碱基质量阈值。在图示性范例中，针对具有Q≥60的最长子序列中的碱基的经重构的碱基质量分数(即针对第一读数的子序列[1,33]和针对第二读数的子序列[1，8])被设置为值65(对应于ASCII代码98，即小写字母“b”，使用如图2的FASTQ数据中的偏移+33，其中phred分数0-93被映射为ASCII代码33-126)。针对具有Q≥50的最长子序列中的碱基的经重构的碱基质量分数被设置为值55(对应于ASCII码88，即，大写字母“X”)。对于第一测序读数，被设置为“X”的子序列为[34，93]。(请注意，具有Q≥50的最长子序列和具有Q≥60的最长子序列二者的部分的重叠子序列[1，33]被设置为较高的重构值，即Q＝65，其大于阈值50和60。)对于第二读数，子序列[75，96]被设置为“X”。针对具有Q≥40的最长子序列的碱基的经重构的碱基质量分数被设置为值45(对应于ASCII代码78，即，大写字母“N”)。对于第一测序读数，该子序列与针对Q≥50的子序列共同延伸，并且因此没有碱基分配为经重构的质量分数＝45(ASCII“N”)。对于第二读数，子序列[38，74]和[97，102]被设置为“N”；此外，重叠的子序列[75，96]被分配为经重构的质量分数＝55(ASCII“X”)。最后，不是具有大于给定碱基质量分数阈值的碱基质量分数的任何最长子序列的部分的任何碱基被分配低的质量分数，即，Q＝0(ASCII代码33对应于字符“！”)。

比较图2和图5，得到的经重构的碱基质量分数序列Q1R、Q2R被认为不同于通过测序所生成的原始碱基质量分数序列Q1、Q2。然而，经重构的碱基质量分数序列Q1R、Q2R保留了重要信息，即，具有Q≥40、Q≥50和Q≥60的最长子序列被保留。因此，诸如图示的测序组件24(参见图1)的应用将正确地识别“良好”碱基的最长子序列，如由所选择的碱基质量分数阈值所限定的。

另一方面，如果测序组件24被修改为使用图4的碱基质量文本域QF1、QF2，则比对处理可以被简化。例如，在比对程序中，使用巴罗斯-车轮比对器(BWA)，分配在每个读数的开始和结束处的几个碱基的偏移。通常，采用被限定为读数长度的10％-15％的BWA偏移来抵消外来影响(例如，测序化学的类型、污染等)，但这仅仅是粗略的估计，并且不能准确地反映读数的实际的外来结束。当使用在此所公开的碱基质量文本域时，比对处理能够基于碱基质量文本域的内容适当地限定针对基因测序读数的偏移边界。例如，偏移边界能够被限定为针对所选择的碱基质量分数阈值识别的最长子序列的边界。更普遍地，目前已使用的利用碱基质量分数的任何下游仪器或处理通常需要执行复杂的处理来分析FASTQ碱基质量分数序列，以便识别“良好”碱基的连续区域。在此，这种处理被先验地执行并存储为原始读数的紧凑文本表示的一部分，因此能够使下游处理更有效。

在图示性范例中，碱基质量分数阈值被存储为碱基质量文本域的一部分。然而，如果阈值是固定值(例如，如果总是使用图示的三个阈值40、50、60)，则碱基质量文本域任选地省略存储碱基质量分数阈值，而是仅存储对应的碱基质量分数超过碱基质量分数阈值的核苷酸碱基的有序序列的最长子序列的识别。

在图示性范例中，碱基质量文本域通过存储核苷酸碱基的有序序列中的子序列的第一个和最后一个核苷酸碱基的位置，存储碱基质量分数超过阈值的最长子序列的识别。然而，也能够使用其他格式。例如，能够存储核苷酸碱基的有序序列中的子序列的中的第一个核苷酸碱基的位置和子序列中的核苷酸碱基的数目，从而提供等价信息。

已经参考优选实施例描述了本发明。显然，在阅读和理解以上具体实施方式的情况下对于其他人会想到修改或替代变型。本文意图将本发明解释为包括所有这种修改和替代变型，只要它们落入所附权利要求及其等价方案的范围之内。

Claims

1.一种装置，包括：

电子数据处理设备(30)，其被配置为生成基因测序读数的紧凑文本表示，其包括具有碱基质量分数的对应有序序列的核苷酸碱基的有序序列，所述紧凑文本表示包括：(1)文本串，其表示核苷酸碱基的所述有序序列，以及(2)碱基质量文本域，其识别核苷酸碱基的所述有序序列中的最长子序列，针对所述最长子序列，对应的碱基质量分数满足碱基质量分数阈值；以及

原始读数存储器(22)，其被配置为存储所述紧凑文本表示。

2.根据权利要求1所述的装置，其中，所述基因测序读数的所述紧凑文本表示包括：

(2.1)第一碱基质量文本域，其识别核苷酸碱基的所述有序序列中的所述最长子序列，针对所述最长子序列，对应的碱基质量分数满足第一碱基质量分数阈值，以及

(2.2)第二碱基质量文本域，其识别核苷酸碱基的所述有序序列中的所述最长子序列，针对所述最长子序列，对应的碱基质量分数满足第二碱基质量分数阈值，所述第二碱基质量分数阈值大于所述第一碱基质量分数阈值。

3.根据权利要求1-2中任一项所述的装置，其中，所述基因测序读数的所述紧凑文本表示不包括表示碱基质量分数的所述有序序列的文本串。

4.根据权利要求1-3中任一项所述的装置，其中，所述碱基质量文本域通过指定下述之一来识别所述最长子序列：

核苷酸碱基的所述有序序列中的所述子序列的第一个核苷酸碱基的位置和核苷酸碱基的所述有序序列中的所述子序列的最后一个核苷酸碱基的位置；以及

核苷酸碱基的所述有序序列中的所述子序列的所述第一个核苷酸碱基的所述位置和所述子序列中的核苷酸碱基的数目。

5.根据权利要求1-4中任一项所述的装置，其中，所述碱基质量文本域进一步识别所述碱基质量分数阈值。

6.根据权利要求1-5中任一项所述的装置，其中，所述电子数据处理设备(30)还被配置为比对包括所述基因测序读数的基因测序读数，以重建基因序列，其中，所述的比对处理包括：基于所述碱基质量文本域的内容来限定针对所述基因测序读数的偏移边界。

7.根据权利要求6所述的装置，其中，所述偏移边界被限定为在所述碱基质量文本域中识别的所述最长子序列的边界。

8.根据权利要求1-7中任一项所述的装置，其中，所述电子数据处理设备(30)还被配置为扩展所述基因测序读数的所述紧凑文本表示，以生成所述基因测序读数的扩展文本表示，所述扩大文本表示包括：(1’)文本串，其表示核苷酸碱基的所述有序序列，以及(2’)经重构的碱基质量分数的有序序列，其对应于核苷酸碱基的所述有序序列；

其中，所述经重构的碱基质量分数大于针对由所述碱基质量文本域识别的所述最长子序列的碱基的所述碱基质量阈值。

9.一种在包括通过处理组织样本(10)采集的碱基序列的基因测序读数上操作的方法，所述方法包括：

生成所述基因测序读数的紧凑文本表示，包括：(1)文本串，其表示所述碱基序列，以及(2)碱基质量文本域，其识别所述碱基序列的最长子序列，针对所述最长子序列，所述子序列的碱基的碱基质量分数满足碱基质量分数阈值；并且

将所述基因测序读数的所述紧凑文本表示存储在原始读数存储器(22)中；

其中，所述生成是由电子数据处理设备(30)执行的。

10.根据权利要求9所述的方法，其中：

所述基因测序读数的所述紧凑文本表示不包括表示对应于所述碱基序列的碱基质量分数的序列的文本串；以及

表示所述碱基序列的所述文本串包括与碱基表示代码一致的字母的序列，其中，字母“A”或“a”表示腺嘌呤碱基，字母“C”或“c”表示胞嘧啶碱基，字母“G”或“g”表示鸟嘌呤碱基，字母“T”或“t”表示胸腺嘧啶碱基，并且字母“U”或“u”表示尿嘧啶碱基。

11.根据权利要求9-10中任一项所述的方法，其中：

所述碱基质量文本域通过指定下述之一来识别所述最长子序列：(i)所述子序列的第一个碱基位置和最后一个碱基位置，以及(ii)所述子序列中的所述第一个碱基位置和碱基的数目；以及

所述碱基质量文本域进一步识别所述碱基质量分数阈值。

12.根据权利要求9-11中任一项所述的方法，还包括：

比对包括所述基因测序读数的基因测序读数以重建基因序列，其中，所述比对包括将针对所述基因测序读数的偏移边界限定为在所述碱基质量文本域中识别的所述最长子序列的边界；

其中，所述比对是由电子数据处理设备(30)执行的。

13.一种非暂态存储介质，其存储能由电子数据处理设备(30)执行的指令，以处理包括核苷酸碱基的有序序列的基因测序读数，以生成所述基因测序读数的紧凑文本表示，其包括：(1)文本串，其表示核苷酸碱基的所述有序序列，以及(2)碱基质量文本域，其识别核苷酸碱基的所述有序序列中的最长子序列，针对所述最长子序列，碱基质量分数满足碱基质量分数阈值。

14.根据权利要求13所述的非暂态存储介质，其中：

表示核苷酸碱基的所述有序序列的所述文本串包括与核苷酸碱基表示代码一致的字母的序列，其中：

字母“A”或“a”表示腺嘌呤核苷酸碱基，

字母“C”或“c”表示胞嘧啶核苷酸碱基，

字母“G”或“g”表示鸟嘌呤核苷酸碱基，

字母“T”或“t”表示胸腺嘧啶核苷酸碱基，以及

字母“U”或“u”表示尿嘧啶核苷酸碱基；并且

所述基因测序读数的所述紧凑文本表示不包括表示碱基质量分数的有序序列的文本串。

15.根据权利要求13-14中任一项所述的非暂态存储介质，其中，所存储的指令进一步地能由电子数据处理设备(30)执行，以通过比对包括所述基因测序的基因测序读数来重建基因序列，其中，所述比对包括基于所述碱基质量文本域的内容来限定针对所述基因测序读数的偏移边界。