CN106687965B

CN106687965B - 用于传送并且预处理测序数据的系统和方法

Info

Publication number: CN106687965B
Application number: CN201480071385.9A
Authority: CN
Inventors: S·C·本茨; J·Z·萨伯恩; C·J·瓦斯凯
Original assignee: Van F 3 Genome Co Ltd
Current assignee: Van F 3 Genome Co Ltd
Priority date: 2013-11-13
Filing date: 2014-11-13
Publication date: 2019-10-01
Anticipated expiration: 2034-11-13
Also published as: WO2015073735A1; EP3069285A1; US20190124135A1; JP6472798B2; AU2014348566A1; AU2019203427A1; US20150134662A1; JP2017504093A; AU2014348566B2; EP3069285A4; CN106687965A; US10193956B2; KR20160133400A; CA2932556A1; CN110570906A

Abstract

公开了“组学”数字数据传输系统和方法。公开的系统和方法采用传输服务器，该传输服务器基于来自一个或多个测序装置的机器专用注释和与组学输出文件的一种或多种属性相关的用户输入来聚集较大量的组学输出文件的传输组。

Description

用于传送并且预处理测序数据的系统和方法

本申请要求2013年11月13日提交的序列号为61/903903的美国临时申请的优先权。美国临时申请No.61/903903和本文中参考的其它外部参考文献的全文以引用方式并入本文。

技术领域

本发明的领域是传送并且预处理基因组测序数据的系统和方法，尤其地，当其涉及从一个或多个测序仪（sequencer）到序列分析引擎的基因组测序文件的注释、排队和批量传递时。

背景技术

背景描述包括可用于理解本发明的信息。这并非承认本文中提供的信息中的任何信息是现有技术或与当前要求保护的本发明相关，或者具体或隐含引用的任何公布文献是现有技术。

随着测序装置中的样本吞吐量增大，基因组数据的量和传输速度不免变成分析整个基因组的限制因素。例如，许多现代测序装置具有1-20Gb/日的吞吐量并且可合理地预期新测序技术将更进一步增大这个吞吐量。遗憾的是，至少在一些情况下，用于将数据传递到序列分析引擎的当前协议不再能够有效操纵此数据量并且将最终使处理速度减慢，并且据此延迟序列分析和潜在的患者护理。

为了克服与路由生物序列信息关联的困难，一个或多个网络节点可包括分组生成器，分组生成器生成包括第一报头和第二报头的数据分组，其中第一报头包含网络路由信息，第二报头具有与代表生物序列数据的现有知识的分层数据模型关联的属性，如US2012/0236861和US 2012/0233201中描述的。在US 2014/0278461中描述了设施中的高序列信息量的操纵。然而，已知系统和方法都并不特别适于以简化后续分析的方式管理大量的数据，尤其是当这种分析涉及医疗专业人员的特定分析需要或要求时。

显然，即使本领域已知操纵序列信息的众多方式，但也需要允许利用测序技术的最新进展的新数据操纵模式。

发明内容

本发明的主题涉及各种系统和方法，在这些系统和方法中，来自一个或多个数据源（例如，测序装置）的多个组学（omic）序列被供给到传输服务器，传输服务器对序列进行预处理并且将其分组成传输组，传输组随后被路由至序列分析引擎。在特别优选的方面中，基于组学序列中的机器专用注释和从用户输入的注释，完成预处理和分组。以这种方式，组学序列可被实时分组，并且被路由至下游序列分析引擎。因为组学序列被优选地分组，使得序列分析所需的所有序列在单个传输组中（即，在一个逻辑单元）中，与中断序列分析关联的延迟（例如，由于缺少供分析的一个或多个序列或者加载丢失的序列花费的时间）减少，并且更典型地，被完全避免。在使用序列分析引擎处理来自众多用户和/或患者样本的众多组学数据的情况下，这种优点是特别有益的。从不同的角度来看，本文中料想到的系统和方法允许序列分析引擎在最大速度下操作，因为与通过序列分析引擎的分析任务相关的所有数据被设置在单个组或匹配/对应的组中。

在本发明主题的一个方面中，发明人料想到用于传递多个组学序列的运送系统，该运送系统包括传输服务器，传输服务器包括运送引擎和注释引擎。最优选地，传输服务器耦接到一个或多个测序装置，测序装置将多个组学输出文件提供到所述传输服务器，其中，所述组学输出文件中的每个包括序列数据和机器专用注释，并且所述传输服务器进一步耦接到从所述传输服务器接收传输组的序列分析引擎（例如，BAM服务器）。在特别优选的方面中，所述注释引擎使用从用户输入的注释来注释组学输出文件，从而形成带注释的组学输出文件，并且所述运送引擎基于所述机器专用注释和从用户输入的所述注释二者，将所述带注释的组学输出文件分组成所述传输组。所述运送引擎随后将所述传输组传递到所述序列分析引擎。

虽然不限于本发明主题，但通常优选地是，所述组学输出文件是基因组输出文件（例如，整体基因组或外显子组）、RNA-组学输出文件、或蛋白质组输出文件，并且其中，输出文件是核苷酸序列，优选地是所述基因组输出文件是SAM格式、BAM格式、VCF格式、FASTQ格式和FASTA格式。另外，料想到，所述系统还将包括暂时数据存储装置，所述暂时数据存储装置耦接在所述多个测序装置和所述传输服务器之间，并且测序装置借助所述暂时数据存储装置将所述组学输出文件提供到所述传输服务器。需要时，还料想到，测序装置中的至少一个被配置为从传输服务器和/或序列分析引擎接收反馈信号。

在其它料想的方面中，所述机器专用注释包括注释，所述注释包括日期和/或时间标识符、测序装置标识符、通道标识符、质量分数和/或配对成员标识符，并且从用户输入的注释通常将包括分析类型注释（例如，整体基因组分析、外显子组富集分析、转录组分析和蛋白质组分析）和/或患者专用注释（例如，患者标识符、组织标识符、组织状态标识符和健康记录标识符）。

更优选地，但并不必需地，料想到所述运送引擎将把所述带注释的组学输出文件实时分组，和/或所述运送引擎将独立于所述带注释的组学输出文件中的实际序列将所述带注释的组学输出文件分组。在其它料想的方面中，所述运送引擎将在完成形成所述传输组时传送所述传输组，或者可使用用于机器专用注释的预定分组模式。需要时，还料想到，所述运送引擎对所述传输组加密，和/或向所述传输组提供或添加唯一ID。因此，所述传输服务器可以以加密形式可选地在向所述测序装置请求时从所述测序装置接收所述组学输出文件。

因此，发明人还料想到一种传递多个组学序列的方法，其中，提供具有运送引擎和注释引擎的传输服务器。所述传输服务器随后从相应测序装置接收多个组学输出文件，其中，所述组学输出文件中的每个包括序列数据和机器专用注释。用户随后使用所述注释引擎来注释所述组学输出文件，以形成带注释的组学输出文件，并且所述运送引擎随后优选地实时地将所述带注释的组学输出文件分组成传输组。最优选地，分组将基于所述机器专用注释和从用户输入的所述注释两者。最终，所述传输服务器随后将把所述传输组传递到序列分析引擎（例如，BAM服务器）。

如前述阐述的，组学输出文件可具有众多类型的内容，但典型地是基因组输出文件（例如，外显子组、整体基因组等）、RNA-组学输出文件（例如，转录组组）、或蛋白质组输出文件，这些文件将优选地从原始格式转换成SAM格式或BAM格式。需要时，在通过传输服务器接收所述多个组学输出文件的步骤之前，组学输出文件可被暂时存储在数据存储装置中。另外，料想到，传输服务器可向测序装置和/或序列分析引擎中的一个或多个提供反馈信号。

通常还优选地是，所述机器专用注释包括日期和/或时间标识符、测序装置标识符、通道标识符、质量分数和/或配对成员标识符，和/或从用户输入的所述注释包括分析类型注释（例如，整体基因组分析、外显子组富集分析、转录组分析和蛋白质组分析）和/或患者专用注释（例如，患者标识符、组织标识符、组织状态标识符和健康记录标识符）。另外，料想到，在完成形成所述传输组时，或者根据预定的传递时间表或协议，传递所述传输组。需要时，还料想到，所述运送引擎将向所述传输组提供或添加唯一ID。

因此，从另一个角度来看，发明人还料想到一种传递组学序列的方法，其中，传输服务器接收多个组学输出文件，所述组学输出文件均包括序列数据和机器专用注释。随后，除了所述机器专用注释之外，还使用从用户输入的注释将组学输出文件分组成传输组。所述传输组随后被从所述传输服务器传递到下游分析装置（例如，BAM服务器）。

虽然不限于本发明主题，但优选地是，独立于所述序列数据执行分组的步骤，并且甚至更优选地是，实时地执行分组的步骤。此外，料想到，从用户输入的所述注释包括分析类型注释（例如，整体基因组分析、外显子组富集分析、转录组分析和蛋白质组分析）和患者专用注释（例如，患者标识符、组织标识符、组织状态标识符和健康记录标识符）。如以上已经阐述的，通常优选地是，在完成所述传输组时，传输组被从所述传输服务器传递到所述下游分析装置。需要时，可通过存储组学输出文件的数据库或通过多个测序装置来提供组学输出文件。

从又一个方面来看，发明人还料想到一种减少序列分析引擎中的基因组分析的处理时间的方法。在特别优选的方法中，传输服务器从多个组学输出文件产生传输组，其中，根据机器专用注释和从用户输入的注释将组学输出文件分组。所述序列分析引擎（例如，BAM服务器）随后接收所述传输组并且将所述传输组作为逻辑单元进行处理。

更通常地，所述传输组中的组学输出文件将具有SAM格式或BAM格式，并且从用户输入的所述注释包括分析类型注释（例如，整体基因组分析、外显子组富集分析、转录组分析和蛋白质组分析）和/或患者专用注释（例如，患者标识符、组织标识符、组织状态标识符和健康记录标识符）。

根据下面对优选实施例的详细描述连同附图，本发明主题的各种目的、特征、方面和优点将变得更加明显，在附图中，类似的标号代表类似的组件。

附图说明

图1是根据本发明主题的用于组学序列的传送和预处理系统的示例性图示。

具体实施方式

应该注意，涉及计算机的任何语言应该被理解为包括计算装置的任何合适组合，计算装置包括服务器、接口、系统、数据库、代理、对等点、引擎、控制器、模块、或独立或一齐操作的其它类型的计算装置。应该理解，计算装置包括被配置为执行存储在有形、非暂时计算机可读存储介质（例如，硬盘驱动器、FPGA、PLA、固态驱动器、RAM、闪存、ROM等）上的软件指令的处理器。软件指令优选地对计算装置进行配置和编程，以提供如以下相对于所公开设备讨论的作用、责任或其它功能。另外，公开的技术可被实施为包括存储软件指令的非暂时计算机可读介质的计算机程序产品，所述软件指令致使处理器执行所公开步骤。在一些实施例中，各种服务器、系统、数据库或接口使用标准化协议或算法有可能基于HTTP、HTTPS、AES、公共-私有密钥交换、web服务API、已知金融交易协议或其它电子信息交换方法来交换数据。可通过分组交换网络、互联网、LAN、WAN、VPN、或其它类型的分组交换网络；电路交换网络；小区交换网络；或其它类型的网络进行装置之间的数据交换。

如本文中的说明书和后面的整个权利要求中所使用的，当系统、引擎、服务器、装置、模块或其它计算元件被描述为配置为对存储器中的数据执行或履行功能时，“被配置为”或“被编程成”的含义被定义为计算元件的一个或多个处理器或核被存储在计算元件的存储器中的一组软件指令进行编程，以对存储在存储器中的目标数据或数据对象执行一组功能。

应该理解，所公开的技术提供了许多有利的技术效果，包括将一个或多个计算装置配置为通过将组学数据组织成计算逻辑单元来有效处理组学数据。

下面的讨论提供了本发明主题的一些示例实施例。尽管各实施例代表本发明元件的单个组合，但本发明主题被视为包括所公开元件的所有可能组合。因此，如果一个实施例包括元件A、B和C并且第二实施例包括元件B和D，则本发明主题还被视为包括A、B、C或D的其它剩余组合，即使没有明确地公开。

发明人现在已经发现，通过对组学序列进行预处理和/或分组以形成逻辑单元可容易地提高对由一个或多个数据源提供并且传递到序列分析引擎的众多组学序列的序列分析，所述逻辑单元随后被供给到序列分析引擎并且在不需要检索为了进行相同分析所需的其它序列的情况下被处理。应该尤其注意，这种预处理和/或分组将显著减少序列分析引擎所需的处理时间，并且还可显著减少完成时间，其中，序列分析因无效和/或丢失的数据而折衷，因为可请求此数据并且以有效且协调的方式将其传送到序列分析引擎。

在本发明主题的特别优选方面中，使用机器专用注释和用户注释（一个或多个）二者执行预处理和/或分组。从另一个角度来看，发明人料想到在没有关于正在传送的实际组学序列的情况下基于用户和（测序）装置参数将供分析的多个组学序列排列和/或分组的传输服务器。因此，从不同角度来看，用户将能够创建用于序列分析的用户定义规则，其中，规则确定将组学输出文件实时分组成一个或多个传输组。

例如，图1示例性地示出用于将多个组学序列从多个测序装置传递到序列分析引擎的运送系统100。更典型地，组学序列包括序列数据（例如，核酸序列）和机器专用注释。这里，系统100包括多个测序装置110a、110b和110c，测序装置110a、110b和110c从可来自相同患者或不同患者（未示出）的多个患者样本产生多个组学输出文件112a、112b和112c。在大多数情况下，测序装置110a、110b和110c借助广域网102与传输服务器120信息耦接，并且所有组学输出文件112d被直接或间接（例如，借助暂时数据存储装置150）路由至传输服务器120。示例测序装置包括Oxford Nanopore MinION、或MiSeq或HiSeq装置中的任一个。

更优选地，料想的系统包括传输服务器120，传输服务器120包括注释引擎122和运送引擎124，并且传输服务器120借助广域网102耦接到测序装置110a至110c，使得测序装置可将相应组学输出文件提供到传输服务器。传输服务器还借助广域网102耦接到序列分析引擎140，序列分析引擎140借助广域网102从传输服务器120接收来自传输服务器的传输组126。注释引擎122被优选地配置为使用从用户（例如，医疗专业人员）的输入装置130输入的注释来注释组学输出文件，从而形成带注释的组学输出文件126。运送引擎124（更一般地，借助一个或多个预定规则）被配置成基于机器专用注释和从用户输入的注释将带注释的组学输出文件分组成传输组。一旦分组，运送引擎随后就将传输组传递到序列分析引擎140（例如，BAM服务器）。

尽管传输服务器120、序列分析引擎140和输入装置130被图示为个体计算装置，但应该理解，每个装置均可采取不同形式。在一些实施例中，装置的集合可被实现为基于云的服务；有可能是收费服务。股东（例如，保险公司、医生、肿瘤学家、制药公司、患者、其它分析引擎等）可订购该服务。这些服务有可能通过网络可访问API借助web服务接口（例如，WSDL、SOAP、HTTP、REST、BEEP等）来提供。在其它实施例中，装置可以是将一个或多个应用安装在计算装置上的单个装置。另外，在其它实施例中，装置可包括为三个装置提供所有规则或责任的单个一体装置。

在本发明主题的一个示例性方面中，用户已经为测序设施（直接地或间接地）提供了一个或多个样本（例如，来自相同患者的肿瘤样本和匹配的正常样本），以用于整体基因组分析。用户随后使用合适的安全措施（例如，优选地与序列读取链接的一次性使用密钥）来访问测序设施进行下载，而测序设施将通常使用对应的安全措施（例如，相同或匹配密钥）上传到用户。更通常地，将在传输的至少一个片段中加密序列信息。例如，可通过测序装置的加密模块或与测序装置信息耦接的加密装置来加密序列信息。虽然一般料想到测序装置将共同定位在单个测序设施中，但应该认识到，共同定位对本发明主题不是关键的。

相对于合适的测序装置，应该理解测序装置的具体类型不限于本发明的主题，但产生组学输出的所有装置被认为适于本文中使用。然而，特别优选的装置包括核酸测序装置，核酸测序装置提供基因组原始数据、被转换成SAM格式、BAM格式、VCF格式、FASTQ格式、或FASTA格式的基因组数据。另外，本文中还料想到蛋白质组高吞吐量装置和RNA分析装置。虽然料想到可在单个测序装置上专门分析患者样本，但还料想到可使用两个或更多个不同的测序装置来分析样本。另外，料想到，测序装置还可被配置为借助用户输入装置从运输服务器、序列分析引擎、和/或用户接收一个或多个反馈信号。例如，在序列分析引擎确定基因组中的某些区域需要更高的读取阈值的情况下，序列分析引擎可向传输服务器和/或测序装置提供反馈，以对该区域执行进一步分析。另一方面，在传输引擎确定特定测序装置的装置参数无法满足特定预定水平（例如，一个或多个通道的数据低于预定质量分数）的情况下，传输引擎可向测序装置提供改变操作参数或离线的指令。因此，不管测序装置的特定类型如何，料想到装置将（优选地，自动地）将机器专用注释附连到组学输出文件。例如，合适的机器专用注释包括日期和/或时间标识符、测序装置标识符、通道标识符、质量分数、和/或配对成员标识符。

相对于安全性，可通过多种技术来确保流过运送系统100的数据。在一些实施例中，可有可能借助安全FTP、HTTPS、SSL、或其它协议通过安全通信链路来发送组学数据。通常，密码协议或算法的较高强度实现是更优选的。然而，与密码协议关联的计算开销和其它成本可命令使用密码协议或算法的较低安全实现。例如，AES-128对于大多数顾客而言会是充分的，AES-256或更高级别的AES可用于保证性比计算成本更重要的情形。另外，组学数据可被存储在安全的存储器内，有可能，附于FIPS-140的一个或多个级的存储器或存储模块。另外其它合适的算法包括3DES、Twofish、Blowfish、XXTEA、PGP、或其它已知算法或仍未发明的算法。应该理解，来自组学文件的至少一些数据、患者基因组序列可形成相对于密码协议或算法的实现的凭证或密钥的基础。因此，只有有权访问患者组学数据的实体才可解锁数据或获得访问数据的权利。

因此，应该认识到，提供组学数据的数据源（一个或多个）在大多数情况下将自动地使用装置专用参数来注释组学数据，并且这种注释将以预定义格式。例如，典型的测序装置将提供FASTQ或FASTA格式的测序数据，并且如此包括仪器名称、流动细胞ID和/或名称、多样本的索引编号、关于配对成员的指示（例如，双末端或配对读取）等。另外，装置专用参数还可包括相对于读取的质量值和需要时可选的序列注释（例如，序列标识符和/或描述）。当然，应该认识到，数据源（一个或多个）可直接以流式形式、或者从中间数据储存器、或甚至从耦接在测序装置（一个或多个）和传输服务器之间的暂时数据存储装置提供组学数据。

不管组学数据源的类型和数据传递的方式如何，通常优选地是，原始序列数据输出文件被转换成适于序列分析引擎进行分析的文件类型。在本发明主题的特别优选的方面中，用于序列分析引擎的文件类型是SAM或BAM文件。存在本领域已知的众多文件转换器/对准器，并且用于将FASTQ转换成SAM或BAM文件的示例性转换器/对准器包括Bowtie、BWA、GAR、Bfast、Maq、Mosaik、Novoalign、或Ssaha2等。在输出是SAM文件的情况下，应该理解，可使用SAM工具将此文件转换成对应的BAM文件。当然，还应该注意，可在序列分析引擎上游的任何位置完成将测序装置原始数据转换成SAM或BAM文件。然而，通常优选地是，在传输服务器处或在其上游执行将原始数据转换成SAM或BAM文件，使得传输组是SAM或BAM文件的组。

在典型示例中，用户将借助用户输入装置（例如，与广域网连接的计算机或移动装置）来操作专用传输服务器，用户输入装置可与用户共同定位，或者远程定位并可由用户借助终端或其它适当接口进行访问。不管传输服务器的位置如何，料想到用户将使用组学数据上传专用的注释输入来注释来自数据源（例如，测序装置）的组学输出文件（例如，序列读取）。在大多数情形下，传输服务器将包括允许用户执行这种注释的注释引擎。然而，还可借助随后耦接到传输服务器的单独注释模块来提供注释。虽然注释输入的性质不限于本发明的主题，但应该理解，注释输入将通常至少具有对于样本和/或患者的一些重要性，并且最通常地包括分析类型注释和患者专用注释。

例如，分析类型注释可以是用于样本准备、样本程序等的特定协议或技术专用的，并且因此可包括参考整个基因组分析、外显子组富集分析、转录组组分析、蛋白质组分析等。同样地，患者专用注释将通常涉及至少一定程度与患者关联的一些信息。例如，患者专用注释将通常包括患者标识符、组织标识符、组织状态标识符（例如，匹配的正常、患病、原发肿瘤、复发肿瘤、转移瘤等）、健康记录标识符（例如，疾病类型、患者状态）、电子医疗记录标识符等。用户注释还可包括期望分析的类型（例如，比较肿瘤与匹配的正常、或肿瘤与前述肿瘤样本或其它参考物的请求）。

因此，应该认识到，用户将把信息的第二层提供到组学数据，组学数据将允许组学信息与和患者、进行测序分析（例如，整个基因组分析或外显子组或转录组分析）的特定类型的患者样本（例如，患病与对照物、或与药品治疗前和期间/之后）类型唯一相关的信息关联。这种双重信息内容（即，机器专用注释和从用户输入的注释）是特别有益的，其中，必须协调众多测序运行，以供后续分析。一旦适当分组，就可以以最小中断执行分析，这些中断否则将是由于丢失或不完整的组学信息导致的。更通常地，运送引擎将被配置为在完成形成用户（和控制分组功能的适宜规则）定义的传输组时传送传输组。另一方面，还料想到根据机器专用注释的预定分组模式分组。

通常，使用运送引擎和用户注释和机器专用注释二者在传输服务器执行分组，使得形成一组序列，该一组序列是相对于序列分析引擎进行的特定分析任务的一组完整序列。因此，在本发明主题的至少一个方面中，可通过匹配正常和患病样本来驱动分组，可通过匹配样本之间的基因组区域，或通过特定患者、或患者历史、以及通过使用不同患者样本的疾病类型来细化匹配正常和患病样本。还可通过组学输出文件和其它机器专用注释（例如，排除来自特定通道或装置的组学文件）的质量测量来驱动匹配。还料想到，可使用基于机器专用注释的先验或默认分组来执行分组，随后基于用户注释来修改或调整分组。因此，应该理解，可独立于带注释的组学输出文件中的实际序列，而根据用户的特定要求（例如，根据期望的分析类型、患者历史、疾病类型等），执行带注释的组学输出文件的分组。

另外，料想到，可通过来自序列分析引擎和/或组学数据源的反馈信号来驱动或修改分组。例如，序列分析引擎可向传输服务器提供反馈以包括针对特定基因组区域的额外组学数据，或者组学数据源可向传输服务器提供没有在传递其它组学数据的反馈。另一方面，传输服务器还可将反馈提供给组学数据源以重复特定分析，或提供给序列分析引擎以指示特定数据的存在与否。不管信息和/或分组的流动如何，应该注意，将组学数据分组成传输组是独立于实际序列内容执行的，但仅仅是基于机器专用注释和用户注释（和SAM或BAM文件中的非序列信息）来完成的。另外，应该注意，分组优选地是基本上实时（即，当传递组学数据或使组学数据可用时）执行的，随着分组专用ID将分组发送到序列分析引擎，并且仅仅在通过传输服务器完成分组时发送分组。应该注意，传输组优选地在传递到序列分析引擎之前被加密。

用户注释可取决于即将到来的分析项目的性质，采取许多不同形式或广谱信息。另外，用户注释的性质可取决于相对于分析生态系统的用户的作用或责任。考虑例如用户具有传输服务器120或序列分析引擎140的系统管理员的作用。系统管理员可创建指示可用网络带宽或存储容量的注释。传输服务器120可封装组学数据，以确保所得的逻辑单元遵守这种限制。可供选择地，用户可以是医生。在这种情况下，医生可包括用户注释，用户注释包括医生的唯一标识符（例如，医生注册标识符、国家供应商标识符（NPI）等）、诊断代码（例如，ICD-9、ICD-10、DSM等）、程序代码（例如，CPT等）、或其它医生相关信息。这种信息随后可被用于将组学数据分组，使得它们具有共同的属性；医生可请求根据医生订购系统100提供的服务的计划，将他们的患者全部一起进行批量处理。额外的用户注释可包括保险范围、紧急性信息、优先级信息、数据所有权信息、或其它属性。在一些实施例中，可根据先验定义的用户注释命名空间或本体将用户注释归一化，其中，每种类型的用户注释可包括取特定值（即，尺寸的度量）的属性（即，命名空间中的尺寸）。

与用户注释类似地，机器专用注释还可采取广谱值来反映一个或多个特定机器的性质或它们的对应状态。因此，机器专用注释可属于生态系统100内的一个或多个装置，包括测序装置110a至110c、传输服务器120、输入装置130、或甚至测序分析引擎140。示例机器专用注释可包括装置标识符（例如，IP地址、MAC地址、序列号、型号编号等）、装置带宽（例如，Gpb/秒、网络带宽等）、分析度量、可用机器学习或分析算法、装置位置、处理成本、CPU可用性（例如，MFLOP、可用线程、可用核等）、或其它机器相关属性。正如用户注释可附于用户注释命名空间或本体，机器专用注释可附于机器属性命名空间。可根据作为机器专用注释数据结构（例如，矢量、元组等）的机器属性命名空间来编译机器专用注释。注释引擎122因此可将输出文件用数据结构标记或者将输出文件与数据结构结合（bind）在一起，有可能作为XML文件形式的元数据。在一些实施例中，注释引擎122的作用或责任可被集成在序列装置110a至110a中，有可能甚至作为售后市场适配器。

运送引擎124被配置为执行实施规则的一个或多个软件指令，根据该规则输出文件被分组在一起。这些规则可由用户借助输入装置130来提供或者可被安装在传输服务器120内。这些规则可被实现为基于用户和机器专用注释进行操作的脚本或其它代码。例如，运送引擎125可包括基于脚本的运行时间（例如，Python、Ruby、Java、.NET等），其提供能够访问输出文件112a至112c及其对应注释的API。用户随后可编写脚本，或者以其它方式致使借助API执行脚本来处理输出文件，以便构建传输组126。有可能基于先验定义的命名空间，规则可包括取决于注释或其值的要求、条件、或其它标准。简单示例可包括力求结合对应于特定医生的所有输出文件的规则。运送引擎124根据基于医生的规则，询问具有医生标识符的所有输出文件。随后，可将设置的结果一起编译，以形成代表医生请求的工作成果的单个逻辑单元。应该理解，这些规则或脚本可包括十分复杂的规则，该规则控制将输出文件分组成传输组126。

应该理解，传输组126被视为相对于处理输出文件的单个逻辑单元。这种方式被认为是十分有利的，因为其使得计算装置能够从全局角度（例如，相对于所有文件）优化计算资源，同时还遵守了本地效率（例如，非常特定的请求）。因此，运送引擎124操作所遵循的规则或脚本可被视为相对于注释定义的逻辑单元处理的定义。举例来说，考虑系统100包括肿瘤专家可用的付费基因组处理服务的情形。肿瘤专家可向系统提交紧急请求（即，具有紧急程度、高美元价值请求、时间期限等），以识别会对患者应急车（immediate car）有积极影响的已知药物。作为响应，运送引擎124可识别具有患者标识符的所有输出文件和与和一种或多种已知药物关联的参考基因组相关的输出文件。另外，运送引擎124可确定哪些文件会需要基于额外读取或数据的序列装置注释。另外，运送引擎124可使用与序列分析引擎140中的一个或多个关联并且可包括装置可用性或容量的装置属性。如果充分的容量可用，则运送引擎124可将相关输出文件分组在一起作为（有可能标记有应急程度的）逻辑单元，并且向序列分析引擎140提交逻辑单元，以供立即处理。逻辑单元可被作为二元文件、文本文件、或甚至串行文件（例如，XML、YAML、JSON等）或其它格式传送。

鉴于运送引擎124可将输出文件组合在一起作为逻辑单元以应对系统100或股东的优化需要，还应该理解，逻辑单元可被配置为应对多种可能的优化度量。可代表处理传输组126的目标或关心的示例度量包括金钱成本、带宽、网络或处理延迟、地理限制、安全性或保密性级别、电力消费成本、优先级、紧急度、重要性、患者预期寿命、或其它度量。

相对于序列分析引擎，通常料想到，所有已知的序列分析引擎均被视为适于在本文中使用。然而，尤其优选地是，序列分析引擎被配置为使用SAM或BAM文件作为输入文件（例如，BAM服务器），并且特别优选地序列分析引擎包括通过使用多个对应子字符串中的至少一个的已知位置渐增地将第一序列串和第二序列串同步来产生本地对准的引擎，其中，本地对准被用于生成本地对准内的第一序列串和第二序列串之间的本地差异串。此本地差异串随后被用来更新差异序列数据库中的差异基因序列对象。在US 2012/0066001、WO2013/074058和WO 2014/058987中描述了这种序列分析引擎的示例，这些都以引用方式并入本文中。

虽然一般优选地是本文中提出的系统和方法以连续或流式方式运作，但还明确料想到，运送的组学信息中的至少一些可（通常，瞬态或暂时地）被存储在数据存储装置中。例如，在患者样本在不同装置或甚至不同位置中处理的情况下，或者在一个或多个测序装置经受维修或短时间内不能操作的情况下，暂时数据存储装置可耦接在测序装置和传输服务器之间，以允许进行缓冲。暂时缓冲器的一个可能示例可包括具有大容量存储器（例如，优选地，大于200GB、500GB、1TB、2TB、或更大）的个人基因组数据卡和处理器。个人数据卡可存储拥有该卡的患者的一个或多个组学输出文件。例如，患者的卡可包括具有信用卡接触垫的固态盘驱动器。随着患者移动通过保健系统，他们可授权传输服务器或其它实体访问他们在车上的基因组数据。另一方面，在相同患者在延长时间段内经受测试的情况下（例如，在治疗之前和在治疗/定期复查（follow-up）之后），可实现更长期的存储。示例的长期存储解决方案包括SAN、NAS、RAID、基于云的存储、临床操作系统数据管理员、或其它类型的存储器。在一些实施例中，运送系统100可包括被配置为存储患者样本序列的一个或多个样本数据库，有可能包括文件系统。

因此，应该认识到，发明人料想到用于传递多个组学序列（通常，DNA、RNA、或蛋白质）的运送系统将包括具有运送引擎和注释引擎的传输服务器。传输服务器通常（直接地或间接地）耦接到一个或多个测序装置和序列分析引擎，其中所述一个或多个测序装置将组学输出文件（包括序列数据和机器专用注释）提供到传输服务器，序列分析引擎从传输服务器接收传输组。在特别优选的系统中，注释引擎被配置为使用从用户输入的注释来注释多个组学输出文件，从而形成带注释的组学输出文件，并且运送引擎被配置为基于机器专用注释和从用户输入的注释将带注释的组学输出文件分组成传输组。运送引擎被配置为将传输组传递到序列分析引擎。

从不同角度来看，发明人因此还料想到使用具有运送引擎和注释引擎的传输服务器来传递组学序列的方法。特别料想到的方法包括通过传输服务器从测序装置接收组学输出文件（例如，基因组输出文件、RNA-组学输出文件、或蛋白质组输出文件）的步骤，其中，组学输出文件中的每个包括序列数据和机器专用注释。在另一个步骤中，注释引擎使用从用户输入的注释来注释组学输出文件，以如此形成带注释的组学输出文件，并且运送引擎将带注释的组学输出文件分组成传输组，其中，分组基于机器专用注释和从用户输入的注释。最终，传输服务器将传输组传递到序列分析引擎。

因此，还应该认识到，发明人料想到传递组学序列的方法，其中，传输服务器接收包括序列数据和机器专用注释的多个组学输出文件。随后，使用从用户输入的注释和机器专用注释将组学输出文件分组成传输组，并且随后将传输组从传输服务器传递到下游分析装置。

这种组传递将有利地产生减少序列分析引擎中的基因组分析的处理时间的方法，该方法中传输服务器从多个组学输出文件产生传输组，其中，根据机器专用注释和从用户输入的注释将组学输出文件分组。序列分析引擎随后接收传输组，其中，序列分析引擎将传输组作为逻辑单元进行处理。

本领域的技术人员应该清楚，在不脱离本文中的发明概念的情况下，除了已经描述的修改形式之外的更多修改形式是可能的。因此，本发明的主题并不不受限制，而是限于随附权利要求的精神内。此外，在解释说明书和权利要求二者时，所有术语应该以与上下文一致的最广的可能方式进行解释。特别地，术语“包括”和“包含”应该被解释为以非排他性方式提及元件、组件、或步骤，从而指示可存在、或利用参考的元件、组件、或步骤，或者将其与没有明确参考的其它元件、组件、或步骤组合。在说明书的权利要求是指选自由A、B、C…和N组成的组中的至少一个的情况下，文本应该被解释为只需要组中的一个元件，而非A+N、或B+N等。

Claims

1.一种用于传递多个组学序列的运送系统，所述运送系统包括：

传输服务器，其包括运送引擎和注释引擎，其中，所述传输服务器耦接到

(a)多个测序装置，其被配置为将多个组学输出文件提供到所述传输服务器，其中，组学输出文件中的每个包括序列数据和机器专用注释，

(b)序列分析引擎，其被配置为从所述传输服务器接收传输组，以及

(c)用户输入装置，其被配置为向所述注释引擎提供用户注释输入；

其中，所述注释引擎被配置为使用从用户输入的注释来注释所述多个组学输出文件，从而形成带注释的组学输出文件；

其中，所述运送引擎被配置为基于所述机器专用注释和从用户输入的所述注释，将所述带注释的组学输出文件分组成所述传输组；

其中，所述运送引擎被配置为将所述传输组传递到所述序列分析引擎；以及

其中所述多个测序装置中的至少一个测序装置被配置为从所述传输服务器和所述序列分析引擎中的至少一个接收反馈信号，以修改所述至少一个测序装置的操作。

2.根据权利要求1所述的运送系统，其中，组学输出文件是基因组输出文件、RNA-组学输出文件、或蛋白质组输出文件。

3.根据权利要求2所述的运送系统，其中，所述多个基因组输出文件具有选自SAM格式、BAM格式、VCF格式、FASTQ格式和FASTA格式的组的文件格式。

4.根据权利要求1-3中的任一项所述的运送系统，所述运送系统还包括暂时数据存储装置，所述暂时数据存储装置耦接在所述多个测序装置中的至少一个和所述传输服务器之间，并且其中，所述多个测序装置被配置为借助所述暂时数据存储装置将所述多个组学输出文件提供到所述传输服务器。

5.根据权利要求1-3中的任一项所述的运送系统，其中，所述机器专用注释包括选自由日期和/或时间标识符、测序装置标识符、通道标识符、质量分数和配对成员标识符组成的组的注释。

6.根据权利要求1-3中的任一项所述的运送系统，其中，从用户输入的注释包括选自由分析类型注释和患者专用注释组成的组的注释。

7.根据权利要求6所述的运送系统，其中，所述分析类型注释选自由整体基因组分析、外显子组富集分析、转录组分析和蛋白质组分析组成的组。

8.根据权利要求6所述的运送系统，其中，所述患者专用注释选自由患者标识符、组织标识符、组织状态标识符和健康记录标识符组成的组。

9.根据权利要求1-3中的任一项所述的运送系统，其中，所述运送引擎被配置为将所述带注释的组学输出文件实时分组。

10.根据权利要求1-3中的任一项所述的运送系统，其中，所述运送引擎被配置为独立于所述带注释的组学输出文件中的实际序列将所述带注释的组学输出文件分组。

11.根据权利要求1-3中的任一项所述的运送系统，其中，所述运送引擎被配置为在完成形成所述传输组时传送所述传输组。

12.根据权利要求1-3中的任一项所述的运送系统，其中，所述运送引擎被配置为使用用于机器专用注释的预定分组模式。

13.根据权利要求1-3中的任一项所述的运送系统，其中，所述运送引擎被配置为对所述传输组加密。

14.根据权利要求1-3中的任一项所述的运送系统，其中，所述运送引擎被配置为向所述传输组提供唯一ID。

15.根据权利要求1-3中的任一项所述的运送系统，其中，所述传输服务器被配置为以加密形式并且在向所述测序装置请求时从所述多个测序装置接收所述多个组学输出文件。

16.根据权利要求1-3中的任一项所述的运送系统，其中，所述序列分析引擎包括BAM服务器。

17.一种传递多个组学序列的方法，所述方法包括：

提供包括运送引擎和注释引擎的传输服务器；

通过所述传输服务器从多个相应测序装置接收多个组学输出文件，其中，组学输出文件中的每个包括序列数据和机器专用注释；

通过所述注释引擎使用从用户注释装置输入的注释来注释所述多个组学输出文件，从而形成带注释的组学输出文件；

通过所述运送引擎将所述带注释的组学输出文件分组成传输组，其中，基于所述机器专用注释和从用户输入的所述注释分组；

通过所述传输服务器将所述传输组传递到序列分析引擎；以及

通过所述运送引擎和所述注释引擎中的至少一个向所述多个测序装置中的至少一个测序装置发送反馈信号，以修改所述至少一个测序装置的操作。

18.根据权利要求17所述的方法，其中，组学输出文件是基因组输出文件、RNA-组学输出文件、或蛋白质组输出文件。

19.根据权利要求17至18中的任一项所述的方法，所述方法还包括将所述多个组学输出文件从原始格式转换成SAM格式或BAM格式的步骤。

20.根据权利要求17至18中的任一项所述的方法，所述方法还包括在通过所述传输服务器接收所述多个组学输出文件的步骤之前将所述多个组学输出文件暂时存储在数据存储装置中的步骤。

21.根据权利要求17至18中的任一项所述的方法，其中，所述机器专用注释包括选自由日期和/或时间标识符、测序装置标识符、通道标识符、质量分数和配对成员标识符组成的组的注释。

22.根据权利要求17至18中的任一项所述的方法，其中，从用户输入的注释包括选自由分析类型注释和患者专用注释组成的组的注释。

23.根据权利要求22所述的方法，其中，所述分析类型注释选自由整体基因组分析、外显子组富集分析、转录组分析和蛋白质组分析组成的组。

24.根据权利要求22所述的方法，其中，所述患者专用注释选自由患者标识符、组织标识符、组织状态标识符和健康记录标识符组成的组。

25.根据权利要求17至18中的任一项所述的方法，其中，实时执行分组的步骤。

26.根据权利要求17至18中的任一项所述的方法，其中，在完成形成所述传输组时，执行传递所述传输组的步骤。

27.根据权利要求17至18中的任一项所述的方法，所述方法还包括通过所述运送引擎向所述传输组提供唯一ID的步骤。

28.一种传递多个组学序列的方法，所述方法包括：

通过传输服务器接收多个组学输出文件，其中，组学输出文件中的每个包括序列数据和机器专用注释；

使用从用户注释装置输入的注释和所述机器专用注释将所述多个组学输出文件分组成传输组；

将所述传输组从所述传输服务器传递到下游分析装置；以及

通过所述传输服务器向所述多个测序装置中的至少一个测序装置发送反馈信号，以修改所述至少一个测序装置的操作。

29.根据权利要求28所述的方法，其中，独立于所述序列数据执行分组的步骤。

30.根据权利要求28至29中的任一项所述的方法，其中，实时地执行分组的步骤。

31.根据权利要求28至29中的任一项所述的方法，其中，从用户输入的所述注释包括选自由分析类型注释和患者专用注释组成的组的注释。

32.根据权利要求31所述的方法，其中，所述分析类型注释选自由整体基因组分析、外显子组富集分析、转录组分析和蛋白质组分析组成的组。

33.根据权利要求31所述的方法，其中，所述患者专用注释选自由患者标识符、组织标识符、组织状态标识符和健康记录标识符组成的组。

34.根据权利要求28至29中的任一项所述的方法，其中，在完成所述传输组时，执行将所述传输组从所述传输服务器传递到所述下游分析装置的步骤。

35.根据权利要求28至29中的任一项所述的方法，其中，通过存储组学输出文件的数据库或者通过多个测序装置来提供所述多个组学输出文件。

36.一种减少序列分析引擎中的基因组分析的处理时间的方法，所述方法包括：

通过传输服务器从多个组学输出文件产生传输组，其中，根据机器专用注释和从用户注释装置输入的注释将所述多个组学输出文件实时分组；

通过所述序列分析引擎接收所述传输组；以及

通过所述序列分析引擎将所述传输组作为逻辑单元进行处理。

37.根据权利要求36所述的方法，其中，所述传输组中的所述多个组学输出文件具有SAM格式或BAM格式。

38.根据权利要求36至37中的任一项所述的方法，其中，从用户输入的所述注释包括选自由分析类型注释和患者专用注释组成的组的注释。

39.根据权利要求38所述的方法，其中，所述分析类型注释选自由整体基因组分析、外显子组富集分析、转录组分析和蛋白质组分析组成的组。

40.根据权利要求38所述的方法，其中，所述患者专用注释选自由患者标识符、组织标识符、组织状态标识符和健康记录标识符组成的组。

41.根据权利要求36至37中的任一项所述的方法，其中，所述分析类型注释选自由整体基因组分析、外显子组富集分析、转录组分析和蛋白质组分析组成的组。