CN115612722A

CN115612722A - 一种基因测序方法、装置、设备和介质

Info

Publication number: CN115612722A
Application number: CN202211128893.9A
Authority: CN
Inventors: 江遥; 卢昕; 龚梅花; 阚飙; 梁鑫明; 何继伟; 李臻鹏; 唐岳; 林颖; 王乐; 蒋慧; 黄勇; 张黎; 施建文; 孙敬; 喻志学; 董涪; 李倩; 张希雯; 饶俊华
Original assignee: Wuhan Hua Made Dazhi Technology Co ltd; National Institute for Communicable Disease Control and Prevention of Chinese Center For Disease Control and Prevention
Current assignee: Wuhan Hua Made Dazhi Technology Co ltd; National Institute for Communicable Disease Control and Prevention of Chinese Center For Disease Control and Prevention
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2023-01-17

Abstract

本申请提供了基因测序方法、装置、设备和介质，包括：获取待检测的基因样本和预设读长；确定基因样本包含的每个样本所属的样本类型；针对基因样本中的每个样本，按照该样本所属的样本类型对应的测序顺序对该样本的每个短序列进行测序，直至对该样本的每个短序列中的基因序列测序至预设读长时，得到该样本中每个短序列的中间阶段测序结果数据；将每个样本中每个短序列的中间阶段测序结果数据发送至目标服务器，以便目标服务器对每个样本中每个短序列的中间阶段测序结果数据进行数据分析，得到中间阶段检测报告。本申请能生成中间阶段检报告，从而测序未完全结束时就能提前进行初步的病原鉴定，加快了检测速度，缩短了等待时长，客户体验更好。

Description

一种基因测序方法、装置、设备和介质

技术领域

本发明属于基因测序技术领域，具体涉及一种基因测序方法、装置、设备和介质。

背景技术

基因测序是一种新型基因检测技术，能够从血液或唾液中分析测定基因全序列，预测罹患多种疾病的可能性，个体的行为特征及行为合理。

目前的测序流程中，由于单端测序和双端测序的时长均较长，例如PE100测序所需时长超24小时，SE100测序所需时长约12小时，导致客户等待获取报告结果的时间较长，客户体验较差。

发明内容

本申请提供了一种基因测序方法、装置、设备和介质，用以解决现有技术中由于条形码标签测序放在测序循环的最后导致获取报告结果的时间较长，客户体验较差的技术问题。

为了实现上述目的，本申请提供如下技术方案：

第一方面，提供了一种基因测序方法，包括：

获取待检测的基因样本和预设读长，其中，所述基因样本中包括至少一个样本，任一样本中包括至少一个短序列，每个短序列中包括待检测的基因序列和至多两个条形码标签，在一短序列包括所述条形码标签的情况下，该短序列中所述至少一个条形码标签的位置位于所述基因序列的位置之前；

确定所述基因样本包含的每个样本所属的样本类型；

针对所述基因样本中的每个样本，按照该样本所属的样本类型对应的测序顺序对该样本的每个短序列进行测序，直至对该样本的每个短序列中的基因序列测序至所述预设读长时，得到该样本中每个短序列的中间阶段测序结果数据；

将每个样本中每个短序列的中间阶段测序结果数据发送至目标服务器，以便所述目标服务器对每个样本中每个短序列的中间阶段测序结果数据进行数据分析，得到中间阶段检测报告。

在所述第一方面的第一种可能实现方式中，所述确定所述基因样本包含的每个样本所属的样本类型，包括：

在所述基因样本中包括一个样本的情况下，确定该样本属于无条形码单样本类型；

在所述基因样本中包括多个样本的情况下，针对所述多个样本中的每个样本，若该样本的短序列中包括一个条形码标签，则确定该样本属于单条形码多样本类型，若该样本的短序列中包括位于同一链上的两个条形码标签，则确定该样本属于双条形码在单链的多样本类型，若该样本的短序列中包括位于两个链上的两个条形码标签，则确定该样本属于双条形码在双链的多样本类型。

在所述第一方面的第二种可能实现方式中，所述无条形码单样本类型对应的测序顺序为：对所述无条形码单样本类型下的样本的每个短序列中的基因序列进行测序；

所述单条形码多样本类型对应的测序顺序为：对所述单条形码多样本类型下的样本的每个短序列中的条形码标签进行测序，并在条形码标签测序完成后，对所述单条形码多样本类型下的样本的每个短序列中的基因序列进行测序；

所述双条形码在单链的多样本类型对应的测序顺序为：对所述双条形码在单链的多样本类型下的样本的每个短序列中的两个条形码标签分别进行测序，在所述两个条形码标签测序完成后，对所述双条形码在单链的多样本类型下的样本的每个短序列中的基因序列进行测序；

所述双条形码在双链的多样本类型对应的测序顺序为：对所述双条形码在双链的多样本类型下的样本的每个短序列中的第一个条形码标签进行测序，在所述第一个条形码标签测序完成后，对所述双条形码在双链的多样本类型下的样本的每个短序列中的基因序列进行测序，在基因序列测序完成后，对所述双条形码在双链的多样本类型下的样本的每个短序列中的第二个条形码标签进行测序。

在所述第一方面的第三种可能实现方式中，对多样本类型下的任一样本的每个短序列进行测序时使用的条形码引物的长度小于历史条形码引物的长度，其中，所述多样本类型包括所述单条形码多样本类型、所述双条形码在单链的多样本类型和所述双条形码在双链的多样本类型。

在所述第一方面的第四种可能实现方式中，所述预设读长包括至少一个读长。

在所述第一方面的第五种可能实现方式中，若所述基因样本中包括多个样本，则所述将每个样本中每个短序列的中间阶段测序结果数据发送至目标服务器，包括：

按照所述多个样本分别对应的条形码标签对所述多个样本中每个短序列的中间阶段测序结果数据进行拆分和归类，得到所述多个样本分别对应的中间阶段测序结果数据；

将所述多个样本分别对应的中间阶段测序结果数据发送至所述目标服务器。

在所述第一方面的第六种可能实现方式中，所述基因测序方法还包括：

针对所述基因样本中的每个样本，按照该样本所属的样本类型对应的测序顺序对该样本的每个短序列进行完整测序，得到该样本中每个短序列的完整测序结果数据；

将每个样本中每个短序列的完整测序结果数据发送至所述目标服务器，以便所述目标服务器对每个样本中每个短序列的完整测序结果数据进行数据分析，得到完整检测报告。

在所述第一方面的第七种可能实现方式中，所述中间阶段检测报告中包括每个样本的中间阶段质控结果和中间阶段鉴定结果，所述完整检测报告中包括每个样本的完整质控结果、完整鉴定结果、完整组装结果和完整溯源结果；

其中，一样本的中间阶段质控结果和完整质控结果均用于反映该样本中质量高于预设质量阈值的短序列，一样本的中间阶段鉴定结果和完整鉴定结果均用于反映该样本的病原浓度信息，一样本的完整组装结果用于反映该样本的所有短序列组装得到的重组样本，一样本的完整溯源结果用于反映该样本所属的亚型。

在所述第一方面的第八种可能实现方式中，若所述预设读长中包括第一读长和读长大于所述第一读长的第二读长，则所述第一读长下的中间阶段检测报告是指对每个样本的每个短序列在所述第一读长下的中间阶段测序结果数据进行分析得到的检测报告，所述第二读长下的中间阶段检测报告和所述完整检测报告均是指对每个样本中识别为非宿主的短序列在所述第二读长下的中间阶段测序结果数据进行分析得到的检测报告。

第二方面，提供了一种基因测序装置，包括：数据获取模块、样本类型确定模块、第一测序模块和测序结果数据发送模块；

所述数据获取模块，用于获取待检测的基因样本和预设读长，其中，所述基因样本中包括至少一个样本，任一样本中包括至少一个短序列，每个短序列中包括待检测的基因序列和至多两个条形码标签，在一短序列包括所述条形码标签的情况下，该短序列中所述至少一个条形码标签的位置位于所述基因序列的位置之前；

所述样本类型确定模块，用于确定所述基因样本包含的每个样本所属的样本类型；

所述第一测序模块，用于针对所述基因样本中的每个样本，按照该样本所属的样本类型对应的测序顺序对该样本的每个短序列进行测序，直至对该样本的每个短序列中的基因序列测序至所述预设读长时，得到该样本中每个短序列的中间阶段测序结果数据；

所述测序结果数据发送模块，用于将每个样本中每个短序列的中间阶段测序结果数据发送至目标服务器，以便所述目标服务器对每个样本中每个短序列的中间阶段测序结果数据进行数据分析，得到中间阶段检测报告。

第三方面，提供了一种基因测序设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上述任一项所述的基因测序方法的各个步骤。

第四方面，提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述任一项所述的基因测序方法的各个步骤。

综上，本申请提供了一种基因测序方法、装置、设备和介质，在样本的短序列中包括条形码标签的情况下，短序列中至少一个条形码标签的位置位于基因序列的位置之前，因此按照样本所属的样本类型对应的测序顺序对样本的每个短序列进行测序时，如果样本的短序列中包括条形码标签，则先对样本的每个短序列中位置靠前的至少一个条形码标签进行测序，再对样本的每个短序列中的基因序列进行测序，从而即使基因样本中包括多个样本，本申请依然能够使目标服务器基于测序至预设读长时得到的中间阶段测序结果数据生成中间阶段检报告，从而在测序未完全结束时就能提前进行初步的病原鉴定，加快了检测速度，缩短了客户的等待时长，客户体验更好。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的基因测序方法的流程示意图；

图2为本申请实施例提供的一种边测序边分析应用业务流程的示意图；

图3为多样本类型下的样本测序获得三阶段检测报告的时间段示意图；

图4为本申请实施例提供的基因测序装置的结构示意图；

图5为本申请实施例提供的基因测序设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前在进行基因测试时，先通过基因测序仪(例如测序仪200Plus)对待测样本进行单端(SE)测序及双端(PE)测序，再在测序循环的最后对待测样本的条形码(barcode)标签进行测序，在测序完成后，将所有的测序数据上传至服务器进行数据分析，得到完整的检测报告并提供给客户。

但是将条形码标签测序放在测序循环的最后进行，使得数据分析过程只能在整个测序完成后才能进行，导致客户等待获取报告结果的时间较长，客户体验较差。

为了解决现有技术存在的问题，本申请提供了一种基因测序方法、装置、设备和介质，可选的，该基因测序方法、装置、设备和介质可应用于基因测序仪，接下来首先通过下述实施例对本申请提供的基因测序方法进行详细介绍。

请参阅图1，示出了本申请实施例提供的基因测序方法的流程示意图，该基因测序方法可以包括：

步骤S101、获取待检测的基因样本和预设读长。

在本步骤中，待检测的基因样本(也即待检测的基因组)中包括至少一个样本。

应当理解，在对基因样本进行测序前，会将基因样本包含的每个样本打断成分子量较大的DNA长片段，然后将DNA长片段分配到具有不同标签序列的反应空间，在不同反应空间中制备出带有相同条形码标签的短序列，以对带有条形码标签的短序列进行测序。也就是说，每个样本中包括至少一个短序列，该至少一个短序列属于至少一个DNA长片段。

这里，待检测的基因序列是指需要进行基因测序的基因序列，条形码标签是指barcode标签，其可以作为基因序列的身份信息。

在本步骤中，每个短序列中包括待检测的基因序列和至多两个条形码标签，在一短序列包括所述条形码标签的情况下，该短序列中至少一个条形码标签的位置位于基因序列的位置之前。

其中，每个短序列中包括至多两个条形码标签是指：若基因样本包括一个样本，不需要通过barcode标签区分样本，此时该样本的每个短序列中可以仅包括待检测的基因序列，但是不包括barcode标签；若基因样本中包括多个样本，则需要通过barcode标签进行区分，此时每个样本的每个短序列中包括一个或两个barcode标签。

在本实施例中，当一样本的短序列中包括barcode标签的情况下，至少一个barcode标签在短序列中的位置位于基因序列在短序列中的位置之前。也即，若一样本的每个短序列中包括一个barcode标签，则该样本的每个短序列均由barcode标签和基因序列顺序组成，即barcode标签的位置在前，基因序列的位置在后；若一样本的每个短序列中包括两个barcode标签，则在每个短序列中这两个barcode标签中至少有一个barcode标签的位置在基因序列的位置之前，例如这两个barcode标签分别记为barcode1和barcode2，则该样本的每个短序列的形式可以为BC1readBC2，也可以为BC1BC2read，这里，BC代表barcode，read代表基因序列。

上述预设读长是指生成报告的循环(cycle)数。在本实施例中，预设读长的具体取值可以根据实际情况进行确定，例如，在目前可以实现的场景中，在单端测序(SE)读长下，客户可以自定义单端从1～100BP之间的任意读长，例如，预设读长为40bp(base pair，碱基对)，表征本实施例需要在对基因序列循环测序40cycle时生成中间阶段检测报告。

在一可选实施例中，预设读长包括至少一个读长，例如预设读长为40bp和80bp，表征本实施例需要在对基因序列循环测序40cycle时生成第一中间阶段检测报告，并在循环测序80cycle时生成第二中间阶段检测报告。

值得注意的是，预设读长越长，病原鉴定(即中间阶段检测报告)的精准性越高。

步骤S102、确定基因样本包含的每个样本所属的样本类型。

可选的，样本类型包括但不限于以下四种类型：无条形码单样本类型NoneBC、单条形码多样本类型SingleBC、双条形码在单链的多样本类型BC1BC2read和双条形码在双链的多样本类型BC1readBC2。

需要说明的是，这里的“单样本”和“多样本”是针对基因样本包含的样本个数而言的，如果基因样本中包含一个样本，则该样本属于单样本类型，如果基因样本中包含多个样本，则该多个样本均属于多样本类型。

可以理解的是，基因样本仅包含一个样本时，无需barcode标签进行区分，因此在这种情况下，该唯一的样本属于无条形码单样本类型。

而基因样本包含多个样本时，需要通过barcode标签进行样本区分，在这种情况下，每个样本的短序列可以包含一个barcode标签，也可以包含两个barcode标签。

其中，若一样本的短序列中包含一个barcode标签，即该样本的短序列为barcode标签和基因序列顺序拼接得到(barcode标签在前，基因序列在后)，则本步骤可以确定该样本属于单条形码多样本类型。

若一样本的短序列中包含两个barcode标签，且该两个barcode标签位于同一链上，则本步骤可以确定该样本属于双条形码在单链的多样本类型。例如，一样本的短序列为barcode1和barcode2在基因序列的一链上(barcode1和barcode2在前，一链上的基因数据在后)，则确定该样本属于双条形码在单链的多样本类型。

若一样本的短序列中包含两个barcode标签，且该两个barcode标签位于两个链上，则本步骤可以确定该样本属于双条形码在双链的多样本类型。例如，一样本的短序列为barcode1在一链上(barcode1在前，一链上的基因数据在后)，barcode2在二链末尾(二链上的基因数据在前，barcode2在后)，则确定该样本属于双条形码在双链的多样本类型。

步骤S103、针对基因样本中的每个样本，按照该样本所属的样本类型对应的测序顺序对该样本的每个短序列进行测序，直至对该样本的每个短序列中的基因序列测序至预设读长时，得到该样本中每个短序列的中间阶段测序结果数据。

前述步骤中已经说明了“当一样本的短序列中包括barcode标签的情况下，至少一个barcode标签在短序列中的位置位于基因序列在短序列中的位置之前”，而基因测序是依次对样本的短序列中的每个数据进行测序，因此在基因样本为多样本类型时，任一多样本类型对应的测序顺序中均先对该多样本类型下的样本的短序列中的至少一个条形码标签进行测序，再对该多样本类型下的样本中的基因序列进行测序。

因此，若基因样本包括一个样本，则中间阶段测序结果数据中包括基因序列的中间阶段测序结果数据，若基因样本中包括多个样本，则中间阶段测序结果数据中包括基因序列的中间阶段测序结果数据和条形码标签测序结果数据。

这里，多样本类型包括单条形码多样本类型、双条形码在单链的多样本类型和双条形码在双链的多样本类型。

步骤S104、将每个样本中每个短序列的中间阶段测序结果数据发送至目标服务器，以便目标服务器对每个样本中每个短序列的中间阶段测序结果数据进行数据分析，得到中间阶段检测报告。

具体的，若基因样本包括一个样本，则目标服务器直接对该样本中每个短序列的中间阶段测序结果数据进行数据分析，得到中间阶段检测报告。

若基因样本包括多个样本，则目标服务器基于多个样本的条形码标签测序结果数据对多个样本中每个短序列的基因序列的中间阶段测序结果数据进行数据分析，得到中间阶段检测报告。这里，中间阶段检测报告中包括预设读长下得到的read序列的病原鉴定结果。可以理解的是，由于测序未完全结束，中间阶段检测报告中包含的病原鉴定结果为一种比较粗略的结果，但是如果预设读长选取的比较合适，也可以得到相对准确的病原鉴定结果，例如，预设读长为40bp时，进行数据分析获得的初步鉴定结果与完整读长(即100bp)测序数据的鉴定结果基本达到一致，这也说明了40bp的读长下得到的中间阶段检测报告的准确度较高。

本申请提供了一种基因测序方法，在样本的短序列中包括条形码标签的情况下，短序列中至少一个条形码标签的位置位于基因序列的位置之前，因此按照样本所属的样本类型对应的测序顺序对样本的每个短序列进行测序时，如果样本的短序列中包括条形码标签，则先对样本的每个短序列中位置靠前的至少一个条形码标签进行测序，再对样本的每个短序列中的基因序列进行测序，从而即使基因样本中包括多个样本，本申请依然能够使目标服务器基于测序至预设读长时得到的中间阶段测序结果数据生成中间阶段检报告，从而在测序未完全结束时就能提前进行初步的病原鉴定，加快了检测速度，缩短了客户的等待时长，客户体验更好。

例如，在一种可能的场景中，客户提交测序需求后，可能想在比较短的时间内得到病原鉴定结果，比如，在10小时内获得病原鉴定结果，而目前的基因测序技术需要超24小时才能获得精准的鉴定结果，客户体验较差。

而如果采用本申请提供的基因测序方法，可以由客户按照自身需求设置预设读长，如果客户需要获得病原鉴定结果的时间较为充裕，可以设置一个或多个较大的预设读长，以便获得更精准的病原鉴定结果，如果客户需要获得病原鉴定结果的时间不充裕，可以设置一个或多个较小的预设读长，以便在短时间内获得初步较为粗略的病原鉴定结果。

本实施例通过自定义预设读长，可以在中间测序阶段获得部分数据进行分析，得到初步的报告提供给客户进行初步筛查，缩短了等待时间，提升了客户体验。

在本申请的一种可能实现的方式中，对步骤S102提供的四种样本类型对应的测序顺序进行介绍。

在本实施例中，四种样本类型对应的测序顺序与四种样本类型下的样本包含的barcode标签和基因序列的位置相关。

具体来说，无条形码单样本类型对应的测序顺序为：对无条形码单样本类型下的样本的每个短序列中的基因序列进行测序。具体的，单端(SE)测序的流程包括：纳米球DNB加载(DNB loading)—>预加载(loading prime)—>加载(postloading)—>测序预处理(sequence prime)—>测序预处理清理(first)—>read1(第一段DNB)测序(read1sequencing)；双端(PE)测序的流程包括：DNB加载—>预加载—>加载—>测序预处理—>测序预处理清理—>read1(第一段DNB)测序—>二链合成(PE合成)—>read2(第一段DNB)测序。上述各个子流程的具体过程与现有技术相同，在此不再赘述。

可选的，单条形码多样本类型对应的测序顺序为：对单条形码多样本类型下的样本的每个短序列中的条形码标签进行测序，并在条形码标签测序完成后，对单条形码多样本类型下的样本的每个短序列中的基因序列进行测序。具体的，单端测序的流程包括：DNB加载—>预加载—>加载—>barcode预处理(barcode prime)—>barcode测序—>测序预处理—>测序预处理清理—>read1(第一段DNB)测序；双端测序的流程包括：DNB加载—>预加载—>加载—>barcode预处理—>barcode测序—>测序预处理—>测序预处理清理—>read1(第一段DNB)测序—>二链合成—>read2(第一段DNB)测序。上述各个子流程的具体过程与现有技术相同，在此不再赘述。

双条形码在单链的多样本类型对应的测序顺序为：对双条形码在单链的多样本类型下的样本的每个短序列中的两个条形码标签分别进行测序，在两个条形码标签测序完成后，对双条形码在单链的多样本类型下的样本的每个短序列中的基因序列进行测序。具体的，单端测序的流程包括：DNB加载—>预加载—>加载—>barcode1预处理—>barcode1测序—>barcode2预处理—>barcode2测序—>测序预处理—>测序预处理清理—>read1(第一段DNB)测序；双端测序的流程包括：DNB加载—>预加载—>加载—>barcode1预处理—>barcode1测序—>barcode2预处理—>barcode2测序—>测序预处理—>测序预处理清理—>read1(第一段DNB)测序—>二链合成—>read2(第一段DNB)测序。上述各个子流程的具体过程与现有技术相同，在此不再赘述。

双条形码在双链的多样本类型对应的测序顺序为：对双条形码在双链的多样本类型下的样本的每个短序列中的第一个条形码标签进行测序，在第一个条形码标签测序完成后，对双条形码在双链的多样本类型下的样本的每个短序列中的基因序列进行测序，在基因序列测序完成后，对双条形码在双链的多样本类型下的样本的每个短序列中的第二个条形码标签进行测序。具体的，单端测序的流程包括：DNB加载—>预加载—>加载—>barcode1预处理—>barcode1测序—>测序预处理—>测序预处理清理—>read1(第一段DNB)测序—>barcode2预处理—>barcode2测序；双端测序的流程包括：DNB加载—>预加载—>加载—>barcode1预处理—>barcode1测序—>测序预处理—>测序预处理清理—>read1(第一段DNB)测序—>二链合成—>read2(第一段DNB)测序—>barcode2预处理—>barcode2测序。上述各个子流程的具体过程与现有技术相同，在此不再赘述。

在本申请的另一种可能实现的方式中，考虑到先测barcode标签会占用二链合成时的引物，从而可能会影响测序质量，本实施例为了不影响测序质量的前提下实现先测barcode标签，可以在对多样本类型下的任一样本的每个短序列进行测序时，使用长度小于历史条形码引物的长度的条形码引物(即barcode引物)，以便在二链合成前洗脱。

这里，历史条形码引物是指目前已有的基因测序技术中使用的条形码引物，本领域技术人员应当理解，历史条形码引物的长度通常为32bp。

可选的，本申请实施例中，对多样本类型下的任一样本的每个短序列进行测序时使用的条形码引物的长度可以为25bp，需要说明的是，该25bp仅为示例，不作为对本申请的限定。

在本申请的又一种可能实现的方式中，为了防止先测barcode标签时DNB结构松散，可以在barcode引物前加入了纳米球结构稳固信息xlinker，以用于稳固DNB的结构。优化过后的测序质量与常规测序差异较小。

在本申请的又一种可能实现的方式中，基因样本包含多个样本时，需要将多个样本一起测序，得到的各样本中每个短序列的中间阶段测序结果数据也在一起，需要基于barcode标签进行拆分。

因此，可选的，若基因样本中包括多个样本，则步骤S104“将每个样本中每个短序列的中间阶段测序结果数据发送至目标服务器”的过程可以包括：按照多个样本分别对应的条形码标签对多个样本中每个短序列的中间阶段测序结果数据进行拆分和归类，得到多个样本分别对应的中间阶段测序结果数据；将多个样本分别对应的中间阶段测序结果数据发送至目标服务器。

值得注意的是，上述“按照多个样本分别对应的条形码标签对多个样本中每个短序列的中间阶段测序结果数据进行拆分和归类”具体是指将各样本中短序列的中间阶段测序结果数据按照各个样本分别对应的条形码标签进行拆分和归类，以将各样本的中间阶段测序结果数据归类到一起。

更具体的说，单条形码多样本类型下的样本的中间阶段测序结果数据可以在测序中间阶段按照单barcode标签进行拆分和归类；双条形码在单链的多样本类型下的样本的中间阶段测序结果数据可以在测序中间阶段按照双barcode标签进行拆分和归类；双条形码在双链的多样本类型下的样本的中间阶段测序结果数据可以在测序中间阶段按照第一个barcode(即位置在基因序列之前的barcode标签)进行拆分和归类(在测序结束时按照双barcode标签进行拆分和归类)。

在本申请的又一种可能实现的方式中，本实施例在生成中间阶段检测报告的同时还可以继续测序，从而测序完成时可以获得完整检测报告。

具体的，本申请实施例还可以针对基因样本中的每个样本，按照该样本所属的样本类型对应的测序顺序对该样本的每个短序列进行完整测序，得到该样本中每个短序列的完整测序结果数据，并将每个样本中每个短序列的完整测序结果数据发送至目标服务器，以便目标服务器对每个样本中每个短序列的完整测序结果数据进行数据分析，得到完整检测报告。

结合前述实施例介绍的测序顺序，本实施例“按照该样本所属的样本类型对应的测序顺序对该样本的每个短序列进行完整测序，得到该样本中每个短序列的完整测序结果数据”的过程可以包括：在该样本所属的样本类型为无条形码单样本类型时，对该样本的每个短序列中的基因序列进行测序；在该样本所属的样本类型为单条形码多样本类型时，对该样本的每个短序列中的条形码标签进行测序，并在该样本的每个短序列中的条形码标签测序完成后，对该样本的每个短序列中的基因序列进行测序；在该样本所属的样本类型为双条形码在单链的多样本类型时，对该样本的每个短序列中的两个条形码标签分别进行测序，在两个条形码标签测序完成后，对该样本的每个短序列中的基因序列进行测序；在该样本所属的样本类型为双条形码在双链的多样本类型时，对该样本的每个短序列中的第一个条形码标签进行测序，在第一个条形码标签测序完成后，对该样本的每个短序列中的基因序列进行测序，在该样本的每个短序列中的基因序列测序完成后，对该样本的每个短序列中的第二个条形码标签进行测序。

综上，本实施例可以将至少一个barcode标签放在整个测序流程的前面进行，这样可以在测序中间阶段时，获取到部分测序数据就可启动数据分析，用中间阶段测序结果数据的碱基信息得到中间阶段检测报告，以进行初步的鉴定分析；同时继续测序，待测序全部结束后，用完整测序结果数据再次进行数据分析，得到完整检测报告，以进行精准的鉴定分析。

在本申请的又一种可能实现的方式中，中间阶段检测报告中包括每个样本的中间阶段质控结果和中间阶段鉴定结果，完整检测报告中包括每个样本的完整质控结果、完整鉴定结果、完整组装结果和完整溯源结果。

具体的来说，对于基因样本包含的每个样本，目标服务器基于该样本中每个短序列的测序结果数据进行数据分析的过程包括：质控、鉴定、组装和溯源四个阶段。

其中，质控是指确定每个短序列的质量是否高于预设质量阈值，将质量低于预设质量阈值的短序列筛除；鉴定是指将该样本中每个短序列的测序结果数据与已知的病原序列数据库比较，以确定该样本的病原浓度信息；组装是指将该样本包含的所有短序列的测序结果数据拼接成长序列片段；溯源是指将拼接的长序列片段与不同国家、地区的数据库中已知亚型的样本进行比较，以确定该样本所属的亚型。

在本实施例中，无论是中间阶段的测序还是完整测序，均可以按照上述四个阶段进行分析，优选的，可以在中间阶段的测序中仅进行质控和鉴定，以减少中间检测时间。

可选的，考虑到中间阶段的分析结果可能不准确，为了避免因不准确的分析结果对客户产生误导，可以仅在中间阶段检测报告展示每个样本的中间阶段质控结果和中间阶段鉴定结果，而在完整检测报告中展示每个样本的完整质控结果、完整鉴定结果、完整组装结果和完整溯源结果。

在本申请的又一种可能实现的方式中，若预设读长中包括第一读长和读长大于第一读长的第二读长，则第一读长下的中间阶段检测报告是指对每个样本的每个短序列在第一读长下的中间阶段测序结果数据进行分析得到的检测报告，第二读长下的中间阶段检测报告和完整检测报告均是指对每个样本中识别为非宿主的短序列在第二读长下的中间阶段测序结果数据进行分析得到的检测报告。

具体的，目标服务器在得到每个样本的每个短序列在第一读长下的中间阶段测序结果数据后，可以通过分析确定该样本的每个短序列是否属于病原序列或者宿主序列(例如人源样本序列、动物样本序列等)或者未识别的序列，此时分析得到的检测报告为第一读长下的中间阶段检测报告。

在目标服务器得到每个样本的每个短序列在第二读长下的中间阶段测序结果数据后，可以对前述每个样本中识别为非宿主的短序列在第二读长下的中间阶段测序结果数据进行分析，得到第二读长下的中间阶段检测报告。

这里，非宿主包括病原和未识别的序列。

例如，在测序到SE40时，目标服务器可以对每个样本的每个短序列在40bp下的中间阶段测序结果数据进行分析，以确定样本中哪些短序列为病原序列，哪些短序列为宿主序列或未识别的序列(可选的，每个短序列都有对应的序列号，通过序列号标记哪些短序列为病原序列，哪些短序列为宿主序列或未识别的序列)。在后续测序到SE100和PE100时，可以对每个样本中识别为非宿主的那些短序列在第二读长下的中间阶段测序结果数据进行分析，以提高分析效率。

可选的，本实施例还可以对每个样本中识别为宿主的那些短序列的完整测序结果数据进行补充分析，以使得分析结果更完整。

为了使本领域技术人员更加理解本申请，参见图2所示，为本申请实施例提供的一种边测序边分析应用业务流程的示意图。本实施例可以设置生成报告cycle数，即预设读长，例如可以设置40bp和100bp，然后获取基因样本，并确定基因样本包含的每个样本所属的样本类型，之后可按照每个样本所属的样本类型对应的测序顺序对每个样本的每个短序列进行测序。

在对每个样本的每个短序列中的基因序列测序至40bp时，获得阶段1每个样本中每个短序列的中间阶段测序结果数据，基于阶段1每个样本中每个短序列的中间阶段测序结果数据生成40cycle报告和fq文件(fq是测序生成的主要结果文件，全称是FASTQ文件，包含测序结果数据和对应质量值)，在对每个样本的每个短序列中的基因序列测序至100bp时，获得阶段2每个样本中每个短序列的中间阶段测序结果数据，基于阶段2每个样本中每个短序列的中间阶段测序结果数据生成100cycle报告和fq文件，并在测序完成时获得完整测序报告和fq文件。

上述三个阶段获得的测序结果数据均可上传至目标服务器，以进行数据分析，获得三个阶段分别对应的检测报告，这三个阶段的检测报告中，完整检测报告的精准度最高，阶段2得到的第二中间阶段检测报告的精准度次之，阶段1得到的第一中间阶段检测报告的精准度最低。

参见图3所示的多样本类型下的样本测序获得三阶段检测报告的时间段示意图。其中，单条形码多样本类型下的样本在测序时，在测序过程第40个cycle出报告，获得中间阶段检测报告的时间为5.5小时(h)，第100个cycle出报告，获得中间阶段检测报告的时间为11小时，完整PE100测序，获得完整检测报告的时间为24.5小时；双条形码在单链的多样本类型下的样本在测序时，获得三阶段检测报告的时间分别为40cycle需6.5小时，100cycle需12小时，完整PE100测序需25.5小时(图3未示出)；双条形码在双链的多样本类型(与单条形码多样本类型的时间相同，图3未示出)下的样本在测序时，获得三阶段检测报告的时间分别为40cycle需5.5小时，100cycle需11小时，完整PE100测序需24.5小时。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

图4为本申请实施例提供的一种基因测序装置一个实施例的结构示意图，与图1描述的本申请实施例提供的一种基因测序方法相对应，本实施例所述基因测序装置，在实际应用中可以具体应用于所述基因测序仪，该装置可以包括：

数据获取模块401，用于获取待检测的基因样本和预设读长，其中，基因样本中包括至少一个样本，任一样本中包括至少一个短序列，每个短序列中包括待检测的基因序列和至多两个条形码标签，在一短序列包括条形码标签的情况下，该短序列中至少一个条形码标签的位置位于基因序列的位置之前。

样本类型确定模块402，用于确定基因样本包含的每个样本所属的样本类型。

第一测序模块403，用于针对基因样本中的每个样本，按照该样本所属的样本类型对应的测序顺序对该样本的每个短序列进行测序，直至对该样本的每个短序列中的基因序列测序至预设读长时，得到该样本中每个短序列的中间阶段测序结果数据。

测序结果数据发送模块404，用于将每个样本中每个短序列的中间阶段测序结果数据发送至目标服务器，以便目标服务器对每个样本中每个短序列的中间阶段测序结果数据进行数据分析，得到中间阶段检测报告。

在一种可能的实现方式中，上述样本类型确定模块402具体可以用于：在基因样本中包括一个样本的情况下，确定该样本属于无条形码单样本类型；在基因样本中包括多个样本的情况下，针对多个样本中的每个样本，若该样本的短序列中包括一个条形码标签，则确定该样本属于单条形码多样本类型，若该样本的短序列中包括位于同一链上的两个条形码标签，则确定该样本属于双条形码在单链的多样本类型，若该样本的短序列中包括位于两个链上的两个条形码标签，则确定该样本属于双条形码在双链的多样本类型。

在一种可能的实现方式中，上述无条形码单样本类型对应的测序顺序为：对无条形码单样本类型下的样本的每个短序列中的基因序列进行测序。

在一种可能的实现方式中，上述单条形码多样本类型对应的测序顺序为：对单条形码多样本类型下的样本的每个短序列中的条形码标签进行测序，并在条形码标签测序完成后，对单条形码多样本类型下的样本的每个短序列中的基因序列进行测序。

在一种可能的实现方式中，上述双条形码在单链的多样本类型对应的测序顺序为：对双条形码在单链的多样本类型下的样本的每个短序列中的两个条形码标签分别进行测序，在两个条形码标签测序完成后，对双条形码在单链的多样本类型下的样本的每个短序列中的基因序列进行测序。

在一种可能的实现方式中，上述双条形码在双链的多样本类型对应的测序顺序为：对双条形码在双链的多样本类型下的样本的每个短序列中的第一个条形码标签进行测序，在第一个条形码标签测序完成后，对双条形码在双链的多样本类型下的样本的每个短序列中的基因序列进行测序，在基因序列测序完成后，对双条形码在双链的多样本类型下的样本的每个短序列中的第二个条形码标签进行测序。

在一种可能的实现方式中，对多样本类型下的任一样本的每个短序列进行测序时使用的条形码引物的长度小于历史条形码引物的长度，其中，多样本类型包括单条形码多样本类型、双条形码在单链的多样本类型和双条形码在双链的多样本类型。

在一种可能的实现方式中，上述预设读长包括至少一个读长。

在一种可能的实现方式中，若基因样本中包括多个样本，则上述测序结果数据发送模块404具体可以按照多个样本分别对应的条形码标签对多个样本中每个短序列的中间阶段测序结果数据进行拆分和归类，得到多个样本分别对应的中间阶段测序结果数据，将多个样本分别对应的中间阶段测序结果数据发送至目标服务器。

在一种可能的实现方式中，本申请实施例提供的基因测序装置还可以包括：第二测序模块和完整测序结果数据发送模块。

第二测序模块，用于针对基因样本中的每个样本，按照该样本所属的样本类型对应的测序顺序对该样本的每个短序列进行完整测序，得到该样本中每个短序列的完整测序结果数据。

完整测序结果数据发送模块，用于将每个样本中每个短序列的完整测序结果数据发送至目标服务器，以便目标服务器对每个样本中每个短序列的完整测序结果数据进行数据分析，得到完整检测报告。

在一种可能的实现方式中，中间阶段检测报告中包括每个样本的中间阶段质控结果和中间阶段鉴定结果，完整检测报告中包括每个样本的完整质控结果、完整鉴定结果、完整组装结果和完整溯源结果。

在一种可能的实现方式中，若预设读长中包括第一读长和读长大于第一读长的第二读长，则第一读长下的中间阶段检测报告是指对每个样本的每个短序列在第一读长下的中间阶段测序结果数据进行分析得到的检测报告，第二读长下的中间阶段检测报告和完整检测报告均是指对每个样本中识别为非宿主的短序列在第二读长下的中间阶段测序结果数据进行分析得到的检测报告。

本申请实施例还提供了一种基因测序设备。可选的，图5示出了基因测序设备的硬件结构框图，参照图5，该基因测序设备的硬件结构可以包括：至少一个处理器501，至少一个通信接口502，至少一个存储器503和至少一个通信总线504；

在本申请实施例中，处理器501、通信接口502、存储器503、通信总线504的数量为至少一个，且处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信；

处理器501可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器503可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器503存储有程序，处理器501可调用存储器503存储的程序，所述程序用于：

获取待检测的基因样本和预设读长，其中，基因样本中包括至少一个样本，任一样本中包括至少一个短序列，每个短序列中包括待检测的基因序列和至多两个条形码标签，在一短序列包括条形码标签的情况下，该短序列中至少一个条形码标签的位置位于基因序列的位置之前；

确定基因样本包含的每个样本所属的样本类型；

针对基因样本中的每个样本，按照该样本所属的样本类型对应的测序顺序对该样本的每个短序列进行测序，直至对该样本的每个短序列中的基因序列测序至预设读长时，得到该样本中每个短序列的中间阶段测序结果数据；

将每个样本中每个短序列的中间阶段测序结果数据发送至目标服务器，以便目标服务器对每个样本中每个短序列的中间阶段测序结果数据进行数据分析，得到中间阶段检测报告。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述基因测序方法。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基因测序方法，其特征在于，包括以下步骤：

确定所述基因样本包含的每个样本所属的样本类型；

2.根据权利要求1所述的基因测序方法，其特征在于，所述确定所述基因样本包含的每个样本所属的样本类型，包括：

3.根据权利要求2所述的基因测序方法，其特征在于，所述无条形码单样本类型对应的测序顺序为：对所述无条形码单样本类型下的样本的每个短序列中的基因序列进行测序；

4.根据权利要求3所述的基因测序方法，其特征在于，对多样本类型下的任一样本的每个短序列进行测序时使用的条形码引物的长度小于历史条形码引物的长度，其中，所述多样本类型包括所述单条形码多样本类型、所述双条形码在单链的多样本类型和所述双条形码在双链的多样本类型。

5.根据权利要求1所述的基因测序方法，其特征在于，所述预设读长包括至少一个读长。

6.根据权利要求1所述的基因测序方法，其特征在于，若所述基因样本中包括多个样本，则所述将每个样本中每个短序列的中间阶段测序结果数据发送至目标服务器，包括：

7.根据权利要求1所述的基因测序方法，其特征在于，还包括：

8.根据权利要求7所述的基因序列方法，其特征在于，所述中间阶段检测报告中包括每个样本的中间阶段质控结果和中间阶段鉴定结果，所述完整检测报告中包括每个样本的完整质控结果、完整鉴定结果、完整组装结果和完整溯源结果；

9.根据权利要求7所述的基因序列方法，其特征在于，若所述预设读长中包括第一读长和读长大于所述第一读长的第二读长，则所述第一读长下的中间阶段检测报告是指对每个样本的每个短序列在所述第一读长下的中间阶段测序结果数据进行分析得到的检测报告，所述第二读长下的中间阶段检测报告和所述完整检测报告均是指对每个样本中识别为非宿主的短序列在所述第二读长下的中间阶段测序结果数据进行分析得到的检测报告。

10.一种基因测序装置，其特征在于，包括数据获取模块、样本类型确定模块、第一测序模块和测序结果数据发送模块；

11.一种基因测序设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～9任一项所述的基因测序方法的各个步骤。

12.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～9任一项所述的基因测序方法的各个步骤。