CN117501371A

CN117501371A - 非特异性扩增序列的来源引物鉴定方法、装置、设备

Info

Publication number: CN117501371A
Application number: CN202280001508.6A
Authority: CN
Inventors: 刘梦佳
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2024-02-02
Also published as: WO2023226016A1

Abstract

本公开提供的非特异性扩增序列的来源引物鉴定方法、装置、设备，属于基因检测技术领域，所述方法包括：获取对目标基因片段进行引物扩增得到已扩增基因的扩增序列数据，以及所述目标基因片段所属的源基因的源基因序列数据，以及所述引物扩增过程所使用的引物序列数据；将所述扩增序列数据和所述源基因序列数据进行比对，将与所述源基因序列数据不匹配的扩增序列数据，作为非特异性扩增序列数据；将所述非特异性扩增序列数据与所述引物序列数据进行比对，利用与所述非特异性扩增序列数据相匹配的引物序列数据的引物，作为所述非特异性扩增序列的扩增来源引物。

Description

非特异性扩增序列的来源引物鉴定方法、装置、设备

技术领域

本公开属于基因检测技术领域，特别涉及一种非特异性扩增序列的来源引物鉴定方法、装置、设备。

背景技术

相关技术中采用NGS技术鉴定淋巴瘤需要通过上游实验对DNA进行多重扩增、高通量测序及数据分析，一般是对B细胞受体IGH、IGK链或T细胞受体的TCRB、TCRD等链进行多重扩增、高通量测序及数据分析，以鉴定淋巴细胞的多克隆重排情况。

但由于参与链组成的V、D、J在基因组上以基因簇的形式存在，各基因家族数目众多，因此多克隆重排差异大，且容易带来大量的非特异性扩增。目前多重扩增测序数据中的目标片段占比不到50％，常规的扩增及分析未考虑非特异性扩增带来的低数据有效率问题。

概述

本公开提供了一种非特异性扩增序列的来源引物鉴定方法、装置、设备。

本公开一些实施例提供一种非特异性扩增序列的来源引物鉴定方法，所述方法包括：

获取对目标基因片段进行引物扩增得到已扩增基因的扩增序列数据，以及所述目标基因片段所属的源基因的源基因序列数据，以及所述引物扩增过程所使用的引物序列数据；

将所述扩增序列数据和所述源基因序列数据进行比对，将与所述源基因序列数据不匹配的扩增序列数据，作为非特异性扩增序列数据；

将所述非特异性扩增序列数据与所述引物序列数据进行比对，利用与所述非特异性扩增序列数据相匹配的引物序列数据的引物，作为所述非特异性扩增序列的扩增来源引物。

可选地，在所述将所述扩增序列数据和所述源基因序列数据进行比对，将与所述源基因序列数据不匹配的扩增序列数据，作为非特异性扩增序列数据的步骤之后，所述方法还包括：

将所述非特异性扩增序列数据与参考基因组序列数据进行比对，得到比对结果；

根据所述比对结果确定所述非特异性扩增序列的来源基因在基因组上的位置信息。

可选地，所述根据所述比对结果确定所述非特异性扩增序列的来源基因在基因组上的位置信息的步骤，包括：

根据所述比对结果在所述参考基因组序列数据上的分布位置，统计所述非特异性扩增序列在参考基因组上的基因组来源、基因组上的序列位置和序列特征中的至少一种。

可选地，在所述目标基因片段是免疫基因片段时，所述基因序列数据包括：双端测序可重叠的序列数据、双端测序不可重叠的序列数据；

所述获取对目标基因片段进行引物扩增得到已扩增基因的扩增序列数据的步骤，包括：

获取对基因片段进行引物扩增得到的下机数据；

将所述下机数据之中可重叠序列长度大于或等于第一序列长度阈值，且重叠后的序列长度大于或等于第二序列长度阈值的第一基因片段和第二基因片段进行重叠操作，得到双端测序可重叠的序列数据；

以及，将所述下机数据之中可重叠序列长度小于第一序列长度阈值，或重叠后的序列长度小于第二序列长度阈值的扩增序列数据，作为双端测序不可重叠的序列数据。

可选地，所述源基因序列数据包括：V基因家族序列数据、D基因家族序列数据、J基因家族序列数据；

所述将所述扩增序列数据和所述源基因序列数据进行比对，将与所述源基因序列数据不匹配的扩增序列数据，作为非特异性扩增序列数据的步骤，包括：

将所述双端测序可重叠的序列数据和所述双端测序不可重叠的序列数据分别比对到所述V基因家族序列数据、所述D基因家族序列数据、所述J基因家族序列数据，得到所述双端测序可重叠的序列数据和所述双端测序不可重叠的序列数据的一致性比对值；

将所述双端测序可重叠的序列数据中，分别与所述V基因家族序列数据、所述D基因家族序列数据、所述J基因家族序列数据的一致性比对值大于或等于一致性比对值阈值的序列数据的长度之和，作为所述双端测序可重叠的序列数据的可比对长度；

将所述可比对长度小于可比对长度阈值的双端测序可重叠的序列数据，作为非特异性扩增序列数据；

以及将所述双端测序不可重叠的序列数据中，分别与所述V基因家族序列数据、所述D基因家族序列数据、所述J基因家族序列数据的一致性比对值均小于一致性比对值阈值的序列数据，作为非特异性扩增序列数据。

对所述非特异扩增序列数据执行去冗余处理，切除所述非特异性扩增序列数据的冗余序列数据，其中所述冗余序列数据是序列中重复碱基的占比大于或等于占比阈值的序列数据。

可选地，在所述将所述扩增序列数据和所述源基因序列数据进行比对，将与所述源基因序列数据不匹配的扩增序列数据，作为非特异性扩增序列数据的步骤之前，所述方法还包括：

切除所述扩增序列数据中的低质量序列数据。

可选地，所述切除所述扩增序列数据中的低质量序列数据的步骤，包括：

切除接头后的扩增序列数据中序列末端长度大于或等于末端长度阈值的接头序列数据，并去除所述扩增序列数据中序列平均质量值小于质量值阈值的序列数据，并去除所述扩增序列数据中序列平均质量值小于质量值阈值的序列数据。

切除所述扩增序列数据中质量值小于质量值阈值的低质量区段，并切除所述已切除低质量区段的扩增序列数据中序列长度小于第三序列长度阈值的低质量序列数据。

本公开一些实施例提供一种非特异性扩增序列的来源引物鉴定装置，所述装置包括：

获取模块，被配置为获取对目标基因片段进行引物扩增得到已扩增基因的扩增序列数据，以及所述目标基因片段所属的源基因的源基因序列数据，以及所述引物扩增过程所使用的引物序列数据；

比对模块，被配置为将所述扩增序列数据和所述源基因序列数据进行比对，将与所述源基因序列数据不匹配的扩增序列数据，作为非特异性扩增序列数据；

可选地，所述比对模块，还被配置为：

可选地，所述获取模块，还被配置为：

获取对基因片段进行引物扩增得到的下机数据；

所述比对模块，还被配置为：

可选地，所述比对模块，还被配置为：

可选地，所述获取模块，还被配置为：

切除所述扩增序列数据中的低质量序列数据。

可选地，所述获取模块，还被配置为：

切除接头后的扩增序列数据中序列末端长度大于或等于末端长度阈值的接头序列数据，并去除所述扩增序列数据中序列平均质量值小于质量值阈值的序列数据。

可选地，所述获取模块，还被配置为：

本公开一些实施例提供一种计算处理设备，包括：

存储器，其中存储有计算机可读代码；

一个或多个处理器，当所述计算机可读代码被所述一个或多个处理器执行时，所述计算处理设备执行如上述所述的非特异性扩增序列的来源引物鉴定方法。

本公开一些实施例提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算处理设备上运行时，导致所述计算处理设备执行如上述的非特异性扩增序列的来源引物鉴定方法。

本公开一些实施例提供一种非瞬态计算机可读介质，其中存储了如上述的非特异性扩增序列的来源引物鉴定方法。

上述说明仅是本公开技术方案的概述，为了能够更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂，以下特举本公开的具体实施方式。

附图简述

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了本公开一些实施例提供的一种非特异性扩增序列的来源引物鉴定方法的流程示意图；

图2示意性地示出了本公开一些实施例提供的另一种非特异性扩增序列的来源引物鉴定方法的流程示意图之一；

图3示意性地示出了本公开一些实施例提供的另一种非特异性扩增序列的来源引物鉴定方法的流程示意图之二；

图4示意性地示出了本公开一些实施例提供的另一种非特异性扩增序列的来源引物鉴定方法的流程示意图之三；

图5示意性地示出了本公开一些实施例提供的一种非特异性扩增序列的来源引物鉴定方法的效果示意图之一；

图6示意性地示出了本公开一些实施例提供的一种非特异性扩增序列的来源引物鉴定方法的效果示意图之二；

图7示意性地示出了本公开一些实施例提供的一种非特异性扩增序列的来源引物鉴定装置的结构示意图；

图8示意性地示出了用于执行根据本公开一些实施例的方法的计算处理设备的框图；

图9示意性地示出了用于保持或者携带实现根据本公开一些实施例的方法的程序代码的存储单元。

详细描述

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

淋巴瘤是一类起源于淋巴造血系统的单克隆增殖性疾病。在过去30年间，发病率以每年3％～5％的速度递增，世界范围内其发病率增长了约1倍，我国每年淋巴瘤新增病例10万，年增长率超过5％，是增长速度最迅猛的常见恶性肿瘤之一。根据2020年全球癌症统计报告，淋巴瘤每年新增病例约60万，占所有血液肿瘤55％。淋巴瘤准确的诊断和分类是影响其治疗及预后的关键，分子遗传特征可以补充普通病理检查不能提供的信息，成为亚型间鉴别的重要手段。

NGS技术是下一代测序技术，又称高通量测序，以高输出量和高解析度为主要特色，能一次并行对几十万到几百万条DNA分子进行序列读取，在提供丰富的遗传学信息的同时，还可大大降低测序费用、缩短测序时间的测序技术。随着NGS技术应用，分子诊断逐渐开始在淋巴瘤等疾病等精准诊断中发挥作用，可帮助临床医生更好地进行淋巴瘤诊断、治疗方案的选择、预后的判定、微小病灶残留的检测等。

NGS技术用于应用于鉴定淋巴瘤检测有以下优点：1)高灵敏度，灵敏度可达10-6，较传统流式细胞技术灵敏度高100倍。2)个性化检测，因免疫组个体差异大，可通过测序分析鉴定到个体的VDJ重排；3)追踪新克隆，随着病情发展及用药，个体可发生克隆演变，可对新出现对克隆进行追踪，给予患者更准确对检测结果；4)判断预后，一般可通IGHV的超突变进行预后是否良好的判断，当IGHV突变比例大于2％时，认为预后较好，准确的突变评估结果可以指导临床医生对患者采取个性化治疗方案。

相关技术采用NGS技术鉴定淋巴瘤需要通过上游实验对DNA进行多重扩增通常重扩增、高通量测序及数据分析，一般是对B细胞受体IGH、IGK链或T细胞受体的TCRB、TCRD等链进行多重扩增、高通量测序及数据分析，以鉴定淋巴细胞的克隆重排情况。但由于参与链组成对V、D、J在源基因上以基因簇的形式存在，各基因家族数目众多，重排差异大，带来大量的非特异性扩增。目前的序列数据中的目标片段占比不到50％。常规的扩增及分析未考虑非特异性扩增带来的数据有效率低的问题。为优化引物扩增效果，提高数据有效率，需要对非特异性扩增结果进行分析，以确定引物扩增带来对问题，并为后续引物优化提供方向。

图1示意性地示出了本公开提供的一种非特异性扩增序列的来源引物鉴定方法的流程示意图，所述方法包括：

步骤101，获取对目标基因片段进行引物扩增得到已扩增基因的扩增序列数据，以及所述目标基因片段所属的源基因的源基因序列数据，以及所述引物扩增过程所使用的引物序列数据。

需要说明的是，目标基因片段是上游实验中对于生物的DNA(DeoxyriboNucleic Acid，脱氧核糖核酸)或RNA(Ribonucleic Acid，核糖核酸)中利用引物进行多重扩增的特征基因片段。扩增序列数据是对目标基因片段进行高通量测序得到的数据。源基因序列数据是对目标基因片段所来源的源基因进行高通量测序得到的数据，可通过对引物扩增目的链重组来源的源基因进行测序来沟通源基因数据库在实际使用时直接提取。引物是一小段单链DNA或RNA，在核酸合成反应时，作为每个多核苷酸链进行延伸的出发点而起作用的多核苷酸链，由于引物是预先设计得到的，因此可以将引物基因进行扩增来构建引物数据库，在使用时从引物库直接提取引物序列数据即可。

可选地，本公开一些实施例的执行主体可以是通过扩增序列数据进行分析的服务端或终端，该服务端或终端可以是服务器、个人电脑、平板、笔记本等具有数据处理、数据传输等功能的电子设备，下面将以服务端作为执行主体为例对本公开的方案进行详细描述，当然本公开一些实施例的执行主体还可以是其他类型的电子设备，具体可以根据实际需求设置，此处不做限定。

在本公开实施例中，上游实验中可以基于针对目标基因片段设计的引物对目标基因片段采用PCR技术进行多重扩增来得到已扩增基因，并对已扩增基因以及目标基因片段来源的源基因进行高通量测序得到，得到已扩增基因的扩增序列数据和源基因的源基因序列数据。

在实际应用中，操作人员可将扩增序列数据输入服务端，服务端将自动从源基因数据库提取源基因序列数据，以及从引物数据库提取引物序列数据，以触发执行本公开所提供的非特异性扩增序列的来源引物鉴定方法的步骤来识别扩增基因中预期所需特异性扩增基因以外的非特异性扩增序列的来源引物。

可以理解，多重扩增通常是针对目标基因片段通过引物诱导来进行扩增，引物所预期诱导扩增的基因可成为特异性扩增基因，而引物所预期之外诱导扩增的基因则可成为非特异性扩增序列，非特异性扩增序列不仅对后续序列数据的鉴定分析会产生干扰，而且会消耗大量的实验资源，大大降低了基因特异性扩增的效果。

步骤102，将所述扩增序列数据和所述源基因序列数据进行比对，将与所述源基因序列数据不匹配的扩增序列数据，作为非特异性扩增序列数据。

在本公开实施例中，由于扩增序列数据来源的目标基因片段是源基因，因此通过将目标基因片段进行扩增得到的特异性扩增基因可以比对到源基因序列数据上去。在比对后，可将扩增序列数据中与源基因序序列数据的可比对长度较高作为特异性扩增序列数据，可比对长度较低的作为非特异性扩增序列数据，以供后续进一步对非特异性扩增序列数据的来源引物进行分析。

步骤103，将所述非特异性扩增序列数据与所述引物序列数据进行比对，利用与所述非特异性扩增序列数据相匹配的引物序列数据的引物，作为所述非特异性扩增序列的扩增来源引物。

在本公开实施例中，虽然非特异性扩增序列无法比对到与目标基因片段的源基因上，但是该非特异性扩增序列是通过引物诱导重组扩增得到的，因此非特异性扩增序列是可以比对到所使用引物的引物序列数据上的。可以理解，通过引物诱导重组扩增得到的扩增序列数据理论上是均可以比对到引物序列数据上的，而本公开正是利用这一特性，通过将扩增序列数据中的非特异性扩增序列数据与引物序列数据进行比对，从而识别出诱导重组生成非特异性扩增序列的引物序列数据，从而将所使用出引物序列数据相对应的引物即可作为该非特异性扩增序列的扩增来源引物。

在实际应用中，服务端在分析出非特异性扩增序列数据相对应的扩增来源引物后，可将该扩增来源引物的引物序列数据以及非特异性扩增序列数据的位置以及分布情况进行输出，以供操作人员查看分析引物的效果，从而参考输出结果优化设置引物，提高引物的扩增效果。

本公开实施例通过将已扩增基因的扩增序列数据比对到引物扩增目标基因片段来源的源基因序列数据上，以筛选出扩增序列数据中的非特异性扩增序列数据，然后通过将非特异性扩增序列数据与扩增所使用引物的引物序列数据进行比对，筛选出与非特异性扩增序列数据相匹配的引物序列数据，从而可以准确地识别出扩增序列中非特异性扩增序列的扩增来源引物。

可选地，参照图2，在所述步骤102之后，所述方法还包括：

步骤201，将所述非特异性扩增序列数据与参考基因组序列数据进行比对，得到比对结果。

需要说明是的，参照基因组序列数据可以是采用人类基因组GRCh38版本建立数据库，使用makeblastdb(一种格式转换工具)进行格式化得到的，格式化后的参考基因数据库命名为GRCh38-db，当然该参考基因组序列数据还可以是采用其他可用的人类基因组序列数据，此处仅是示例性说明，具体可以根据实际需求设置，此处不做限定。

在本公开实施例中，考虑到非特异性扩增序列是通过重组扩增得到，其碱基分布的可读性较低，无法直接通过非特异性扩增序列数据直接识别出非特异性扩增序列的在源基因上基因序列。因此本公开通过将非特异性扩增序列数据比对到参考基因组序列数据上来，依据比对结果确定与非特异性扩增序列数据相匹配的参考基因组序列数据的基因序列片段。

步骤202，根据所述比对结果确定所述非特异性扩增序列的来源基因在基因组上的位置信息。

在本公开实施例中，服务端可以依据比对结果所确定与特异性扩增序列数据相匹配的参考基因序列数据在参考基因组序列数据中的所在位置，确定特异性扩增基因的来源基因序列在基因组上的位置信息。

可选地，所述步骤202，包括：根据所述比对结果在所述参考基因组序列数据上的分布位置，统计所述非特异性扩增序列在参考基因组上的基因组来源、基因组上的序列位置和序列特征中的至少一种。

在本公开实施例中，将非特异性扩增序列数据比对至参考基因组序列数据，序列比对上的标准为identity(一致性值)≥序列一致性阈值，即序列比对长度大于或等于序列总长度的80％～95％中的任意值，例如80％、85％、95％。对鉴定到序列来源位置进行统计分析，统计内容包括各序列比对到最优的基因组来源、序列来源主要集中特定的基因组位置或序列特征。

本公开实施例通过将非特异性扩增序列数据比对到参考基因组序列数据上，依据比对结果来确定非特异性扩增序列的来源基因在基因组上的位置信息，克服了非特异性扩增序列的碱基序列不易识别位置的问题，提高了识别非特异性扩增序列的来源基因的位置信息的准确性。

可选地，在所述目标基因片段是免疫基因片段时，所述基因序列数据包括：双端测序可重叠的序列数据、双端测序不可重叠的序列数据，参照图3，所述步骤101，包括：

步骤1011，获取对基因片段进行引物扩增得到的下机数据。

在本公开实施例中，为了提高非特异性扩增序列数据的识别准确性，服务端在获取到已扩增基因的下机数据后，可以对下机数据执行重叠操作，该重叠操作是指将下机数据中的两条序列数据按照碱基配对方式进行组合。

步骤1012，将所述下机数据之中可重叠序列长度大于或等于第一序列长度阈值，且重叠后的序列长度大于或等于第二序列长度阈值的第一基因片段和第二基因片段进行重叠操作，得到双端测序可重叠的序列数据，以及，将所述下机数据之中可重叠序列长度小于第一序列长度阈值，或重叠后的序列长度小于第二序列长度阈值的扩增序列数据，作为双端测序不可重叠的序列数据。

在本公开实施例中，第一基因片段R1和第二基因片段R2可以是分别是原始扩增基因测序数据中的配对的两条不同的基因片段。执行重叠操作的标准是R1和R2的overlap(可重叠序列)长度大于或等于第一序列长度阈值，该第一序列长度阈值可以是10bp～20bp中任意值，例如10bp、15bp、2bp，overlap以后序列长度大于或等于第二序列长度阈值，该第二序列长度阈值可以是100bp～150bp中的任意值，例如100bp、125bp、150bp。从而可将符合重叠标准的下机数据进行重叠来得到双端测序可重叠的序列数据，而不符合重叠标准的下机数据作为双端测序不可重叠的序列数据。服务端可将双端测序可重叠的序列数据和双端测序不可重叠的序列数据均作为后续参与分析的扩增序列数据。

本公开实施例通过将扩增序列数据进行重叠，从而使得扩增序列数据在后续比对过程中可以实现对于双端测序可重叠的序列数据的双向比对，相较于未重叠的基因序列数据，比对结果的准确性更高。

可选地，所述源基因序列数据包括：V基因家族序列数据、D基因家族序列数据、J基因家族序列数据，参照图3，所述步骤102，包括：

步骤1021，将所述双端测序可重叠的序列数据和所述双端测序不可重叠的序列数据分别比对到所述V基因家族序列数据、所述D基因家族序列数据、所述J基因家族序列数据，得到所述双端测序可重叠的序列数据和所述双端测序不可重叠的序列数据的一致性比对值。

步骤1022，将所述双端测序可重叠的序列数据中，分别与所述V基因家族序列数据、所述D基因家族序列数据、所述J基因家族序列数据的一致性比对值大于或等于一致性比对值阈值的序列数据的长度之和，作为所述双端测序可重叠的序列数据的可比对长度；

步骤1023，将所述可比对长度小于可比对长度阈值的双端测序可重叠的序列数据，作为非特异性扩增序列数据；

步骤1024，将所述双端测序不可重叠的序列数据中，分别与所述V基因家族序列数据、所述D基因家族序列数据、所述J基因家族序列数据的一致性比对值均小于一致性比对值阈值的序列数据，作为非特异性扩增序列数据。

需要说明的是，V、D、J基因家族是人类生殖细胞的生殖基因序列的三个主要基因家族，这三个基因家族按照V、D、J的顺序依次在生殖基因序列中依次分布。

在本公开实施例中，对于assembled集(双端测序可重叠的序列数据)，mapped(完全匹配数据)可以定义为比对identity≥一致性比对值阈值，该一致性比对值阈值可以是80～90中任意值，例如80、85、90，双端测序可重叠的序列数据向V、D、J基因家族的比对上的长度大于或等于总序列长度的80％～90％中任意值，例如80％、85％、90％；partial mapped(部分匹配数据)可以定义为比对identity≥一致性比对值阈值，双端测序可重叠的序列数据向V、D、J基因家族的比对上的长度大于或等于总序列长度的10％～20％中的任意值，例如10％、15％、20％；unmapped(未匹配数据)可以定义为比对identity≥一致性比对值阈值，且双端测序可重叠的序列数据向V、D、J基因家族的比对上的可比对长度小于可比对长度阈值，该可比对长度阈值可以是总序列长度的10％～20％中的任意值，例如10％、15％、20％。

而对于unassembled集(双端测序不可重叠的序列数据)，mapped定义为比对identity≥一致性比对值阈值，R1、R2能分别比对到V基因家族、J基因家族，或R1、R2其中之一能同时比对到V和J基因家族；partial mapped定义为比对identity≥一致性比对值阈值，R1或R2可比对到免疫基因的基因家族V、D、J之一；unmapped定义为比对identity≥一致性比对值阈值，R1或R2无法比对到免疫基因的基因家族V、D、J中的任何一个，也就是双端测序不可重叠的序列数据与基因家族V、D、J中任何一个基因家族的一致性比对值都小于一致性比对值阈值。

对mapped、partial mapped、unmapped三个数据集提取数据存储为Fasta格式，并对各数据集进行数据量统计。

值得说明的是，之所以仅将双端测序不可重叠的序列数据比对到免疫基因的V、J基因家族是因为双端测序不可重叠的序列数据由于中间部分未进行重叠，因此无法与处于免疫基因序列中间部分的D基因家族进行比对。

在本公开实施例中，此处仅将上述与免疫基因比对后的unmapped数据，也就是将未比对上的基因序列数据作为非特异性扩增序列数据。

在本公开实施例中，参照上述描述，可将双端测序可重叠的序列数据和双端测序不可重叠的序列数据与免疫基因序列数据的比对一致性值大于比对值阈值的基因序列的序列长度小于可比对长度阈值的数据作为非特异性扩增序列数据，以供后续进一步分析非特异性扩增序列的扩增引物来源使用。

可选地，参照图4，在所述步骤102之前，所述方法还包括：

步骤104，切除所述扩增序列数据中的低质量序列数据。

本公开实施例通过度扩增序列中低质量的序列数据进行切除，减少了后续分析过程中低质量序列数据对于分析过程的干扰以及分析所需的处理资源，提高了数据分析的效率和准确性。

可选地，参照图4，在所述步骤102之后，所述方法还包括：

步骤105，对所述非特异扩增序列数据执行去冗余处理，切除所述非特异性扩增序列数据的冗余序列数据，其中所述冗余序列数据是序列中重复碱基的占比大于或等于占比阈值的序列数据。

在本公开实施例中，可以将非特异扩增序列数据进行去冗余处理。冗余序列的定义为采用全局序列识别到序列相似性大于等于相似性阈值，计算方式为序列中相同的碱基的数目除以较短序列的全长。可使用cd-hit等相似性识别工具进行去冗余及序列聚类。将每个去冗余操作后的非特异性扩增序列数据进行聚类信息存储，即存储每个非特异性扩增序列数据内每条聚类后的序列与其聚类的序列信息及序列数目，从而减少非特异性扩增序列数据所占的内存和后续分析所需的时间消耗。

可选地，所述步骤202，包括：切除接头后的扩增序列数据中序列末端长度大于或等于末端长度阈值的接头序列数据，并去除所述扩增序列数据中序列平均质量值小于质量值阈值的序列数据。

在本公开实施例中，接头序列是一段短的含酶切位点并能与钝性末端或粘性末端匹配的人工合成DNA片段。

在本公开实施例中，对扩增序列数据进行接头及低质量数据过滤，根据测序平台接头序列，在测序数据中鉴定接头序列，并对接头序列进行切除，切除标准为当序列末端大于等于末端长度阈值的接头序列数据，该末端长度阈值可以是3bp～6bp中任意值，例如3bp、4bp、6bp。然后对低质量序列进行过滤和切除，序列过滤标准为序列平均质量值小于质量平均值阈值序列数据，统计接头序列切除前后数据量，该质量平均值阈值可以是20～25中的任意值，例如21、23、25。

可选地，所述步骤202，包括：切除所述扩增序列数据中质量值小于质量值阈值的低质量区段，并切除所述已切除低质量区段的扩增序列数据中序列长度小于第三序列长度阈值的低质量序列数据。

在本公开实施例中，对扩增序列序列中对低质量区段进行切除，切除标准为质量值小于质量值阈值，该质量值阈值可以是20～25中的任意值，例如20、23、25，然后对序列长度进行过滤，过滤标准为切除低质量序列后长度小于第三序列长度阈值的序列数据，该第三序列长度阈值可以是40bp～50bp中的任意值，例如40bp、45bp、50bp。统计质量值和长度过滤后数据量。

本公开实施例通过在对扩增序列数据进行分析前对其中的低质量序列数据进行过滤，从而减少非特异性扩增序列数据所占的内存和后续分析所需的时间消耗。

示例性的，本公开提供以多重扩增序列TCRD链的序列数据作为扩增序列数据的实施例：

S1，对测序数据进行预处理，包括去除接头、低质量序列，并对Read进行重叠分类。

对22个样本的TCRD链进行扩增测序，测序策略为PE150(配对测序，Read长度为150bp)。样本测序数据量从0.1M～0.3M的Read不等，可参见表1。

表1

其中，“_1”和“_2”分别代表配对Read的R1和R2；ReadNumber：样本Read数目；Base Count：样本碱基数。

对接头序列进行过滤，切除标准为当序列末端大于等于3bp长度的接头。对低质量序列进行过滤和切除，序列过滤标准为序列平均质量值小于25；对序列中对低质量区段进行切除，切除标准为质量值小于25；对序列长度进行过滤，过滤标准为切除低质量序列后长度小于50bp。统计接头序列含量、质量值和长度过滤后数据量，可参见表2。

表2

其中，adapter Count：序列中的接头序列含量；Qual Filterbase(Ratio)：质量值过滤后的碱基数(过滤掉的比率)；Length Filter Count(Ratio)：R1或R2不满足长度需求过滤掉的序列数(过滤掉的比率)；Left Base：剩余碱基的数据量；Overlapped：可进行重叠的序列占比。

对测序数据对R1端和R2端进行overla)，重叠标准为R1和R2的overlap长度大于等于10bp，overlap以后序列长度大于等于100bp。将可overlap的序列存为assembled集，未能overlap的部分存为“unassembled”集，对两个数据集进行数据量统计，可参见表3。

表3

其中，ReadNumber：数据集中的序列数；ReadBase：数据集中的碱基数。

步骤S2，建免疫组数据库、基因组数据库及引物数据库。

将IMGT数据库中的TCRD的重组来源的生殖细胞序列建立免疫数据库。TCRD的D基因共2个基因，分别为TRDD1、TRDD2、TRDD3，但TRDD基因长度小于20bp，最长仅13bp，因此不用于构建免疫数据库。将TRDV和TRDJ基因用于构建免疫数据库，分别为TRD-V和TRD-J。

采用人类基因组GRCh38版本建立数据库，使用makeblastdb格式化，格式化后的数据库命名为GRCh38-db。

步骤S3，将扩增引物对(上游引物、下游引物)建立数据库，使用makeblastdb格式化，格式化后对数据库命名为Primer-db。

将测序数据比对至已建的免疫数据库。鉴定比对情况。鉴定比对标准见S3描述。对“Assembled”集和“Unassembled”集的mapped和unmapped进行统计口，可参见表3。

S4，对unmapped数据集进行序列去冗余和来源鉴定，鉴定到的序列来源于基因组上的具体位置。去冗余方法如S4.1所示，并对去冗余后的“clstr”数据集进行统计,可参见表4。统计结果可见“Assembled”的unmapped数据集聚类效果明显，本次对22个样本分析至少可达到去冗余70％的序列，且Top1和Top5的clstr包含的序列占比较大，具有样本代表性意义。“Unassembled”集的unmapped数据集聚类效果明显，本次样本聚类至少可达到去冗余65％的序列，但Top1和Top5的clstr包含的序列占比较小，不具有样本代表性意义。

表4

其中，Before clstr：去冗余前的数据量统计；After clstr：去冗余后的数据量统计；clstr Ratio(％)：去冗余的百分比；Top1:最大clstr中序列数；Top5:前5的clstr中序列数。

将“clstr”数据集比对至GRCh38-db数据库，序列可鉴定到特有到基因组来源。对鉴定到序列来源位置进行统计分析，统计内容包括各序列比对到最优的基因组来源、序列来源主要集中特定的基因组位置。比对效果好，可确定到基因组上的准确位置。各“clstr”数据集的Top5的基因组定位最多的定位点见表5，即在该组多重引物设计优化时，应注意降低该表中提到的基因组位置。

Chromosome	Start	End
4	12651144	12650858
11	1386413	1386127
12	99429746	99430035
7	29099436	29099726
22	39573097	39572807
8	43150345	43150195
2	237917028	237916880
1	43010806	43010656
17	3930933	3931083
8	72229663	72229513
8	102779860	102780009
15	39677922	39677774
3	169809895	169810045
14	22163706	22163856
10	26882770	26882622
5	14395864	14396014
7	101715639	101715788
6	42788271	42788421
16	86748060	86748209
2	22681975	22681825

表5

步骤S5，将“clstr”数据集、“clstr”数据集中的Top5分别鉴定扩增引物来源。将“clstr”数据集、“clstr”数据集比对到Primer-db，用于分析数据集中的引物来源(见图5、图6、表6)。对各“clstr”数据集Top5中的序列比对至Primer-db，用于分析数据集中的引物来源。对于“Assembled”的“clstr”数据集，V4、V5、V6是引物序列来源。对于“Ussembled”的clstr数据集，V1是较高的引物序列来源。对于“clstr”数据集的Top5数据，J1和J3为较高的引物序列来源。其中，图5是“Assembled”的“clstr”数据集比对至Primer-db数据库结果，横坐标：样本编号；纵坐标：比对到的次数。图6是“Unassembled”的“clstr”数据集比对至Primer-db数据库结果，横坐标：样本编号；纵坐标：比对到的次数。

表6

当然，上述只是示意性描述，具体的数据可以根据实际需求设置，此处不做限定。

图7示意性地示出了本公开提供的一种非特异性扩增序列的来源引物鉴定装置30的结构示意图，所述装置包括：

获取模块301，被配置为获取对目标基因片段进行引物扩增得到已扩增基因的扩增序列数据，以及所述目标基因片段所属的源基因的源基因序列数据，以及所述引物扩增过程所使用的引物序列数据；

比对模块302，被配置为将所述扩增序列数据和所述源基因序列数据进行比对，将与所述源基因序列数据不匹配的扩增序列数据，作为非特异性扩增序列数据；

可选地，所述比对模块302，还被配置为：

可选地，所述获取模块301，还被配置为：

获取对基因片段进行引物扩增得到的下机数据；

所述比对模块302，还被配置为：

可选地，所述比对模块302，还被配置为：

可选地，所述获取模块301，还被配置为：

切除所述扩增序列数据中的低质量序列数据。

可选地，所述获取模块301，还被配置为：

本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的计算处理设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在非瞬态计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图8示出了可以实现根据本公开的方法的计算处理设备。该计算处理设备传统上包括处理器410和以存储器420形式的计算机程序产品或者非瞬态计算机可读介质。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有用于执行上述方法中的任何方法步骤的程序代码431的存储空间430。例如，用于程序代码的存储空间430可以包括分别用于实现上面的方法中的各种步骤的各个程序代码431。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图9所述的便携式或者固定存储单元。该存储单元可以具有与图8的计算处理设备中的存储器420类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码431’，即可以由例如诸如410之类的处理器读取的代码，这些代码当由计算处理设备运行时，导致该计算处理设备执行上面所描述的方法中的各个步骤。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本公开的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims

一种非特异性扩增序列的来源引物鉴定方法，其特征在于，所述方法包括：

获取对目标基因片段进行引物扩增得到已扩增基因的扩增序列数据，以及所述目标基因片段所属的源基因的源基因序列数据，以及所述引物扩增过程所使用的引物序列数据；

将所述扩增序列数据和所述源基因序列数据进行比对，将与所述源基因序列数据不匹配的扩增序列数据，作为非特异性扩增序列数据；

将所述非特异性扩增序列数据与所述引物序列数据进行比对，利用与所述非特异性扩增序列数据相匹配的引物序列数据的引物，作为所述非特异性扩增序列的扩增来源引物。
根据权利要求1所述的方法，其特征在于，在所述目标基因片段是免疫基因片段时，所述基因序列数据包括：双端测序可重叠的序列数据、双端测序不可重叠的序列数据；

所述获取对目标基因片段进行引物扩增得到已扩增基因的扩增序列数据的步骤，包括：

获取对基因片段进行引物扩增得到的下机数据；

将所述下机数据之中可重叠序列长度大于或等于第一序列长度阈值，且重叠后的序列长度大于或等于第二序列长度阈值的第一基因片段和第二基因片段进行重叠操作，得到双端测序可重叠的序列数据；

以及，将所述下机数据之中可重叠序列长度小于第一序列长度阈值，或重叠后的序列长度小于第二序列长度阈值的扩增序列数据，作为双端测序不可重叠的序列数据。
根据权利要求2所述的方法，其特征在于，所述源基因序列数据包括：V基因家族序列数据、D基因家族序列数据、J基因家族序列数据；

所述将所述扩增序列数据和所述源基因序列数据进行比对，将与所述源基因序列数据不匹配的扩增序列数据，作为非特异性扩增序列数据的步骤，包括：

将所述双端测序可重叠的序列数据和所述双端测序不可重叠的序列数据分别比对到所述V基因家族序列数据、所述D基因家族序列数据、所述J基因家族序列数据，得到所述双端测序可重叠的序列数据和所述双端测序不可重叠的序列数据的一致性比对值；

将所述双端测序可重叠的序列数据中，分别与所述V基因家族序列数据、所述D基因家族序列数据、所述J基因家族序列数据的一致性比对值大于或等于一致性比对值阈值的序列数据的长度之和，作为所述双端测序可重叠的序列数据的可比对长度；

将所述可比对长度小于可比对长度阈值的双端测序可重叠的序列数据，作为非特异性扩增序列数据；

以及将所述双端测序不可重叠的序列数据中，分别与所述V基因家族序列数据、所述D基因家族序列数据、所述J基因家族序列数据的一致性比对值均小于一致性比对值阈值的序列数据，作为非特异性扩增序列数据。
根据权利要求1所述的方法，其特征在于，在所述将所述扩增序列数据和所述源基因序列数据进行比对，将与所述源基因序列数据不匹配的扩增序列数据，作为非特异性扩增序列数据的步骤之后，所述方法还包括：

将所述非特异性扩增序列数据与参考基因组序列数据进行比对，得到比对结果；

根据所述比对结果确定所述非特异性扩增序列的来源基因在基因组上的位置信息。
根据权利要求4所述的方法，其特征在于，所述根据所述比对结果确定所述非特异性扩增序列的来源基因在基因组上的位置信息的步骤，包括：

根据所述比对结果在所述参考基因组序列数据上的分布位置，统计所述非特异性扩增序列在参考基因组上的基因组来源、基因组上的序列位置和序列特征中的至少一种。
根据权利要求1所述的方法，其特征在于，在所述将所述扩增序列数据和所述源基因序列数据进行比对，将与所述源基因序列数据不匹配的扩增序列数据，作为非特异性扩增序列数据的步骤之后，所述方法还包括：

对所述非特异扩增序列数据执行去冗余处理，切除所述非特异性扩增序列数据的冗余序列数据，其中所述冗余序列数据是序列中重复碱基的占比大于或等于占比阈值的序列数据。
根据权利要求1所述的方法，其特征在于，在所述将所述扩增序列数据和所述源基因序列数据进行比对，将与所述源基因序列数据不匹配的扩增序列数据，作为非特异性扩增序列数据的步骤之前，所述方法还包括：

切除所述扩增序列数据中的低质量序列数据。
根据权利要求7所述的方法，其特征在于，所述切除所述扩增序列数据中的低质量序列数据的步骤，包括：

切除接头后的扩增序列数据中序列末端长度大于或等于末端长度阈值的接头序列数据，并去除所述扩增序列数据中序列平均质量值小于质量值阈值的序列数据。
根据权利要求7所述的方法，其特征在于，所述切除所述扩增序列数据中的低质量序列数据的步骤，包括：

切除所述扩增序列数据中质量值小于质量值阈值的低质量区段，并切除所述已切除低质量区段的扩增序列数据中序列长度小于第三序列长度阈值的低质量序列数据。
一种非特异性扩增序列的来源引物鉴定装置，其特征在于，所述装置包括：

获取模块，被配置为获取对目标基因片段进行引物扩增得到已扩增基因的扩增序列数据，以及所述目标基因片段所属的源基因的源基因序列数据，以及所述引物扩增过程所使用的引物序列数据；

比对模块，被配置为将所述扩增序列数据和所述源基因序列数据进行比对，将与所述源基因序列数据不匹配的扩增序列数据，作为非特异性扩增序列数据；

将所述非特异性扩增序列数据与所述引物序列数据进行比对，利用与所述非特异性扩增序列数据相匹配的引物序列数据的引物，作为所述非特异性扩增序列的扩增来源引物。
一种计算处理设备，其特征在于，包括：

存储器，其中存储有计算机可读代码；

一个或多个处理器，当所述计算机可读代码被所述一个或多个处理器执行时，所述计算处理设备执行如权利要求1-9中任一项所述的非特异性扩增序列的来源引物鉴定方法。
一种计算机程序，其特征在于，包括计算机可读代码，当所述计算机可读代码在计算处理设备上运行时，导致所述计算处理设备执行如权利要求1-9中任一项所述的非特异性扩增序列的来源引物鉴定方法。
一种非瞬态计算机可读介质，其特征在于，其中存储了如权利要求1-9中任一项所述的非特异性扩增序列的来源引物鉴定方法的计算机程序。