CN116110496A

CN116110496A - 接头序列快速检测方法、装置、设备及存储介质

Info

Publication number: CN116110496A
Application number: CN202310011410.5A
Authority: CN
Inventors: 陈实富; 许明炎; 彭敏琪
Original assignee: Shenzhen Hepulos Medical System Technology Co ltd
Current assignee: Shenzhen Hepulos Medical System Technology Co ltd
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-05-12

Abstract

本发明属于生物信息学技术领域，公开了一种接头序列快速检测方法、装置、设备及存储介质。本发明通过对待测序数据进行检测，得到待测序数据的数据类型；根据所述数据类型选择对应类型的接头序列检测策略；根据所述接头序列检测策略对所述待测序数据的接头进行快速检测，实现了根据待测序数据的类型确定相对应的接头序列检测策略，并根据所述接头序列检测策略对待测序数据进行接头序列检测，相对于现有技术中需要借助其他工具检测待测序数据的接头序列，并人工输入到测序工具中，本发明避免了人工确认接头序列并将接头序列输入到检测工具内这一过程中可能存在的误差，进而提高接头序列检测的准确性，也提高了接头序列检测的效率。

Description

接头序列快速检测方法、装置、设备及存储介质

技术领域

本发明涉及生物信息学技术领域，尤其涉及一种接头序列快速检测方法、装置、设备及存储介质。

背景技术

进行高通量测序数据分析，第一步就是要进行质控，质控包括去除接头序列，去除低质量序列等内容。接头序列是在文库构建的阶段为了上机测序在插入片段的两端人为添加的序列，当测序读长超过了插入片段长度时，就会读取到接头序列。因为我们只需要关心插入片段的测序结果，所以首先要做的是去除接头序列。在去除接头序列时应该考虑以下两个因素，第一个因素由于测序错误率的原因，测序得到的接头序列和原来的接头序列可能存在几个碱基的误差，所以在去除接头序列时必须允许碱基的错配。第二个因素由于插入片段的长度在一定范围内变化，而接头序列出现在两端的位置，所以测序读到的接头序列可能只是原本接头的部分序列。cutadapt是现阶段一款用得比较多的对高通量测序数据进行质量过滤的软件，可以有效地去除5’端和3’端的接头。cutadapt是基于序列配对的接头剪裁工具，cutadapt需要输入接头序列，cutadapt不能自动检测接头，只能基于输入的接头序列来去除接头，所以需要用fastqc软件对测序数据进行简单检测，看看有什么接头，再用cutadapt进行去除，过程相对比较麻烦，所费时间较长。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种接头序列快速检测方法、装置、设备及存储介质，旨在解决现有技术在高通量测序数据分析之前无法自动检测接头序列，致使操作复杂，费时的技术问题。

为实现上述目的，本发明提供了一种接头序列快速检测方法，所述方法包括以下步骤：

对待测序数据进行检测，得到待测序数据的数据类型；

根据所述数据类型选择对应类型的接头序列检测策略；

根据所述接头序列检测策略对所述待测序数据的接头进行快速检测。

可选地，所述对待测序数据进行检测，得到待测序数据的数据类型，包括：

对所述待测序数据的末端进行检测，在所述待测序数据的末端为单末端时，所述待测序数据的数据类型为单端数据；

在所述待测序数据的末端为双末端时，所述待测序数据的数据类型为双端数据。

可选地，所述根据所述数据类型选择对应类型的接头序列检测策略，包括：

在所述待测序数据为单端数据时，将接头序列检测策略调整为单端接头序列检测策略；

在所述待测序数据为双端数据时，将接头序列检测策略调整为双端接头序列检测策略。

可选地，所述根据所述接头序列检测策略对所述待测序数据的接头进行快速检测，包括：

在所述接头序列检测策略为单端接头序列检测策略时，计算预设个数的待测序数据的单体单元，并统计所述单体单元的出现频率；

将所述出现频率高于预设频率所对应的单体单元设置为候选接头子序列；

根据所述出现频率将所述候选接头子序列排序；

对所述候选接头子序列进行延伸，对所述待测序数据的接头进行快速检测。

可选地，所述对所述候选接头子序列进行延伸，对所述待测序数据的接头进行快速检测，包括：

将所述待测序数据转化为核苷酸树，确定所述核苷酸树的显性子节点；

在所述显性子节点存在时，对所述核苷酸树进行正向延伸；

在能延伸到所述待测序数据的尾部时，将所述候选接头子序列确定为有效接头，并通过反向延伸获取完整的接头序列。

可选地，所述根据所述接头序列检测策略对所述待测序数据的接头进行快速检测，还包括：

在所述接头序列检测策略为双端接头序列检测策略时，获取DNA总序列长度与待测序数据长度；

根据所述DNA总序列长度与待测序数据长度确定重叠区域；

根据所述重叠区域确定接头序列。

可选地，所述根据所述接头序列检测策略对所述待测序数据的接头进行快速检测之后，还包括：

在所述对所述待测序数据的快速检测结果不满足预设条件时，禁用自动接头序列检测；

提供特定接头序列设置接口，获取所述设置接口输入的所述特定接头序列，并对所述特定接头序列进行剪裁。

此外，为实现上述目的，本发明还提出一种接头序列快速检测装置，所述接头序列快速检测装置包括：

数据检测模块，用于对待测序数据进行检测，得到待测序数据的数据类型；

策略选择模块，用于根据所述数据类型选择对应类型的接头序列检测策略；

接头检测模块，用于根据所述接头序列检测策略对所述待测序数据的接头进行快速检测。

此外，为实现上述目的，本发明还提出一种接头序列快速检测设备，所述接头序列快速检测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的接头序列快速检测程序，所述接头序列快速检测程序配置为实现如上文所述的接头序列快速检测方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有接头序列快速检测程序，所述接头序列快速检测程序被处理器执行时实现如上文所述的接头序列快速检测方法的步骤。

本发明通过对待测序数据进行检测，得到待测序数据的数据类型；根据所述数据类型选择对应类型的接头序列检测策略；根据所述接头序列检测策略对所述待测序数据的接头进行快速检测，实现了根据待测序数据的类型确定相对应的接头序列检测策略，并根据所述接头序列检测策略对待测序数据进行接头序列检测，相对于现有技术中需要借助其他工具检测待测序数据的接头序列，并人工输入到测序工具中，本发明避免了人工确认接头序列并将接头序列输入到检测工具内这一过程中可能存在的误差，进而提高接头序列检测的准确性，也提高了接头序列检测的效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的接头序列快速检测设备的结构示意图；

图2为本发明接头序列快速检测方法第一实施例的流程示意图；

图3为本发明接头序列快速检测方法第二实施例的流程示意图；

图4为本发明接头序列快速检测方法一实施例的双端测序的接头序列示意图；

图5为本发明接头序列快速检测装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的接头序列快速检测设备结构示意图。

如图1所示，该接头序列快速检测设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对接头序列快速检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及接头序列快速检测程序。

在图1所示的接头序列快速检测设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明接头序列快速检测设备中的处理器1001、存储器1005可以设置在接头序列快速检测设备中，所述接头序列快速检测设备通过处理器1001调用存储器1005中存储的接头序列快速检测程序，并执行本发明实施例提供的接头序列快速检测方法。

本发明实施例提供了一种接头序列快速检测方法，参照图2，图2为本发明一种接头序列快速检测方法第一实施例的流程示意图。

本实施例中，所述接头序列快速检测方法包括以下步骤：

步骤S10：对待测序数据进行检测，得到待测序数据的数据类型。

需要说明的是，本实施例的执行主体是接头序列快速检测设备，其中，该接头序列快速检测设备具有数据处理，数据通信及程序运行等功能，所述接头序列快速检测设备可以为集成控制器，控制计算机等设备，当然还可以为其他具备相似功能的设备，本实施例对此不做限制。

可以理解的是，待测序数据指的是脱氧核糖核酸(DNA)，对待测数据进行检测，实际上就是检测树DNA的碱基序列，在进行待测序数据检测之前，需要对DNA分子进行分段，扩增的处理，在这个过程中人为引入了接头序列，由于接头序列的不同，会导致最终生成的待测序数据的类型也不相同，其中待测序数据的数据类型可以分为单端数据与双端数据。

在具体实现中，接头序列快速检测设备能够对输入进来的待测序数据进行初步检测，在检测过程中，需要对待测数据的5’端与3’端的进行检测，由于单端数据与双端数据在接头序列的位置上存在区别，因此能够确定出当前输入进来的待测序数据的数据类型是单端数据还是双端数据。

步骤S20：根据所述数据类型选择对应类型的接头序列检测策略。

需要说明的是，所述接头序列检测策略指的是对待测序数据的检测方法，其中所述接头序列检测策略存储在接头序列检测设备的存储介质中，当接头序列检测设备确定出待测序数据类型时，能够根据所述待测序数据类型调用对应的接头序列检测策略。

在具体实现中，在接头序列检测设备确定出待测序数据的数据类型为单端数据时，可以将单端数据的接头序列检测策略调用出来对单端数据进行检测，而当接头序列检测设备确定出待测序数据的数据类型为双端数据时，可以将双端数据的接头序列检测策略调用出来对双端数据进行检测。

步骤S30：根据所述接头序列检测策略对所述待测序数据的接头进行快速检测。

在具体实现中，在对单端数据进行单端数据接头序列检测策略快速检测时，可以通过高频读节的方式来检测接头序列，在进行检测时，需要组装高频read尾部对单端数据的末端进行检测，确定出单端数据的接头序列，而在对双端数据进行双端数据接头序列检测策略快速检测时，能够基于双端数据的重叠部分快速查找到接头序列。

本实施例通过对待测序数据进行检测，得到待测序数据的数据类型；根据所述数据类型选择对应类型的接头序列检测策略；根据所述接头序列检测策略对所述待测序数据的接头进行快速检测，实现了根据待测序数据的类型确定相对应的接头序列检测策略，并根据所述接头序列检测策略对待测序数据进行接头序列检测，相对于现有技术中需要借助其他工具检测待测序数据的接头序列，并人工输入到测序工具中，本发明避免了人工确认接头序列并将接头序列输入到检测工具内这一过程中可能存在的误差，进而提高接头序列检测的准确性，也提高了接头序列检测的效率。

参考图3，图3为本发明一种接头序列快速检测方法第二实施例的流程示意图。

基于上述第一实施例，本实施例接头序列快速检测方法在所述步骤S30，还包括：

步骤S301：在所述接头序列检测策略为单端接头序列检测策略时，计算预设个数的待测序数据的单体单元，并统计所述单体单元的出现频率。

步骤S302：将所述出现频率高于预设频率所对应的单体单元设置为候选接头子序列。

步骤S303：根据所述出现频率将所述候选接头子序列排序。

步骤S304：对所述候选接头子序列进行延伸，对所述待测序数据的接头进行快速检测。

需要说明的是，所述单体单元指的是待测序数据中的短碱基序列，其中所述单体单元所包含的碱基数量不固定，不同的单体单元的长度不完全一致，候选接头子序列指的是可能为接头序列的单体单元，预设频率指的是事先确定好的频率界限值，即当达到预设频率时，可以认定为高频率，准确率较高。

在具体实现中，在对单端数据进行测序时，需要计算出一定量的高频read中的单体单元，其中每一个高频read相当于一个反应池，在每个高频read中都有一定量的待测序数据的单体单元，在每个单体单元中，可以将碱基数量确定为10，也可以为其他数量，具体根据实际情况而定，当在计算高频read中的单体单元时，可以统计出每种序列出现的频次以及复杂度，同时也需要统计出进行计算的次数，用于得到每种单体单元出现的频率，同时将每种单体单元出现的频率与预设频率比较，其中预设频率可以根据实际情况合理设置，优选为大于0.0001，本实施例以0.0001为例进行说明，将出现频率高于0.0001的单体单元进行保留，同时将保留下的单体单元中复杂度较低的序列删除，不做统计，在进行复杂度比较时，可以将碱基数量较少的单体单元与碱基数量较多的单体单元比较，若碱基数量较少的单体单元是碱基数量较多的单体单元的一部分时，可以将碱基数量较少的单体单元删除，保留碱基数量较多的单体单元，并将保留下的单体单元作为候选接头子序列，同时将所有的候选接头子序列按照出现频率的高低依次排序，按照顺序根据所述候选接头子序列进行碱基延伸，从而找到真正完整的接头，以实现对待测序数据的接头进行快速检测。

进一步地，为了实现找到真正完整的接头，还包括以下步骤：

在所述显性子节点存在时，对所述核苷酸树进行正向延伸；

需要说明的是，所述核苷酸树指的是根据一组完整的序列，将每个核苷酸作为一个节点形成的分类回归树，每条从跟到叶是一个序列，显性子节点指的是构成的树中，出现的概率大于90％的子节点。

在具体实现中，可以将所得到的候选接头子序列作为基础，来将一组待测序数据转化为树，同时将待测序数据中的碱基作为树的叶子节点，同时统计每个节点出现的概率，并不断将叶子节点延续下去，采用的延伸方向为正向延伸，若能够延伸到待测序数据的尾部时，说明当前接头是有效的，当确定接头有效时，通过反向延伸的方式来获取完整的接头序列。

进一步地，在进行待测序数据的接头序列快速检测时，若待测序数据为双端数据时，还包括以下步骤：

根据所述DNA总序列长度与待测序数据长度确定重叠区域；

根据所述重叠区域确定接头序列。

需要说明的是，重叠区域指的是碱基互相配对的部分，例如假设一个双端数据的一条链为CTGGCTCTACT...AGTAATTCC时，另一条为AATTCCCTGGCTCTACT...AGT时，重叠部分即为CTGGCTCTACT...AGT。

在具体实现中，参照图4，图4为双端测序的接头序列示意图。接头序列快速检测设备可以首先确定出DNA总的序列长度与双端数据序列长度，为了方便说明，本实施例将DNA总的序列长度设为T，双端数据序列长度设为S，在进行双端数据测序时，首先判断DNA总的序列长度T与双端数据序列长度S之间的大小关系，当T≤S时，即DNA总的序列长度小于等于双端数据序列长度，说明全部都是重叠区域，即不存在接头序列，如果S<T<2S，则重叠区域长度为2S-T，重叠部分即为待测序数据中需要测序的部分，而未重叠的部分为接头序列部分，其中adapter为接头序列的统称，具体地接头序列时根据待测序数据文库制备方法不同而不同，而如果2S≤T则不会重叠即说明待测序数据中不存在需要测序的数据，根据上述方法来找到每对数据的重叠部分，将除了重叠区域以外的碱基当作是接头内容，即使是在接头序列为一个或两个碱基作为接头的情况下也能够找到接头序列。

进一步地，在快速检测出待测数据的接头序列之后，还包括以下步骤：

需要说明的是，预设条件指的是对待测序数据的快速检测结果的合格阈值，具体条件设置需要根据快速检测精度确定，本实施例对此不做限制。

在具体实现中，在对待测数据进行接头序列快速检测之后，能够对检测结果进行评估，判断是否满足预期设想，例如并没有检测出设定的特定的接头序列，此时将当前的接头序列检测方法禁用，并提供一个接口，用于向接头序列快速检测设备输入特定的接头序列，当接头序列快速检测设备接收到所述特定的接头序列，便可以根据该接头序列在待测序数据中匹配所述接头序列，当检测到接头序列时，可以将该接头序列剪裁下来，该接口可针对单端数据以及双端数据的接头序列快速检测使用，在输入特定的接头序列时，可以通过以“-a接头序列”的格式进行输入，当然本实施例对接头序列输入方式不做限制。

本实施例通过对单端数据利用树的方式来进行正向延伸，以延伸到待测序数据尾部为标准确定接头序列的有效性，在判断接头序列有效的前提下再进行反向延伸进而确定出单端数据中的接头序列，而在双端数据中，能够根据待测序数据与DNA总的序列长进行比较，确定出是否存在重叠区域，当存在重叠区域时，可直接计算出重叠部分的位置，根据双端数据的特性，未重叠部分即是接头序列，除此之外，本实施例还提供了一个接口，用于在接头序列快速检测不能满足预期时，能够提供手动输入接口，来输入已知接头序列来实现对接头序列的裁剪，实现了能够对已知或未知的接头序列的检测，极大提高了对高通量测序数据分析的准确性。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有接头序列快速检测程序，所述接头序列快速检测程序被处理器执行时实现如上文所述的接头序列快速检测方法的步骤。

参照图5，图5为本发明接头序列快速检测装置第一实施例的结构框图。

如图5所示，本发明实施例提出的接头序列快速检测装置包括：

数据检测模块10，用于对待测序数据进行检测，得到待测序数据的数据类型；

策略选择模块20，用于根据所述数据类型选择对应类型的接头序列检测策略；

接头检测模块30，用于根据所述接头序列检测策略对所述待测序数据的接头进行快速检测。

在一实施例中，所述数据检测模块10，还用于对所述待测序数据的末端进行检测，在所述待测序数据的末端为单末端时，所述待测序数据的数据类型为单端数据；在所述待测序数据的末端为双末端时，所述待测序数据的数据类型为双端数据。

在一实施例中，所述策略选择模块20，还用于在所述待测序数据为单端数据时，将接头序列检测策略调整为单端接头序列检测策略；在所述待测序数据为双端数据时，将接头序列检测策略调整为双端接头序列检测策略。

在一实施例中，所述接头检测模块30，还用于在所述接头序列检测策略为单端接头序列检测策略时，计算预设个数的待测序数据的单体单元，并统计所述单体单元的出现频率；将所述出现频率高于预设频率所对应的单体单元设置为候选接头子序列；根据所述出现频率将所述候选接头子序列排序；对所述候选接头子序列进行延伸，对所述待测序数据的接头进行快速检测。

在一实施例中，所述接头检测模块30，还用于将所述待测序数据转化为核苷酸树，确定所述核苷酸树的显性子节点；在所述显性子节点存在时，对所述核苷酸树进行正向延伸；在能延伸到所述待测序数据的尾部时，将所述候选接头子序列确定为有效接头，并通过反向延伸获取完整的接头序列。

在一实施例中，所述接头检测模块30，还用于在所述接头序列检测策略为双端接头序列检测策略时，获取DNA总序列长度与待测序数据长度；根据所述DNA总序列长度与待测序数据长度确定重叠区域；根据所述重叠区域确定接头序列。

在一实施例中，所述接头检测模块30，还用于在所述对所述待测序数据的快速检测结果不满足预设条件时，禁用自动接头序列检测；提供特定接头序列设置接口，获取所述设置接口输入的所述特定接头序列，并对所述特定接头序列进行剪裁。

应当理解的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体应用中，本领域的技术人员可以根据需要进行设置，本发明对此不做限制。

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory，ROM)/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种接头序列快速检测方法，其特征在于，所述接头序列快速检测方法包括：

对待测序数据进行检测，得到待测序数据的数据类型；

根据所述数据类型选择对应类型的接头序列检测策略；

2.如权利要求1所述的接头序列快速检测方法，其特征在于，所述对待测序数据进行检测，得到待测序数据的数据类型，包括：

3.如权利要求1所述的接头序列快速检测方法，其特征在于，所述根据所述数据类型选择对应类型的接头序列检测策略，包括：

4.如权利要求1所述的接头序列快速检测方法，其特征在于，所述根据所述接头序列检测策略对所述待测序数据的接头进行快速检测，包括：

根据所述出现频率将所述候选接头子序列排序；

5.如权利要求4所述的接头序列快速检测方法，其特征在于，所述对所述候选接头子序列进行延伸，对所述待测序数据的接头进行快速检测，包括：

在所述显性子节点存在时，对所述核苷酸树进行正向延伸；

6.如权利要求1所述的接头序列快速检测方法，其特征在于，所述根据所述接头序列检测策略对所述待测序数据的接头进行快速检测，还包括：

根据所述DNA总序列长度与待测序数据长度确定重叠区域；

根据所述重叠区域确定接头序列。

7.如权利要求1至6中任一项所述的接头序列快速检测方法，其特征在于，所述根据所述接头序列检测策略对所述待测序数据的接头进行快速检测之后，还包括：

8.一种接头序列快速检测装置，其特征在于，所述接头序列快速检测装置包括：

9.一种接头序列快速检测设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的接头序列快速检测5程序，所述接头序列快速检测程序配置为实现如权利要求1至7中任一项所述的接头序列快速检测方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有接头序列快速检测程序，所述接头序列快速检测程序被处理器执行时实现如权利要求1至0 7任一项所述的接头序列快速检测方法的步骤。