CN110322931A

CN110322931A - 一种碱基识别方法、装置、设备及存储介质

Info

Publication number: CN110322931A
Application number: CN201910455978.XA
Authority: CN
Inventors: 徐子晨; 王培安; 柳杰; 高剑林; 刘婷婷; 马东嫄
Original assignee: Tencent Technology Shenzhen Co Ltd; Nanchang University
Current assignee: Tencent Technology Shenzhen Co Ltd; Nanchang University
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-10-11
Anticipated expiration: 2039-05-29
Also published as: CN110322931B

Abstract

本申请公开了一种碱基识别方法、装置、设备及存储介质，所述方法包括：利用分布式FPGA扫描基因数据库，得到待识别基因数据；基于目标基因序列识别模型对所述待识别基因数据进行目标基因序列识别，得到目标基因序列，所述目标基因序列包括首尾碱基符合预设需求的基因序列；基于碱基识别模型对所述目标基因序列进行碱基识别，得到碱基数据；其中，所述基因数据库包括以键值对存储基因序列的非关系型数据库和存储所述基因序列中碱基的基础信息的关系型数据库。利用本申请提供的技术方案可以有效提高碱基识别的准确率，降低计算平台的能耗和成本，且基于FPGA的数据服务易开发学习利于测序计算的大规模扩展，应用广泛。

Description

一种碱基识别方法、装置、设备及存储介质

技术领域

本申请涉及基因数据处理技术领域，尤其涉及一种碱基识别方法、装置、设备及存储介质。

背景技术

随着下一代基因测序(Next generation sequencing，NGS)技术发展，产生了大规模、高维度的基因数据，也产生了更为繁杂的数据分析需求和高性能数据计算需求。在NGS处理中，碱基识别对整体测序计算性能有较大影响，且碱基识别的结果决定测序质量，对整体测序正确性影响大，是NGS处理中的关键步骤。

目前，碱基识别的处理过程，Kb级的原始基因数据往往也会产生Tb级的中间数据，导致对数据的存储、传输以及处理性能具有较高的要求，现有技术中常常使用GPU(Graphics Processing Unit，图形处理器)等协处理器来应对碱基识别过程中的海量数据，然后，直接结合一个训练好的碱基识别模型(深度学习模型)，进行碱基识别。但现有的GPU架构对计算平台的能耗和成本要求很高，且基于GPU的数据服务开发学习过程较长，不利于测序计算的大规模扩展，应用的局限性大，且单一的碱基识别模型，碱基识别的识别准确率较低。因此，需要提供更高效或更可靠的方案。

发明内容

本申请提供了一种碱基识别方法、装置、设备及存储介质，可以有效提高碱基识别的准确率，降低计算平台的能耗和成本，且基于FPGA的数据服务易开发学习利于测序计算的大规模扩展，应用广泛。

一方面，本申请提供了一种碱基识别方法，所述方法包括：

利用分布式现场可编程门阵列FPGA扫描基因数据库，得到待识别基因数据；

基于目标基因序列识别模型对所述待识别基因数据进行目标基因序列识别，得到目标基因序列，所述目标基因序列包括首尾碱基符合预设需求的基因序列；

基于碱基识别模型对所述目标基因序列进行碱基识别，得到碱基数据；

其中，所述基因数据库包括以键值对存储基因序列的非关系型数据库和存储所述基因序列中碱基的基础信息的关系型数据库。

另一方面提供了一种碱基识别装置，所述装置包括：

数据扫描模块，用于利用分布式现场可编程门阵列FPGA扫描基因数据库，得到待识别基因数据；

目标基因序列识别模块，用于基于目标基因序列识别模型对所述待识别基因数据进行目标基因序列识别，得到目标基因序列，所述目标基因序列包括首尾碱基符合预设需求的基因序列；

碱基识别模块，用于基于碱基识别模型对所述目标基因序列进行碱基识别，得到碱基数据；

在一些实施例中，所述数据扫描模块包括：

第一数据扫描单元，用于利用分布式FPGA扫描所述关系型数据库，获取所述基因序列中碱基的基础信息；

第一基因序列确定单元，用于基于所述碱基的基础信息确定符合预设条件的基因序列；

第二数据扫描单元，用于利用分布式FPGA扫描所述非关系型数据库，获取所述符合预设条件的基因序列；

待识别基因数据确定单元，用于将所述符合预设条件的基因序列和所述符合预设条件的基因序列中碱基的基础信息作为所述待识别基因数据。

在一些实施例中，所述第一基因序列确定单元包括：

碱基分布信息确定单元，用于基于所述碱基的基础信息确定碱基分布信息；

第二基因序列确定单元，用于获取碱基分布信息满足预设碱基分布条件的基因序列；

第三基因序列确定单元，用于从所述满足预设碱基分布条件的基因序列中，获取基因序列中碱基间距离满足预设距离的基因序列；

第四基因序列确定单元，用于将所述满足预设距离的基因序列作为所述符合预设条件的基因序列。

在一些实施例中，所述碱基分布信息至少包括下述之一：

基因序列中每个位置的碱基质量值分布信息、基因序列中碱基的总体质量值分布信息、基因序列中每个位置上的碱基分布比例信息、以及基因序列中碱基的含量分布信息。

在一些实施例中，所述目标基因序列识别模型包括采用下述单元确定：

第一训练基因序列获取单元，用于获取第一训练基因序列，所述第一训练基因序列包括具有相同目标首尾碱基的正样本基因序列和具有非所述目标首尾碱基的负样本基因序列；

基因序列识别训练单元，用于基于所述第一训练基因序列对第一预设深度学习模型进行目标基因序列的识别训练，得到所述目标基因序列识别模型。

在一些实施例中，所述碱基识别模型包括采用下述单元确定：

第二训练基因序列获取单元，用于获取第二训练基因序列；

碱基对标注单元，用于对所述第二训练基因序列进行碱基对标注；

碱基识别训练单元，用于基于碱基对标注后的第二训练基因序列对第二深度学习模型进行碱基识别训练，得到碱基识别模型。

在一些实施例中，所述装置还可以包括：

基因序列获取模块，用于获取多个基因序列；

比对处理模块，用于将所述多个基因序列与参考基因组进行比对处理，得到按序排列的多个基因序列；

基础数据获取模块，用于获取所述按序排列的多个基因序列中碱基的基础数据；

第一存储单元，用于将所述按序排列的多个基因序列以键值对的形式存储到数据库；

第二存储单元，用于将所述多个基因序列中碱基的基础数据存储到关系型数据库。

另一方面提供了一种碱基识别设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的碱基识别方法。

另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的碱基识别方法。

本申请提供的碱基识别方法、装置、设备及存储介质，具有如下技术效果：

本申请能够利用分布式FPGA扫描以键值对存储基因序列的非关系型数据库和存储所述基因序列中碱基的基础信息的关系型数据库，可以快速的得到待识别基因数据；然后，先后通过目标基因序列识别模型和碱基识别模型分别进行首尾碱基符合预设需求的目标基因序列的识别，以及碱基数据的识别，可以有效提高碱基识别的准确率。且以分布式FPGA来获取待识别基因数据，可以有效降低计算平台的能耗和成本，且基于FPGA的数据服务易开发学习利于测序计算的大规模扩展，应用广泛。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种系统架构的示意图；

图2是本申请实施例提供的一种对基因序列进行预处理的流程示意图；

图3是本申请实施例提供的一种碱基识别方法的流程示意图；

图4是本申请实施例提供的一种基于分布式FPGA的海量数据高速扫描的示意图；

图5是本申请实施例提供的一种分布式FPGA的结构示意图；

图6是本申请实施例提供一种利用分布式FPGA扫描基因数据库，得到待识别基因数据方法的流程示意图；

图7是本申请实施例提供的一种基于所述碱基的基础信息确定符合预设条件的基因序列方法的流程示意图；

图8是本申请实施例提供的一种分布式FPGA对应的分布式缓存系统的示意图；

图9是本发明实施例提供的一种目标基因序列识别模型的应用场景示意图；

图10是本发明实施例提供的一种碱基识别模型的应用场景示意图；

图11是本申请实施例提供的一种碱基识别装置的结构示意图；

图12是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本申请实施例提供的一种系统架构的示意图，如图1所示，该系统架构至少可以包括服务集群01、第一数据库02、第二数据库03。

具体的，服务器集群01可以包括由多个服务器组成的服务器集群或分布式服务集群；所述服务器集群01可以对应着一个分布式FPGA(Field－Programmable Gate Array，现场可编程门阵列)，分布式FPGA可以包括多个FPGA。服务器集群01可以用于利用分布式FPGA来扫描第一数据库02和第二数据库03中的数据。

具体的，第一数据库02可以为非关系型数据库，第一数据库02可以存储有基因序列。具体的，基因序列可以为大量由碱基(嘌呤和嘧啶的衍生物，是核酸、核苷、核苷酸的成分，一般以A，C，G和T表示)组成的短序列，例如AAGCT。在实际应用中，基因序列可以包括FASTQ标准格式的基因序列文件；具体的，本说明书实施例中，第一数据库02中的基因序列可以以键值对的形式存储。

具体的，第二数据库03可以为关系型数据库，第二数据库03可以存储有基因序列中碱基的基础信息，具体的，碱基的基础信息可以包括基因序列中碱基的位置信息、质量信息(质量信息可以表征测序的准确程度)，以及碱基间的位置关系信息等信息。

在实际应用中，本说明书实施例中，所述基因序列可以包括NGS测序下来的基因序列。这些基因序列都来自于有序的基因组(基因组是指细胞内所有遗传信息，这种遗传信息以核苷酸序列形式存储)，但在经过DNA建库和测序之后，不同基因序列之间的前后顺序关系就已经全部丢失了。FASTQ文件中紧挨着的两个基因序列之间没有位置关系，它们都是随机来自于原本基因组中某个位置的短序列。本说明书实施例中可以在将基因序列存储之前，进行预处理，以得到有序的可以用于进行碱基识别的基因数据。具体的，如图2所示，可以包括：

S201：获取多个基因序列。

具体的，这里的多个基因序列可以包括大量测序后得到的没有位置关系的基因序列。具体的，每一基因序列可以为每次测序后读取的短序列。

S203：将所述多个基因序列与参考基因组进行比对处理，得到按序排列的多个基因序列。

具体的，这里的参考基因组可以为具有有序的基因序列的基因数据。

S205：获取所述按序排列的多个基因序列中碱基的基础数据。

S207：将所述按序排列的多个基因序列以键值对的形式存储到数据库。

S209：将所述多个基因序列中碱基的基础数据存储到关系型数据库。

本说明书实施例中，通过对测序后的大量基因序列进行预处理，可以为后续的碱基识别提供数据支持。

以下介绍本申请基于上述的系统架构的一种碱基识别方法，图3是本申请实施例提供的一种碱基识别方法的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图3所示，所述方法可以包括：

S301：利用分布式FPGA扫描基因数据库，得到待识别基因数据。

在实际应用中，在下一代基因测序工作中，基因数据来源广泛，数据结构更加复杂且数据维度高。且FPGA协处理器及其芯片系统一般不存在完整的数据存储及处理方案。本说明书实施例中，建立适用于大规模基因数据分布式存储的键值存储和高性能数据分析的关系数据库的多层混合存储架构为基因数据库。具体的，所述基因数据库可以包括以键值对存储基因序列的非关系型数据库和存储所述基因序列中碱基的基础信息的关系型数据库。

本说明书实施例中，如图4所示，图4是本申请实施例提供的一种基于分布式FPGA的海量数据高速扫描的示意图。分布式FPGA可以设置有的FDNN.py和FBLAS.py。FDNN.py为深度学习模型的FPGA接口库；FBLAS.py为FPGA扫描计算的BLAS库。

在一个具体的实施例，如图5所示，图5是本申请实施例提供的一种分布式FPGA的结构示意图。具体的，从图中可见，分布式FPGA中的多个FPGA之间可以有相同的数据(具体的，由于基因数据间存在着关联性，导致某一数据必须一起扫描，无法由于之前已经扫描部分数据，而切分开来进行扫描。因此，多个FPGA之间有相同的数据，以保证测序计算性能)；另外，多个FPGA之间可以进行交互(图中两个FPGA间有连线的标识两个FPGA间可以交互)。

在一个具体的实施例中，如图6所示，利用分布式FPGA扫描基因数据库，得到待识别基因数据可以包括：

S3011：利用分布式FPGA扫描所述关系型数据库，获取所述基因序列中碱基的基础信息。

S3013：基于所述碱基的基础信息确定符合预设条件的基因序列。

S3015：利用分布式FPGA扫描所述非关系型数据库，获取所述符合预设条件的基因序列。

S3017：将所述符合预设条件的基因序列和所述符合预设条件的基因序列中碱基的基础信息作为所述待识别基因数据。

具体的，如图7所示，基于所述碱基的基础信息确定符合预设条件的基因序列可以包括：

S701：基于所述碱基的基础信息确定碱基分布信息。

本说明书实施例中，所述碱基分布信息可以至少包括下述之一：基因序列中每个位置的碱基质量值分布信息、基因序列中碱基的总体质量值分布信息、基因序列中每个位置上的碱基分布比例信息、以及基因序列中碱基的含量分布信息。

具体的，这里的基因序列中每个位置的碱基质量值分布信息可以包括某一基因组每个位置对应的基因序列中碱基质量值分布信息；具体的，基因序列中碱基的总体质量值分布信息可以包括某一基因组对应的多个基因序列中碱基的总体质量值分布信息；具体的，基因序列中每个位置上的碱基分布比例信息可以包括某一基因组每个位置对应的基因序列中碱基分布比例信息；具体的，基因序列中碱基的含量分布信息可以包括某一基因组对应的多个基因序列中碱基的含量分布信息。

在实际应用中，基因序列都来自于有序的基因组，相应的，每个基因序列都对应着相应的基因组中的某个位置，可以基于碱基的基础信息确定碱基分布信息。

S703：获取碱基分布信息满足预设碱基分布条件的基因序列。

本说明书实施例中，所述预设碱基分布条件可以结合碱基分布信息和实际应用中对该碱基分布信息的需求进行设置。例如当碱基分布信息基因序列中碱基的总体质量值分布信息时，预设碱基分布条件可以为与实际应用对碱基的总体质量值分布情况的阈值。

S705：从所述满足预设碱基分布条件的基因序列中，获取基因序列中碱基间距离满足预设距离的基因序列。

具体的，这里的基因序列中碱基间距离可以为某两个碱基间的碱基的数量。例如基因序列AGGCT中A和T的碱基间距离为3。具体的，这里的预设距离可以结合实际应用中对碱基间距离的需求进设置。

S707：将所述满足预设距离的基因序列作为所述符合预设条件的基因序列。

本说明书实施例中，为了减少碱基识别过程中的数据量，可以结合实际应用需求从大量的基因序列中选取符合预设条件的基因序列和相应的碱基的基础信息作为待识别基因数据，保证获取的待识别基因数据更符合实际需求，且可以降低后续的数据处理量，提高处理效率。

在一些实施例中，结合图5，考虑到多个FPGA扫描基因数据库，以获取待识别基因数据时，存在多个FPGA扫描得到的基因数据间存在相同的数据，为了在保证测序计算性能的同时，保证数据的一致性。本说明书实施例中，可以通过一致性算法，将扫描得到的数据保存于弹性缓存(Elastic Caching)，以满足云端FPGA计算与本地计算需求的高速数据交换。

在一个具体的实施例中，以结合Raft保证数据的一致性为例，Raft通过选出一个leader(管理者)来简化日志副本的管理，例如，日志项(log entry)只允许从leader流向follower(跟随者)。具体的，一个Raft集群包含若干个服务器节点(对应分布式FPGA)；例如是5个，一般的可以允许整个系统容忍2个节点的失效，每个节点处于以下三种状态之一：

follower(跟随者)：所有节点都以follower的状态开始。如果没收到leader消息则会变成candidate状态。

candidate(候选人)：会向其他结点“拉选票”，如果得到大部分的票则成为leader。这个过程就叫做Leader选举(Leader Election)。

leader(领导者)：所有对系统的修改都会先经过leader。

在一个具体的实施例中，Leader选举的过程可以包括如下步骤：

1)follower增加当前的选取项目，转变为candidate。

2)candidate投票给自己或，记录跟自己一样新或更新的一个candidate，并发送RequestVote RPC(投票选举的远程过程调用)给集群中的其他服务器。

3)收到RequestVote RPC的服务器，在同一选取项目中只会按照先到先得的原则(一选取项目中投票不能改)投票给自己，记录跟自己一样新或更新的一个candidate。

4)candidate执行步骤2)和3)，直到下面三种情况中的一种发生。

该服务器节点赢得选举，即收到大多数服务器节点的投票，则其转变为leader状态。

另一个服务器节点成为了leader，即收到了leader的合法心跳包(选举项目值等于或大于当前自身的选举项目值)，则其转变为follower。

一段时间后仍然没有服务器节点成为leader，该种情况下会开启新一轮的选举项目，相应的选举项目的值加一。

在选举完成后，可以由选举得到的leader来控制多个FPGA扫描得到的数据(待识别基因数据)间的一致性。具体的，Leader将客户端的请求命令作为一条新的条目写入日志(新扫描的待识别基因数据)，Leader发送AppendEntries RPCs(更新基因数据的远程过程调用)给Follower去备份该日志条目；Follower收到leader的AppendEntries RPCs去备份该日志条目；当该条日志被安全的备份(即收到了半数以上的Follower回应已经成功备份该条日志，则可认为该条目日志是有效的)，保证新扫描的基因数据的一致性。

另外，在一个具体的实施例中，如图8所述，对于分布式FPGA扫描的数据可以缓存到分布式缓存系统。分布式缓存系统可以包括Placement Driver(分布式缓存系统的集群管理者)，Store Engine(存储引擎)，Node(分布式缓存系统中的一个节点，每个节点对应着一个FPGA)。

本说明书实施例中，Placement Driver作为整个分布式缓存系统的集群管理者，它以高可用集群的方式部署，负责自动的平衡客户端到每个node的负载。

本说明书实施例中，Store Engine可以支持可插拔的存储引擎，可选用RocksDB，LevelDB等高性能持久化存储引擎。

本说明书实施例中，Node可以是具体的物理服务器，也可以是云上的虚拟机，每个Node可以存储多个Group，每个Group由三个副本构成，由Raft算法通过Leader选举。多个Group的设计可以使得系统具有弹性伸缩的，可以方便系统的横向扩展。

每当一个Node启动的时候，它会周期性的向Placement Driver上报元数据(碱基的基础数据)，包括node上每个Group的状态，存储的key的hash值，这个副本在整个Group中的角色等信息。客户端通过Placement Driver来定位一个key到具体存储Node和Group，可以快速的访问到数据信息。

S303：基于目标基因序列识别模型对所述待识别基因数据进行目标基因序列识别，得到目标基因序列。

在实际应用中，测序后的基因序列，往往存在一定随机性，基因序列的首尾碱基往往与实际需求不一致，为了提高碱基识别的准确性，本说明书实施例中，基于目标基因序列识别模型对所述待识别基因数据进行目标基因序列识别，得到首尾碱基符合预设需求的目标基因序列。这里的预设需求可以集合实际应用进行设置，例如首尾碱基分别是A和G的基因序列。

此外，这里预设需求可以包括一个或多个对基因序列首尾碱基的需求。

在一个具体的实施例中，目标基因序列识别模型包括采用下述方式确定：

1)获取第一训练基因序列。

具体的，第一训练基因序列可以包括具有相同目标首尾碱基的正样本基因序列和具有非所述目标首尾碱基的负样本基因序列。

2)基于所述第一训练基因序列对第一预设深度学习模型进行目标基因序列的识别训练，得到所述目标基因序列识别模型。

本说明书实施例中，第一预设深度学习模型可以包括但不限于采用卷积神经网络、循环神经网络或递归神经网络等深度学习模型。

在一个具体的实施例中，以递归神经网络为例，将第一训练基因序列(具有相同目标首尾碱基的正样本基因序列和具有非所述目标首尾碱基的负样本基因序列)输入递归神经网络中，递归神经网络的输出为训练数据为正样本基因序列的概率p(p为0-1之间的数字)，而正样本基因序列和负样本基因序列的标签分别使y是1和0，将标签y与概率p的损失定义为(y-p)^2，相应的，训练过程中根据(y-p)^2可以得到误差error；使用梯度下降法，更新每个阈值，再次训练递归神经网络。修改完的阈值会使得下一次递归神经网络输出的概率p和标签y之间的误差变得更小，当该误差小于一定值时，可以将当前的递归神经网络作行为目标基因序列识别模型。

如图9所示，图9是本发明实施例提供的一种目标基因序列识别模型的应用场景示意图。图9中训练数据为具有相同目标首尾碱基的正样本基因序列和具有非所述目标首尾碱基的负样本基因序列，相应的，后续训练出来的目标基因序列识别模型可以识别出具有目标首尾碱基的基因序列。

S305：基于碱基识别模型对所述目标基因序列进行碱基识别，得到碱基数据。

本说明书实施例中，在得到首尾碱基符合预设需求的目标基因序列之后，可以基于碱基识别模型对所述目标基因序列进行碱基识别，得到碱基数据(碱基对)。

本说明书实施例中，所述碱基识别模型包括采用下述方式确定：

1)获取第二训练基因序列。

本说明书实施例中，这里的第二训练基因序列可以为大量的基因序列。

2)对所述第二训练基因序列进行碱基对标注；

3)基于碱基对标注后的第二训练基因序列对第二深度学习模型进行碱基识别训练，得到碱基识别模型。

本说明书实施例中，第二深度学习模型可以包括但不限于贝叶斯或朴素贝叶斯网络等深度学习模型。

如图10所示，图10是本发明实施例提供的一种碱基识别模型的应用场景示意图。图10中训练数据为碱基对标注后的基因序列，相应的，后续训练出来的碱基识别模型可以识别出碱基数据。

由以上本说明书实施例提供的技术方案可见，本说明书利用分布式FPGA扫描以键值对存储基因序列的非关系型数据库和存储所述基因序列中碱基的基础信息的关系型数据库，可以快速的得到待识别基因数据；然后，先后通过目标基因序列识别模型和碱基识别模型分别进行首尾碱基符合预设需求的目标基因序列的识别，以及碱基数据的识别，可以有效提高碱基识别的准确率。且以分布式FPGA来获取待识别基因数据，可以有效降低计算平台的能耗和成本，且基于FPGA的数据服务易开发学习利于测序计算的大规模扩展，应用广泛。

本申请实施例还提供了一种碱基识别装置，如图11所示，所述装置包括：

数据扫描模块1110，用于利用分布式现场可编程门阵列FPGA扫描基因数据库，得到待识别基因数据；

目标基因序列识别模块1120，用于基于目标基因序列识别模型对所述待识别基因数据进行目标基因序列识别，得到目标基因序列，所述目标基因序列包括首尾碱基符合预设需求的基因序列；

碱基识别模块1130，用于基于碱基识别模型对所述目标基因序列进行碱基识别，得到碱基数据；

在一些实施例中，所述数据扫描模块1110可以包括：

在一些实施例中，所述第一基因序列确定单元包括：

在一些实施例中，所述碱基分布信息至少包括下述之一：

第二训练基因序列获取单元，用于获取第二训练基因序列；

在一些实施例中，所述装置还可以包括：

基因序列获取模块，用于获取多个基因序列；

所述的装置实施例中的装置与方法实施例基于同样地申请构思。

本申请实施例提供了一种碱基识别设备，该碱基识别设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的碱基识别方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图12是本申请实施例提供的一种碱基识别方法的服务器的硬件结构框图。如图12所示，该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)1210(处理器1210可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1230，一个或一个以上存储应用程序1223或数据1222的存储介质1220(例如一个或一个以上海量存储设备)。其中，存储器1230和存储介质1220可以是短暂存储或持久存储。存储在存储介质1220的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1210可以设置为与存储介质1220通信，在服务器1200上执行存储介质1220中的一系列指令操作。服务器1200还可以包括一个或一个以上电源1260，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1240，和/或，一个或一个以上操作系统1221，例如Windows ServerTM，Mac OSXTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口1240可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1200的通信供应商提供的无线网络。在一个实例中，输入输出接口1240包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1240可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图12所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器1200还可包括比图12中所示更多或者更少的组件，或者具有与图12所示不同的配置。

本申请的实施例还提供了一种存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种碱基识别方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的碱基识别方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

由上述本申请提供的碱基识别方法、装置、设备或存储介质的实施例可见，本申请中通过利用分布式FPGA扫描以键值对存储基因序列的非关系型数据库和存储所述基因序列中碱基的基础信息的关系型数据库，可以快速的得到待识别基因数据；然后，先后通过目标基因序列识别模型和碱基识别模型分别进行首尾碱基符合预设需求的目标基因序列的识别，以及碱基数据的识别，可以有效提高碱基识别的准确率。且以分布式FPGA来获取待识别基因数据，可以有效降低计算平台的能耗和成本，且基于FPGA的数据服务易开发学习利于测序计算的大规模扩展，应用广泛。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备及存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种碱基识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述利用分布式现场可编程门阵列FPGA扫描基因数据库，得到待识别基因数据包括：

利用分布式FPGA扫描所述关系型数据库，获取所述基因序列中碱基的基础信息；

基于所述碱基的基础信息确定符合预设条件的基因序列；

利用分布式FPGA扫描所述非关系型数据库，获取所述符合预设条件的基因序列；

将所述符合预设条件的基因序列和所述符合预设条件的基因序列中碱基的基础信息作为所述待识别基因数据。

3.根据权利要求2所述的方法，其特征在于，所述基于所述碱基的基础信息确定符合预设条件的基因序列包括：

基于所述碱基的基础信息确定碱基分布信息；

获取碱基分布信息满足预设碱基分布条件的基因序列；

从所述满足预设碱基分布条件的基因序列中，获取基因序列中碱基间距离满足预设距离的基因序列；

将所述满足预设距离的基因序列作为所述符合预设条件的基因序列。

4.根据权利要求3所述的方法，其特征在于，所述碱基分布信息至少包括下述之一：

5.根据权利要求1所述的方法，其特征在于，所述目标基因序列识别模型包括采用下述方式确定：

获取第一训练基因序列，所述第一训练基因序列包括具有相同目标首尾碱基的正样本基因序列和具有非所述目标首尾碱基的负样本基因序列；

基于所述第一训练基因序列对第一预设深度学习模型进行目标基因序列的识别训练，得到所述目标基因序列识别模型。

6.根据权利要求1所述的方法，其特征在于，所述碱基识别模型包括采用下述方式确定：

获取第二训练基因序列；

对所述第二训练基因序列进行碱基对标注；

基于碱基对标注后的第二训练基因序列对第二深度学习模型进行碱基识别训练，得到碱基识别模型。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个基因序列；

将所述多个基因序列与参考基因组进行比对处理，得到按序排列的多个基因序列；

获取所述按序排列的多个基因序列中碱基的基础数据；

将所述按序排列的多个基因序列以键值对的形式存储到数据库；

将所述多个基因序列中碱基的基础数据存储到关系型数据库。

8.一种碱基识别装置，其特征在于，所述装置包括：

9.一种碱基识别设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的碱基识别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的碱基识别方法。