CN115579060B

CN115579060B - 基因位点检测方法、装置、设备及介质

Info

Publication number: CN115579060B
Application number: CN202211570198.8A
Authority: CN
Inventors: 杜佳伟; 吴琪; 菅晓东; 康波
Original assignee: National Supercomputer Center In Tianjin
Current assignee: National Supercomputer Center In Tianjin
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-04-04
Anticipated expiration: 2042-12-08
Also published as: CN115579060A

Abstract

本公开实施例涉及一种基因位点检测方法、装置、设备及介质，涉及人工智能技术领域，其中该方法包括：将待测基因序列输入预先训练的位点检测模型中，获取多个初始位点组；其中，每个初始位点组中包括至少一个初始位点；基于预设筛选策略，对初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组。本公开实施例，基于预设筛选策略对初始位点组以及初始位点进行筛选，能够筛选掉实际不为位点的碱基序列，从而提高了目标位点以及目标位点组的准确性，提高了基因注释的效率和准确性，同时缩短了对基因进行注释的周期。

Description

基因位点检测方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种基因位点检测方法、装置、设备及介质。

背景技术

在过去的十年中，高通量测序技术的不断改进已经产生了丰富的基因组数据。对这些序列进行功能解释、寻找作为基因功能和调控标志的生物信号，主要依赖于基因注释工具以确定基因结构。这些注释工具，可识别剪接位点，剪接位点的正确识别对基因组注释有重大意义。

相关技术中，现有的剪接位点预测工具多基于RNA序列或DNA序列的数据，通过序列比对的方法，将实验获得的测序结果映射到参考基因组，从而发现剪接位点，但是该方法的应用受限于参考基因组，且剪接位点的注释周期较长，准确性较低。人工智能技术也可以用于基因剪接位点的预测，但是目前基于人工智能技术预测的剪接位点的准确性较低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种基因位点检测方法、装置、设备及介质。

本公开实施例提供了一种基因位点检测方法，包括：

将待测基因序列输入预先训练的位点检测模型中，获取多个初始位点组；其中，每个所述初始位点组中包括至少一个初始位点；

基于预设筛选策略，对所述初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组。

本公开实施例还提供了一种基因位点检测装置，包括：

第一获取模块，用于将待测基因序列输入预先训练的位点检测模型中，获取多个初始位点组；其中，每个初始位点组中包括至少一个初始位点；

筛选模块，用于基于预设筛选策略，对所述初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组。

本公开实施例还提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如本公开实施例提供的基因位点检测方法。

本公开实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行如本公开实施例提供的基因位点检测方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：本公开实施例提供的基因位点检测方法，将待测基因序列输入预先训练的位点检测模型中，获取多个初始位点组；其中，每个初始位点组中包括至少一个初始位点；基于预设筛选策略，对初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组。采用上述技术方案，基于预设筛选策略对初始位点组以及初始位点进行筛选，能够筛选掉实际不为位点的碱基序列，从而降低了将不为位点的碱基序列识别为位点的概率，提高了目标位点以及目标位点组的准确性。同时，由于获得的初始位点中包括了该碱基序列对应的位点类型，从而在进行基因位点检测的过程中实现了对位点的注释，相对于相关技术中基于序列比对的方法进行位点注释，提高了基因注释的准确性和效率，缩短了对基因进行注释的周期。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种基因位点检测方法的流程示意图；

图2为本公开实施例提供的一种基因结构的示意图；

图3为本公开实施例提供的另一种基因位点检测方法的流程示意图；

图4为本公开实施例提供的一种位点检测模型的训练过程的流程示意图；

图5为本公开实施例提供的一种位点检测模型的网络结构示意图；

图6为本公开实施例提供的又一种基因位点检测方法的流程示意图；

图7为本公开实施例提供的一种基因位点检测装置的结构示意图；

图8为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

在过去的十年中，高通量测序的不断改进已经产生丰富的基因组数据。对这些序列进行功能解释、寻找作为基因功能和调控标志的生物信号，主要依赖于基因注释工具以确定基因结构。这些注释工具，可识别剪接位点，剪接位点的正确识别对基因组注释具有重大意义。

相关技术中，可以基于序列比对，将实验获得的测序结果映射到参考基因组，从而发现剪接位点，但是该方法的应用受限于参考基因组，且剪接位点的注释周期较长，准确性较低。基于人工智能技术的基因位点检测相关技术中，目前基于人工智能技术预测的剪接位点的准确性较低。同时，未涉及对起始位点和终止位点进行预测，从而无法实现对全长基因结构进行预测。

为了解决上述问题，本公开实施例提供了一种基因位点检测方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的一种基因位点检测方法的流程示意图，该方法可以由基因位点检测装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法包括：

步骤101，将待测基因序列输入预先训练的位点检测模型中，获取多个初始位点组；其中，每个初始位点组中包括至少一个初始位点。

位点为基因序列上具有特定序列特征的部分，基于位点能够实现对基因序列的转录，其中该位点的类型包括：起始位点、供体位点、受体位点和终止位点中的一个或多个。具体地，起始位点为被转录的基因序列上起始密码子对应的位点；供体位点即剪接供体位点；受体位点即剪接受体位点；终止位点为被转录的基因上终止密码子对应的位点。如图2所示，在进行基因序列转录的过程中，起始位点决定了编码区的起始位置，终止位点决定了编码区的结束位置，一对相邻的受体位点和供体位点之间的碱基序列为外显子（exon），一对相邻的供体位点和受体位点之间的碱基序列为内含子（intron）。在一些基因序列（例如P450酶基因序列）中，起始位点为ATG、供体位点为GT、受体位点为AG、终止位点为TAA、TAG、TGA中的一个，其中A为腺嘌呤、G为鸟嘌呤、T为胸腺嘧啶。

在本实施例中，首先将待测基因序列输入预先训练的位点检测模型中，获取多个初始位点组。

其中，待测基因序列为需要进行基因位点检测的基因序列，本实施例对该待测基因序列的物种来源不做限制，本实施例对该待测基因序列的长度类型也不做限制，例如该待测基因序列可以为全长基因，待测基因序列可以为全长的部分基因，例如该待测基因序列可以为编码区的碱基序列。在本实施例中，该待测基因序列可以为删除了测序误差序列的基因序列。

位点检测模型可以为能够确定基因序列上的多个位点的神经网络模型，该位点检测模型能够检测出的位点类型可以根据用户需求等进行设定，并根据用户需求确定不同的预先训练方式，本实施例不做限制。例如，若用户需求为对全长基因进行检测，则进行对该位点检测模型进行预先训练的训练数据中包括起始位点训练数据、供体位点训练数据、受体位点训练数据、终止位点训练数据，位点检测模型能够检测出待测基因序列上的位点的类型。该位点检测模型的模型类型有多种，本实施例也不做限制，例如，该位点检测模型的模型类型可以为卷积神经网络模型（Convolutional Neural Networks，CNN）或长短时记忆神经网络（Long Short-Term Memory Networks，LSTM）。

具体地，将待测基因序列输入预先训练的位点检测模型中，获取多个初始位点组，可以包括：确定待测基因序列中的多个待测序列，将多个待测序列输入位点检测模型中，得到对应有位点的目标序列；选取多个目标序列中预设序列数量的目标序列并作为初始位点，将该预设序列数量的初始位点组合为初始位点组，得到多个初始位点组。其中，预设序列数量的最大值可以为待测序列的数量。举例而言，若待测基因序列中的目标序列为30个，则可以设置预设序列数量为2，从30个目标序列中选取2个作为初始位点，并组成初始位点组。以此类推，该预设序列数量可以设置为2至30中的一个或多个数，并获得初始位点数量为预设序列数量的初始位点组。

其中，确定待测基因序列中的多个待测序列，可以包括：根据预设碱基单元对待测基因序列进行匹配，得到匹配成功的目标碱基单元，将该目标碱基单元、该目标碱基单元上游预设数量的碱基、该目标碱基单元下游预设数量的碱基进行组合，得到待测序列。其中，该预设数量可以根据用户需求等进行设置，例如该预设数量可以设置为200个，最终形成等长的待测序列。

在本公开实施例中，可以将根据待测基因序列确定的待测序列输入预先训练的位点检测模型中，位点检测模型对该待测序列进行位点预测，确定该待测基因序列上对应有位点的碱基序列，进而获得多个包括至少一个初始位点的初始位点组。其中，初始位点为待测基因序列中一个被预测为位点的碱基序列，初始位点组为关于待测基因序列上的一个或多个预测结果为位点的碱基序列构成的集合。

步骤102，基于预设筛选策略，对初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组。

需要说明的是，位点检测模型关于位点的预测可能存在假阳性，部分检测出的初始位点可能并不为实际上的位点，因而需要对该初始位点组及该初始位点组包括的初始位点进行筛选，进一步提高位点检测的准确性。

其中，预设筛选策略可以为基于待测基因序列的生物属性设置的策略，该预设筛选策略有多种，本实施例不做限制。在一些实施例中，该预设筛选策略包括位置策略、数量策略、概率策略、倍数策略中的至少一个。其中，位置策略为根据初始位点在待测基因序列中位置的合理性对初始位点所在的初始位点组进行筛选；数量策略为根据初始位点组中初始位点的数量对初始位点组进行筛选；概率策略为根据初始位点对应的预测概率对初始位点所在的初始位点组进行筛选；倍数策略为根据基于多个初始位点确定的外显子的长度，对初始位点进行筛选，其中，外显子的长度可以理解为外显子序列的长度。需要说明的是，上述四种预设策略可以交叉使用，例如，可以使用概率策略对初始位点组中的初始位点进行筛选之后，再使用倍数策略和数量策略对该概率策略的筛选结果进行进一步的筛选。

进而，根据预设筛选策略对初始位点组及其包括的初始位点进行筛选操作，获得相应的目标位点以及目标位点组，其中一个目标位点组包括至少一个目标位点。

本公开实施例提供的基因位点检测方法，将待测基因序列输入预先训练的位点检测模型中，获取多个初始位点组；其中，每个初始位点组中包括至少一个初始位点；基于预设筛选策略，对初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组。采用上述技术方案，基于预设筛选策略对初始位点组以及初始位点进行筛选，能够筛选掉实际不为位点的碱基序列，从而降低了将不为位点的碱基序列识别为位点的概率，提高了目标位点以及目标位点组的准确性。同时，由于获得的初始位点中包括了该碱基序列对应的位点类型，从而在进行基因位点检测的过程中实现了对位点的注释，相对于相关技术中基于序列比对的方法进行位点注释，提高了基因注释的准确性和效率，缩短了对基因进行注释的周期。

在一些实施例中，当预设筛选策略包括位置策略，基于预设筛选策略，对初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组，包括：

确定位置信息不满足预设位置条件的第一位点，并确定包括至少一个第一位点的第一位点组；其中预设位置条件包括：初始位点在预设区间范围内，并且初始位点组中的供体位点和受体位点间隔排列，区间范围包括位置信息最靠前的起始位点和位置信息最靠后的终止位点之间的范围；将多个初始位点组中的第一位点组删除，得到目标位点组。

其中，预设区间范围可以为用于对初始位点进行筛选的区间范围，供体位点和受体位点是否间隔排列可以根据供体位点的位置信息以及受体位点的位置信息确定，供体位点和受体位点间隔排列可以理解为供体位点和受体位点相邻，且两个供体位点不相邻，两个受体位点不相邻，举例而言，起始位点之后的供体位点和受体位点在待测基因序列上的顺序可以为供体位点、受体位点、供体位点、受体位点，以此类推，直至出现受体位点及其对应的终止位点为止。可以理解地，不考虑起始位点后的首个供体位点和终止位点前最后一个受体位点，相邻的受体位点和供体位点可以理解为一对位点，即受体位点和供体位点是成对出现的，通过该一对位点能够确定相应的外显子。其中，该一对位点在待测基因序列上的出现顺序为先出现受体位点，后出现供体位点。

若初始位点组中初始位点的类型包括起始位点、供体位点、受体位点和终止位点，由于其中的起始位点和终止位点决定了待测基因序列中编码区的位置，供体位点和受体位点要在该编码区的区间范围内，该编码区的最大区间范围为位置信息最靠前的起始位点和位置信息最靠后的终止位点之间的区间范围。并且，该预设区间范围内可以含有供体位点和受体位点，供体位点和受体位点间隔排列。其中，起始位点的数量为一个并且终止位点的数量也为一个。

具体地，位置信息可以为表征初始位点在待测基因序列上位置的信息，将该位置信息和预设区间范围进行比对，将位置信息不在预设区间范围的初始位点确定为第一位点。和/或，将初始位点组中未间隔排列的供体位点或受体位点确定为第一位点。进一步地，确定包括该第一位点的第一位点组，将多个初始位点组中的第一位点组删除，得到目标位点组，该目标位点组中包括的位点为目标位点。举例而言，若确定位点A不在预设区间范围内或者位点A为未间隔排列的供体位点或受体位点，则将包括该位点A的初始位点组确定为第一位点组，并从多个初始位点组中将第一位点组剔除，将留下的初始位点组确定为目标位点组。

本公开实施例提供的基因位点检测方法，确定了不满足预设位置条件的第一位点，并将包括该第一位点的第一位点组进行了剔除，从而提高了目标位点以及目标位点组的准确性。

在一些实施例中，当预设筛选策略包括数量策略的情况下，基于预设筛选策略，对初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组，包括：将每个初始位点组的位点数量与预设数量阈值进行比较，确定位点数量大于预设数量阈值的第二位点组，将多个初始位点组中的第二位点组删除，得到目标位点组。

其中，位点数量为一个初始位点组中包括的初始位点的数量。数量阈值用于从初始位点的数量的维度对初始位点组进行筛选，该数量阈值可以为与待测基因序列的类型相关的量，由于待测基因序列中包括的外显子数量通常是低于一个确定数量的，因而可以基于该确定数量设置数量阈值，本实施例对该数量阈值的具体设置不做限制，例如，可以将该数量阈值设置为30。

具体地，获取各初始位点组对应的位点数量，并将各位点数量和预设数量阈值进行比较，若位点数量小于或等于预设数量阈值，则说明该初始位点组不存在数量异常，将该初始位点组确定为目标位点组；若位点数量大于预设数量阈值，则说明该位点数量对应的初始位点组中初始位点的数量过多，存在数量异常，因而将该初始位点组确定为第二位点组，进一步地，将多个初始位点组中的第二位点组剔除，并将留下的初始位点组确定为目标位点组。

本公开实施例提供的基因位点检测方法，确定了位点数量大于预设数量阈值的第二位点组，并删除了该第二位点组，从而提高了目标位点以及目标位点组的合理性。

在一些实施例中，在预设筛选策略包括概率策略的情况下，基于预设筛选策略，对初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组，包括：

确定预测概率小于或等于预设概率阈值的第三位点，并确定包括至少一个第三位点的第三位点组；将多个初始位点组中的第三位点组删除，得到目标位点组。

其中，预测概率可以为被检测的碱基序列为初始位点的概率。预设概率阈值可以是根据待测基因序列的位点类型确定的，本实施例不做限制，例如，若对位点类型为起始位点的ATG进行检测，则可以将预设概率阈值设置为0.99。

具体地，将初始位点组中初始位点预测概率和预设概率阈值进行比较，确定其中预测概率小于或等于预设概率阈值的第三位点，并确定包括一个或多个第三位点的第三位点组，将多个初始位点组中的第三位点组删除，将留下的初始位点组确定为目标位点组。

本公开实施例提供的基因位点检测方法，确定了预测概率低于概率阈值的第三位点，并将包括该第三位点的第三位点组进行了删除，从而提高了目标位点以及目标位点组的准确性，降低了将不为位点的碱基序列识别为位点的概率。

在一些实施例中，在预设筛选策略包括倍数策略的情况下，基于预设筛选策略，对初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组，包括：

根据多个初始位点组中的起始位点、供体位点、受体位点、终止位点，从待测基因序列中提取多个外显子；外显子为一对受体位点和供体位点之间的碱基序列，或者，外显子为起始位点及其对应的供体位点之间的碱基序列，或者，外显子为终止位点及其对应的受体位点之间的碱基序列；确定各外显子的外显子长度，将多个外显子长度的累加和确定为目标长度；若目标长度不能整除于3，则确定目标长度对应的第四位点组，将多个初始位点组中的第四位点组删除，得到目标位点组。

其中，外显子的长度为该外显子包含的碱基个数。

在进行基因转录的过程中，外显子为一对相邻的受体位点（即剪接受体位点）和供体位点（即剪接供体位点）之间的碱基序列；或者，若该外显子为基于起始位点确定的，则确定该起始位点相邻的供体位点为目标供体位点，该外显子为该起始位点与该目标供体位点之间的碱基序列；或者，若该外显子为基于终止位点确定的，则确定该终止位点相邻的受体位点为目标受体位点，将该终止位点与目标受体位点之间的碱基序列确定为外显子，进而，确定多个外显子。

在本实施例中，各外显子的外显子长度和需为3的倍数，即各外显子包含的碱基个数总和需为3的倍数。因而可以基于该特性对初始位点以及初始位点组进行筛选。具体地，首先确定初始位点组中的起始位点、供体位点、受体位点和终止位点，并根据基因的转录过程对起始位点和供体位点、受体位点和供体位点、受体位点和终止位点进行配对处理，获得配对成功的多对位点，将每对位点之间的碱基确定为外显子，得到多个外显子。进一步地，针对各外显子，统计该外显子的外显子长度，得到多个外显子长度。计算各外显子长度的累加和，得到目标长度，判断该目标长度是否能够整除于3，若是，则确定该初始位点组为目标位点组；否则，将该初始位点组确定为第四位点组，并将多个目标位点组中的第四位点组剔除，将留下的初始位点组确定为目标位点组。

本公开实施例提供的基因位点检测方法，根据一个基因序列上外显子长度累加和为3的倍数的特性，确定了不符合该特性的第四位点组，并将该第四位点组从多个初始位点组中删除，从而提高了目标位点以及目标位点组的准确性。

需要说明的是，上述实施例中的位置策略、数量策略、概率策略、倍数策略可以交叉使用，即可以采取上述四种测量中的一个或多个对初始位点组以及初始位点进行筛选，当采用两个及以上的策略对初始位点组以及初始位点进行筛选时，可以根据筛选顺序将根据上一策略确定的目标位点组作为下一策略的初始位点组，通过多次策略的筛选得到最终的目标位点组。

一种可选的实施方式中，若预设筛选策略包括位置策略和倍数策略，则基于预设筛选策略，对初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组，包括：

确定位置信息不满足预设位置条件的第一位点，并确定包括至少一个第一位点的第一位点组；其中，预设位置条件包括：初始位点在预设区间范围内，并且初始位点组中的供体位点和受体位点间隔排列，区间范围包括位置信息最靠前的起始位点和位置信息最靠后的终止位点之间的范围；将多个初始位点组中的第一位点组删除，得到中间位点组。

根据多个中间位点组中的起始位点、供体位点、受体位点、终止位点，从待测基因序列中提取多个外显子；外显子为一对受体位点和供体位点之间的碱基序列，或者，外显子为起始位点及其对应的供体位点之间的碱基序列，或者，外显子为终止位点及其对应的受体位点之间的碱基序列；确定各外显子的外显子长度，将多个外显子长度的累加和确定为目标长度；若目标长度不能整除于3，则确定目标长度对应的第四位点组，将多个中间位点组中的第四位点组删除，得到目标位点组。

基于上述实施方式，若预设筛选策略还包括数量策略，则基于预设筛选策略，对初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组，还包括：将每个目标位点组的位点数量与预设数量阈值进行比较，确定位点数量大于预设数量阈值的第二位点组，将多个目标位点组中的第二位点组删除，得到更新后的目标位点组。

基于上述实施方式，若预设筛选策略还包括概率策略，则基于预设筛选策略，对初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组，还包括：确定预测概率小于或等于预设概率阈值的第三位点，并确定包括至少一个第三位点的第三位点组；其中，预测概率表示被检测的碱基序列为初始位点的概率；将多个目标位点组中的第三位点组删除，得到更新后的目标位点组。

一种可选的实施方式中，若预设筛选策略包括位置策略、数量策略、概率策略、倍数策略，则基于预设筛选策略，对初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组，包括：

确定位置信息不满足预设位置条件的第一位点，并确定包括至少一个第一位点的第一位点组；其中，预设位置条件包括：初始位点在预设区间范围内，并且初始位点组中的供体位点和受体位点间隔排列，区间范围包括位置信息最靠前的起始位点和位置信息最靠后的终止位点之间的范围；将多个初始位点组中的第一位点组删除，得到第一中间位点组；

将每个第一中间位点组的位点数量与预设数量阈值进行比较，确定位点数量大于预设数量阈值的第二位点组；将第一中间位点组中的第二位点组删除，得到第二中间位点组；

确定预测概率小于或等于预设概率阈值的第三位点，并确定包括至少一个第三位点的第三位点组；其中，预测概率表示被检测的碱基序列为初始位点的概率；将第二中间位点组中的第三位点组删除，得到第三中间位点组；

根据多个第三中间位点组中的起始位点、供体位点、受体位点、终止位点，从待测基因序列中提取多个外显子；外显子为一对受体位点和供体位点之间的碱基序列，或者，外显子为起始位点及其对应的供体位点之间的碱基序列，或者，外显子为终止位点及其对应的受体位点之间的碱基序列；确定各外显子的外显子长度，将多个外显子长度的累加和确定为目标长度；若目标长度不能整除于3，则确定目标长度对应的第四位点组，将多个第三中间位点组中的第四位点组删除，得到目标位点组。

以在一个实施例中预设筛选策略包括上述四种策略为例。图3为本公开实施例提供的另一种基因位点检测方法的流程示意图，如图3所示，基于预设筛选策略，对所述初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组，包括：

步骤301，根据位置策略，确定位置信息不满足预设位置条件的第一位点，确定包括第一位点的第一位点组。

步骤302，根据概率策略，确定预测概率小于或等于0.99的第三位点并确定包括第三位点的第三位点组。

步骤303，根据倍数策略，确定一个基因序列中各外显子的外显子长度，确定外显子长度的累加和为目标长度，将目标长度不能整除于3的位点组确定为第四位点组。具体地，将位点组中的起始位点和供体位点、受体位点和供体位点、受体位点和终止位点按照位置信息两两组对，得到能够确定一个外显子的位点对，确定各位点对对应的外显子，判断外显子长度累加和是否为3的整数倍，若否，将该位点组确定为第四位点组。

步骤304，根据数量策略，将位点数量大于30的位点组确定为第二位点组。

步骤305，删除初始位点组中的第一位点组、第三位点组、第四位点组和第二位点组，得到目标位点组。

步骤306，针对每个目标位点组，计算该目标位点组包括的目标位点的预测概率累积，将累积最大的目标位点组确定为最终的目标位点组，根据该目标位点组确定基因结构。

本公开实施例提供的基因位点检测方法，预设筛选策略中包括多种策略，从而能够从多个角度对初始位点以及初始位点组进行筛选，从而提高目标位点以及目标位点组的准确性。

示例性的，图4为本公开实施例提供的一种位点检测模型的训练过程的流程示意图，如图4所示，在一些实施例中，位点检测模型的训练过程包括如下步骤：

步骤401，获取样本基因及其标注信息；其中，标注信息包括预设位点的位置信息以及正样本标签。

其中，样本基因的获取来源有多种，本实施例中不做限制，例如，可以获取不同物种的同一类或不同类的基因序列，然后截取该基因序列的起始位点上游1KB和终止位点下游1KB的序列作为样本基因。标注信息为对样本基因进行分析确定的位点相关信息，该标注信息包括预设位点的位置信息以及该预设位点对应的正样本标签。其中，预设位点的类型可以根据用户需求进行设置，本实施例不做限制，例如该预设位点的类型可以包括：起始位点、终止位点、供体位点、受体位点。预设位点的位置信息表征了该预设位点在该样本基因上的位置，预设位点对应的正样本标签表征了预设位点的位点类型。

在本实施例中，获取样本基因之后，用户可以根据该样本基因的位点类型、外显子分布情况等确定该样本基因的标注信息。

步骤402，根据位置信息，从样本基因中提取标注有正样本标签的正样本序列，将正样本序列及其对应的正样本标签确定为正训练数据；其中，正样本序列包含预设位点。

在本实施例中，根据预设位点的位置信息从样本基因中提取标注有正样本标签的正样本序列，并将该正样本序列及其对应的正样本标签作为正训练数据。一种可选的实施方式中，可以将预设位点及其上下游200nt（碱基）的碱基序列作为正样本序列，其中，预设位点可以为ATG、GT、AG、TAA、TGA、TAG中的一种或多种。进一步地，将该正样本序列及其对应的正样本标签确定为正训练数据。

步骤403，获取含有形式位点的负样本序列，根据形式位点类型确定负样本序列对应的负样本标签，将负样本序列及其对应的负样本标签确定为负训练数据。

其中，形式位点的碱基序列与预设位点的碱基序列相同，形式位点与预设位点的功能不同。以预设位点包括供体位点为例，供体位点的碱基序列为GT，则对应的形式位点的碱基序列也为GT，但是该形式位点不能实现供体位点的相应功能。负样本序列为含有该形式位点的碱基序列，一种可选的实施方式中，可以将形式位点及其上下游200nt（碱基）的碱基序列作为负样本序列。形式位点类型为该形式位点对应的预设位点所属类型的相反类型，例如该形式位点对应的预设位点的类型为供体位点则该形式位点类型可以为非供体位点。负样本标签为负样本序列上标注的标签。

在本实施例中，获取负样本序列，以及该负样本序列对应的负样本标签，将该负样本序列以及负样本标签作为负训练数据。

在本公开一些实施例中，还可以对正训练数据和负训练数据进行编码处理，具体地可以确定碱基独热编码关系，基于该碱基独热编码关系将正样本序列和负样本序列进行独热编码（one-hot encoding）处理。例如，在碱基独热编码关系中，A对应1000；T对应0100；G对应0010；C对应0001。并确定正样本标签以及负样本标签对应的标签编码，以正样本标签包括ATG、GT、AG、TAA、TAG、TGA为例，可以将上述6个正样本标签依次编码为0至5，该6个正样本标签对应的负样本标签包括非ATG、非GT、非AG、非TAA、非TAG、非TGA，可以将上述6个负样本标签依次编码为6至11。

步骤404，根据正训练数据和负训练数据对初始模型训练获得位点检测模型。

本实施例对初始模型的类型不做限制，例如该初始模型的类型可以为卷积神经网络模型。在本实施例中，训练数据包括正训练数据和负训练数据，其中，从训练数据中随机选择10%的样本作为验证集，根据正训练数据和负训练数据对初始模型进行训练得到位点检测模型。其中，对初始模型的训练次数可以为多次。

具体地，可以设置初始模型中的模型参数，该模型参数可以理解为超参数，该模型参数包括但不限于：卷积层数（layers）、节点数（nodes）、批处理大小（batch-size）、学习率（lr_rate）、训练次数（epochs）、随机失活（dropout）中的一个或多个。一种可选的实施方式中，初始模型的网络结构包括卷积层、池化层以及全连接层。图5为本公开实施例提供的一种位点检测模型的网络结构示意图，如图5所示，对初始模型训练获得位点检测模型，可以将碱基序列进行独热编码，获得编码序列，将该编码序列作为初始模型的输入，将该编码序列对应的标签作为初始模型的输出，对该初始模型进行训练。

在一些实施例中，根据正训练数据和负训练数据对初始模型训练获得位点检测模型，包括：将正训练数据的数量设置为少于或等于负训练数据的数量；基于预设正数据权值对正训练数据进行加权处理；根据加权处理之后的正训练数据、负训练数据对初始模型训练获得位点检测模型。

由于自然产生的基因序列中，正样本数据的数量小于负样本数据的数量，存在不平衡样本的现象。在正训练数据的数量与负训练数据的数量相同的情况下，对不平衡样本的特征的全面覆盖性较差，会导致训练获得的位点检测模型对全长基因序列进行位点检测时，泛化能力较差，通过验证集对检测结果进行验证，正样本的查全率较低、查准率也较低。因而，为了获得对全长基因序列具有较好的泛化能力的位点检测模型，适当提高负训练数据的数量，使得负训练数据的数量多于正训练数据。并且为了避免模型训练过程中学习过多的负训练数据的特征，从而造成正样本的查全率较低，进一步地，设置了预设正数据权值，通过正数据权值能够提高模型训练过程中正样本训练数据集所占权重。

具体地，为了获得泛化能力较好的位点检测模型，负训练数据的数量与正训练数据的数量的比值大于1，该比值可以根据用户需求等进行设置，例如，该比值可以为2或3。并且，对正训练数据进行加权处理的预设正数据权值本实施例也不做限制，例如该预设正数据权值可以设置为5或10或15等。

本公开实施例提供的基因位点检测方法，通过将负训练数据的数量设置为大于正训练数据的数据量，不仅提高了位点处理模型对不平衡样本的特征的全面覆盖性，还提高了该模型的泛化能力。通过为正训练数据进行加权，避免了模型训练过程中学习过多的负训练数据的特征，提高了正样本的查全率。

一种可选的实施方式中，可以通过位点检测模型在验证数据集中的验证结果，对预设模型参数进行调整。其中，验证结果包括正确率（Accuracy）、查准率（Precision）、查全率（Recall）、综合评价（F-Score）中的一个或多个值；预设模型参数包括预设正数据权值和/或至少一个超参数。具体地，如图6所示，包括：

步骤601，根据数据验证集对位点检测模型进行验证，获得验证结果。

步骤602，将验证结果和预设验证阈值进行比对，判断验证结果是否满足预设验证阈值。若是，执行步骤604；若否，执行步骤603。

步骤603，调整预设模型参数，执行步骤601。

步骤604，根据全长基因序列测试集测试位点检测模型的泛化能力，获得测试结果。其中，测试结果包括但不限于模型敏感性（sensitivity）和/或假阳性率（FalsePositive Rate，FPR）。

步骤605，将测试结果和预设测试阈值进行比对，判断测试结果是否满足预设测试阈值。若是，则结束；若否，执行步骤606，或者执行步骤607。

步骤606，调整正样本训练数据和负样本训练数据，重新训练获得位点检测模型。执行步骤601。

步骤607，调整针对初始位点以及初始位点组的预设筛选策略，获得调整预设筛选策略之后的测试结果。执行步骤605。

本公开实施例提供的基因位点检测方法中，在不设置预设正数据权值或者设置预设正数据权值为5或10或15的情况下，训练获得的位点检测模型生成的检测结果具有较好的正确率，该正确率能够达到92%以上，均优于相关技术。并且设置了正数据权值的位点检测模型中，真实位点组（即位点检测的正确检测结果）为目标位点组的概率明显较高。并且在正数据权值为10、训练次数为70、随机失活为0.2的情况下，目标位点组中预测概率和最高的优选位点组为真实位点组的概率为60.95%，目标位点组中预测概率和前5高的排名位点组为真实位点组的概率为73.8%。同时，由于负训练数据多于正训练数据，为了在对全长基因序列进行位点检测时，避免将非位点剪接序列检测为位点（即出现假阳性情况），对正训练数据进行了加权处理。并且通过预设筛选策略对初始位点以及初始位点组进行筛选处理，该预设筛选策略可以根据生物学特性以及统计学分布确定，从而降低了目标位点以及目标位点组中的假阳性概率，提高了目标位点以及目标位点组的准确性。

并且，与相关技术中的GlimmerHMM算法相比较，本实施例中通过基因位点检测模型确定初始位点组并筛选获得目标位点组，能够实现对待测基因序列的从头检测，目标位点组中预测概率和最高的优选位点组为真实位点组的概率为60.95%，目标位点组中预测概率和前5高的排名位点组为真实位点组的概率为73.8%，两项参指标均高出GlimmerHMM算法约10%，本实施例提供的基因位点检测方法具有较高准确度。

图7为本公开实施例提供的一种基因位点检测装置的结构示意图，该装置700可由软件和/或硬件实现，一般可集成在电子设备中。如图7所示，该装置包括：

第一获取模块701，用于将待测基因序列输入预先训练的位点检测模型中，获取多个初始位点组；其中，每个所述初始位点组中包括至少一个初始位点；

筛选模块702，用于基于预设筛选策略，对所述初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组。

一种可选的实施方式中，所述预设筛选策略包括位置策略、数量策略、概率策略、倍数策略中的至少一个。

一种可选的实施方式中，当所述预设筛选策略包括所述位置策略，所述筛选模块702，具体用于：

确定位置信息不满足预设位置条件的第一位点，并确定包括至少一个所述第一位点的第一位点组；其中所述预设位置条件包括：所述初始位点在预设区间范围内，并且所述初始位点组中的供体位点和受体位点间隔排列，所述区间范围包括所述位置信息最靠前的起始位点和所述位置信息最靠后的终止位点之间的范围；

将所述多个初始位点组中的所述第一位点组删除，得到所述目标位点组。

一种可选的实施方式中，当所述预设筛选策略包括所述数量策略的情况下，所述筛选模块702，具体用于：

将每个所述初始位点组的位点数量与预设数量阈值进行比较，确定所述位点数量大于所述预设数量阈值的第二位点组，将所述多个初始位点组中的所述第二位点组删除，得到所述目标位点组。

一种可选的实施方式中，在所述预设筛选策略包括所述概率策略的情况下，所述筛选模块702，具体用于：

确定预测概率小于或等于预设概率阈值的第三位点，并确定包括至少一个所述第三位点的第三位点组；其中，所述预测概率表示被检测的碱基序列为所述初始位点的概率；将所述多个初始位点组中的所述第三位点组删除，得到所述目标位点组。

一种可选的实施方式中，在所述预设筛选策略包括所述倍数策略的情况下，所述筛选模块702，具体用于：

根据多个所述初始位点组中的起始位点、供体位点、受体位点、终止位点，从所述待测基因序列中提取多个外显子；所述外显子为一对所述受体位点和所述供体位点之间的碱基序列，或者，所述外显子为起始位点及其对应的供体位点之间的碱基序列，或者，所述外显子为终止位点及其对应的受体位点之间的碱基序列；

确定各所述外显子的外显子长度，将多个所述外显子长度的累加和确定为目标长度；

若所述目标长度不能整除于3，则确定所述目标长度对应的第四位点组，将所述多个初始位点组中的所述第四位点组删除，得到所述目标位点组。

一种可选的实施方式中，所述位点检测模型的训练通过以下模块实现：

第二获取模块，用于获取样本基因及其标注信息；其中，所述标注信息包括预设位点的位置信息以及正样本标签；

提取模块，用于根据所述位置信息，从所述样本基因中提取标注有所述正样本标签的正样本序列，将所述正样本序列及其对应的所述正样本标签确定为正训练数据；其中，所述正样本序列包含所述预设位点；

确定模块，用于获取含有形式位点的负样本序列，根据形式位点类型确定所述负样本序列对应的负样本标签，将所述负样本序列及其对应的所述负样本标签确定为负训练数据；其中，所述形式位点的碱基序列与所述预设位点的碱基序列相同，所述形式位点与所述预设位点的功能不同；

训练模块，用于根据所述正训练数据和所述负训练数据对初始模型训练获得所述位点检测模型。

一种可选的实施方式中，所述训练模块，具体用于：

将所述正训练数据的数量设置为少于或等于所述负训练数据的数量；

基于预设正数据权值对所述正训练数据进行加权处理；

根据加权处理之后的正训练数据、所述负训练数据对所述初始模型训练获得所述位点检测模型。

本公开实施例所提供的基因位点检测装置可执行本公开任意实施例所提供的基因位点检测方法，具备执行方法相应的功能模块和有益效果。

图8为本公开实施例提供的一种电子设备的结构示意图。如图8所示，电子设备800包括一个或多个处理器801和存储器802。

处理器801可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备800中的其他组件以执行期望的功能。

存储器802可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器801可以运行所述程序指令，以实现上文所述的本公开的实施例的基因位点检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备800还可以包括：输入装置803和输出装置804，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

此外，该输入装置803还可以包括例如键盘、鼠标等等。

该输出装置804可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置804可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备800中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备800还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的基因位点检测方法。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的基因位点检测方法。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基因位点检测方法，其特征在于，包括：

基于预设筛选策略，对所述初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组；其中，所述预设筛选策略包括位置策略、数量策略、概率策略、倍数策略中的至少一个；所述位置策略为根据所述初始位点在所述待测基因序列中的位置对所述初始位点所在的初始位点组进行筛选；所述数量策略为根据所述初始位点组中初始位点的数量对所述初始位点组进行筛选；所述概率策略为根据所述初始位点对应的预测概率对所述初始位点所在的初始位点组进行筛选；所述倍数策略为根据基于多个所述初始位点确定的外显子长度，对所述初始位点组进行筛选；

当所述预设筛选策略包括所述位置策略，所述基于预设筛选策略，对所述初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组，包括：

2.根据权利要求1所述的方法，其特征在于，在所述预设筛选策略包括所述数量策略的情况下，所述基于预设筛选策略，对所述初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组，包括：

3.根据权利要求1所述的方法，其特征在于，在所述预设筛选策略包括所述概率策略的情况下，所述基于预设筛选策略，对所述初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组，包括：

确定预测概率小于或等于预设概率阈值的第三位点，并确定包括至少一个所述第三位点的第三位点组；其中，所述预测概率表示被检测的碱基序列为所述初始位点的概率；

将所述多个初始位点组中的所述第三位点组删除，得到所述目标位点组。

4.根据权利要求1所述的方法，其特征在于，在所述预设筛选策略包括所述倍数策略的情况下，所述基于预设筛选策略，对所述初始位点组及其包括的初始位点进行筛选操作，确定包括至少一个目标位点的目标位点组，包括：

5.根据权利要求1所述的方法，其特征在于，所述位点检测模型的训练过程包括：

获取样本基因及其标注信息；其中，所述标注信息包括预设位点的位置信息以及正样本标签；

根据所述位置信息，从所述样本基因中提取标注有所述正样本标签的正样本序列，将所述正样本序列及其对应的所述正样本标签确定为正训练数据；其中，所述正样本序列包含所述预设位点；

获取含有形式位点的负样本序列，根据形式位点类型确定所述负样本序列对应的负样本标签，将所述负样本序列及其对应的所述负样本标签确定为负训练数据；其中，所述形式位点的碱基序列与所述预设位点的碱基序列相同，所述形式位点与所述预设位点的功能不同；

根据所述正训练数据和所述负训练数据对初始模型训练获得所述位点检测模型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述正训练数据和所述负训练数据对初始模型训练获得所述位点检测模型，包括：

基于预设正数据权值对所述正训练数据进行加权处理；

7.一种基因位点检测装置，其特征在于，包括：

筛选模块，用于基于预设筛选策略，对所述初始位点组进行筛选操作，确定包括至少一个目标位点的目标位点组；其中，所述预设筛选策略包括位置策略、数量策略、概率策略、倍数策略中的至少一个；所述位置策略为根据所述初始位点在所述待测基因序列中的位置对所述初始位点所在的初始位点组进行筛选；所述数量策略为根据所述初始位点组中初始位点的数量对所述初始位点组进行筛选；所述概率策略为根据所述初始位点对应的预测概率对所述初始位点所在的初始位点组进行筛选；所述倍数策略为根据基于多个所述初始位点确定的外显子长度，对所述初始位点组进行筛选；

当所述预设筛选策略包括所述位置策略，所述筛选模块，用于：

确定位置信息不满足预设位置条件的第一位点，并确定包括至少一个所述第一位点的第一位点组；其中所述预设位置条件包括：所述初始位点在预设区间范围内，并且所述初始位点组中的供体位点和受体位点间隔排列，所述区间范围包括所述位置信息最靠前的起始位点和所述位置信息最靠后的终止位点之间的范围；将所述多个初始位点组中的所述第一位点组删除，得到所述目标位点组。

8.一种电子设备，其特征在于，所述电子设备包括：

处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至6任一项所述方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至6任一项所述方法的步骤。