CN111243674B

CN111243674B - 一种碱基序列的识别方法、装置和存储介质

Info

Publication number: CN111243674B
Application number: CN202010026283.2A
Authority: CN
Inventors: 蔡宏民; 曾静文
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2023-07-04
Anticipated expiration: 2040-01-08
Also published as: CN111243674A

Abstract

本发明公开了一种碱基序列的识别方法，包括步骤：读取牛津纳米孔测序仪输出的数据文件并提取出待测的DNA/RNA分子对应的电流信号；将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段；将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模，以针对每一电流信号片段生成对应的碱基概率矩阵；其中，所述碱基概率矩阵为所述电流信号片段在每一采样时间点上出现碱基的概率分布；根据每一所述碱基概率矩阵解码出对应的碱基序列片段，并根据每一碱基序列片段生成所述碱基序列。本发明实施例还提供了碱基序列的识别装置和存储介质。采用本发明实施例，通过时序卷积网络对电流信号进行时序建模，加快了神经网络推理速度，提高了碱基序列识别的效率。

Description

一种碱基序列的识别方法、装置和存储介质

技术领域

本发明涉及生物信息技术领域，尤其涉及一种碱基序列的识别方法、装置和存储介质。

背景技术

随着生物学技术的发展，对DNA/RNA分子双链进行碱基序列识别的方法的研究已受到越来越多研究学者的关注。碱基识别的过程即为通过算法将捕获的电流信号转换为可识别的碱基序列的过程。在现有的碱基测序方法中，牛津纳米孔测序是基于电信号的第三代单分子实时测序技术。DNA/RNA双链在马达蛋白酶的作用下进行位移，位移过程中纳米孔内的离子电流会随着孔内核酸的移动而波动，将捕获到的波动的电流信号采用基于循环神经网络的端到端碱基识别方法(Chiron)进行碱基序列的识别。

然而，在实施本发明过程中，发明人发现现有技术至少存在如下问题：Chiron采用了循环神经网络对电流信号进行碱基序列识别，在循环神经网络的推理阶段，每个时间点的计算都依赖于前一个时间点的计算结果，且这种循环式的神经网络也难以执行并行计算，导致Chiron的碱基识别速率较慢，每一秒只能识别2000～3000个碱基。而纳米孔测序技术的数据处理量较大，采用Chiron碱基序列识别方法无法较好地满足纳米孔测序技术的数据处理量，因而无法满足在大规模的碱基测序应用。

发明内容

本发明实施例的目的是提供一种碱基序列的识别方法、装置和存储介质，其通过时序卷积网络对电流信号进行时序建模，加快了神经网络推理速度，提高了碱基序列识别的效率。

为实现上述目的，本发明实施例提供了一种碱基序列的识别方法，包括步骤：

读取牛津纳米孔测序仪输出的数据文件并提取出待测的DNA/RNA分子对应的电流信号；

将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段；

将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模，以针对每一电流信号片段生成对应的碱基概率矩阵；其中，所述碱基概率矩阵为所述电流信号片段在每一采样时间点上出现碱基的概率分布；

根据每一所述碱基概率矩阵解码出对应的碱基序列片段，并根据每一碱基序列片段生成所述碱基序列。

作为上述方案的改进，所述将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段，具体包括：

根据绝对中位差法对所述电流信号进行标准化；

将标准化后的电流信号按预设的重叠率截取出若干个预设长度的电流信号片段。

作为上述方案的改进，所述根据绝对中位差法对所述电流信号进行标准化，具体为：

根据绝对中位差法，通过以下计算公式对所述电流信号进行标准化：

其中，X_sd为标准化后的电流信号；X_raw为标准化前的电流信号；c为预设常数；m(X_raw)为电流信号X_raw的绝对中位差。

作为上述方案的改进，所述根据每一所述碱基概率矩阵解码出对应的碱基序列片段，并根据每一碱基序列片段生成所述碱基序列，具体包括：

将每一所述碱基概率矩阵输入预设的连接时间解码器，以使所述连接时间解码器执行集束搜索算法解码出对应的碱基序列片段；

将每一所述碱基序列片段以最大重叠区域进行拼接，以生成所述碱基序列。

作为上述方案的改进，所述预设的时序卷积网络模型由五层残差块和两层全连接层依次连接组成；其中，每一所述残差块包括两层膨胀因果卷积。

本发明实施例提供了一种碱基序列的识别装置，包括：电流信号获取模块、电流信号片段截取模块、碱基概率矩阵生成模块和碱基序列生成模块；其中，

所述电流信号获取模块，用于读取牛津纳米孔测序仪输出的数据文件并提取出待测的DNA/RNA分子对应的电流信号；

所述电流信号片段截取模块，用于将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段；

所述碱基概率矩阵生成模块，用于将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模，以针对每一电流信号片段生成对应的碱基概率矩阵；其中，所述碱基概率矩阵为所述电流信号片段在每一采样时间点上出现碱基的概率分布；

所述碱基序列生成模块，用于根据每一所述碱基概率矩阵解码出对应的碱基序列片段，并根据每一碱基序列片段生成所述碱基序列。

作为上述方案的改进，所述电流信号片段截取模块包括电流信号标准化单元和电流信号片段截取单元，其中，

所述电流信号标准化单元，用于根据绝对中位差法对所述电流信号进行标准化；

所述电流信号片段截取单元，用于将标准化后的电流信号按预设的重叠率截取出若干个预设长度的电流信号片段。

作为上述方案的改进，所述碱基序列生成模块包括碱基序列片段解码单元和碱基序列生成单元；其中，

所述碱基序列片段解码单元，用于将每一所述碱基概率矩阵输入预设的连接时间解码器，以使所述连接时间解码器执行集束搜索算法解码出对应的碱基序列片段；

所述碱基序列生成单元，用于将每一所述碱基序列片段以最大重叠区域进行拼接，以生成所述碱基序列。

本发明实施例还提供了另一种碱基序列的识别装置，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任意一项所述的碱基序列的识别方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任意一项所述的碱基序列的识别方法。

与现有技术相比，本发明公开的一种碱基序列的识别方法、装置和存储介质，通过牛津纳米孔测序仪器输出的数据文件提取出待测的DNA/RNA分子对应的电流信号后，将所述电流信号进行标准化，并按预设的重叠率截取出若干个预设长度的电流信号片段。将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模，以生成碱基概率矩阵，并通过连接时间解码器解码出每一所述电流信号片段对应的碱基序列片段，最终生成完整的碱基序列。其通过时序卷积网络对电流信号进行时序建模，加快了神经网络推理速度，提高了碱基序列的识别精准性；且时序卷积结构的神经网络能实现并行计算的效果，进一步提高了碱基序列的识别效率。

附图说明

图1是本发明实施例一提供的一种碱基序列的识别方法的步骤流程示意图；

图2是本发明实施例一提供的一种优选的碱基序列的识别方法的流程示意图；

图3是本发明实施例一提供的碱基序列的识别方法中电流信号标准化方法的流程示意图；

图4是本发明实施例一提供的碱基序列的识别方法中碱基序列生成方法的流程示意图；

图5是本发明实施例二提供的一种碱基序列的识别方法中时序卷积网络模型的结构示意图；

图6是本发明实施例二提供的时序卷积网络模型中残差块的结构示意图；

图7是本发明实施例二提供的时序卷积网络模型中膨胀因果卷积的结构示意图；

图8是本发明实施例三提供的一种碱基序列的识别装置的结构示意图；

图9是本发明实施例四提供的另一种碱基序列的识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1-2，图1是本发明实施例一提供的一种碱基序列的识别方法的步骤流程示意图。图2是本发明实施例一提供的一种优选的碱基序列的识别方法的流程示意图。本发明实施例一提供的碱基序列的识别方法，包括步骤S11至S14：

S11、读取牛津纳米孔测序仪输出的数据文件并提取出待测的DNA/RNA分子对应的电流信号。

具体地，牛津纳米孔测序法是基于电信号的第三代单分子实时测序技术，可以直接读取DNA/RNA分子双链，并进行电流信号的捕获。在测序过程中，DNA/RNA双链首先与马达蛋白酶连接，并与镶嵌在生物膜上的纳米孔蛋白相结合、解螺旋，马达蛋白酶通过纳米孔控制DNA/RNA双链的移动，位移过程中纳米孔内的离子电流会随着孔内核酸的移动而波动，从而将波动的电流信号进行捕获并存储在数据文件中。通过与存储所述电流信号的数据文件连接，获取所述数据文件中所述待测DNA/RNA分子对应的电流信号，以进行后续的碱基序列识别过程。

s12、将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段。

优选地，参见图3，是本发明实施例一提供的碱基序列的识别方法中电流信号标准化方法的流程示意图。步骤S12通过步骤S121至S122执行：

S121、根据绝对中位差法(MAD)对所述电流信号进行标准化。具体地，根据绝对中位差法，通过以下计算公式对所述电流信号进行标准化：

使用绝对中位差法(MAD)对牛津纳米孔测序法捕获到的电流信号进行预处理，用于清理电流信号数据中的异常数据，将标准化后的电流信号进行后续的碱基序列识别，能够进一步提高碱基序列识别的精准性。

s122、将标准化后的电流信号按预设的重叠率截取出若干个预设长度的电流信号片段。

具体地，参见图2，预先设置所要截取的电流信号片段的长度T，其中，电流信号片段的长度T小于等于原始的电流信号长度。将标准化后的同一电流信号按照预设的重叠率截取出若干个长度为T的电流信号片段。优选地，所述重叠率为电流信号片段长度的

也即

S13、将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模，以针对每一电流信号片段生成对应的碱基概率矩阵；其中，所述碱基概率矩阵为所述电流信号片段在每一采样时间点上出现碱基的概率分布。

预先获取训练数据样本，并构建时序卷积网络模型进行训练，训练好的时序卷积网络模型用于在碱基序列识别过程中对输入电流信号进行分类预测，得到碱基出现概率。

具体地，将截取出来的每一所述电流信号片段依次输入预先训练好的时序卷积网络模型中，提取电流信号特征，并对提取到的电流信号特征进行时序建模，以针对每一电流信号生成对应的T×5的碱基概率矩阵，从而完成从特征空间对概率空间的映射，得到与输入的电流信号片段的每一采样时间点上出现碱基(ATCG)的概率。所述碱基概率矩阵的每一行都与所述电流信号片段的每一个采样时间点对应，用于表示在该采样时间点出现的碱基概率或空白占位符的概率。

在本发明实施例中，采用时序卷积网络对具有长程依赖关系的电流信号的特征进行时序建模。随着网络层数加深，时序卷积网络可获得更大的感受野，从而更好的建模长段电流中的时序关系。且时序卷积运算是以矩阵乘法的形式进行的，这种卷积形式的网络可以加快推理的速度，从而提高碱基序列识别的速率。同时，卷积结构具有高度的可并行性，可通过并行计算的技术手段进一步提高碱基识别的速率。

S14、根据每一所述碱基概率矩阵解码出所述电流信号片段对应的碱基序列片段，并根据每一碱基序列片段生成所述碱基序列。

具体地，参见图4，是本发明实施例一提供的碱基序列的识别方法中碱基序列生成方法的流程示意图。步骤S14通过步骤S141至S142执行：

S141、将每一所述碱基概率矩阵输入预设的连接时间解码器，以使所述连接时间解码器执行集束搜索算法解码出对应的碱基序列片段。

S142、将每一所述碱基序列片段以最大重叠区域进行拼接，以生成所述碱基序列。

在所述时序卷积网络模型的末端连接一个连接时间解码器，用于对所述碱基概率矩阵进行解码，得到预测的碱基序列片段。具体地，通过所述时序卷积网络模型得到碱基概率矩阵后，将所述碱基概率矩阵输入预设的连接时间解码器，所述连接时间解码器执行集束搜索算法，根据所述碱基概率矩阵解码得到出现概率最大的碱基序列片段，作为电流信号片段对应的碱基序列片段。通过对每一碱基概率矩阵进行解码，得到每一电流信号片段对应的碱基序列片段。

进一步地，对每一所述碱基序列片段按照最大重叠区域进行拼接，以生成完整的碱基序列，所述完整的碱基序列即为根据所述待测的DNA/RNA的电流信号识别得到的碱基序列。

本发明实施例一提供的一种碱基序列的识别方法，通过牛津纳米孔测序仪输出的数据文件提取待测的DNA/RNA分子对应的电流信号后，将所述电流信号进行标准化，并按预设的重叠率截取出若干个预设长度的电流信号片段。将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模，以生成碱基概率矩阵，并通过连接时间解码器解码出每一所述电流信号片段对应的碱基序列片段，最终生成完整的碱基序列。其通过时序卷积网络对电流信号进行时序建模，加快了神经网络推理速度，提高了碱基序列的识别精准性；且时序卷积结构的神经网络能实现并行计算的效果，进一步提高了碱基序列的识别效率。

参见图5，是本发明实施例二提供的一种碱基序列的识别方法中时序卷积网络模型20的结构示意图。本发明实施例二在实施例一所述的碱基序列的识别方法的基础上实施，包括步骤S21至S24：

S21、读取牛津纳米孔测序仪输出的数据文件并提取出待测的DNA/RNA分子对应的电流信号；

S22、将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段；

S23、将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模，以针对每一电流信号片段生成对应的碱基概率矩阵；其中，所述碱基概率矩阵为所述电流信号片段在每一采样时间点上出现碱基的概率分布；

S24、根据每一所述碱基概率矩阵解码出对应的碱基序列片段，并根据每一碱基序列片段生成所述碱基序列。

在本实施方式中，步骤S21至S24的执行过程与实施例一中的步骤S11至S14相同，在此不再赘述。

作为优选的实施方式，所述预设的时序卷积网络模型20由五层残差块21和两层全连接层22依次连接组成；其中，每一所述残差块包括两层膨胀因果卷积。

具体地，参见图5，所述预设的时序卷积网络模型20由五层堆叠的残差块21和两层全连接层22构成，所述残差块的卷积核的大小为k＝3。每一电流信号片段输入所述时序卷积网络模型后，依次通过五层残差层21和两层全连接层22进行卷积计算，在经过最后一层全连接层22输出后，使用softmax函数激活以获得对应的碱基概率矩阵。在时序卷积网络模型20之后接上连接时间解码器，由连接时间解码器对输入的碱基概率矩阵进行解码，并输出预测的碱基序列片段。

优选地，参见图6-7，图6是本发明实施例二提供的时序卷积网络模型中残差块的结构示意图；图7是本发明实施例二提供的时序卷积网络模型中膨胀因果卷积的结构示意图。

在本发明实施例中，残差块21主要由两层堆叠的膨胀因果卷积层构成。随着神经网络层数的增加，膨胀因子d按2的指数倍增长。作为举例，残差块1的膨胀因子d＝1，残差块2的膨胀因子d＝2，残差块3的膨胀因子d＝4，残差块4的膨胀因子d＝8，残差块5的膨胀因子d＝16。神经网络的感受野R随着膨胀因子d成倍增长，感受野R＝(k-1)d，其中，k为卷积核大小。对于输入信号X_sd＝[x₁，x₂，...，x_T]和卷积核f：{0，...，k-1}→R，因果卷积的计算公式如下：

每一层因果卷积计算结束后，都通过权重正则化(Weight Norm)对卷积网络的权重进行正则化操作。由于DNA以及RNA分子的复杂性和多变性，以及测序过程中的噪声，现有的碱基识别算法的错误率较高，通过对网路的权重进行归一化，可降低网络对噪声的敏感性以获得更鲁棒的学习效果，从而增强网络的稳定性，同时也能加快网络的收敛速度。

需要说明的是，通过门控线性单元对每个因果卷积层的输出进行激活，以起到特征选择的作用。残差连接是在第一个因果卷积的输入和第二个因果卷积的输出进行残差连接，以保证残差块的输入与输出维度一致，同时减少梯度消失的影响。

在本发明实施例中，对时序卷积网络模型进行改进。采用本发明实施例的时序卷积网络模型，与现有技术的Chiron相比，可显著降低碱基识别的错误率，有效地提高了碱基序列的识别速率和精准性。

本发明实施例二提供的一种碱基序列的识别方法，通过牛津纳米孔测序仪输出的数据文件提取出待测的DNA/RNA分子对应的电流信号后，将所述电流信号进行标准化，并按预设的重叠率截取出若干个预设长度的电流信号片段。将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模，以生成碱基概率矩阵，并通过连接时间解码器解码出每一所述电流信号片段对应的碱基序列片段，最终生成完整的碱基序列。其通过时序卷积网络对电流信号进行时序建模，加快了神经网络推理速度，提高了碱基序列的识别精准性；且时序卷积结构的神经网络能实现并行计算的效果，进一步提高了碱基序列的识别效率。

参见图8，是本发明实施例三提供的一种碱基序列的识别装置的结构示意图。本发明实施例提供了一种碱基序列的识别装置30，包括：电流信号获取模块31、电流信号片段截取模块32、碱基概率矩阵生成模块33和碱基序列生成模块34；其中，

所述电流信号获取模块31，用于读取牛津纳米孔测序仪输出的数据文件并提取出待测的DNA/RNA分子对应的电流信号；

所述电流信号片段截取模块32，用于将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段；

所述碱基概率矩阵生成模块33，用于将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模，以针对每一电流信号片段生成对应的碱基概率矩阵；其中，所述碱基概率矩阵为所述电流信号片段在每一采样时间点上出现碱基的概率分布；

所述碱基序列生成模块34，用于根据每一所述碱基概率矩阵解码出对应的碱基序列片段，并根据每一碱基序列片段生成所述碱基序列。

作为优选，所述电流信号片段截取模块32包括电流信号标准化单元321和电流信号片段截取单元322，其中，

所述电流信号标准化单元321，用于根据绝对中位差法对所述电流信号进行标准化；

所述电流信号片段截取单元322，用于将标准化后的电流信号按预设的重叠率截取出若干个预设长度的电流信号片段。

作为优选，所述碱基序列生成模块34包括碱基序列片段解码单元341和碱基序列生成单元342；其中，

所述碱基序列片段解码单元341，用于将每一所述碱基概率矩阵输入预设的连接时间解码器，以使所述连接时间解码器执行集束搜索算法解码出对应的碱基序列片段；

所述碱基序列生成单元342，用于将每一所述碱基序列片段以最大重叠区域进行拼接，以生成所述碱基序列。

需要说明的是，本发明实施例提供的一种碱基序列的识别装置用于执行上述实施例一或实施例二中的一种碱基序列的识别方法的所有流程步骤，两者的工作原理和有益效果一一对应，因而不再赘述。

本发明实施例三提供的一种碱基序列的识别装置，通过牛津纳米孔测序仪输出的数据文件提取出待测的DNA/RNA分子对应的电流信号后，将所述电流信号进行标准化，并按预设的重叠率截取出若干个预设长度的电流信号片段。将每一所述电流信号片段输入预设的时序卷积网络模型中进行时序建模，以生成碱基概率矩阵，并通过连接时间解码器解码出每一所述电流信号片段对应的碱基序列片段，最终生成完整的碱基序列。其通过时序卷积网络对电流信号进行时序建模，加快了神经网络推理速度，提高了碱基序列的识别精准性；且时序卷积结构的神经网络能实现并行计算的效果，进一步提高了碱基序列的识别效率。

参见图9，是本发明实施例四提供的另一种碱基序列的识别装置的结构示意图。本发明实施例四提供了一种碱基序列的识别装置40，包括处理器41、存储器42以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如实施例一或实施例二中任意一项所述的碱基序列的识别方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如实施例一或实施例二中任意一项所述的碱基序列的识别方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种碱基序列的识别方法，其特征在于，包括步骤：

根据每一所述碱基概率矩阵解码出对应的碱基序列片段，并根据每一碱基序列片段生成所述碱基序列；

所述将所述电流信号按预设的重叠率截取出若干个预设长度的电流信号片段，具体包括：

根据绝对中位差法对所述电流信号进行标准化；

将标准化后的电流信号按预设的重叠率截取出若干个预设长度的电流信号片段；

所述根据绝对中位差法对所述电流信号进行标准化，具体为：

其中，X_sd为标准化后的电流信号；X_raw为标准化前的电流信号；c为预设常数；m(X_raw)为电流信号X_raw的绝对中位差；

所述根据每一所述碱基概率矩阵解码出对应的碱基序列片段，并根据每一碱基序列片段生成所述碱基序列，具体包括：

将每一所述碱基序列片段以最大重叠区域进行拼接，以生成所述碱基序列；

所述预设的时序卷积网络模型由五层残差块和两层全连接层依次连接组成；其中，每一所述残差块包括两层膨胀因果卷积。

2.一种碱基序列的识别装置，其特征在于，包括：电流信号获取模块、电流信号片段截取模块、碱基概率矩阵生成模块和碱基序列生成模块；其中，

所述碱基序列生成模块，用于根据每一所述碱基概率矩阵解码出对应的碱基序列片段，并根据每一碱基序列片段生成所述碱基序列；

所述电流信号片段截取模块包括电流信号标准化单元和电流信号片段截取单元；其中，

所述电流信号片段截取单元，用于将标准化后的电流信号按预设的重叠率截取出若干个预设长度的电流信号片段；

所述电流信号标准化单元，具体用于：

所述碱基序列生成模块包括碱基序列片段解码单元和碱基序列生成单元；其中，

所述碱基序列生成单元，用于将每一所述碱基序列片段以最大重叠区域进行拼接，以生成所述碱基序列；

3.一种碱基序列的识别装置，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1所述的碱基序列的识别方法。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1所述的碱基序列的识别方法。