CN116805514B

CN116805514B - 一种基于深度学习的dna序列功能预测方法

Info

Publication number: CN116805514B
Application number: CN202311075805.8A
Authority: CN
Inventors: 周树森; 柳婵娟; 王庆军; 臧睦君; 刘通
Original assignee: Ludong University
Current assignee: Jiangxi Qixin Raincoat Manufacturing Co ltd
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-11-21
Anticipated expiration: 2043-08-25
Also published as: CN116805514A

Abstract

本发明属于生物信息学领域，涉及一种基于深度学习的DNA序列功能预测方法。该方法的核心思想是首先使用密集卷积网络的多个密集块提取DNA数据的局部特征，然后使用双向长短期记忆网络基于密集卷积网络输出的特征进一步提取DNA数据的长序列特征，最后将提取的特征输出到全连接层与数据标签建立映射关系。以上所述三个部分被融合到一个深层架构中，使用监督学习方法基于反向传播算法迭代训练即可获得最优参数。这种方法可以将密集卷积网络和长短期记忆网络的特征提取能力进一步融合，有效提升了深层架构预测DNA序列功能的性能。

Description

一种基于深度学习的DNA序列功能预测方法

技术领域

本发明属于生物信息学领域，涉及一种基于深度学习的DNA序列功能预测方法，其中包括密集卷积网络、长短期记忆网络和DNA序列功能预测等技术。

背景技术

随着基因组测序所需费用的迅速降低，对一个人的疾病相关基因进行测序，只需要花费几千美元，这使得在临床医学和基因研究相关领域大范围使用基因组学数据成为可能。在不久的将来，医生将了解体检者所有的基因构成，并测试体检者对数百种疾病的易感性。因此，研究开发相关计算方法用来预测基因组序列的功能，然后基于基因的功能分析与多种疾病的相关性，具有重要意义。为了对基因组学数据进行自动特征提取，生物医学领域的研究人员用机器学习方法，例如分类方法，进行尝试。在生物医学领域，DNA序列功能预测是一个重要的研究方向，它根据原始DAN序列中4种碱基不同的排列组合信息，把不同类别的特征提取出来。针对某一个具体特征，若一段DNA序列里面包含该特征，则该段DNA序列的标签值为1；否则，该段DNA序列的标签值为0。

深度学习属于机器学习的子类，它对深层架构进行训练并调整里面的参数来完成机器学习任务。深层架构由许多层非线性运算组成，例如在神经网络中由许多隐藏层组成，或在复杂架构中重复使用许多子模块。深度学习方法可以用来进行数据分类、数据压缩等，已经应用到计算机视觉、自然语言处理等多个领域，并且取得了突破性进展。但是，探讨如何优化深层架构的抽象能力和区分能力，来解决 DNA序列功能预测问题的研究工作还比较少。

发明内容

本发明解决的技术问题是：现有的DNA序列功能预测方法比较少，预测的AUC值较低，不能满足日常应用需求。

本发明解决现有技术中存在的问题所采用的技术方案为：提供一种基于深度学习的DNA序列功能预测方法，在密集卷积网络和长短期记忆网络的基础上，整合2种方法的深层架构，调整深层架构的训练方法，以增加训练时间为代价，提升DNA序列功能预测性能。

本发明具体技术方案包括DNA序列数据转换、特征提取和特征映射三个过程，其具体步骤如下：

步骤1、DNA序列数据转换：DNA的序列数据由ACGT 4个字母组成，需要使用One Hot编码方式将DNA序列数据转换成数字形式，才能输入到深层架构中进行特征提取；

步骤2、卷积神经网络局部特征提取：使用密集卷积网络的多个密集块对DNA序列的局部特征进行提取，并将提取的特征传给下一层；

步骤3、双向长短期记忆网络长序列特征提取：使用双向长短期记忆网络基于密集块提取的特征，进一步提取DNA序列的长期依赖信息，并将提取的特征传给下一层；

步骤4、全连接层建立特征映射：使用全连接层基于双向长短期记忆网络提取的特征建立数据与其对应标签之间的映射关系；

步骤5、训练深层架构：使用监督学习方法基于随机梯度下降算法来训练整个深层架构，将深层架构的特征提取能力和分类能力有效结合起来，互相促进；

步骤6、模型预测：使用步骤5中保存好的模型来预测输入的DNA序列数据功能。

1. 一种基于深度学习的DNA序列功能预测方法，步骤1的实现过程如下：

在DNA序列数据转换模块中，处理DNA序列所使用的窗口长度为1000，步长为200。每个窗口中1000个核苷酸对应919个核染色质特征。针对每个核染色质特征，若发生突变，则被标注为1；否则，被标注为0。每个窗口中1000个核苷酸用一个1000×4的二维矩阵表示，矩阵的每一列对应A、C、G和T，这4个字母分别用[1, 0, 0, 0]、[0, 1, 0, 0]、[0, 0, 1,0]和[0, 0, 0, 1]表示。

2. 一种基于深度学习的DNA序列功能预测方法，步骤2的实现过程如下：

在卷积神经网络局部特征提取模块中，使用4个不同长度的密集块依次处理DNA序列数据，4个密集块中密集层的个数分别是18、18、18和12。第一个密集块的初始特征数为1000，初始通道数为4，对应输入数据中1000×4的二维矩阵。每个密集层进行2次一维批量归一化、ReLU激活和一维卷积操作，最后以0.07的概率进行Dropout操作。密集块中每个密集层都输出32个通道，从第二个密集层开始，接收前面所有密集层的输出数据和该密集块的输入数据作为输入。因此，后面的密集层都会比其前一个密集层增加32通道，但是处理后的特征数保持不变。为了防止多个密集块叠加后输出的通道数太多，在密集块之间使用一维卷积层将上一个密集块输出的通道数减半，并且使用一维平均池化层将特征数变为原来的1/4，然后送入下一个密集块。最后，使用一维批量归一化层将4个密集块提取的特征归一化后输出，输出的特征数是15，通道数是888，对应一个15×888的二维矩阵。

3. 一种基于深度学习的DNA序列功能预测方法，步骤3的实现过程如下：

在双向长短期记忆网络长序列特征提取模块中，使用一层双向长短期记忆网络基于卷积神经网络局部特征提取模块输出的特征继续处理。网络输入的特征数是888，输出的特征数也是888。由于使用的是双向长短期记忆网络，两个方向各输出888个特征，所以最终输出的特征数是1776。最后，以0.5的概率进行Dropout操作后输出。卷积神经网络特征提取模块中输出的15×888的二维矩阵中的每一行都经过双向长短期记忆网络和Dropout处理，所以最后输出的所有数据的特征数是15×1776=26640。

4. 一种基于深度学习的DNA序列功能预测方法，步骤4的实现过程如下：

在全连接层建立特征映射模块中，使用一层线性层接收双向长短期记忆网络长序列特征提取模块输出的26640个特征，并输出925个特征。使用ReLU函数激活后送入下一个线性层，线性层的输出特征数是919，对应DNA序列数据的919个标签。最后，使用Sigmoid函数激活。

5. 一种基于深度学习的DNA序列功能预测方法，步骤5的实现过程如下：

模型搭建好后，使用监督学习方法基于随机梯度下降算法来训练整个深层架构，学习率为0.08，权重衰减系数为1×10^-6，动量系数为0.9。

6. 一种基于深度学习的DNA序列功能预测方法，步骤6的实现过程如下：

使用训练好的模型来预测输入的DNA序列数据功能。DNA序列数据需要使用步骤1中的预处理方法对长度为1000的核苷酸加窗，步长为200。转换后得到N个1000×4的二维矩阵后，输入到训练好的模型进行预测。每个1000×4的二维矩阵输入模型运算后得到919个核染色质的预测结果，输入的DNA序列数据的最终预测结果为N×919的二维矩阵。

本发明的技术效果是：本发明涉及一种基于深度学习的DNA序列功能预测方法，通过将密集卷积网络和双向长短期记忆网络相结合的方法，实现DNA序列功能预测，解决了传统预测方法AUC 值低的问题。在密集卷积神经网络中，利用4个不同长度的密集块通过多次一维批量归一化、ReLU激活和一维卷积操作来提取DNA序列特征，避免了经典方法不能有效提取DNA序列有效信息的问题，使系统能够同时提取DNA序列特征并分类，进一步提升了深层架构的特征提取能力和分类能力。

附图说明

图1为基于深度学习的DNA序列功能预测方法流程图。

图2为密集卷积网络结构图样例。

具体实施方式

以下结合附图和实例对本发明进行详细说明。

本发明的目的是提出一种基于深度学习的DNA序列功能预测方法，如图1所示，包括DNA序列数据转换、特征提取和特征映射三个过程，其具体过程包括如下步骤：

步骤1、DNA序列数据转换。

网络的输入数据是DNA序列，需要首先将其转化成实数值后才能送入深层架构中进行处理。本发明使用One Hot编码方式将DNA序列数据转换成数字形式。由于DNA序列数据的长度差别很大，而深层架构的输入要求特征的个数是确定的。因此，本发明对DNA序列数据进行加窗，窗口长度为1000，窗口每次平移200个核苷酸。若一个DNA序列包含Q个核苷酸，则转换后的窗口个数，对应N个1000×4的二维矩阵。若最后一个窗口不足1000个核苷酸，则剩余部分全部用0填充，即二维矩阵中每列的4个数据全部为0。一个DNA序列可以表示为：

其中N是窗口个数，xⁱ是每个窗口1000个核苷酸One Hot编码后的1000×4的二维矩阵。

Y是N个窗口位置对应的标签数据集，可以表示为：

其中N是窗口个数，yⁱ是每个窗口1000个核苷酸对应的919个核染色质标签数据。

本发明将基于深层架构使用多个DNA序列数据转换后训练构建X→Y的映射函数。训练后，当一个新的DNA序列数据输入并转换成X后，深层架构可以使用映射函数确定X对应的标签Y。

步骤2、卷积神经网络局部特征提取。

本发明首先使用密集卷积网络对DNA序列数据进行局部特征提取，密集卷积网络结构图样例如图2所示。这是一个包含2个密集块（dense block），每个密集块包含3个密集层的深层架构。在每个密集块中，鼓励特征复用，里面任何两层之间都有直接的连接，每一层的输入都是前面所有层输出的并集，而该层所学习的特征图也会被直接传给其后面所有层作为输入。在不同密集块之间设置卷积层和池化层实现降采样，最后通过全连接层建立深层架构与数据对应标签之间的映射关系。

本发明使用4个不同长度的密集块依次处理DNA序列数据，4个密集块中密集层的个数分别是18、18、18和12。第1个密集块的初始特征数为1000，初始通道数为4，对应一个输入数据x。每个密集层进行2次一维批量归一化、ReLU激活和一维卷积操作，最后以0.07的概率进行Dropout操作。

对于第1个密集块的第1个密集层，接收数据x的特征数为1000，通道数为4。首先进行norm1（一维批量归一化）操作，norm1的eps（分母中添加的一个值，目的是为了计算的稳定性）值为1×10^-5，动量值为0.1；然后进行relu1（ReLU函数激活）操作；最后进行conv1（一维卷积）操作，conv1的输入通道数为4（前面的norm1和relu1不改变数据的通道数和特征数），输出通道数为128，卷积核大小为1，步长为1。经过一次一维批量归一化、ReLU激活和一维卷积操作后，数据通道数由4变成了128，特征数仍为1000。送入norm2（eps和动量值与norm1相同）和relu2处理后，数据的通道数和特征数不变。Conv2的输入通道数为128，输出通道数为32，卷积核大小为3，步长为1，填充值为1。由于Conv2的卷积核大小为3，填充值为1，所以经过Conv2处理后数据的特征数仍为1000；由于Conv2的输出通道数为32，所以经过Conv2处理后数据的通道数变为32。最终，数据送入Dropout层以0.07的概率处理后输出。

输入数据x经过第1个密集块的第1个密集层处理后，通道数变成32，特征数不变。第1个密集块共包含18个密集层，每个密集层的处理方式与第1个密集层相同。由于密集卷积网络中，每个密集层的输入都是前面所有层输出的并集，所以第2个密集层的输入是x与第1个密集层输出的并集。输入数据的通道数为4+32=36，特征数仍为1000。同理，第18个密集层的输入是x与前17个密集层输出的并集。输入数据的通道数为4+32×17=548，特征数仍为1000。最终，第1个密集块的输出是x与18个密集层输出的并集。输出数据的通道数为4+32×18=580，特征数仍为1000。

为了防止多个密集块叠加后输出的通道数太多，在密集块之间使用转换块将上一个密集块输出的通道数减半，并将特征数变为原来的1/4。转换块包含一维批量归一化、ReLU激活、一维卷积和一维平均池化4层。一维批量归一化使用的参数与norm1相同。一维卷积层的输入通道数为580（与第1个密集块的输出通道数一致），输出通道数为290，卷积核大小为1，步长为1。经过一维卷积层后，通道数减半。一维平均池化层的核大小为4，步长为4。经过一维平均池化层后，数据的特征数由1000变为250。

第2个密集块从第1个转换块接收数据继续处理，数据的通道数为290，特征数为250。与第1个密集块一样，第2个密集块也包含18个密集层。数据经过第2个密集块处理后，输出数据的通道数为290+32×18=866，特征数仍为250。第2个转换块位于第1个密集块和第2个密集块之间，它的结构与第1个转换块完全一致。数据经过第2个转换块处理后，通道数为433，特征数为62。

第3个密集块从第2个转换块接收数据继续处理，与第1、2个密集块一样，第3个密集块也包含18个密集层。数据经过第3个密集块处理后，输出数据的通道数为433+32×18=1009，特征数仍为62。第3个转换块位于第2个密集块和第3个密集块之间，它的结构与第1、2个转换块完全一致。数据经过第3个转换块处理后，通道数为504，特征数为15。

第4个密集块从第3个转换块接收数据继续处理，第4个密集块包含12个密集层。数据经过第4个密集块处理后，输出数据的通道数为504+32×12=888，特征数仍为15。

最后，使用一维批量归一化层将4个密集块提取的特征归一化后输出，输出的特征数是15，通道数是888，对应一个15×888的二维矩阵。

步骤3、双向长短期记忆网络长序列特征提取。

针对卷积神经网络局部特征提取模块输出的15×888的二维矩阵，将15作为每批数据的个数，888作为特征数进行处理。使用一层双向长短期记忆网络接收以上数据，网络输入的特征数是888，输出的特征数也是888。由于双向长短期记忆网络的两个方向各输出888个特征，所以最终输出的特征数是888×2=1776。最后，以0.5的概率进行Dropout操作后输出。卷积神经网络特征提取模块中输出的15×888的二维矩阵中的每批数据有15个，所以最后输出的所有数据的特征数是15×1776=26640。

步骤4、全连接层建立特征映射。

该模块包含2个分别使用ReLU函数和Sigmoid函数激活的线性层。第1个线性层接收双向长短期记忆网络特征提取模块输出的26640个特征作为输入数据，输出925个特征后使用ReLU函数激活。第2个线性层接收第1个线性层输出的925个特征作为输入数据，输出919个特征后使用Sigmoid函数激活。第2个线性层的919个输出特征与x的919个标签一一对应。可以通过不断减小深层架构输出的919个特征与标签y 之间的误差来训练优化深层架构。

步骤5、训练深层架构。

前面4个步骤已经将深层架构模型搭建好，下面使用多个DNA序列数据及其对应的标签来优化深层架构的参数空间，从而使其拥有更好的区分能力。在本发明中使用交叉熵误差函数，基于随机梯度下降算法来训练整个深层架构，学习率为0.08，权重衰减系数为1×10^-6，动量系数为0.9。

步骤6、模型预测。

首先，使用步骤1中的预处理方法对新输入的数据进行预处理，预处理后得到N个1000×4的二维矩阵。其次，使用步骤5中训练好的模型来预测新输入的DNA序列数据功能，每个1000×4的二维矩阵输入模型运算后得到919个核染色质的预测结果，结果为[0, 1]的实数值。最后，将输入的DNA序列数据的最终预测结果以N×919的二维矩阵的形式输出。

本发明提出一种基于深度学习的DNA序列功能预测方法，利用4个密集块的局部特征提取和双向长短期记忆神经网络长序列特征提取，组合实现了一个用于DNA序列数据功能预测的深层架构，有效提升了DNA序列数据功能预测的AUC值。在大型DNA序列数据功能预测数据集上测试了本发明提出的模型的预测结果并与前人提出的模型进行对比 (AUC值越高代表模型性能越好)。DeepSEA和本发明提出的模型在919个核染色质上的平均AUC分别是0.933和0.944。实验证明本发明提出的模型取得了比较好的预测结果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度学习的DNA序列功能预测方法，包括如下步骤：

步骤1、处理DNA序列所使用的窗口长度为1000，步长为200；每个窗口中1000个核苷酸对应919个核染色质特征；针对每个核染色质特征，若发生突变，则被标注为1；否则，被标注为0；每个窗口中1000个核苷酸用一个1000×4的二维矩阵表示，矩阵的每一列对应A、C、G和T，这4个字母分别用[1, 0, 0, 0]、[0, 1, 0, 0]、[0, 0, 1, 0]和[0, 0, 0, 1]表示；

步骤2、使用4个不同长度的密集块依次处理DNA序列数据，4个密集块中密集层的个数分别是18、18、18和12；第一个密集块的初始特征数为1000，初始通道数为4，对应输入数据中1000×4的二维矩阵；每个密集层进行2次一维批量归一化、ReLU激活和一维卷积操作，最后以0.07的概率进行Dropout操作；密集块中每个密集层都输出32个通道，从第二个密集层开始，接收前面所有密集层的输出数据和该密集块的输入数据作为输入；因此，后面的密集层都会比其前一个密集层增加32通道，但是处理后的特征数保持不变；为了防止多个密集块叠加后输出的通道数太多，在密集块之间使用一维卷积层将上一个密集块输出的通道数减半，并且使用一维平均池化层将特征数变为原来的1/4，然后送入下一个密集块；使用一维批量归一化层将4个密集块提取的特征归一化后输出，输出的特征数是15，通道数是888，对应一个15×888的二维矩阵；最后，将提取的特征传给下一层；

步骤3、使用一层双向长短期记忆网络基于卷积神经网络局部特征提取模块输出的特征继续处理；网络输入的特征数是888，输出的特征数也是888；由于使用的是双向长短期记忆网络，两个方向各输出888个特征，所以最终输出的特征数是1776；最后，以0.5的概率进行Dropout操作后输出；卷积神经网络特征提取模块中输出的15×888的二维矩阵中的每一行都经过双向长短期记忆网络和Dropout处理，所以最后输出的所有数据的特征数是15×1776=26640；最后，将提取的特征传给下一层；

步骤4、使用一层线性层接收双向长短期记忆网络长序列特征提取模块输出的26640个特征，并输出925个特征；使用ReLU函数激活后送入下一个线性层，线性层的输出特征数是919，对应DNA序列数据的919个标签；最后，使用Sigmoid函数激活；

步骤5、模型搭建好后，使用监督学习方法基于随机梯度下降算法来训练整个深层架构，学习率为0.08，权重衰减系数为1×10^-6，动量系数为0.9；

步骤6、使用训练好的模型来预测输入的DNA序列数据功能；DNA序列数据需要使用步骤1中的预处理方法对长度为1000的核苷酸加窗，步长为200；转换后得到N个1000×4的二维矩阵后，输入到训练好的模型进行预测；每个1000×4的二维矩阵输入模型运算后得到919个核染色质的预测结果，输入的DNA序列数据的最终预测结果为N×919的二维矩阵。