CN112863598A

CN112863598A - 一种基于深度学习的dna序列基元挖掘方法和系统

Info

Publication number: CN112863598A
Application number: CN202110266696.2A
Authority: CN
Inventors: 黄德双; 张钦虎
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-05-28

Abstract

本发明公开一种基于深度学习的DNA序列基元挖掘方法和系统,其包括：步骤1、对获取的DNA序列进行预处理，采用重叠分割策略将每条DNA序列处理成一个数据包，采用k‑mer编码对数据包里的每一个示例进行编码；步骤2、对每个数据包进行特征学习，以构造混合深度神经网络模型，对数据包中每个示例进行预测打分；步骤3、对每个数据包中所有示例进行融合，将融合后的得分作为该数据包的最终预测值。采用本发明的技方案，避免忽略基因组序列的弱监督信息、序列特征之间的长期依赖关系等。

Description

一种基于深度学习的DNA序列基元挖掘方法和系统

技术领域

本发明属于机器学习技术领域，尤其涉及一种基于深度学习的DNA序列基元挖掘方法和系统。

背景技术

随着技术的不断发展，越来越多的研究人员使用高通量实验方法来对生物体内基因组序列中可能与蛋白质发生绑定的位点进行深入研究。目前比较成熟的用于研究转录因子在体内绑定作用的实验方法有以下几种：ChIP-chip、ChIP-seq以及最近提出的ChIP-exo。研究人员使用上述实验方法在基因组内对已有的数百万条序列进行精确定位，从而获得基因组内能够与蛋白质发生绑定作用的短序列区域的相关数据。通过上述实验数据，研究人员可以在全基因组范围内对多种蛋白质在不同组织细胞中的绑定特性进行深入研究，从而帮助人们进一步探索生物体内不同蛋白质间的相互作用特性。

随着高通量测序技术的快速发展，已经提出了多种实验方法来提取体内(in-vivo)和体外(in-vitro)的绑定区域。特别地，ChIP-seq和高通量测序大大增加了体内可用数据量，这将有利于体内蛋白质与基因组序列绑定的研究。另一方面，蛋白质结合微阵列(PBM)可以测量转录因子与给定长度k的所有可能的DNA序列变体的体外结合，这为直接开发绑定位点预测模型提供了极好的信息来源。随后就陆续出现了各种处理高通量数据的算法，例如针对ChIP-seq数据的DREME、BioProspector和motifRG等方法；针对PBM数据的Herdclustering和RankMotif++；针对HT-SELEX数据的Toivonen和HTSIBIS等方法，以及可以综合统一处理这些数据的Dimont算法等。然而，采用传统的方法处理如此大规模的数据会受到相当大的限制，例如，容错性能低、对噪声敏感、泛化能力差，时间复杂度高。随着计算机理论以及技术的不断发展，深度学习已经被成功地应用于各种大数据研究领域中。研究者开始尝试使用深度神经网络等复杂机器学习模型来挖掘绑定位点基元信息，以及分析蛋白质绑定与基因变异之间的关联关系。DeepBind是首个将深度卷积神经网络应用于绑定位点预测的基元挖掘算法，从集成现有简单绑定模型的角度对传统的深度学习方法进行了调整，设计了一种基于深度卷积神经网络的转录因子绑定模型。用户可以将多种高通量技术产生的高通量数据(例如：ChIp-seq，PBM，HT-SELEX)作为原始数据输入到DeepBind模型中，然后DeepBind可以运用自己制定的规则综合考虑多种数据，并从中学习出转录因子绑定偏好的模型参数。

但是现有的基元挖掘方法主要是基于传统机器学习和深度学习的方法，越来越多的证据表明基于传统机器学习的方法无法处理大规模测序数据，泛化能力差，且十分耗时，而基于深度学习的方法能很好地缓解或克服传统方法的不足。但是，基于深度学习的方法还存在以下问题：1)遵循完全监督的学习框架，而忽略了基因组序列的弱监督信息，即一段DNA序列可能包含多个转录因子结合位点；2)使用独热(one-hot)编码，而该编码方式忽略了核苷酸之间的依赖性；3)仅采用CNN来学习DNA序列的空间信息，而忽略了序列特征之间的长期依赖关系。

发明内容

本发明要解决的技术问题是，提供一种基于深度学习的DNA序列基元挖掘方法和系统。

为实现上述目的，本发明采用如下的技术方案：

一种基于深度学习的DNA序列基元挖掘方法，包括以下步骤：

步骤1、采用重叠分割策略对获取的每条DNA序列处理成一个数据包，采用k-met编码对数据包里的每一个示例进行编码；

步骤2、对每个数据包进行特征学习构造混合深度神经网络模型，对数据包中每个示例进行预测打分；

步骤3、对每个数据包中所有示例进行融合，将融合后的得分作为该数据包的最终预测值。

作为优选，步骤1中所述重叠分割策略为：定义一个长度为c的滑动窗口，并通过步幅s将长度为1的DNA序列分成多个长度为c的示例，将一条DNA序列转换为一个数据包，所述数据包中的示例数量为(l-c)/s+1，其中，s和c为预设超参数。

作为优选，步骤1中采用k-mcr编码将所有的示例转换为具有高阶依赖关系的图像矩阵，计算过程如下公式所示：

其中，i∈[1，c-k+1]，j∈[1，4^k]，c表示示例的长度，k表示编码的阶数，x_i表示来自{A，C，G，T}的任一字符，而X_i，j表示经过k-mer编码后的一个矩阵。其中，当k被设置为1时，k-mer编码就等价于one-hot编码。

作为优选，步骤2中所述混合深度神经网络模型包括：卷积神经网络和递归神经网络。其中卷积神经网络(CNN)采用权重共享策略来捕获DNA序列中的局部模式，而递归神经网络(RNN)使用其内部状态来学习动态时间或序列模式；CNN被用于学习基元特征，而RNN被用于学习基元特征之间的长期依赖关系。

作为优选，步骤2中利用该混合深度神经网络模型对每个数据包中的所有示例进行预测打分，得到了每个示例的打分值p，其为示例包含结合位点的概率。

作为优选，步骤3中采用Noisy-and方法融合，计算过程如下公式所示：

其中，p_ij表示第i个数据包中第j个示例的得分，n_i表示第i个数据包中的示例数量，

表示第i个数据包的平均得分，Noisy-and被设计为当示例的平均值超过预设阈值时激活一个数据包概率P_i，a为预设超参数，用于控制Noisy-and的斜率，b_i表示每个数据包i的自适应软阈值，σ(a(1-b_i))和σ(-ab_i)用于归一化P_i到[0，1]，b_i限定在[0，1]以及a＞0，σ表示sigmoid函数。

通过Noisy-and方法将数据包中所有示例的预测值进行融合，以此来得到该数据包“绑定”和“非绑定”的概率分布。

本发明还提供一种基于深度学习的DNA序列基元挖掘框架系统，其包括：

预处理装置：用于采用重叠分割策略对获取的每条DNA序列处理成一个数据包，采用k-met编码对数据包里的每一个示例进行编码；

打分装置：用于对每个数据包进行特征学习，以构造混合深度神经网络模型，对数据包中每个示例进行预测打分；

融合装置：用于对每个数据包中所有示例进行融合，将融合后的得分作为该数据包的最终预测值。

本发明的技术方案，采用弱监督学习框架，即将多示例学习与深度学习进行融合，用于挖掘DNA序列的弱监督信息；采用k-met编码来预处理DNA序列，用于编码核苷酸之间的依赖性；采用构造卷积、递归混合神经网络模型，其中，CNN用于学习DNA序列的空间信息，而RNN用于学习序列特征之间的长期依赖关系。

附图说明

图1为本发明DNA序列基元挖掘方法的流程图；

图2为本发明DNA序列基元挖掘系统的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

如图1所示，本发明提供一种基于深度学习的DNA序列基元挖掘方法，其包括：

步骤1、对获取的DNA序列进行预处理，采用重叠分割策略将每条DNA序列处理成一个数据包，采用k-met编码对数据包里的每一个示例进行编码；

进一步地，步骤1具体包括：

步骤1.1、序列重叠分割

考虑到DNA序列的弱监督信息，本实例采用MIL的概念来处理DNA序列。采用重叠分割策略将DNA序列分成多个示例，这样可以确保：1)保留了DNA序列内在的弱监督信息；2)生成了大量的包含绑定位点的示例。重叠分割策略定义为一个长度为c的滑动窗口，并通过步幅s将长度为1的DNA序列分成多个长度为c的示例。因此可以将一条DNA序列转换为一个数据包，这个数据包中的示例数量为(l-c)/s+1，其中，s和c为预设超参数；如果(l-c)不是s的倍数，将在DNA序列的末尾补充“零”以确保它们可以被整除。

步骤1.2、k-mer编码

分割DNA序列后，所有的示例都需要被转换为矩阵输入，以便后续深度神经网络模型使用。One-hot编码为基于深度学习的基元挖掘方法中最常用的编码方法，其假设核苷酸之间是相互独立的，但实际中核苷酸之间存在一定的高阶依赖关系。因此，为了缓解这一问题，本实例使用k-mer编码将所有的示例转换为具有高阶依赖关系的图像矩阵，计算过程如下公式所示：

其中，i∈[1，c-k+1]，j∈[1，4^k]，c表示示例的长度，k表示编码的阶数，x_i表示来自{A，C，G，T}的任一字符，而X_i，j表示经过k-mer编码后的一个矩阵。根据上述公式，当k被设置为1时，k-mer编码就等价于one-hot编码。例如，1-mer编码：每个独立的核苷酸被映射到大小为4的向量(A→[1，0，0，0]^T，C→[0，1，0，0]^T，G→[0，0，1，0]^T和T→[0，0，0，1]^T)；2-mer编码：考虑到两个相邻核苷酸之间的依赖关系，每个二核苷酸(2-mer)被映射到大小为16的向量(AA→[1，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0]^T，…，TT→[0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，1]^T)；3-met编码：考虑到三个相邻核苷酸之间的依赖关系，每个三核苷酸(3-met)被映射到大小为64的向量(AAA→[1，0，0，0，…，0，0，0，0，0]，…，TTT→[0，0，0，0，…，0，0，0，0，1])。

在具体实现中，首先通过k-met编码将每个示例编码成大小为1×4^k×1×(c-k+1)的张量(批量大小×通道数×高度×宽度)，然后沿着高度维度将数据包中所有示例连接成一个张量。因此，一个数据包可以用大小为1×4^k×n×(c-k+1)的张量来表示，n是每个数据包的示例数量(n＝(l-c)/s+1)。

进一步地，步骤2具体为：考虑到DNA序列的空间和序列特性，本实施例采用混合的深度神经网络模型，该模型集成卷积和递归神经网络。其中，卷积神经网络(CNN)采用权重共享策略来捕获DNA序列中的局部模式，而递归神经网络(RNN)可以使用其内部状态(存储器)来学习动态时间或序列模式。在设计的模型中，CNN被用于学习基元特征，而RNN被用于学习基元特征之间的长期依赖关系。该模型按以下顺序进行构建：卷积层→最大池化层→丢失层(dropout)→递归层→丢失层→softmax层。模型中所采用的层的作用和设置叙述如下：

卷积层：用于学习DNA序列的基元特征，用来计算所有潜在绑定位点的分数，后面接一个ReLU非线性层。已有早期工作探讨了CNN使用不同数量的卷积核时的性能，并发现使用更多的卷积核可以显著提高模型的性能。因此在本实施例中，没有再去讨论卷积核的数量对于模型性能的影响，而是直接将其设置为固定值16。

最大池化层：DeepBind使用了全局最大池化层从整个DNA序列中选出响应最大的片段，而本发明设计的模型使用了池化大小为(1，8)的最大池化层来记录整个序列的局部最好值。

丢失层(dropout)：dropout策略为使用的正则化技术，通过防止数据的复杂协同适应来减少深度神经网络中的过度拟合，其以概率p随机地将前一层的输出设置为零。概率p是一个超参数，可以通过交叉验证实验进行选取。

双向递归层：用于捕获基元特征之间的前向和后向长期依赖关系，它由长短期存储器(long short-term memory，LSTM单元组成。LSTM单元通常由状态存储单元、输入门、遗忘门和输出门组成，其中状态存储单元可以在任意时间间隔记录状态值，并且3个门可以控制流入和流出状态存储单元的信息流。本实施例没有在递归层后接全连接层，因为这会降低模型的性能。该层中的正向和反向分别设置了32个LSTM单元，因此该层总共有64个LSTM单元。

Softmax层：用于计算在绑定或非绑定序列上的概率分布，它由2个神经元组成，每个神经元与前一层密集连接并计算对应的概率。

利用该混合深度神经网络模型对每个数据包中的所有示例进行预测打分，得到了每个示例的打分值p，其为示例包含结合位点的概率。

进一步地，步骤3具体为：

将多示例学习与深度学习进行融合，用于挖掘DNA序列的弱监督信息，多示例学习(MIL)通常基于以下假设，即如果数据包中至少存在一个正示例(包含绑定位点)则该数据包被标记为正，如果数据包中不含任何的正示例则该数据包被标记为负。因此，取最大值(Max)就常被用作MIL中的融合函数，但Max只选取信息量最大的示例而忽略了其它可能包含有用信息的示例。在本实施例中，采用一种更好、更通用的融合方法Noisy-and，该方法基于一个更为合理的假设，即如果数据包中正示例的数量超过一个阈值则才会被标记为正，这种设定可以在一定程度上减少假阳性样本的干扰。Noisy-and计算过程如下公式所示：

表示第i个数据包的平均得分。Noisy-and被设计为当示例的平均值超过预设阈值就激活一个数据包概率P_i，a为预设超参数，用于控制Noisy-and的斜率。b_i表示每个数据包i的自适应软阈值，并且可以通过训练不断优化，σ(a(1-b_i))和σ(-ab_i)被用于归一化P_i到[0，1]，b_i限定在[0，1]以及a＞0，σ指sigmoid函数。

通过该融合函数，可以将数据包中所有示例的预测值进行融合，以此来得到该包“绑定”和“非绑定”的概率分布。

综上所述，本发明方法包括以下几个阶段：数据预处理阶段(分割、k-mer编码)→模型设计阶段(卷积层→最大池化层→丢失层(dropout)→递归层→丢失层→softmax层)→融合阶段(Noisy-and函数)。采用弱监督学习框架，即将多示例学习与深度学习进行融合，用于挖掘DNA序列的弱监督信息；采用k-mer编码来预处理DNA序列，用于编码核苷酸之间的依赖性；采用构造卷积、递归混合神经网络模型，其中，CNN用于学习DNA序列的空间信息，而RNN用于学习序列特征之间的长期依赖关系。

如图2所示，本发明还提供一种基于深度学习的DNA序列基元挖掘系统，实现上述DNA序列基元挖掘方法，其包括：

预处理装置：用于获取的DNA序列进行预处理，采用重叠分割策略将每条DNA序列处理成一个数据包，采用k-mer编码对数据包里的每一个示例进行编码；

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读介质中，或者从一个计算机可读介质向另一个计算机可读介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本发明中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器、只读存储器、快闪存储器、硬盘、固态硬盘、磁带(英文：magnetic tape)、软盘(英文：floppy disk)、光盘(英文：opticaldisc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于深度学习的DNA序列基元挖掘方法，其特征在于，包括以下步骤：

步骤1、采用重叠分割策略对获取的每条DNA序列处理成一个数据包，采用k-mer编码对数据包里的每一个示例进行编码；

2.如权利要求1所述的基于深度学习的DNA序列基元挖掘方法，其特征在于，步骤1中所述重叠分割策略为：定义一个长度为c的滑动窗口，并通过步幅s将长度为l的DNA序列分成多个长度为c的示例，将一条DNA序列转换为一个数据包，所述数据包中的示例数量为：(l-c)/s+1，其中s和c为预设超参数。

3.如权利要求2所述的基于深度学习的DNA序列基元挖掘方法，其特征在于，步骤1中采用k-mer编码将所有的示例转换为具有高阶依赖关系的图像矩阵，计算过程如下公式所示：

其中，i∈[1,c-k+1]，j∈[1,4^k]，c表示示例的长度，k表示编码的阶数，x_i表示来自{A，C，G，T}的任一字符，而X_i,j表示经过k-mer编码后的一个矩阵，

其中，当k被设置为1时，k-mer编码就等价于one-hot编码。

4.如权利要求1至3任何一项所述的基于深度学习的DNA序列基元挖掘方法，其特征在于，步骤2中所述混合深度神经网络模型包括：卷积神经网络CNN和递归神经网络RNN，其中，卷积神经网络采用权重共享策略来捕获DNA序列中的局部模式，而递归神经网络使用其内部状态来学习动态时间或序列模式；CNN被用于学习基元特征，而RNN被用于学习基元特征之间的长期依赖关系。

5.如权利要求1或4所述的基于深度学习的DNA序列基元挖掘方法，其特征在于，步骤2中利用该混合深度神经网络模型对每个数据包中的所有示例进行预测打分，得到了每个示例的打分值p，其为示例包含结合位点的概率。

6.如权利要求5所述的基于深度学习的DNA序列基元挖掘方法，其特征在于，步骤3中采用Noisy-and方法融合，计算过程如下公式所示：

表示第i个数据包的平均得分。Noisy-and被设计为当示例的平均值超过预设阈值时激活一个数据包概率P_i，a为预设超参数，用于控制Noisy-and的斜率，b_i表示每个数据包i的自适应软阈值，σ(a(1-b_i))和σ(-ab_i)用于归一化P_i到[0,1]，b_i限定在[0,1]以及a>0，σ指sigmoid函数。

通过Noisy-and方法将数据包中所有示例的预测值进行融合，以此来得到数据包“绑定”和“非绑定”的概率分布。

7.一种基于深度学习的DNA序列基元挖掘系统，其特征包括：

预处理装置：用于采用重叠分割策略对获取的每条DNA序列处理成一个数据包，采用k-mer编码对数据包里的每一个示例进行编码；