CN111933217B

CN111933217B - 一种基于深度学习的dna模体长度预测方法及预测系统

Info

Publication number: CN111933217B
Application number: CN202010552399.XA
Authority: CN
Inventors: 于强; 张晓�; 张瑞燊; 胡雅娜
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2024-04-05
Anticipated expiration: 2040-06-17
Also published as: CN111933217A

Abstract

本发明属于DNA序列片断检测技术领域，公开了一种基于深度学习的DNA模体长度预测方法及预测系统，构建预测模体长度的机器学习模型，在包含模体的延伸矩阵中自动地学习模体的特征，进而可以智能地预测未知模体的长度。使用机器学习解决这一问题的条件已经具足。本发明利用已有数据可以构建充足的预测模体长度的训练样本。深度学习等机器学习模型近些年得到了快速的发展，并成功地应用于包含生物信息学在内的多种领域，利用深度学习可以更好地学习延伸矩阵中的模体特征并进行模体长度预测。本发明提出的模型在测试集上的预测准确率达到了90％以上，并且能够成功地优化现有模体发现算法找出的模体。

Description

一种基于深度学习的DNA模体长度预测方法及预测系统

技术领域

本发明属于DNA序列片断检测技术领域，尤其涉及一种基于深度学习的DNA模体长度预测方法及预测系统。

背景技术

目前，DNA非编码区域中存在着转录因子结合位点(Transcription FactorBinding Site,TFBS)等影响基因表达的序列片断。一个转录因子可以结合于DNA序列中的多个位点，这些TFBS往往是一组彼此间相似的序列片断，将它们抽象形成的一个序列模式称为模体。模体发现是通过计算手段在给定的DNA序列数据集中找出未知的模体，对研究基因表达调控起着至关重要的作用。

DNA模体通常由位置权值矩阵(PositionWeight Matrix,PWM)来表示。PWM是一个4行l列的矩阵，l是模体的长度，矩阵中的每个元素表示了对应字符在TFBS的对应位置中的出现频率。模体长度作为模体的一个属性，它的值在模体发现时也是事先未知的。模体长度直接影响模体的质量。如果预测的模体长度与实际长度偏差较大，那么一方面会导致不能得到完整的模体信息，另一方面会导致找出假模体位点的概率增大。目前已经涌现了大量的模体发现算法，但是如何有效地确定模体长度仍是一个尚待解决的问题。

当前主要有三种确定模体长度的方法。第一种方法是在模体发现前由用户指定模体长度或者使用一个默认的模体长度，然后在模体发现时只寻找这种长度的模体。由于方法简单，并且在某些情况下用户可能拥有模体长度的先验信息，大多数模体发现算法都支持这种模式。但是，这种方法的缺点是显而易见的。在现实中要挖掘的模体的长度一般是未知的，那么指定长度的做法等价于猜测，从而无法保证找出的模体的质量。

第二种方法是在模体发现时通过某种策略得到一个大于模体实际长度且包含模体的延伸矩阵。因为属于模体的列的相对熵一般高于属于背景的列的相对熵，这种方法在延伸矩阵中截取相对熵高的片断，并将此片断的长度作为模体长度。例如，CisFinder和MCES等模体发现算法首先挖掘DNA序列数据集中的高频字串，它们可能是模体位点的片断，然后通过比对高频子串得到一个延伸矩阵，最后通过截取相对熵高的片断来得到模体。PairMotifChIP算法也采用了这种确定模体长度的方法，与CisFinder和MCES的不同点是，它通过挖掘高相似度的子串对来得到延伸矩阵。这种确定模体长度的方法一般是使用一个相对熵阈值来截取高相对熵片断。但是，如何设置合适的阈值是一个难题。主要原因是，不同模体的保守程度一般不同，使得相对熵的阈值也可能不同，从而并不存在一个适用于所有模体的相对熵阈值。

第三种方法是在模体发现时对每种可能的模体长度分别找到一个模体，然后通过统计显著性评价等方式对不同长度的模体进行比较来确定出最终的模体长度。例如，业界公认的MEME-ChIP算法一般让用户指定要查找的最小模体长度l_min和最大模体长度l_max，然后MEME-ChIP对于l_min和l_max区间的每种模体长度分别执行模体发现，最后通过E-value对找出的不同长度的模体进行比较，并输出得分最好的模体。根据经验，人们知道模体的长度一般为8～21。采用这种确定模体长度方法的模体发现算法有着明显的缺陷。虽然这类算法把所有长度都遍历了一遍，并取得了统计显著性最高的模体的长度值，但是此类方法消耗时间太长，而且统计显著性最高的模体不一定对应于真实的模体。

通过上述分析，现有技术存在的问题及缺陷为：

(1)模体发现有助于找出DNA序列中具有生物意义的序列片断，对研究基因表达调控起着至关重要的作用。模体长度作为模体的一个重要属性，它直接影响模体的质量。如果预测的模体长度与实际长度偏差较大，那么将导致不能得到完整的模体信息，同时也会导致找出假模体位点的概率增大。目前已经涌现了大量的模体发现算法，但是如何有效地确定模体长度仍是一个尚待解决的问题。

(2)现有确定模体长度的方法存在着难以确定阈值、耗时太长、适用性不强和不够精准等缺点。如果模体长度偏差较大，那么将直接影响找出的模体及其位点的质量，从而进一步影响基因表达调控的研究。

解决以上问题及缺陷的难度为：传统的确定模体长度的方法存在着固有的缺陷，比如难以确定阈值、耗时太长、适用性不强和不够精准等，直接对这些传统的方法进行改进难以克服这些缺陷。使用深度学习等机器学习方法有望解决这一问题。首先，机器学习需要大量特征良好的样本，如何利用已有的真实模体及其对应的序列数据集来构建识别模体长度的样本是一个难点。同时，构建合适的深度学习模型也是一个难点。在此之前，没有研究者使用深度学习技术去确定模体长度，所以模型的选择、参数调优和建模等都是尚待解决的。

解决以上问题及缺陷的意义为：鉴于现有方法存在的问题，本发明构建预测模体长度的机器学习模型，在包含模体的延伸矩阵中自动地学习模体的特征，进而可以智能地预测未知模体的长度。使用机器学习解决这一问题的条件已经具足。目前JASPAR等数据库中存储了大量可公开访问的模体，ENCODE等数据库中存储了大量可公开访问的特定模体的DNA序列数据集，利用这些数据可以构建充足的预测模体长度的训练样本。深度学习等机器学习模型近些年得到了快速的发展，并成功地应用于包含生物信息学在内的多种领域，利用深度学习可以更好地学习延伸矩阵中的模体特征并进行模体长度预测。

发明内容

针对现有技术存在的问题，本发明提供了一种基于深度学习的DNA模体长度预测方法及预测系统。

本发明是这样实现的，一种基于深度学习的DNA模体长度预测方法，包括：首先，提出了构建预测模体长度的样本数据的方法。其次，提出了基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的预测模体长度的深度学习模型。然后，给出了对提出的预测模型进行应用的方法。

进一步包括：

构建样本数据：在模体数据库中获取一个真实模体的PWM，使用PWM检测工具定位这个模体在DNA序列中的位点，对位点进行延伸，由对齐的延伸位点计算延伸矩阵M_e。

由M_e计算相对熵向量V，将V作为样本并把这个模体的长度l作为标签；

构建基于卷积神经网络的预测模体长度的深度学习模型；

预测模型的应用：用改进的模体发现算法找出的模体按照构建样本数据的方法产生延伸矩阵M_e和一个相对熵向量V，把V作为深度学习预测模型的输入；根据预测模型得出模体长度l得到优化的模体。

进一步，构建样本数据的方法进一步包括：

在JASPAR数据库中共获取人类转录因子结合位点的PWM，并在ENCODE数据库获取对应的ChIP-seq数据集；

截取真实模体PWM中相对熵高且长度较大的片段构建样本；给定一个真实模体的长度l，范围是8～21，通过公式设定截取长度k；

筛选一部分模体片断的出现位点构建样本；使用PWM检测工具Moods定位整个模体或模体片断在DNA序列数据集D中的出现位点；P表示整个模体的出现位点集合；令P^-表示模体片断的出现位点集合；令P⁺表示从P^-中筛选出的模体位点集合；

对P^-中的位点根据Moods-Score从高到低进行排序，选取排名靠前的部分位点形成P⁺，横坐标表示P⁺中位点个数与P^-中位点个数的比值，纵坐标表示P⁺中含有的真实模体位点的比例；

随着P⁺中位点个数的减少，P⁺中位点是真实模体位点的概率会变大；选取P^-中得分排名靠前的小部分位点形成P⁺，同时保证P⁺中保留足够多的位点，呈现模体PWM中各个字符的分布；用公式计算要筛选的模体片断出现位点的个数|P⁺|；

|P⁺|＝|P^-|×10％；

对于每个可能的startPos取值通过在模体片段左边和右边分别延伸startPos–1个和L–startPos–k+1个位置构建一个样本，其中k是模体片断的长度；

startPos∈[cutPos,L-l+cutPos]；

对于某些模体M_pwm生成模拟的ChIP-seq数据集D_sim，首先将D_sim初始化为t条背景序列组成的集合；然后，在D_sim中随机选取20％的序列；对于每条选出的序列s，在s的随机位置上植入模体M_pwm的一个随机实例m；m是一个与M_pwm等长的字符串，m的第j(1≤j≤l)个位置上的字符c(c∈Σ)是按照M_pwm的第j列的字符分布随机生成的。

进一步，生成的样本总个数N_sam计算方法包括：令N_dataset表示序列数据集总个数，这些数据集包含真实的ChIP-seq数据集和随机生成的数据集；令l_i表示第i个序列数据集对应的真实模体的长度；令l_min表示模体的最小长度，即标签的最小值，此值取为8；依据k的取值范围公式得到截取的模体片断的个数；依据截取的模体片断在延伸矩阵中的起始位置公式可以得到每个模体片断在延伸矩阵中可能的起始位置的个数，对于不同的模体片断长度是恒定的，均为L–l_i+1；，N_sam由公式算得；

进一步，构建基于卷积神经网络的预测模体长度的深度学习模型的方法包括：

用卷积层conv、池化层pool和全链接层net组成CNN；CNN为每个基色建立一个通道，使用卷积核对不同的通道分别进行卷积，最终把卷积后的结果进行融合；预测模体长度的样本是相对熵向量，将样本作为一维图像，且每个像素值由一个基色分量组成；将长为L的相对熵向量复制两份拓展成3×L的矩阵，记为M_input，作为模型的输入；CNN模型f(M_input)表示如下：

f(M_input)＝net(pool((conv(M_input))))；

第一层是卷积层为一个特征扫描器，在矩阵M_input中提取隐含的高相对熵片断的特征；将卷积核的长度设置为24；卷积核为3×24的矩阵；设置128个卷积核，并进行随机初始化；在训练中，更新的参数是128个3×24的卷积核和128个3×24的偏执项；将扫描输入矩阵M_input的步长设置为1；输出是一个40×128的张量，其中40是M_input的长度，128是卷积核的个数；

第二层是池化层，用于保留主要特征；这输入是卷积层输出的40×128的张量通过激活函数ReLU处理后的结果；采用最大池化进行采样，并将池化窗口大小设置为4；池化的输出是一个10×128的张量；

ReLU(x)＝max{0,x}；

第三层是神经网络，输入层是池化层输出的10×128的张量转化成的向量；通过一个隐藏层将这个向量与输出层作映射；将隐藏层中神经元的个数设置为256；从输入层到隐藏层间的参数为10×128×256个权值和相同个数的偏执项；输出层包含14个神经元，对应于14种模体长度；

从隐藏层到输出层间的参数是256×14个权值和相同个数的偏执项；在隐藏层和输出层间执行Dropout操作，在训练时随机的丢弃一些隐藏层的神经元，防止模型过拟合；如公式所示，使用Softmax函数作为激活函数，将输出层中各神经元的数值z_i(1≤i≤14)映射到[0,1]区间内：

使用交叉熵函数作为模型的损失函数；假设模型对于某个标签为y的样本的预测输出为y',样本的loss值如公式所示；使用Adam算法降低损失函数值并以此来优化模型；

进一步，预测模型应用方法包括：

一方面，在构建预测样本时，直接由M_motif定位位点并将M_motif置于延伸位点的正中心，生成一个延伸矩阵M_e，然后得到一个相对熵向量V作为预测样本；将V输入给预测模型得到模体长度；

另一方面，根据预测模型预测出的模体长度l优化现有模体发现算法找出的模体M_motif；

再有，预测模型用于加速现有模体发现算法。

进一步，根据预测模型预测出的模体长度l优化现有模体发现算法找出的模体M_motif中，或采用：将模体长度l作为模体发现算法的输入参数，以固定模体长度的模式再运行一次模体发现算法得出优化的模体；

预测模型用于加速现有模体发现算法具体包括：令现有模体发现算法只在某一模体长度下找出一个模体M_motif，然后通过预测模型预测出的模体长度l，得到优化的模体。

本发明另一目的在于提供一种基于深度学习的DNA模体长度预测系统包括：

样本数据构建模块，在模体数据库中获取一个真实模体的PWM，使用PWM检测工具定位这个模体在DNA序列中的位点，对位点进行延伸，由对齐的延伸位点计算延伸矩阵M_e，对M_e计算相对熵向量V，将V作为样本并把这个模体的长度l作为标签；

预测模体长度的深度学习模型构建模块，用于构建基于卷积神经网络的预测模体长度的深度学习模型；

预测模型应用模块，用某一模体发现算法找出的模体按照构建样本数据的方法产生延伸矩阵M_e和一个相对熵向量V，把V作为预测模型的输入；根据预测模型得出模体长度l得到优化的模体。

本发明另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

构建样本数据：在模体数据库中获取一个真实模体的PWM，使用PWM检测工具定位这个模体在DNA序列中的位点，对位点进行延伸，由对齐的延伸位点计算延伸矩阵M_e，由M_e计算相对熵向量V，将V作为样本并把这个模体的长度l作为标签；

构建基于卷积神经网络的预测模体长度的深度学习模型；

预测模型的应用：用改进的模体发现算法找出的模体按照构建样本数据的方法产生延伸矩阵M_e和一个相对熵向量V，把V作为预测模型的输入；根据预测模型得出模体长度l得到优化的模体。

本发明另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

构建基于卷积神经网络的预测模体长度的深度学习模型；

结合上述的所有技术方案，本发明所具备的优点及积极效果为：

本发明提出了用有监督的机器学习预测模体长度的一套整体解决方案。首先，提出了构建预测模体长度的样本数据的方法。其次，提出了基于卷积神经网络的预测模体长度的深度学习模型。然后，给出了对提出的预测模型进行应用的方法。实验结果表明，在预测集上，模型的预测准确率达到90％以上。利用此模型，可以更为精准地预测模体长度，可以根据预测模型预测出的模体长度l可以优化现有模体发现算法找出的模体Mmotif，可以用于加速现有模体发现算法。

在实验中，选取业界公认的模体发现算法MEME-ChIP作为对比。

一方面，设定MEME-ChIP的PWM挖掘长度区间为6～25去进行模体发现，根据模体发现的结果使用深度学习进行模体长度预测。模型预测的长度一般比模体发现算法找出的PWM的长度更接近真实PWM的长度，也即模型对模体发现算法的结果做出了优化。

另一方面，固定MEME-ChIP的PWM挖掘长度为11去进行模体发现，预测模型对此结果仍可以进行优化，同时此模式的耗时明显少于设定PWM长度区间的模式。由于模型预测的时间可以忽略不计，固定长度时MEME-ChIP的运行时间可以近似代表优化后的整体时间，优化后的整体时间明显少于不固定长度时模体发现的运行时间，也即模型可以用于加速现有模体发现算法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于深度学习的DNA模体长度预测方法及预测系统

图2是本发明实施例提供的预测模体长度的训练样本示例图。

图3是本发明实施例提供的预测模体长度的整体框架图。

图4是本发明实施例提供的构建预测模体长度的训练样本的示例图。

图5是本发明实施例提供的模体片断的出现位点中包含真实模体出现位点的观察图。

图6是本发明实施例提供的截取的模体片断在延伸矩阵中起始位置的示例图。

图7是本发明实施例提供的预测模体长度的CNN网络结构图。

图8是本发明实施例提供的280个PWM下模体长度预测准确率的箱线图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于深度学习的DNA模体长度预测方法及预测系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明提供一种基于深度学习的DNA模体长度预测方法，包括：

S101，构建预测模体长度的样本数据的方法。

S102，构建基于卷积神经网络(ConvolutionalNeural Network,CNN)的预测模体长度的深度学习模型。

S103，对提出的预测模型进行应用。

本发明提供的基于深度学习的DNA模体长度预测方法及预测系统业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的仅仅是一个具体实施例而已。

下面结合具体实施例及具体相关方案对本发明作进一步描述。

现实中进行模体发现时模体的长度是未知的。一种模体发现的策略是使用一个大于模体实际长度的值，得到包含模体在内的一个延伸矩阵，其中属于模体的列的相对熵一般高于属于背景的列的相对熵。然后，采用一个后处理步骤从延伸矩阵中裁剪出相对熵高的片断作为模体。对于这种模体发现策略，如何高精准地判断哪些列的相对熵高是一个难题。

假设模体长度l已知，那么直接在延伸矩阵中截取相对熵最大的长为l的片断就可以得到模体。换句话说，如果根据给定的延伸矩阵能智能地确定模体长度l或者是相对熵高的片断长度，就相当于找出了模体。为了迎合这一需求，目标是构建机器学习模型，在包含模体的延伸矩阵中自动地预测模体长度。

当前已有较多以PWM形式公布的模体及其对应的序列数据集，利用这些数据本发明可以建立样本集及其对应的标签，从而构建预测模体长度的有监督的机器学习模型。因为主要利用延伸矩阵的列的相对熵来确定模体长度，而不需要关心矩阵的列中字符的出现概率，本发明将延伸矩阵对应的相对熵向量作为样本。因为本发明主要关心高相对熵的片断的长度，而不是它的具体位置，本发明将真实模体的长度作为标签。

为了便于方法描述，将本发明常用的符号定义如下。D＝{s₁,s₂,…,s_t}表示含有t条DNA序列的集合，其中每条序列s_i是字符表Σ＝{A,C,G,T}上的一个字符串。M_e表示4×L的延伸矩阵，其中每个元素M_ij表示第j列(1≤j≤L)中字符i(i∈Σ)的出现概率。V表示由延伸矩阵M_e转化成的相对熵向量，其中每个元素V_j(1≤j≤L)表示M_e第j列的相对熵。b_i表示字符i(i∈Σ)在D中的出现概率。P表示模体在D中的位点延伸后得到的延伸位点集合，occ(P,i,j)表示P中位点对齐后第j列中字符i的出现个数。

如图2预测模体长度的训练样本示例图所示，以ATF3模体为例展示了它对应的一个训练样本。图2上方给出了ATF3模体在DNA序列中的位点(黄色的序列片断)，并对其向两侧分别进行了延伸(灰色的序列片断)，从而得到了ATF3模体的延伸位点集合P。将P中的位点对齐后，延伸矩阵M_e中的元素M_ij通过公式计算而得，也即M_e每一列中的4个元素分别是P中位点对齐后对应列中字符A,C,G,T的出现概率。计算M_e中每一列的相对熵得到一个相对熵向量V。同时，图2中的序列LOGO给出了M_e中每一列的相对熵的图形化展示，熵值越大，字符栈越高。本发明将V作为模体ATF3的一个训练样本，并将ATF3模体的长度12作为标签。

本发明通过构建大量真实模体对应的相对熵向量样本，使机器学习模型在相对熵向量中自动提取并学习高相对熵片断的特征，从而能够高精准地预测高相对熵片断或真实模体的长度。

在本发明中，预测模体长度的整体框架如图3所示，包含样本数据构建、预测模型构建、预测模型应用三部分。

(1)通过以下方法构建样本数据。在模体数据库中获取一个真实模体的PWM，使用PWM检测工具定位这个模体在DNA序列中的位点，对位点进行延伸，由对齐的延伸位点计算延伸矩阵M_e，由M_e计算相对熵向量V，将V作为样本并把这个模体的长度l作为标签。对于每个模体，本发明采用一些策略得到多个样本，以生成尽可能多的样本数据。对于一些模体，本发明获取不到包含这些模体位点的数据集，本发明通过随机生成模体位点的方式来产生样本。

(2)基于CNN构建模体长度预测模型。在相对熵向量中，模体对应的列是局部且连续的，并且与非模体的列的相对熵一般存在较大的差异。CNN是一种深度学习的模型，在局部特征提取方面有着杰出表现，能够提取原输入的高维抽象特征。因此，CNN适合模体长度预测模型的构建。

(3)按如下步骤来应用预测模型。首先，用某一模体发现算法(比如业界公认的MEME-ChIP算法)找出的模体按照构建样本的方法产生一个延伸矩阵M_e和一个相对熵向量V，把V作为预测模型的输入。然后，根据预测模型得出模体长度l来得到一个优化的模体。

在本发明中样本数据构建包括：

在JASPAR数据库中共获取人类转录因子结合位点的PWM，并在ENCODE数据库获取对应的ChIP-seq数据集。由一个模体生成训练样本的详细流程如图4所示。

模体发现算法找出的模体常常是真实模体的一部分。为了使模型能够根据模体片段预测出真实模体的长度，除了由整个模体，还需要由模体的片断构建训练样本。如果模体发现算法找出的是模体片断，那么这个片断往往是高相对熵的片断。另外，在构建样本时，高相对熵片段的长度k不能和真实模体长度l差别太大，否则由此片断定位到的许多位点有可能不是真实的模体位点，从而影响构建的样本的质量。因此，本发明截取真实模体PWM中相对熵高且长度较大的片段构建样本。具体而言，给定一个真实模体的长度l，它的范围一般是8～21，通过公式设定截取长度k。

在用模体片断构建样本时，为了保证样本的质量，本发明筛选了一部分模体片断的出现位点，而非全部的出现位点，来构建样本。本发明使用PWM检测工具Moods定位整个模体或模体片断在DNA序列数据集D中的出现位点。如前文所述，P表示整个模体的出现位点集合。令P^-表示模体片断的出现位点集合；令P⁺表示从P^-中筛选出的模体位点集合。通过统计观察，本发明发现P^-中的许多位点没有落入P中。如果直接用P^-中的所有位点构建样本，那么样本的质量有可能比较低，也即构建的相对熵向量V中可能会缺失完整的模体信息。以Hnf4模体和其中长度为10的相对熵最大的片断为例。

图5给出了模体片断的出现位点中包含真实模体出现位点的观察，本发明对P^-中的位点根据Moods-Score从高到低进行排序，选取排名靠前的部分位点形成P⁺，横坐标表示P⁺中位点个数与P^-中位点个数的比值，纵坐标表示P⁺中含有的真实模体位点的比例。显然，随着P⁺中位点个数的减少，P⁺中位点是真实模体位点的概率会变大。因此，本发明选取P^-中得分排名靠前的小部分位点形成P⁺，同时还要保证P⁺中保留足够多的位点，以能够较好地呈现模体PWM中各个字符的分布。具体而言，本发明使用公式计算要筛选的模体片断出现位点的个数|P⁺|。

|P⁺|＝|P^-|×10％；

在现实中，如果模体发现算法找出的是模体片断，那么这个片断不一定处于整个模体的正中心。为了使预测模型能够应对这种情况，在用截取的模体片断构建样本时，除了将模体片断置于延伸矩阵的正中心，还要考虑将其置于延伸矩阵的其他位置。根据经验，为了保证延伸矩阵在不过长的情况下包含整个模体，设定延伸矩阵的长度L为40。令cutPos表示截取的模体片断在真实模体中的起始位置。令startPos表示截取的模体片断在延伸矩阵中的起始位置。cutPos的值在截取模体片断时确定，本发明进一步根据cutPos的值来确定startPos的可能取值。如图6(截取的模体片断在延伸矩阵中起始位置的示例图)所示，当整个模体处于延伸矩阵的最左端时，startPos的取值最小，即cutPos；当整个模体处于延伸矩阵的最右端时，startPos的取值最大，即L–l+cutPos。这样，startPos的可能取值如公式所示。对于每个可能的startPos取值，本发明通过在模体片段左边和右边分别延伸startPos–1个和L–startPos–k+1个位置来构建一个样本，其中k是模体片断的长度。

startPos∈[cutPos,L-l+cutPos]；

其中，图6(a)真实模体位于延伸矩阵最左端；图6(b)真实模体位于延伸矩阵最由端。

对于本发明获得的真实模体和ChIP-seq数据集，不同长度的模体所对应的ChIP-seq数据集的个数并不均匀，特别是本发明没有为有些模体找到对应的ChIP-seq数据集。为了使生成的不同标签(模体长度)下的样本数量尽可能一致，本发明为某些模体M_pwm生成模拟的ChIP-seq数据集D_sim：首先将D_sim初始化为t条背景序列组成的集合；然后，在D_sim中随机选取20％的序列；对于每条选出的序列s，在s的随机位置上植入模体M_pwm的一个随机实例m。m是一个与M_pwm等长的字符串，m的第j(1≤j≤l)个位置上的字符c(c∈Σ)是按照M_pwm的第j列的字符分布随机生成的。

生成的样本总个数N_sam计算如下：令N_dataset表示序列数据集总个数，这些数据集包含真实的ChIP-seq数据集和随机生成的数据集；令l_i表示第i个序列数据集对应的真实模体的长度；令l_min表示模体的最小长度，即标签的最小值，现实中本发明将此值取为8；依据k的截取范围公式可以得到截取的模体片断的个数。依据截取的模体片断在延伸矩阵中的起始位置公式可以得到每个模体片断在延伸矩阵中可能的起始位置的个数，此值对于不同的模体片断长度是恒定的，都是L–l_i+1；基于此，N_sam由以下公式算得。

在本发明中预测模型构建包括：

如图7所示，本节描述如何用CNN构建预测模体长度的深度学习模型。本发明用卷积层conv、池化层pool和全链接层net组成CNN，CNN一般用于处理图像数据。因为图像中每个像素值由RGB三个基色分量组成，所以CNN为每个基色建立一个通道，使用卷积核对不同的通道分别进行卷积，最终把卷积后的结果进行融合。预测模体长度的样本是相对熵向量，本发明将其看作一维图像，且每个像素值由一个基色分量组成。为了加强相对熵向量的特征，并且遵循处理图像数据的三通道模式，本发明把长为L的相对熵向量复制两份拓展成3×L的矩阵，记为M_input，将其作为模型的输入。CNN模型f(M_input)如下：

f(M_input)＝net(pool((conv(M_input))))。

模型的第一层是卷积层，它相当于一个特征扫描器，目的是在矩阵M_input中提取隐含的高相对熵片断的特征。卷积层的关键是设置卷积核。因为模体的最大长度为21，为了使卷积核能够包含整个模体的特征，本发明将卷积核的长度设置为24。这样，一个卷积核是一个3×24的矩阵。根据经验，本发明设置了128个卷积核，并进行了随机初始化。在训练过程中，本层需要更新的参数是128个3×24的卷积核和128个3×24的偏执项。此外，因为M_input的长度不大，并且为了不遗漏特征，本发明将扫描输入矩阵M_input的步长设置为1。这一层的输出是一个40×128的张量，其中40是M_input的长度，128是卷积核的个数。模型的第二层是池化层，主要用于保留主要特征。这一层的输入是卷积层输出的40×128的张量通过激活函数ReLU处理后的结果。激活函数能让模型更好的拟合样本数据，这里选用ReLU函数是因为它实现简单、收敛速度快。本发明采用最大池化进行采样，并将池化窗口大小设置为4。这样，池化的输出是一个10×128的张量，

ReLU(x)＝max{0,x}。

模型的第三层是全连接层，即神经网络。神经网络的输入层是池化层输出的10×128的张量转化成的向量。神经网络通过一个隐藏层将这个向量与输出层作映射。本发明将隐藏层中神经元的个数设置为256。从输入层到隐藏层间的参数为10×128×256个权值和相同个数的偏执项。输出层包含14个神经元，对应于14种可能的模体长度(8bp～21bp)。从隐藏层到输出层间的参数是256×14个权值和相同个数的偏执项。本发明在隐藏层和输出层间执行了Dropout操作，在训练时随机的丢弃一些隐藏层的神经元，可以有效的防止模型过拟合。此外，如公式所示，使用Softmax函数作为激活函数，将输出层中各神经元的数值z_i(1≤i≤14)映射到[0,1]区间内，

本发明使用交叉熵函数作为模型的损失函数。假设模型对于某个标签为y的样本的预测输出为y',那么此样本的loss值如公式所示。本发明使用Adam算法降低损失函数值并以此来优化模型，

在本发明中预测模型应用包括：

首先，预测模型可以更为精准地预测模体长度。本发明由现有模体发现算法找出的模体M_motif构建一个预测样本。所使用的方法是2.3节所描述的构建训练样本的一个简化版本。在构建训练样本时，本发明考虑了模体的高相对熵片断和这些片断在延伸矩阵中的不同起始位置，这样做主要是为了在训练过程中能够覆盖模体发现算法找出的模体的不同情况。因此，在构建预测样本时，本发明直接由M_motif定位位点并将M_motif置于延伸位点的正中心，以此来生成一个延伸矩阵M_e，然后得到一个相对熵向量V作为预测样本。将V输入给本发明的预测模型即可以得到一个更为精准的模体长度。

其次，根据预测模型预测出的模体长度l可以优化现有模体发现算法找出的模体M_motif。一种方法是，在M_e中截取长为l的相对熵最大的片断作为优化的模体。另一种方法是，将模体长度l作为模体发现算法的输入参数，以固定模体长度的模式再运行一次模体发现算法得出优化的模体。

再次，预测模型可以用于加速现有模体发现算法。许多模体发现算法的策略是在每种可能的模体长度下分别找到一个模体，然后通过统计显著性评价等方式对不同长度的模体进行比较来输出最好的。一种改进的方法是，令此类模体发现算法只在某一模体长度下找出一个模体M_motif，然后通过本发明的预测模型预测出更为精准的模体长度l，从而可以得到优化的模体。这样，因为只在某一模体长度下进行模体发现，而不需要遍历所有可能的模体长度，现有模体发现算法的时间性能可以得到有效提升。

下面结合具体实验结果及实验数据对本发明作进一步描述。

实验设定

本发明在JASPAR数据库(http://jaspar.genereg.net/)中收集了280个人类模体的PWM。这些PWM的长度范围在8到21之间，每个PWM长度对应的PWM数量为20个。在收集到的280个PWM中，有74个PWM可以在ENCODE数据库(https://www.encodeproject.org/)中获取到其对应的ChIP-seq数据。对于其他的206个PWM，本发明分别为它们生成了模拟的DNA序列数据集。基于这280个PWM以及它们对应的DNA序列数据集，本发明总共构建了20300个预测模体长度的样本。

本发明用模体级别的性能系数mPC来评估模型预测模体长度的准确率。模型预测出的模体长度记为l。mPC由公式算得，其中m_k表示真实模体，m_p表示在延伸矩阵中截取出的相对熵最大的长为l的片段，len_overlap(m_p,m_k)表示m_p和m_k交叠的字符个数。

在实验过程中，本发明将模型执行于2.4GHz的单个CPU和16GB内存的Windows环境上。

模型验证

本发明采用交叉验证方法对模型进行验证。对所有的样本根据其对应的PWM共分成10折，其中每一折包含28个不同的PWM。针对每一折数据，本发明根据其他的9折数据训练一个模型，使用此模型对未参与训练的这一折样本做预测，并计算其预测准确率。

对于每个PWM，将其对应的样本的预测准确率取均值，作为此PWM下的预测准确率。图8给出了280个PWM下预测准确率的分布箱线图。可以发现，预测模体长度的平均准确率超过了90％。

优化现有模体发现算法

以MEME-ChIP为例，它是最有名的模体发现算法之一，本节讨论本发明的预测模型可以对现有模体发现算法进行优化。

首先，预测模型可以对MEME-ChIP找出的模体作进一步优化。在MEME-ChIP实验中，本发明设定MEME-ChIP挖掘的模体长度区间为6～25，取DNA序列数据集中前600条序列进行模体发现。如表1所示，本发明选取了几组代表性的实验结果进行展示。可以发现，模型预测的模体长度一般比MEME-ChIP找出的模体长度更接近真实的模体长度。本发明通过优化后的长度在延伸矩阵中截取高相对熵的片断生成新的PWM，可以得到一个优化的模体。

其次，预测模型可以提升MEME-ChIP的时间性能。在MEME-ChIP实验中，固定模体长度的挖掘模式的时间消耗要明显少于设定模体长度区间的挖掘模式。因为本发明的预测模型也可以对MEME-ChIP中固定模体长度的挖掘模式的结果进行优化，所以不需要MEME-ChIP执行设定模体长度区间的挖掘模式。表2给出了固定模体长度为11和设定模体长度区间为6～25时各自的MEME-ChIP的运行时间以及模型对固定长度模式优化后的结果。由于模型预测的时间可以忽略不计，固定长度时MEME-ChIP的运行时间可以近似代表优化后的整体时间。如表2所示，优化后的整体时间明显少于不固定长度时MEME-ChIP的运行时间；根据预测的模体长度，可以发现模型在这种情况下也能保证对模体的进一步优化。

表1.预测模型对MEME-ChIP找出的模体优化效果表

表2.预测模型提升MEME-ChIP的时间性能效果表(s:秒)

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上；术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度学习的DNA模体长度预测方法，其特征在于，所述基于深度学习的DNA模体长度预测方法包括：

构建样本数据：在模体数据库中获取一个真实模体的PWM，使用PWM检测工具定位这个模体在DNA序列中的位点，对位点进行延伸，由对齐的延伸位点根据公式计算延伸矩阵M_e，由M_e根据公式计算相对熵向量V，将V作为样本并把这个模体的长度l作为标签；

构建基于卷积神经网络的预测模体长度的深度学习模型；

预测模型的应用：用改进的模体发现算法找出的模体按照构建样本数据的方法产生延伸矩阵M_e和一个相对熵向量V，把V作为预测模型的输入；根据预测模型得出模体长度l得到优化的模体；

构建基于卷积神经网络的预测模体长度的深度学习模型的方法包括：

f(M_input)＝net(pool((conv(M_input))))；

ReLU(x)＝max{0,x}；

从隐藏层到输出层间的参数是256×14个权值和相同个数的偏执项；在隐藏层和输出层间执行Dropout操作，在训练时随机的丢弃一些隐藏层的神经元，防止模型过拟合；使用Softmax函数作为激活函数，将输出层中各神经元的数值z_i(1≤i≤14)映射到[0,1]区间内：

使用交叉熵函数作为模型的损失函数；假设模型对于某个标签为y的样本的预测输出为y',样本的loss值；使用Adam算法降低损失函数值并以此来优化模型；

预测模型应用方法包括：

第一步，在构建预测样本时，直接由M_motif定位位点并将M_motif置于延伸位点的正中心，生成一个延伸矩阵M_e，然后得到一个相对熵向量V作为预测样本；将V输入给预测模型得到模体长度；

第二步，根据预测模型预测出的模体长度l优化现有模体发现算法找出的模体M_motif；

第三步，预测模型用于加速现有模体发现算法。

2.如权利要求1所述的基于深度学习的DNA模体长度预测方法，其特征在于，计算延伸矩阵M_e公式为：

计算相对熵向量V公式为：

3.如权利要求1所述的基于深度学习的DNA模体长度预测方法，其特征在于，构建样本数据的方法进一步包括：

|P⁺|＝|P^-|×10％；

startPos∈[cutPos,L-l+cutPos]；

4.如权利要求3所述的基于深度学习的DNA模体长度预测方法，其特征在于，生成的样本总个数N_sam计算方法包括：令N_dataset表示序列数据集总个数，这些数据集包含真实的ChIP-seq数据集和随机生成的数据集；令l_i表示第i个序列数据集对应的真实模体的长度；令l_min表示模体的最小长度，即标签的最小值，此值取为8；依据公式得到截取的模体片断的个数；依据公式startPos∈[cutPos,L-l+cutPos]得到每个模体片断在延伸矩阵中可能的起始位置的个数，此值为8对于不同的模体片断长度是恒定的，均为L–l_i+1；，N_sam由公式算得；

5.如权利要求1所述的基于深度学习的DNA模体长度预测方法，其特征在于，根据预测模型预测出的模体长度l优化现有模体发现算法找出的模体M_motif中，或采用：将模体长度l作为模体发现算法的输入参数，以固定模体长度的模式再运行一次模体发现算法得出优化的模体；

6.一种如权利要求1～5任意一项所述方法的基于深度学习的DNA模体长度预测系统，其特征在于，所述基于深度学习的DNA模体长度预测系统包括：