CN114864002A

CN114864002A - 一种基于深度学习的转录因子结合位点识别方法

Info

Publication number: CN114864002A
Application number: CN202210469236.4A
Authority: CN
Inventors: 黄德双; 徐尤红; 元昌安
Original assignee: Guangxi Academy of Sciences
Current assignee: Guangxi Academy of Sciences
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-08-05
Anticipated expiration: 2042-04-28
Also published as: CN114864002B

Abstract

本发明公开了一种基于深度学习的转录因子结合位点判别方法,包括以下步骤：获取免疫共沉淀测序和红蛋白修饰数据；对上述免疫共沉淀测序和组蛋白修饰数据进行数据处理并进行编码；构建DeepCR模型，将上述编码数据进行训练并优化参数，获得最优参数的模型；按照模型输入数据的格式给定序列，使用得到的模型判断其是否包含转录因子结合位点。本发明通过构建DeepCR模型准确识别转录因子结合位点。

Description

一种基于深度学习的转录因子结合位点识别方法

技术领域

本发明属于转录因子结合位点识别技术领域，尤其涉及一种基于深度学习的转录因子结合位点识别方法。

背景技术

转录因子的研究是生物信息学中的重点研究工作，是研究细胞转录过程的重要步骤。TF会和DNA的非编码区进行特异性结合并影响下游基因的表达，形成复杂的基因调控系统，此外还有大量的研究表明TF能指导疾病的诊断和治疗，所以准确识别TF结合位点(TFBinding Sites,TFBSs)就显得尤为关键。从最开始的序列比对算法到支持向量机为代表的机器学习算法再到神经网络模型，从独热编码到基于k-mer的编码再到embedding编码，TFBSs识别模型有了很大的完善与发展。但是这些模型基本上都是以DNA序列为代表的各种数据变体作为输入数据。

高通量测序技术的发展给我们带来了海量的DNA和蛋白质数据，如何从数据中挖掘有价值的信息成为了今天的热点研究方向。本文就另辟蹊径，重点研究输入数据对于TFBSs预测效果的影响。TF作为蛋白质的一种，但是它有着和DNA序列进行特异性结合的能力，因此DNA序列和TF调控的蛋白质产物或许就会有助于识别TFBSs。我们就尝试研究DNA序列、保守信息和表观基因组数据作为模型的输入数据的作用，为此提出了识别模型和定位模型。其中，识别模型用来识别给定的序列是否包含TFBSs，定位模型用来确定TFBSs的位置。

在TFBSs的识别模型中，我们研究了DNA序列、免疫共沉淀测序和组蛋白修饰信息作为输入数据的作用，同时还探讨了卷积层和循环层提取特征的区别。为此，本文提出了DeepCN和DeepCR两个模型，DeepCR使用两个卷积层来提取特征，DeepCR使用一个卷积层和一个循环层来提取特征。试验结果表明，不管是DeepCN模型还是DeepCR模型，免疫共沉淀测序信息和组蛋白修饰信息作为DNA序列的附加输入数据都有着显著的效果提升，并且两种数据全部加上时DeepCR模型比DeepCN模型效果更好。因此，亟需一种基于深度学习的转录因子结合位点识别方法。

发明内容

本发明的目的在于提出一种基于深度学习的转录因子结合位点识别方法，提高了转录因子结合位点的识别精度。

为实现上述目的，本发明提供了一种基于深度学习的转录因子结合位点识别方法，包括以下步骤：

获取免疫共沉淀测序和红蛋白修饰数据；

对上述免疫共沉淀测序和组蛋白修饰数据进行数据处理并进行编码；

构建DeepCR模型，将上述编码数据进行训练并优化参数，获得最优参数的模型；

按照模型输入数据的格式给定序列，使用得到的模型判断其是否包含转录因子结合位点。

可选的，所述数据处理的数据编码过程包括：根据所述免疫共沉淀测序和所述组蛋白修饰数据获得一条长度为n的DNA序列，根据所述长度为n的DNA序列进行数据编码获得一个长度为n、6通道的数据，其中前4个通道对应着{A、C、G、T}子序列的独热编码，后2个通道分别对应免疫共沉淀测序和组蛋白修饰数据。

可选的，所述数据处理的数据集构建过程包括：按照一定的比例选择正例样本和反例样本组成数据集，所述正例样本以结合位点为中心，向前后扩展选取长度为101bp的序列；所述反例样本选择在结合位点后3000个bp的位置。

可选的，构建所述DeepCR模型包括：所述DeepCR模型包括卷积层和循环层，所述卷积层为所有的局部基序计算一个得分，基于卷积层结合循环层，提取除了局部基序附近序列中的内部模式信息，基于所述卷积层提取的分数作为输入信息，用来识别基序得分序列的交互模式，引入的循环层主要用来更好地提取前序序列携带的特征信息。

可选的，训练所述DeepCR模型包括获取所述损失函数包括：基于所述正例样本和反例样本数据采用二分类计算损失函数，计算如下：

式中：y_i表示样本i的label，正例为1，反例为0；p_i表示样本i被预测为正例的概率。

可选的，训练所述DeepCR模型包括对所述编码数据进行分类。

可选的，优化所述DeepCR模型包括获取评价指标包括：选择使用Adam优化算法来更新参数，同时对于dropout层的丢弃率参数、L2正则化权重衰减参数和Adam算法当中使用的动量参数，采用网格搜索的策略来寻找最优组合参数。

可选的，所述正例样本为正例的数据中被预测为正的比例，所述反例样本为反例的数据中被预测为正例的比例。

本发明技术效果：本发明公开了一种基于深度学习的转录因子结合位点识别方法，免疫共沉淀测序信息和组蛋白修饰信息作为DNA序列的附加输入数据都有着显著的效果提升，并且两种数据全部加上时DeepCR模型比DeepCN模型效果更好，有效的提高了转录因子结合位点识别精度。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例基于深度学习的转录因子结合位点识别方法的流程示意图；

图2为本发明实施例DeepCN模型结构示意图；

图3为本发明实施例DeepCR模型结构示意图；

图4为本发明实施例DeepCN模型加上组蛋白修饰信息(histone modifications,HMS)、MDS(MeDIP-seqs，MDS)的AUC(左)和AR(右)示意图；

图5为本发明实施21个TFs数据集上取平均值的结果示意图；

图6为本发明实施例DeepCR模型加上HMS、MDS的AUC(左)和AR(右)示意图；

图7为本发明实施例DeepCR模型在21个TFs数据集上取平均值的结果示意图；

图8为本发明实施例DeepCN和DeepCR模型效果比较示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，本实施例中提供一种基于深度学习的转录因子结合位点识别方法，包括以下步骤：

获取免疫共沉淀测序和红蛋白修饰数据；

进一步优化方案，所述数据处理的数据编码过程包括：根据所述免疫共沉淀测序和所述组蛋白修饰数据获得一条长度为n的DNA序列，根据所述长度为n的DNA序列进行数据编码获得一个长度为n、6通道的数据，其中前4个通道对应着{A、C、G、T}子序列的独热编码，后2个通道分别对应免疫共沉淀测序和组蛋白修饰数据。

进一步优化方案，所述数据处理的数据集构建过程包括：按照一定的比例选择正例样本和反例样本组成数据集，所述正例样本以结合位点为中心，向前后扩展选取长度为101bp的序列；所述反例样本选择在结合位点后3000个bp的位置。GM12878细胞系上选择的21个TFs的正例和反例样本数量如下表1所示。为了准确地评估提出模型的性能，采用了k折交叉验证的策略，也就是将数据集划分成k等份，其中k-1份作为训练数据集，另外的一份作为测试数据集验证模型效果，然后重复k次。

表1

进一步优化方案，构建所述DeepCN模型包括：所述DeepCN模型包含两个卷积层，并在卷积层后面使用了dropout技巧可以降低模型过拟合的风险以提高鲁棒性，还使用了局部池化的技巧来减少特征图的维度，从而减少数据量。采用第一卷积层为所有的局部基序计算一个得分；再用第二卷积层提取除了局部基序附近序列中的内部模式信息；第一卷积层提取分数作为第二卷积层的输入信息，用来识别基序得分序列的交互模式，同时采用第一卷积层结合第二卷积层提高了DeepCN模型的感受野，对序列进行整体的模式识别，再将DeepCN模型对所述DNA序列编码提取信息输入到一个两层的全连接神经网络中进行分类，如图2所示。

由于DNA序列是一维的数据，所以模型中的卷积层是一维卷积，输入数据经过卷积层的计算如下公式：

式中，I是卷积层的输入，o是输出数据的索引下标，k表示第k个卷积核，W^k表示第k个卷积核的权重矩阵，形状是S*N，其中S表示卷积核的大小，N表示输入数据的通道数。

全连接层接在卷积层的后面作为分类模型来使用，输入数据经过全连接层的计算如下公式：

式中，y是输入数据，b表示偏置，w是层之间的权值矩阵，d就是输入层的神经元个数。

Dropout技巧是在模型的训练过程当中适当地丢弃一些神经元，一般采用伯努利分布进行采样来决定是否丢弃神经元，也就是不让它们向后传播信息，这样可以降低模型的复杂度，从而减少过拟合的风险。在全连接层后面加上dropout后计算如下公式：

激活函数的选择基本上不会使用sigmoid函数，提出的模型当中，使用的是非线性的ReLU函数，它可以给模型引入非线性的特征。ReLU激活函数见公式：

最后是一个softmax层，它能够将输入的M维向量z归一化成M个概率分布，M个概率相加和为1，计算如下公式：

输入数据是(B,101,6)，网络模型中各层的具体参数设置及输出数据尺寸见下表2。

表2

进一步优化方案，构建所述DeepCR模型包括：基于所述DeepCN模型，将所述第二卷积层替换为循环层；基于第一卷积层结合循环层，提取除了局部基序附近序列中的内部模式信息，基于所述第一卷积层提取的分数作为输入信息，用来识别基序得分序列的交互模式，引入的循环层主要用来更好地提取前序序列携带的特征信息，从而形成“记忆”功能，如图3所示。

进一步优化方案，基于所述正例样本和反例样本数据采用二分类计算损失函数，计算如下：

按照1:1的比例选择了正例样本和反例样本数据，我们选择了准确率和AUC这两个评价指标，在二分类问题中，标签为1的归属为正例，为0的归属为负例，如果预测的类别和实际类别一致就归属为预测正确，反之就归属为预测错误，由此可以得到一个混淆矩阵，如表3所示。

表3

从表中我们可以计算准确率、真正例率和假正例率，其中AR是指分类正确的数据占数据总数的比例，TPR是指实际类别为正例的数据中被预测为正的比例，FPR是指实际类别为反例的数据中被预测为正例的比例，计算公式如下：

AUC表示接收者操作特征曲线和横轴的之间的区域的面积，其数值在0到1之间，具体含义是指分类模型预测得到正例样本的概率数值大于预测为负例样本概率的概率，AUC值越大说明模型的效果越好。ROC曲线的横轴是FPR，纵轴是TPR，ROC曲线绘制算法如表4所示。

表4

还可以采用另外一种算法，AUC的含义是样本被预测为正例的概率值大于其被预测为反例的概率值的概率。如果有两个样本(一正一反)，模型预测的概率分别是p和q，这时计算的AUC如下式：

得到AUC直接计算算法，如表5所示。

表5

进一步优化方案，分类过程包括：对于模型中的权值参数，使用Xavier初始化，权值W符合式的均匀分布，偏置统一初始化为0。

式中，n表示W权值参数所在层的输入维度，m表示输出维度。

分类模型的学习过程是先前向传播得到损失函数的数值，在反向传播更新参数，更新算法有随机梯度下降算法、基于动量的随机梯度下降算法、自适应次梯度算法、均方根传递算法和适应性矩估计算法，各种优化算法的具体参数更新见下表6。对于表中使用的符号说明：m表示一阶导的累加(

是修正版本的m)，v表示一阶导的平方的累加(

是修正版本的v)，g表示一阶导(

是一阶导的平方，而不是二阶导),α和β是超参数，θ是要更新的参数。

表6

进一步优化方案，模型训练过程包括：选择使用Adam优化算法来更新参数，同时对于dropout层的丢弃率参数、L2正则化权重衰减参数和Adam算法当中使用的动量参数，采用网格搜索的策略来寻找最优组合参数，超参数列表和试验当中网格搜索的区域如表7所示。

表7

为了验证免疫共沉淀测序信息、组蛋白修饰数据信息、卷积层和循环层的效果，在GM12878细胞系的21个随机挑选的TFs数据集上进行了一系列的消融试验。

首先是DeepCN模型的结果，使用两个卷积层来提取特征，图4中左图是AUC指标，右图是AR指标，从图中可以看出，加上HMS和MDS数据在21个TFs上能够实现对仅使用DNA数据作为输入数据的全包围，这表明HMS和MDS对于识别TFBSs有着明显的效果提升。最外层是加上HMS和MDS两个数据作为DNA数据的附加数据的效果，可以看到能够实现对仅加上HMS或者MDS数据的全包围，这也告诉我们加上两个数据比加上其中一种的效果要好。图5是在21个TFs数据集上取平均值的结果展示，我们是在GM12878细胞系随机选择的21个数据集，从平均值上来看能够整体上知道模型效果的好坏。仅将DNA序列作为模型的输入数据的AUC(AR)指标平均值为0.8630(0.6704)，而附加上HMS数据和MDS数据的AUC(AR)指标分别是0.9007(0.6994)和0.8990(0.7175)，同时附加上HMS和MDS数据的AUC(AR)指标是0.9163(0.7322)，也就是说相比于仅使用DNA序列数据，附加HMS数据AUC(AR)能够提升3.77％(2.90％)，附加MDS数据AUC(AR)能够提升3.60％(4.71％)，同时附加HMS和MDS数据AUC(AR)能够提升5.33％(6.18％)。

再来看看DeepCR模型的结果，该模型使用一个卷积层和一个循环层来提取特征，图6中左图是AUC指标，右图是AR指标，从图中可以看出，加上HMS和MDS数据的DeepCR模型在21个TFs上能够实现对仅使用DNA数据作为输入数据的全包围，这表明HMS和MDS对于识别TFBSs有着明显的效果提升。最外层是加上HMS和MDS两个数据作为DNA数据的附加数据的效果，可以看到能够实现对仅加上HMS或者MDS数据的全包围，这也告诉我们加上两个数据比加上其中一种的效果要好。这告诉我们，不管使用DeepCN模型，还是DeepCR模型，HMS和MDS数据对于效果都有着显著的提升。图7是DeepCR模型在21个TFs数据集上取平均值的结果展示，仅将DNA序列作为模型的输入数据的AUC(AR)指标平均值为0.8540(0.6836)，而附加上HMS数据和MDS数据的AUC(AR)指标分别是0.8929(0.7226)和0.8917(0.7286)，同时附加上HMS和MDS数据的AUC(AR)指标是0.9203(0.7436)，也就是说相比于仅使用DNA序列数据，附加HMS数据AUC(AR)能够提升3.89％(3.90％)，附加MDS数据AUC(AR)能够提升3.77％(4.50％)，同时附加HMS和MDS数据在评价指标AUC(AR)上能够提升6.63％(6.00％)。

再来看看DeepCN模型和DeepCR模型的对比，其实就是将DeepCN模型的第二个卷积层和DeepCR模型的循环层的效果进行比较，我们选择DNA序列附加上HMS和MDS数据作为模型的输入数据，也就是比较最好的模型效果，结果展示如下图8所示。可以看出，在GM2878细胞系随机选择的21个TFs中，DeepCR模型在AUC指标和AR指标上都全部在DeepCN之上，这说明卷积层之后接上循环层比卷积层能够更好地识别基序得分序列的交互模式。就平均值来说，AUC指标能够提升0.43％，AR指标可以提升1.14％。

经过前面模型训练我们可以得到一个最优参数组合的分类模型，可以按照下列的步骤对于新给定的DNA序列进行识别：

从给定的DNA序列中选出一段段长度为101bp的子序列；

对于子序列，经过独热编码，并将对应位置的免疫共沉淀测序何组蛋白信息加上得到编码数据；

将编码数据输入到训练好的模型中进行分类，预测结果为1那么就说明子序列包含转录因子结合位点，否则就不包含。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于深度学习的转录因子结合位点识别方法，其特征在于，包括以下步骤：

获取免疫共沉淀测序和红蛋白修饰数据；

2.如专利要求1所述的基于深度学习的转录因子结合位点识别方法，其特征在于，所述数据处理的数据编码过程包括：从DNA序列中选出长度为n的子序列，附加上免疫共沉淀测序和组蛋白修饰数据获，再进行数据编码获得一个长度为n、6通道的数据，其中前4个通道对应着{A、C、G、T}子序列的独热编码，后2个通道分别对应免疫共沉淀测序和组蛋白修饰数据。

3.如专利要求2所述的基于深度学习的转录因子结合位点识别方法，其特征在于，所述数据处理的数据集构建过程包括：按照1:1的比例选择正例样本和反例样本组成正例样本和反例样本数据集，其中正例样本是以转录因子结合位点为中心，向前后平衡扩展选取长度为101bp(base pair)的序列，反例样本就选择在对应的正例样本的中心位置向后3000个bp的位置，长度也为101bp。

4.如专利要求3所述的基于深度学习的转录因子结合位点识别方法，其特征在于，构建所述DeepCR模型包括：所述DeepCR模型包含一个卷积层和一个循环层，其中卷积层能够为所有可能的局部基序计算一个得分，循环层以前面的卷积层提取的分数作为输入，用来提取附近序列中的内部模式信息，用来识别基序得分序列的交互模式，引入的循环层主要用来更好地提取前序序列携带的特征信息，形成“记忆”功能。

5.如专利要求4所述的基于深度学习的转录因子结合位点识别方法，其特征在于，训练所述DeepCR模型包括获取所述损失函数包括：基于所述正例样本和反例样本数据采用二分类交叉熵损失函数，计算如下：

6.如专利要求5所述的基于深度学习的转录因子结合位点识别方法，其特征在于，训练所述DeepCR模型包括对所述编码数据进行分类。

7.如专利要求6所述的基于深度学习的转录因子结合位点识别方法，其特征在于，优化所述DeepCR模型包括获取评价指标包括：选择使用Adam优化算法来更新参数，同时对于Dropout层的丢弃率参数、L2正则化权重衰减参数和Adam算法当中使用的动量参数，采用网格搜索的策略来寻找最优组合参数。

8.如专利要求7所述的基于深度学习的转录因子结合位点识别方法，其特征在于，所述正例样本为正例的数据中被预测为正的比例，所述反例样本为反例的数据中被预测为正例的比例。