CN114639441A

CN114639441A - 一种基于带权多粒度扫描的转录因子结合位点预测方法

Info

Publication number: CN114639441A
Application number: CN202210535743.3A
Authority: CN
Inventors: 刘振栋; 李冬雁; 戴琼海; 胡国胜; 陈曦; 吕欣荣; 秦梦颖; 柏苛; 李晓峰; 季向阳; 张伟
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-06-17
Anticipated expiration: 2042-05-18
Also published as: CN114639441B; US20230386605A1

Abstract

本发明公开了一种基于带权多粒度扫描的转录因子结合位点预测方法，该方法属于位点预测领域。该方法包含如下步骤：利用逆序列、互补序列和互补逆序列对初始数据集进行増广；使用独热编码和多碱基特征编码结合对DNA序列进行特征表示；划分训练集和测试集；计算特征的权重向量；进行带权的多粒度扫描；通过级联森林进行模型的训练得到转录因子结合位点分类预测模型；将测试集输入到该分类预测模型中，得到分类预测结果；构建评价指标对方法的性能进行评估。该方法克服了现有方法只注重单一碱基特征、训练耗时长、预测精度不高等问题，具有高度的鲁棒性和可移植性。

Description

一种基于带权多粒度扫描的转录因子结合位点预测方法

技术领域

本发明属于位点预测领域，主要是关于一种转录因子结合位点的预测方法，具体涉及到一种基于带权多粒度扫描的转录因子结合位点预测方法。

背景技术

在真核生物中，基因的表达是受很多调控因子调控的，我们把对生物体内基因的调节和控制称为基因表达调控。基因的表达调控对生物适应环境变化、实现自我调控具有极其深远的影响。在真核生物中，转录发生的时间以及转录过程的速率都可以控制基因表达，所以转录调控与基因表达的调控有着密不可分的关系。转录因子作为一种特殊的DNA结合蛋白，可以与DNA模板链结合，进而调控转录过程。转录因子参与了生命活动各个阶段的不同生物学过程，细胞的增殖、生长、分化、凋亡等过程都离不开转录因子的调控作用。转录因子功能异常会导致生命活动异常，进而导致多种疾病的发生。例如，常见的神经系统疾病、冠心病、糖尿病、高血压甚至癌症都与转录因子的变化密切相关。

转录因子结合位点是与转录因子相互结合的DNA序列上的位点，大部分位于DNA序列上游的启动子上。转录因子结合位点的研究有助于研究位点突变引起的一系列疾病，在一些癌症治疗中，转录因子结合位点也是常用的有效药物靶点，这对药物的研发和创新具有极其重要的意义。目前的转录因子结合位点预测方法普遍存在预测准确性不理想或虽然具有较高的精度，但预测实验耗时较长，并且准确度对于较小的数据集并不理想等缺陷，无法满足当前的位点预测需要。因此，我们需要对现有方法进行革新。

发明内容

针对现有转录因子结合位点预测方法的缺陷，本发明提供了一种基于带权多粒度扫描的转录因子结合位点预测方法TF_DF。TF_DF使用了组合特征表示方法来更好的表征DNA序列的潜在特征，结合带权的多粒度扫描方法和级联森林技术提升了预测结果的准确性，使得模型在训练时更加注重那些重要的特征。其目的在于解决当前转录因子结合位点预测方法中预测精度不高以及模型训练时间过长的问题。

包括如下步骤：

（1）对转录因子结合位点的初始数据集

，进行数据増广，

表示一段DNA序列片段，

表示这段DNA序列是否为结合位点，取值为binding site或non-bindingsite，计算每条数据的逆序列、互补序列和互补逆序列，将数据集数量扩展到原始数量的4倍大小，得到数据集

，并将数据集D*中的正负样本随机的进行混合；

（2）通过公式

对数据集D*中每条DNA序列数据进行独热编码得到特征向量F₁，并结合多碱基特征编码进行特征表示得到特征向量F₂，将特征向量F₁与F₂进行拼接得到组合特征表示F，通过公式

对结果类进行编码；

（3）将步骤（2）特征表示后的数据集D*按训练集样本数量和测试集样本数量的比值为Q:R进行划分，得到训练集D_train和测试集D_test，其中Q为数据集D*中训练集的样本数量，R为数据集D*中测试集的样本数量；所述的Q的取值范围为2~5，R的取值为1；

（4）使用T个决策树对训练集D_train计算权值向量

，所述d为特征长度，具体计算公式如下：

式中d为特征的总数，

为权值向量W中第i列特征的重要性得分，具体计算公式如下：

式中

为第t个决策树node节点的重要性得分，具体计算公式如下：

式中

和

分别代表该node分支下类别为0的节点的基尼指数和该node分支下类别为1的节点的基尼指数；

为每个节点的基尼指数，具体公式如下：

式中 N为训练集D_train样本数量，

为该node中类别为0的个数，

为该node中类别为1的个数；

（5）对训练集Dtrain中每个样本的特征F进行加权多粒度扫描，其具体步骤如下：使用长度为

的滑动窗口以步长为L分别在长度为d的特征向量F和权值向量W上滑动，将窗口内的特征向量单独提取出来，得到长度为

的

和

，u为滑动窗口滑动的次数，u的取值范围是

；

根据公式

计算加权多粒度扫描的特征，式中

为向量

的转置；将特征

分别送入一个完全随机森林A和一个普通随机森林B，分别得到

和

；最后将

和

进行特征拼接得到特征F*；

（6）将F*输入到级联森林，进行模型的训练，得到一个转录因子结合位点分类预测模型，将测试集D_test输入到该分类预测模型中，输出结果为1或0；1代表该DNA序列为转录因子结合位点，0代表该DNA序列为非转录因子结合位点。

优选的，所述多碱基特征编码方法，特征列的长度L可根据公式

获得，其中m为多碱基中碱基长度，m取值为3，碱基A、T、C、G可以组成长度为3bp的序列集合C为：{'AAA', 'AAT', 'AAG', 'AAC', 'ATA', 'ATT', 'ATG', 'ATC', 'AGA', 'AGT', 'AGG', 'AGC', 'ACA', 'ACT', 'ACG', 'ACC', 'TAA', 'TAT', 'TAG', 'TAC', 'TTA', 'TTT', 'TTG', 'TTC', 'TGA', 'TGT', 'TGG', 'TGC', 'TCA', 'TCT', 'TCG', 'TCC', 'GAA', 'GAT', 'GAG', 'GAC', 'GTA', 'GTT', 'GTG', 'GTC', 'GGA', 'GGT', 'GGG', 'GGC', 'GCA', 'GCT', 'GCG', 'GCC', 'CAA', 'CAT', 'CAG', 'CAC', 'CTA', 'CTT', 'CTG', 'CTC', 'CGA', 'CGT', 'CGG', 'CGC', 'CCA', 'CCT', 'CCG', 'CCC'}，集合C中每个元素设置为一个特征列，共计64个特征列，其元素即为该特征列的特征名；

所述特征向量F₂的计算方式为：从DNA序列样本的起始端，以步长为1，长度为3bp的窗口在DNA序列样本上进行滑动提取特征，该窗口中序列所对应的特征列取值为1，直至DNA序列样本末端，即特征向量F₂的长度为64。

优选的，步骤（3）中Q的取值为4，R的取值为1。

优选的，步骤（4）中T的取值为462，树的最大深度为11。

优选的，步骤（5）中

的取值为50，L取值为1。

优选的，步骤（7）中k的取值为5。

与现有技术方法相比，本发明的有益效果是：

本方法TF_DF实现了对转录因子结合位点的高精度预测，尤其是针对小数据集的位点预测。该方法摒弃了单一碱基特征的思想，结合了多碱基特征编码来提取每个碱基上下文的特征，提高了分类预测结果的准确率。同时，基于特征的重要性不同思想，对多粒度扫描进行优化，以获得更好的性能，并使用级联森林进行模型的训练和预测。与现有的转录因子结合位点预测方法相比，本发明具有更高的效率和准确度，且具有更好的鲁棒性和可移植性。

附图说明

图1为基于带权多粒度扫描的转录因子结合位点预测方法流程图；

图2为DNA序列扩展构建数据集示意图；

图3为DNA序列的独热编码规则示意图；

图4为DNA序列数据转换为结合独热编码和多碱基特征编码的特征表示示意图；

图5为DNA序列特征的权值计算结果图；

图6为带权的多粒度扫描方法流程图；

图7为使用组合特征表示方法与单一碱基特征表示方法预测转录因子结合位点类别精度结果对比图。

具体实施方式

为了清楚的阐明本发明的技术方案，下面结合附图1到附图7以及实例对本发明进行阐述，此处的实例仅用于解释本发明，并不限定本发明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语与本发明所属技术领域的普通技术人员的通常理解具有相同含义。

图1展示了使用TF_DF方法预测转录因子结合位点的流程步骤。在数据预处理阶段对初始数据集进行数据増广和特征提取，使用处理好的特征进行模型构建。以带权的多粒度扫描技术为基础，结合级联森林技术对模型进行训练，并使用测试集验证模型的性能。可以说明的是，该方法同样适用于其他DNA结合位点和基于序列特征的遗传元件。本实施例选取的数据集为人类1号染色体的转录因子SP1结合位点数据集。

TF_DF方法的输入文件包含一个CSV类型文件。Raw_data.csv文件为包含人类1号染色体的转录因子SP1结合位点的正样本和负样本各1200条，即原始数据集D。每条数据包含长度为14个碱基的DNA序列和其对应的类别（即结合位点和非结合位点），在该数据集基础上进行初始数据预处理；TF_DF方法的输出文件包含一个CSV类型文件和一个output类型文件。sequence_feature.csv文件为数据预处理得到的数据集D*；TF_classification.output文件为使用TF_DF方法输出的测试集中各位点的预测类别。TF_DF方法的输出为该方法预测的各DNA序列是否为转录因子结合位点。

TF_DF预测方法具体可分为以下步骤：

1、数据预处理

本实施例对人类1号染色体的转录因子SP1结合位点数据集D={D₁, D₂, ..., D_n}进行预处理。考虑到数据量较少，首先需要对数据集进行数据増广。根据DNA结合位点的序列特征，我们找到每个DNA序列的逆序列、互补序列和互补逆序列，将阳性和阴性样本的数量都扩大到4800条(图2)；将阳性和阴性样本随机的混合。然后，通过公式

对数据集D*中每条DNA序列数据进行独热编码得到特征向量F₁(图3)。最后，多碱基特征编码中设置序列片段长度为3bp，即由碱基A、T、C、G组成的3bp长度的序列集合C长度为64（64个特征列）。对于每条数据，如果包含某个序列特征，则将该数据对应的特征列记录为“1”，以此构成特征向量F₂。最终获得的每条数据的特征F是一个独热编码和多碱基特征编码的组合，即特征向量F₁和特征向量F₂的拼接(图4)。数据预处理操作（以数据{‘ATCCGTTTCCGGGT’，‘binding site’}为例）：

（1）根据DNA序列的逆序列、互补序列和互补逆序列扩充的3条数据分别为{‘TGGGCCTTTGCCTA’，‘binding site’}，{‘TAGGAAAAGGCCCA’，‘binding site’}，{‘ACCCGGAAACGGAT’，‘binding site’}；

（2）以数据{‘ATCCGTTTCCGGGT’，‘binding site’}为例展示特征提取示例，对该DNA序列数据进行独热编码得到特征向量F₁ 为(1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1,0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1)；

（3）结合多碱基特征编码对该DNA序列进行特征表示得到特征向量F₂为 (0, 0,0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0,0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 1, 1, 0, 0, 0, 1, 0)；

（4）对特征向量F₁和特征向量F₂进行拼接得到特征向量F为 (1, 0, 0, 0, 0, 0,0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1,0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0,0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0,0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 1, 1, 0, 0, 0, 1, 0)；

（5）通过公式

对结果类进行编码，即结果类为转录因子结合位点；

在本实施例中，数据预处理之后数据集D*包含正样本4800个，负样本4800个，每条样本数据包含120个特征项和1个结果特征类。将正负样本进行打乱混合。

2、划分训练集和测试集

将步骤（1）特征表示后的数据集D*按训练集样本数量和测试集样本数量的比值为4:1进行划分，得到训练集D_train和测试集D_test；该实例数据集划分后训练集D_train和测试集D_test中的样本数量分别为7680个和1920个。

3、特征权重计算

使用462个决策树对训练集D_train进行权值向量W的计算。根据公式

计算每个节点的基尼指数

，式中N为训练集D_train样本数量，N_node,0为该node中类别0的个数，N_node,1为该node中类别1的个数。根据公式

计算每个节点的重要性得分

，式中

和

分别代表该node分支下类别为0的节点的基尼指数和该node分支下类别为1的节点的基尼指数。根据公式

计算第i列特征的重要性得分

，式中T为决策树的个数。根据公式

进行每个特征的权值计算W_i，式中

为第i列特征的重要性得分，d为特征的总数。

在本实例中，权值排名靠前的10个部分特征以及其对应的权值结果为：

图5展示了DNA序列所有的特征以及其权值计算结果。

4、带权的多粒度扫描

如图6所示，对训练集D_train中每个样本的特征F进行加权多粒度扫描，其具体步骤如下：使用长度为

的滑动窗口分别在长度为120的特征向量F和权值向量W上滑动，得到

和

。根据公式

计算加权多粒度扫描的特征，式中

为向量

的转置。将特征

和

。最后将

和

进行特征拼接得到特征F*。

5、转录因子结合位点的预测

将F*输入到级联森林，进行模型的训练，得到一个转录因子结合位点分类预测模型。将测试集D_test分别输入到该分类预测模型中，以验证模型的性能。

以预测DNA序列“GGGGCGGGGCCGGC”为例。则该DNA序列的最终分类预测结果为‘1’，即为转录因子结合位点。

6、方法性能评估

根据5折交叉验证和三种评价指标对该方法的性能进行评估，分别通过公式

，公式

计算该方法的准确度和F₁值，式中a为预测分类结果与实际分类结果一致的样本个数，b为测试集D_test中样本个数，p值和r值分别通过公式

和公式

计算得到，式中TP为预测分类结果为转录因子结合位点且实际分类结果也为转录因子结合位点的数据点的个数，FP为预测分类结果为转录因子结合位点但实际分类结果为非转录因子结合位点的数据点的个数，FN为预测分类结果为非转录因子结合位点但实际分类结果为转录因子结合位点的数据点的个数；准确度可视为算法输出结果正确率的百分比，取值范围为[0,1]。准确度越接近1，正确预测的样本数越高，反之越接近0，正确分类结果的数量越少。F₁值较高时，可以表明该算法更接近理想状态。AUC 值为ROC曲线下坐标轴所包围的面积，它更能客观地反映模型的能力。一般来说，AUC 值越高，算法的性能越强。通过上述计算公式可得测试集D_test的准确度、F1值和AUC分别为0.8943、0.8920和0.9219。

不仅单个碱基的特征对于识别DNA序列中的TFBS很重要，每个碱基旁边的碱基也可能很重要。为了证实这个思想，我们在几个模型上比较了单一基础特征和结合多碱基特征编码方法组合表示的特征。

实验结果（图7）表明，在所有算法中，使用组合特征的分类预测结果的准确性都不同程度地优于使用单一特征的分类预测结果。使用Deep Forest和LightGBM算法后，预测结果的准确性得到有效提升，分别提高了1.75% 和2.54%。因此，我们可以得出结论，组合特征改进了DNA序列特征的提取。我们认为组合特征表示可以捕获DNA序列中的更多特征信息。在实验中，当特征序列的长度设置为3bp时获得了最佳结果，这可能与氨基酸是由三个碱基组成的事实有关。

将数据集D*进行划分后输入TF_DF方法进行模型训练；实现对预测集中各位点的高精度预测。我们对所有提出的分类算法进行了 15 次实验。为了保证公平的对比，每次试验都使用相同的训练数据和测试数据，并且每个模型的参数设置也相同。下表展示了KNN、Adaboost、随机森林、LightGBM、深度森林和TF_DF方法的 15 次实验的平均结果。

相比之下，方法TF_DF的准确率、F1值和AUC分别为89.43%、89.20%和92.19%，都不同程度地高于其他分类算法。这表明方法TF_DF具有更高的预测能力。对比实验结果可以得出结论，本发明设计的TF_DF方法提高了分类器的准确度能力和性能。也就是说，TF_DF方法在转录因子结合位点的分类和预测领域比以往的分类算法的效果要强。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施案例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施案例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。