CN115410643A

CN115410643A - 一种基于stacking集成学习的增强子的预测方法、系统、设备及存储介质

Info

Publication number: CN115410643A
Application number: CN202210943595.9A
Authority: CN
Inventors: 吴昊; 刘梦迪
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-11-29

Abstract

本发明涉及一种基于stacking集成学习的增强子的预测方法、系统、设备及存储介质，该方法可以通过提取DNA序列中的多种特征并进行特征融合，然后使用构建的集成学习模型来预测增强子与增强子的强度。本研究提出的预测模型可以仅使用DNA序列数据通过计算方法实现增强子与增强子强度的预测而无需费时费力且成本高昂的生物实验。此外，本研究提出的预测方法不仅可以预测增强子还可以将预测到的增强子根据其强度预测为强增强子或弱增强子。本技术可以应用于生物医学上对基因增强子的检测，在节约大量的金钱和时间成本的同时更好地分析疾病和预防疾病。

Description

一种基于stacking集成学习的增强子的预测方法、系统、设备及存储介质

技术领域

本发明涉及一种基于stacking集成学习的增强子的预测方法、系统、设备及存储介质，属于生物信息学技术领域。

背景技术

增强子位于结构基因附近，是一类远端顺式作用的DNA调节元件。增强子在不同时间调节不同细胞系中的基因表达中起着至关重要的作用。它们在真核发育过程中通过结合转录因子、辅因子以及染色质复合物作用于启动子，通过增加启动子的转录活性，来增加基因转录的频率。增强子相关染色质修饰成分和基因组非编码区的突变可能导致疾病。因此，从DNA序列中识别增强子对于疾病治疗和药物靶点至关重要。但是，增强子自由分布在基因组的非编码区，没有特定的序列特征，并且远离目标启动子，因此增强子的识别仍具有一定的挑战。

早期的研究通过生物实验来识别增强子，昂贵且耗时。后来的研究通过增强子附近或内部的生物信号来识别增强子，但是此类研究通常依赖于多种复杂的功能基因组信号，例如组蛋白修饰数据，调控因子结合数据，染色质的可及行相关数据等，给实际的应用带来了巨大的不便。并且，增强子是由许多不同亚型组成的一大组功能元件，例如强增强子和弱增强子，它们对转录活性的增强效应也不同。因此，为了更具体的探究增强子调控基因的机制，很有必要对其亚型进行识别与分类。当前的研究中，有一些只使用DNA序列信息来预测增强子与增强子的类型的方法被陆续提出。然而这些方法的性能较差，难以满足对预测工作的高精度的要求。因此仅使用DNA序列数据实现增强子和增强子类型的高精度的预测成为了预测增强子的重要研究方向。

机器学习是实现人工智能的手段，从数据中获得预测函数使得机器可以根据数据进行自动学习，通过算法使得机器能从大量训练数据中学习规律从而对新的样本做出预测。随着硬件计算能力和大数据的发展，机器学习在生物信息学领域中得到了广泛的应用。Stacking也是机器学习的一种方法，它是一个层级的集成学习方法，一般情况下分为两层，利用基学习器学习特征，然后把基学习器的预测值作为第二层的输入并再次训练。这样做的目的是为了给第一层预测的结果分配不同的权重，这样让每个基学习器都有其侧重点，充分的利用了每个基学习器的特点。其目的是学习到每个基学习器的优点，然后更好的去做分类任务。因此，通过stacking集成学习算法捕获数据特征可以有效地提升预测增强子和增强子的类型的性能。

在现实中，增强子及增强子类型的预测存在数据要求高和预测精度低的问题。数据要求高的问题导致获取数据的成本高、任务重；预测精度低的问题导致预测结果的可信度较低，难以进行下一步分析。因此本技术仅使用DNA序列数据一种数据，构建了一个基于集成学习方法预测增强子以及增强子类型的高精度模型有效地解决了上述问题。

发明内容

针对现有技术的不足，本发明提供了一种基于stacking集成学习的增强子的预测方法及系统，通过改进现有的特征提取方法并融合了多种特征，使用stacking集成学习算法构建出一个有效鲁棒的预测模型来实现对DNA序列中的增强子以及增强子强度的预测。最后，本研究提出的预测方法与传统的机器学习方法和先前研究的预测方法进行了比较，本技术提出的预测模型通过DNA序列信息来预测增强子及其强度的能力是最佳的。

本发明的技术方案为：

一种基于stacking集成学习的增强子的预测方法，包括：

采用若干种方法对DNA序列进行特征提取，分别生成一组特征向量；然后对生成的若干组特征向量进行特征融合，得到特征矩阵；

构建的stacking集成学习模型；

训练stacking集成学习模型；

将待检测的DNA序列经过特征提取、特征融合得到特征矩阵后输入训练好的stacking集成学习模型，进行增强子和增强子类型检测，得到预测结果。

根据本发明优选的，采用若干种方法对DNA序列进行特征提取，分别生成一组特征向量；然后对生成的若干组特征向量进行特征融合，得到特征矩阵；具体包括：

采用Kmer法、伪二核苷酸组成(PseDNC)法、平行相关伪二核苷酸组成(PC-PseDNC)法和相位特异性单核苷酸频率的Z曲线参数(Z_curve_9bit)法对DNA序列进行特征提取，得到四组特征向量，然后将四组特征向量融合在一起生成特征矩阵；

Kmer是一种简单且有效的DNA/RNA序列特征提取方法，它代表了K个相邻核酸的出现频率。Kmer法采用长度为K，步长为1的滑动窗口，截取DNA序列，获得Kmer片段；

PseDNC是一种可以结合局部和全局的DNA片段的序列模式信息的特征提取方法。PseDNC的每个组成部分都是通过一系列自协方差和交叉协方差变换从一个物理化学矩阵中得到的。本研究利用反映DNA序列结构特征的6个理化指标，即Twist、Tilt、Roll、Shift、Slide和Rise，生成了PseDNC特征向量。

PseDNC法用于研究反映DNA序列结构特征的6个理化指标,六个理化指标包括Twist、Tilt、Roll、Shift、Slide和Rise；

特征提取方法PCPseDNC的原理与PseDNC类似，不同的是，PCPseDNC考虑了38个理化指标。PCPseDNC的详细理化指标如表1所示。

PCPseDNC法用于研究反映DNA序列结构特征的二核苷酸的38个理化指标,相位特异性单核苷酸频率的Z曲线参数(Z_curve_9bit)法使用几何的方法来唯一的表示一条DNA序列，因此，Z_curve_9bit可以从几何的角度解析DNA序列中的信息。

相位特异性单核苷酸频率的Z曲线参数(Z_curve_9bit)法用于从几何的角度解析DNA序列中的信息；

特征矩阵构成数据集，数据集分为训练集和测试集,训练集用来训练stacking集成学习模型，测试集用来测试stacking集成学习模型。

本研究分别使用这四种特征提取方法提取了原始序列数据集的特征向量，将这四组特征向量合并成为一种新的融合特征矩阵，用于接下来模型的训练。

根据本发明优选的，构建的stacking集成学习模型的具体过程为：

stacking集成学习模型包括基模型和元模型，基模型用于对原始特征的重新转换，元模型用于对不同的基分类器对同一数据集的不同决策能力进行集成，以此提高stacking集成学习模型的预测的性能；

使用K近邻(KNN)算法构建了5个不同参数的基分类器作为stacking集成学习模型的基模型，不同基分类器之间相互独立，在训练时并行计算；

基分类器的参数包括n_neighbors、leaf_size、weight和p，n_neighbors即为K值，是KNN算法最关键的参数，通过设置不同的K值使得KNN模型达到不同的效果；leaf_size是计算树算法的叶子节点数目；weight用于标识每个样本的近邻样本的权重；p表示距离度量，p＝1表示曼哈顿距离。

对于一组分类数据，计算在多维空间中的样本点之间的距离，然后进行排序，根据所选的K值来判断该样本点属于样本多的那一类别，对于样本点之间距离的计算；

K近邻(k-Nearest Neighbors，KNN)算法是一种机器学习分类算法，1968年由Cover和Hart提出，应用场景有字符识别、文本分类、图像识别等领域。本研究通过设置不同的K值，构建了5个具有差异但性能较优的分类器作为基分类器，这5个基分类器共同组成stacking集成模型的基模型。

进一步优选的，当stacking集成学习模型对增强子识别和增强子类型的进行预测时，基分类器设置了不同的K值，以更好的利用KNN算法的性能；当进行增强子识别时，五个不同的基分类器的K值分别为17、18、19、20、23；当进行增强子类型的实验预测时，五个不同的基分类器的K值分别为2、4、5、6、8。

同时，为了避免过拟合，使用逻辑回归(LR)算法构建元模型；

逻辑回归(Logistic Regression)是一个简单的线性模型，为了避免过拟合，本研究采用逻辑回归算法构建元模型，最大迭代次数为50000，惩罚项为l2正则化，正则化系数C为1.0，求解最优化问题的方法为sag法，对于多分类问题的策略直接采用多分类逻辑回归策略；

stacking集成学习模型中基模型的输入数据为特征矩阵，由5个基分类器进行并行学习，并使用这5个训练好的基分类器对测试数据进行预测，将预测的结果作为元模型的输入数据，元模型学习后的预测结果即为stacking模型的预测结果。

根据本发明优选的，stacking集成学习模型的训练过程如下：

步骤1：训练集有m个样本，独立测试集有n个样本，得到了融合特征矩阵训练集F_Train和测试集F_Test；

为了避免过拟合，本研究采用10折交叉验证训练模型；

步骤2：使用KNN算法，构建出5个参数不同的模型作为基分类器Model_i,i＝1,2,3,4,5，这5个基分类器具有差异且彼此相互独立，并行的训练训练集F_Train；

步骤3：在stacking内部的基模型层，每个基分类器Model_i分别在F_Train上进行5次交叉验证，即每个基分类器都取4折进行训练，取一折作为验证集，使用4折训练好的模型来对1折的验证集进行预测，共进行5次；此处的5折交叉验证在stacking内部进行，与外部的10折交叉验证不同。合并每次对验证集的预测结果，得到m*1的矩阵Train_i(i＝1,2,3,4,5)；

步骤4：使用5折交叉验证中每次训练的模型对测试集F_Test进行预测，将F_Test产生的五组预测结果求平均值，得到一个n*1的矩阵Test_i；

步骤5：重复步骤3和步骤4，直到每个基分类器Model_i完成5次交叉验证和预测；然后将5个Train_i矩阵和5个Test_i矩阵分别合成m*5的矩阵F’_Train和n*5的矩阵F’_Test；

步骤6：将F’_Train和F’_Test作为新的特征输入到元模型中，使用逻辑回归模型训练F’_Train，并在F’_Test上进行预测，此时预测的结果即为stacking集成学习最终的预测结果；stacking集成模型使用10折交叉验证进行训练，并在独立测试集评估了模型的性能。

上述基于stacking集成学习的增强子的预测系统，用于实现上述基于stacking集成学习的增强子的预测方法，包括：

特征提取融合模块，用于采用若干种方法对DNA序列进行特征提取，分别生成一组特征向量；然后对生成的若干组特征向量进行特征融合，得到特征矩阵；

模型构建模块，用于构建的stacking集成学习模型；

模型训练模块，用于训练stacking集成学习模型；

stacking集成学习模型检测模块，用于将待检测的DNA序列经过特征提取融合模块特征提取、特征融合得到特征矩阵后输入训练好的stacking集成学习模型，进行增强子和增强子类型检测，得到预测结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于stacking集成学习的增强子的预测方法步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于stacking集成学习的增强子的预测方法步骤。

本发明的有益效果为：

1.本发明提供的一种基于stacking集成学习的增强子的预测方法研究成本低，无需进行昂贵耗时的生物实验；仅依赖DNA序列数据，无需研究其他复杂的生物信号数据。

2.本发明提供的一种基于stacking集成学习的增强子的预测方法不仅可以检测增强子还可以检测增强子的类型。

3.相比其他现有的预测器，本发明采用的stacking集成学习模型能够更加准确的识别增强子以及增强子的类型，只有在准确识别到增强子的基础上才能进一步研究其调控机制和致病原理，所以本研究为此类研究打下了更好的基础。

附图说明

图1为stacking集成模型与现有预测器预测增强子的性能比较；

图2为stacking集成模型与现有预测器预测增强子类型的性能比较；

图3为基于单一特征的模型与基于组合特征的模型预测增强子的性能比较；

图4为基于单一特征的模型与基于组合特征的模型预测增强子类型的性能比较；

图5为本发明提供的一种基于stacking集成学习的增强子的预测方法的总体框架；

图6为基分类器与集成模型预测增强子的性能比较示意图；

图7为基分类器与集成模型预测增强子类型的性能比较示意图。

具体实施方式

下面结合实施例和说明书附图对本发明做进一步说明，但不限于此。

实施例1

一种基于stacking集成学习的增强子的预测方法，包括：

采用若干种方法对DNA序列进行特征提取，分别生成一组特征向量；然后对生成的若干组特征向量进行特征融合，得到特征矩阵；具体包括：

Kmer是一种简单且有效的DNA/RNA序列特征提取方法，它代表了K个相邻核酸的出现频率。Kmer法采用长度为K，步长为1的滑动窗口，截取DNA序列，获得Kmer片段；本研究利用了序列中Kmer(K＝1,2,3)的所有可能的频率作为特征。对于每一个K，可以得到4^K，因此通过该特征提取方法，取K＝1，2，3时，共得到84维的特征向量。

PCPseDNC法用于研究反映DNA序列结构特征的二核苷酸的38个理化指标,表1为二核苷酸的38个理化指标；

表1

相位特异性单核苷酸频率的Z曲线参数(Z_curve_9bit)法使用几何的方法来唯一的表示一条DNA序列，因此，Z_curve_9bit可以从几何的角度解析DNA序列中的信息。

特征矩阵构成数据集，数据集分为训练集和测试集,训练集用来训练stacking集成学习模型；测试集用来测试stacking集成学习模型。

构建的stacking集成学习模型的具体过程为：

stacking集成学习模型的框架如图5所示，stacking集成学习模型包括基模型和元模型，基模型用于对原始特征的重新转换，元模型用于对不同的基分类器对同一数据集的不同决策能力进行集成，以此提高stacking集成学习模型的预测的性能；

使用K近邻(KNN)算法构建了5个不同参数的基分类器作为stacking集成学习模型的基模型，不同基分类器之间相互独立，在训练时并行计算；基分类器的参数包括n_neighbors、leaf_size、weight和p，n_neighbors即为K值，是KNN算法最关键的参数，通过设置不同的K值使得KNN模型达到不同的效果；leaf_size是计算树算法的叶子节点数目；weight用于标识每个样本的近邻样本的权重；distance表示权重和距离成反比例，对于样本分布较混乱的数据是一个合适的选择。p表示距离度量，p＝1表示曼哈顿距离。

进一步优选的，当stacking集成学习模型对增强子识别和增强子类型的进行预测时，基分类器设置了不同的K值，以更好的利用KNN算法的性能；当进行增强子识别时，五个不同的基分类器的K值分别为17、18、19、20、23；当进行增强子类型的实验预测时，五个不同的基分类器的K值分别为2、4、5、6、8。基分类器具体参数如表2所示。

表2

同时，为了避免过拟合，使用逻辑回归(LR)算法构建元模型；

逻辑回归(Logistic Regression)是一个简单的线性模型，为了避免过拟合，本研究采用逻辑回归算法构建元模型，参数如下：max_iter＝50000,penalty＝'l2',C＝1.0，multi_class＝'multinomial',solver＝'sag'。最大迭代次数为50000，惩罚项为l2正则化，正则化系数C为1.0，求解最优化问题的方法为sag法，对于多分类问题的策略直接采用多分类逻辑回归策略；

训练stacking集成学习模型，训练过程如下：训练的过程step1-6，结合图5；

步骤1：训练集有m个样本，独立测试集有n个样本。当进行增强子识别时，m＝2968，n＝400；进行增强子类型识别时，m＝1484，n＝200。通过前面概述的特征工程，使用本研究的特征编码方案，得到了融合特征矩阵训练集F_Train和测试集F_Test。

为了避免过拟合，本研究采用10折交叉验证训练模型；

与已有技术相比，本发明的方法首先改进并提出了一种新的特征提取方法，从而有效提高了模型的预测能力。并构建了一种新型的集成了多个单一分类器的stacking集成学习模型，进一步提高模型的性能。

采用使用十折交叉验证训练模型，选择准确度(ACC)，敏感度(SN)和马修斯相关系数(MCC)作为评估指标，并在一个从未参与过训练的独立数据集上评估了模型的性能。作为对比，首先评估了本申请提出的方法和已有的方法预测增强子和增强子类型的性能，如图1所示。其中图1中Enhancer identification代表模型预测增强子的性能，图2中Enhancerclassification代表模型预测增强子类型的性能。

我们将对比的方法按照算法的类型分为三组:(i)第一组使用传统的单机器学习算法来构造分类器，可以看出SVM是最受欢迎的算法。(ii)第二组基于集成学习方法。(iii)第三组是基于深度学习(DL)的方法来建立他们的模型。表3为不同方法构造的stacking模型中基分类器的参数。

表3

图1和图2中，Modelstack代表stacking集成模型。由图1可以看出，与现有模型相比，本申请提出的提出的模型(stacking集成模型)有着更卓越的性能。iEnhancer-SKNN识别增强子的所有性能达到最佳：ACC(81.75％)、SN(85.00％)和MCC(63.63％)。iEnhancer-SKNN的ACC、SN和MCC分别高出其他预测器2.75％-8.75％、3％-14％和5.13％-17.59％。

除此之外，由图2中可以看出，在增强子类型预测中，stacking集成模型也获得了所有最佳性能指标：ACC(80.50％)、SN(100.00％)和MCC(66.25％)。iEnhancer SKNN的ACC、SN和MCC分别比其他预测器高出5.5％-25.5％、3.9％-55％和15.75％-56.04％。

上述结果表明，stacking集成模型在识别增强子和增强子类型方面表现出色，与其他现有研究模型相比具有更好的性能。因此总体而言，本发明提出的方法在预测精度上有着明显的改善，更加符合实际应用的需要。

特征提取是机器学习工作流程中非常关键的一步，为了挖掘出DNA序列中更多的关键信息，本研究采用了四种特征提取方法：Kmer，伪二核苷酸组成(PseDNC)，平行相关伪二核苷酸组成(PC-PseDNC)和相位特异性单核苷酸频率的Z曲线参数(Z_curve_9bit)来进行特征编码工作，分别提取出四组特征向量并融合在一起生成新的特征融合矩阵用作模型的输入。

为了进一步分析这种新的组合特征的有效性与贡献，将基于单一特征的模型与基于特定组合特征的模型在预测增强子和增强子的类型方面进行了性能对比。单一特征即分别采用Kmer，PseDNC，PCPseDNC和Z-Curve9进行特征提取。

研究发现：基于特征组合的模型在所有性能指标上与基于单一特征的模型相比都达到了最优。相较于基于单一特征的模型，如图3所示，本模型预测增强子的ACC，SN和MCC提升了1.75％-2.75％，3％-5％，3.58％-5.53％。

如图4所示，预测增强子类型的ACC提升了1.5％-3％，SN达到最佳值100％，MCC提升了2.34％-4.66％。

上述结果表明，通过组合特定的特征可以有效地提高模型识别增强子和增强子类型的性能。因此我们的方法从数据层面有效提高了模型的预测精度。

为了验证集成模型的集成效果，将基分类器预测增强子和增强子类型的性能与stacking集成模型的性能进行对比。结果如图6和图7所示，其中Base i(i＝1,2,3,4,5)分别代表由KNN算法构建的5个基分类器，Modelstack代表stacking集成模型，且Modelstack的基分类器即为Base i。通过对比我们发现，stacking集成模型在增强子识别和增强子类型识别上的所有性能均优于其基分类器，并且通过集成这5个基分类器，模型的预测性能在各项指标上均有较大提升。与基分类器相比，集成模型将预测增强子的性能ACC提高了0.25％-1.5％，SN提高2％-3％，MCC提高0.6％-3.11％；预测增强子类型的性能ACC提高2.5％-4.5％，MCC提高3.89％-6.89％，并且SN保持在最高100％。

上述结果表明，通过使用stacking集成学习算法集成多个优质且具有差异的基分类器可以有效提高模型识别增强子和增强子类型的能力。通过改进模型的结构，从模型层面进一步提升了预测精度，更全面地满足实际应用的要求。

实施例2

上述基于stacking集成学习的增强子的预测系统，用于实现实施例1提供的基于stacking集成学习的增强子的预测方法，包括：

模型构建模块，用于构建的stacking集成学习模型；

模型训练模块，用于训练stacking集成学习模型；

实施例3

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现实施例1提供的基于stacking集成学习的增强子的预测方法步骤。

实施例4

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1提供的基于stacking集成学习的增强子的预测方法步骤。

Claims

1.一种基于stacking集成学习的增强子的预测方法，其特征在于，包括：

构建的stacking集成学习模型；

训练stacking集成学习模型；

2.根据权利要求1所述的一种基于stacking集成学习的增强子的预测方法，其特征在于，采用若干种方法对DNA序列进行特征提取，分别生成一组特征向量；然后对生成的若干组特征向量进行特征融合，得到特征矩阵；具体包括：

3.根据权利要求1所述的一种基于stacking集成学习的增强子的预测方法，其特征在于，构建的stacking集成学习模型的具体过程为：

基分类器的参数包括n_neighbors、leaf_size、weight和p，n_neighbors即为K值，通过设置不同的K值使得KNN模型达到不同的效果；leaf_size是计算树算法的叶子节点数目；weight用于标识每个样本的近邻样本的权重；p表示距离度量，p＝1表示曼哈顿距离；

使用逻辑回归(LR)算法构建元模型；

采用逻辑回归算法构建元模型，最大迭代次数为50000，惩罚项为l2正则化，正则化系数C为1.0，求解最优化问题的方法为sag法，对于多分类问题的策略直接采用多分类逻辑回归策略；

4.根据权利要求3所述的一种基于stacking集成学习的增强子的预测方法，其特征在于，当stacking集成学习模型对增强子识别和增强子类型的进行预测时，基分类器设置了不同的K值，当进行增强子识别时，五个不同的基分类器的K值分别为17、18、19、20、23；当进行增强子类型的实验预测时，五个不同的基分类器的K值分别为2、4、5、6、8。

5.根据权利要求1所述的一种基于stacking集成学习的增强子的预测方法，其特征在于，stacking集成学习模型的训练过程如下：

步骤1：训练集有m个样本，独立测试集有n个样本，得到了融合特征矩阵训练集F_Train和测试集F_Test；采用10折交叉验证训练模型；

步骤3：在stacking内部的基模型层，每个基分类器Model_i分别在F_Train上进行5次交叉验证，即每个基分类器都取4折进行训练，取一折作为验证集，使用4折训练好的模型来对1折的验证集进行预测，共进行5次；合并每次对验证集的预测结果，得到m*1的矩阵Train_i(i＝1,2,3,4,5)；

6.一种基于stacking集成学习的增强子的预测系统，其特征在于，用于实现权利要求1-5任一项所述的基于stacking集成学习的增强子的预测方法，包括：

模型构建模块，用于构建的stacking集成学习模型；

模型训练模块，用于训练stacking集成学习模型；

7.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-5任一项所述的基于stacking集成学习的增强子的预测方法步骤。

8.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的基于stacking集成学习的增强子的预测方法步骤。