CN113362900A

CN113362900A - 一种预测n4-乙酰胞苷的混合模型

Info

Publication number: CN113362900A
Application number: CN202110663188.8A
Authority: CN
Inventors: 黄国华; 张桂阳; 罗威
Original assignee: Shaoyang University
Current assignee: Shaoyang University
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-09-07

Abstract

本发明公开了一种新的混合ac4C预测方法(CNNLSTMac4CPred)，包括：利用已知的N4‑乙酰胞苷修饰数据，使用深度卷积神经网络(CNN)和长短时记忆(LSTM)来提取序列中隐藏的语义，并提取传统特征KNF(k核苷酸频率)和PseTNC(伪三元组核苷酸组成)将语义特征和传统特征相结合，训练极限梯度提升（XGBoost）分类器并进行预测，该发明能够提取DNA序列的语义，有效地预测N4‑乙酰胞苷修饰位点。

Description

一种预测N4-乙酰胞苷的混合模型

技术领域

本发明涉及计算生物分子学领域，特别是涉及利用人工智能理论和方法计算预测N4-乙酰胞苷修饰位点。

背景技术

核苷修饰是半个世纪前发现的，是细胞过程中的调节机制之一，并已被证明有助于RNA完成不同的功能。例如，核苷修饰影响RNA结构和RNA与其他分子的相互作用，参与疾病的病理过程和基因表达的调节，并起信号作用。核苷修饰广泛存在于真核生物和原核生物的tRNA、rRNA和mRNAs中。到目前为止，已在RNA分子中鉴定出163种不同的转录后核苷修饰，包括7-甲基鸟苷(M7G)、N1-甲基腺苷(M1A)、N6-甲基腺苷(M6A)、5-羟甲基胞嘧啶(Hm5C)、5-甲酰胞苷(F5C)和N4-乙酰胞苷(Ac4C)。Ac4C是一种进化保守的核苷修饰基因，广泛存在于人和酵母的tRNA、rRNA和mRNA中。Ac4C的形成与疾病相关的N-乙酰基转移酶10(NAT10)密切相关。Ac4C在细胞过程中扮演着多种角色。mRNA的ac4C促进mRNA的稳定性和蛋白质翻译效率。tRNAs的ac4C对蛋白质翻译的高保真有很大贡献，并保持了生物体的耐热性。rRNA的ac4C有利于蛋白质的精确翻译。据报道，ac4C与多种人类疾病有关。

Ac4C的检测是进一步研究其生物学功能的关键。在过去的50年里，至少有14种生物物理或生化技术被开发出来用于ac4C的检测，包括酶联免疫分析、高效液相色谱(HPLC)、反相高效液相色谱(RP-HPLC)、液相色谱-串联质谱(LC-MS)和毛细管电泳(CE)。这些生物物理或生化技术极大地促进了ac4C或ac4C相关领域的发展。然而，正如一枚硬币有正反两面，这些技术也有不好的一面，即耗时和劳动密集型。

最近，赵等人提出了自己的观点，提出了一种识别ac4C的计算方法PACES。PACES是一种基于随机森林的分类器，以RNA序列为输入，计算位置相关的二核苷酸序列谱(PSDSP)和k-核苷酸频率(KNF)两种特征，并输出RNA序列的预测标签。与前面提到的技术完全不同，PACES通过学习已知的ac4C序列，为快速检测ac4C构建了一个计算模型。因此，该方法特别适用于ac4C的大规模鉴定。同样，Alam等人也是如此，提出了一种基于极端梯度Boost的ac4C检测方法XG-ac4C。XG-ac4C提取了六类特征：One-hot，核苷酸化学性质，核苷酸密度，K-mer，EIIP，PseEIIP。为了进一步提高预测性能，XG-ac4C采用特征选择技术来选择信息特征。PACES和XG-ac4C都属于基于机器学习的方法。基于机器学习的方法的预测精度不仅取决于机器学习算法，还取决于特征提取。在语言句子中，语境中的词应该有一定的语义关系。DNA序列与核苷酸是单词的句子非常相似，因此，我们假设DNA序列具有语义，PACES和XG-ac4C无法提取DNA序列的语义，受DNA序列语义的启发，我们提出了一种新的混合ac4C预测方法(CNNLSTMac4CPred)。CNNLSTMac4CPred使用深度卷积神经网络(CNN)和长短时记忆(LSTM)来提取DNA序列的语义特征，与PACES和XG-ac4C一样，CNNLSTMac4CPred也提取了KNF和PseTNC(伪三元组核苷酸组成)，结合语义特征、KNF和PseTNC训练XGBoost分类器。

发明内容

本发明主要解决的技术问题是准确预测N4-乙酰胞苷(Ac4C)修饰位点，针对现有方法的不足，提出了一种新的混合ac4C预测方法(CNNLSTMac4CPred)。CNNLSTMac4CPred使用深度卷积神经网络(CNN)和长短时记忆(LSTM)来提取DNA序列的语义特征，结合KNF (k核苷酸频率)和PseTNC(位置特异性三核苷酸序列)特征训练XGBoost分类器，最后用训练好的极限梯度提升（XGBoost）分类器进行预测，该发明能够提取DNA序列的语义，有效地预测N4-乙酰胞苷修饰位点。

为解决上述问题，本发明提出了一种新的混合ac4C预测方法(CNNLSTMac4CPred)，步骤如下。

步骤1：对于每个DNA序列，将序列中的三个核苷酸组成一个词，在保留了一个同义词之后用数字进行编码。

步骤2：将用数字编码好的N4-乙酰胞苷序列输入到用长短时记忆网络和卷积神经网络搭建的CNNLSTM模型中，将模型中最后第二层的输出视为N4-乙酰胞苷序列的语义特征。

步骤3：对于每个DNA序列进行KNF (k核苷酸频率)和PseTNC(位置特异性三核苷酸序列)特征编码。

步骤4：构建极限梯度提升（XGBoost）模型，在极限梯度提升（XGBoost）模型中优化参数，训练极限梯度提升（XGBoost）模型并使用训练后的极限梯度提升（XGBoost）模型预测N4-乙酰胞苷修饰位点。

有益结果。

本发明将利用已知的N4-乙酰胞苷修饰数据直接输入到用长短时记忆网络和卷积神经网络搭建的深度学习模型中，将模型中最后第二层的输出视为N4-乙酰胞苷序列的语义特征；训练后的模型充当特征提取器，结合KNF (k核苷酸频率)和PseTNC(位置特异性三核苷酸序列)特征，极限梯度提升用作最终分类器，训练极限梯度提升（XGBoost）模型并使用训练后的极限梯度提升（XGBoost）模型预测N4-乙酰胞苷修饰位点；该模型对未知DNA序列也可以进行N4-乙酰胞苷修饰预测。本发明解决了不能够提取DNA序列的语义有效地预测N4-乙酰胞苷修饰位点的问题，提出了一种新的混合ac4C预测方法(CNNLSTMac4CPred)，能够快速有效地预测N4-乙酰胞苷修饰位点。

附图说明

图1是本发明CNNLSTMac4CPred的原理结构图。

图2是DNA序列中的单词示例图。

图3是CNNLSTM结构图。

图4是CNNLSTM语义特征的UMAP可视化。

图5是是本发明的5倍交叉验证的ROC曲线图。

图6是是本发明的独立测试的ROC曲线图。

图7是组合特征的UMAP可视化。

具体实施方式

以下结合附图和具体实施例对本发明作进一步说明。

本专利实现流程如附图1所示，下面进行详细说明。

第一步：使用Zhao等人划分好的数据集。Zhao等人使用的阳性和阴性样品均从先前公布的高通量数据集提供的2134个基因中提取。数据集包含训练集与测试集，训练集中有1160个阳性样品，10855个阴性样品，测试集中有469个阳性样品，4343个阴性样品。

第二步：通过CNNLSTM模型获取序列的语义特征。其中又详细分为以下几个部分：K-mer序列分割；数字编码；用长短时记忆网络和卷积神经网络搭建CNNLSTM模型；输出CNNLSTM模型中最后第二层的语义特征。

（1）K-mer序列分割。K-mer是指将基因序列分成包含k个碱基的字符串，一般长短为m的序列可以分成m-k+1个碱基组。DNA序列由A、T、G和C四个字符组成，如果一个或两个字符是一个词，则词汇过于简单，不能很好地提取RNA序列的语义，本专利将DNA序列中的三个核苷酸组成一个词，具体操作过程如附图2所示。

（2）数字编码。DNA序列经K-mer处理后，将获得新形式在保留一个同义词之后，用数字进行编码。

（3）构建的CNNLSTM模型如附图3所示主要包含：嵌入层、一维卷积层、池化层、双向长短时记忆网络层、丢弃层、扁平化层和完全连接层。构建的CNNLSTM模型组成框架如下。

（a）嵌入层是CNNLSTM的第一层，将词的整数索引映射到密集的低维向量。这一层通常是从文本到矢量的桥梁。这里，输入是形状(批次大小、序列长度)，输出是形状(批次大小、序列长度、嵌入维度)。

（b）一维卷积层。卷积神经网络(CNN)广泛应用于图像识别、语音识别、生物医学等方面。随着深度学习的发展，CNN就像砖头一样，成为复杂深度学习模式的重要组成部分。CNN的核心是卷积层，它学习了输入的高级表示，因此充当特征提取器。卷积层的每个神经元与前一层的相邻神经元相连，称为感受区。卷积层的输入和输出有时被称为特征图。卷积层的输入称为输入特征图，输出称为输出特征图。本专利对特征图使用一维卷积，即以嵌入层的输出作为一维卷积层的输入。

（c）池化层。在卷积神经网络中通常会在相邻的卷积层之间加入一个池化层，池化层可以有效的缩小参数矩阵的尺寸，从而减少最后连接层的中的参数数量。所以加入池化层可以加快计算速度和防止过拟合的作用。池化（pooling）是在不同的通道上分开执行的，池化操作不改变通道数，且不需要参数控制。

（d）双向长短时记忆网络层。递归神经网络(RNN)是一种特别适用于序列分析的神经网络模型，RNN的显著优势在于它利用了序列中的上下文信息，但RNN没有处理长距离依赖的问题，容易导致梯度消失或爆炸。为了解决这一问题，人们提出了长短时记忆(LSTM)结构。简单地说，LSTM用长短期记忆模块取代了RNN的部分隐含层。为了获取DNA序列的双向语义，本专利使用了双向递归神经网络(Bidirectional RNN)。双向RNN由两个LSTM组成：一个是前向的，另一个是后向的。前向LSTM有助于学习前一种表征，后向LSTM有助于学习相反方向的表征。

（e）丢弃层。Hinton提出的丢弃是解决过度贴合问题的较好方案之一。当训练数据较少时，深度学习模型容易过拟合，与正则化不同，该算法在训练过程中按一定比例丢弃一部分神经元，并全部采用预测神经元。丢弃是一种简单而有效的学习方式，因此构建深度学习模型已成为当务之急。

（f）扁平化层和完全连接层。扁平化层用于将多维输入转换为一维输出。扁平化层没有任何参数，其作用是帮助后续构建完全连通的层。全连接层类似于传统的多层感知，相当于一个特征空间变换，可以把有用的信息提取整合。

（4）利用训练集对CNNLSTM模型进行训练。对于正负样本不平衡(负样本数远远大于正数样本数)，本专利设定类的权重与正负样本数之比成正比。将序列输入到训练好的CNNLSTM模型中，将完全连通层的输出作为26464维向量的语义特征。

第三步：KNF特征。KNF描述了序列中存在k个核苷酸的所有可能的多核苷酸的频率。本专利把k分别设为2、3和4。双核苷酸有16个组合(AA、AT、AG、AC)，三核苷酸有64个组合，4个核苷酸有256个组合。KNF产生ANT，因此KNF是一个16+64+256=336维向量。

第四步：PseTNC特征。由提出的PseTNC是一种对DNA/RNA序列进行编码的方法。 PseTNC与伪氨基酸组成(PseAAC)非常相似，被广泛应用于细胞定位预测，膜蛋白类型分类，识别翻译后修饰位点。给定DNA/RNA序列R₁R₂…R_L，其中L是序列中的核苷酸数目，PseTNC被定义为载体：

，其中f_k（k = 1,2,...,64）反映了序列中三核苷酸的归一化出现频率，λ代表沿着序列的相关性的最高计数等级，w是权重因子，范围从0到1；θ_j（j = 1,2,...,λ）是第j层相关因子，定义如下：

。其中θ₁映了DNA序列上所有最相邻的三元组核苷酸之间的序列顺序相关性。Θ定义相关函数的位置：

。其中ξ表示物理和化学指示器的数量。H_u(R_iR_i+1R_i+2)是三核苷酸R_iR_i+1R_i+2在位置i的第u个理化指标的数值，PseTNC反映了局部序列顺序和全局序列顺序信息。本专利使用了三核苷酸的全部12个理化性质，权重因子ω 设置为0.05，λ设置为200。因此，每个DNA序列被编码成264维的向量。

第五步：构建极限梯度提升分类器。梯度提升决策树(GBDT)以其高效、准确、可解释等特点成为一种流行的机器学习算法。GBDT已被广泛用于多类分类、点击预测和排名。 GBDT是一种附加模型。即在训练过程中，将贪婪学习用于前向分布，在每次迭代中学习一棵分类回归树(CART)，以拟合前t-1棵树的预测结果与训练样本真实值之间的残差。极限梯度提升（XGBoost）是GBDT的实现之一。与GBDT相比，XGBoost做了一些改进，在效果和性能上都有了显著的提高。首先，GBDT将目标函数扩展到一阶Taylor，而XGBoost将目标函数扩展到二阶Taylor，保留了更多关于目标函数的信息，这有助于改进效果；其次，GBDT是为新的基本模型寻找新的拟合标签，而XGBoost是为新的基本模型寻找新的目标函数。第三，XGBoost 增加了叶重的L2正则化项，使模型的方差更小。假设数据集为{(x₁,y₁),(x₂,y₂),⋯,(x_N, y_N)}，其中N为样本数，x₁∈R^m，y_i为第i个样本的标签。XGBoost是一个加法模型，假定由t个树组成。第i个预测由以下公式计算：

，其中

是第t次迭代后样本i的预测结果，

是前t-1棵树的预测结果，f_t(x_i)是第t次迭代的树。损失函数可由预测值

与真实值y_i进行表示：

，为了减少或避免过拟合，在损失函数中加入了正则化。因此，上式被重写为：

，其中 Ω(f_t)是正则化项，第一项是残差之和。决策树Ω的复杂度由叶节点的数量决定。叶节点越少，模型越简单。此外，叶节点不应包含太多权重。因此，目标函数的正则化项由向量的L2范式确定，该向量由所有生成的决策树的叶节点数和所有节点的权重组成，由下式定义：

，其中λ和γ是两个用户定义的超级参数，T是叶节点的数量，ω_j是第j 个叶节点的权重。与传统的GBDT使用一阶泰勒展开不同，XGBoost使用二阶泰勒展开来逼近损失函数，也就是：

，这里

和

。为了加快计算速度，XGBoost将样本的计算转移到了引线节点的权重上，下式被定义为落入第j个叶节点的样本数：

。其中q(x_i)表示树结构，上面几个公式被积分到：

，这里

和C是一个常数。在上式中，当叶节点的权重被设置为：

。目标函数达到最优值：

，上式被视为评估第t个决策树的质量的度量。从理论上讲，有可能列举出所有的树。但在实践中，这样做是不可能的。为了降低计算复杂度，交替使用贪婪算法，该算法从单个叶节点开始，迭代地向树中添加分支。

第六步：参数优化。为了重现结果，我们将XGBoost的种子设置为100，对XGBoost中的其他参数也进行了优化，对具有CNNLSTM语义特征的训练集进行了五次交叉验证。性能最好的参数被保留下来并随后被使用。

。

用Umap将提取出的CNNLSTM语义特征可视化（如附图4），由此可知此特征效果较好，可以很好地将阳性阴性数据区分开。

第七步：将第一步分好的测试集输入到第二步CNNLSTM模型提取语义特征，结合KNF和PseTNC特征，然后用训练好的极限梯度提升（XGBoost）分类器进行预测。

本专利基于三种特征编码方式计算了它们的性能，在单个特征中，语义特征最好，KNF次之，PseTNC次之，即ac4CDNA序列具有语义性，这三种特征的组合获得了0.9004的AUC值（如附图 5），优于其他四种方法。在独立测试上，在单一特征类型上，CNNLSTM语义特征优于KNF和PseTNC，证实了其优越性和有效性。CNNLSTM语义、KNF和PseTNC的组合效果最好(AUC=0.8825)（如附图 6）。

目前有两种计算方法来预测N4-乙酰胞苷(Ac4C)。一个是PACES，另一个是XG-ac4C，下表列出了三种方法的AUC值：PACES、XG-ac4C和CNNLSTMac4Cpred。无论是交叉验证还是独立测试，CNNLSTMac4Cpred的AUC值均优于PACES，与XG-ac4C的AUC值大致相当。

	交叉验证	独立测试
			PACES	0.8855	0.8741
XG-ac4C	0.9100	0.8890
			CNNLSTMac4Cpred	0.9004	0.8825

下表列出了XG-ac4C和CNNLSTMac4Cpred的SN、SP、ACC和MCC。CNNLSTMac4Cpred的SP值比XG-ac4C低0.028，SN值比XG-ac4C高0.04%。SN的超限部分多于SP的超限部分。在ACC和MCC中，CNNLSTMac4Cpred的阴性样本数量远远多于阳性样本，导致CNNLSTMac4Cpred的表达水平较低。如果阳性样本和阴性样本数量相等或接近，CNNLSTMac4Cpred的ACC和MCC将大于XG-ac4C。此外，对于ac4C预测，准确预测ac4C比准确预测非ac4C更为重要。因此，本专利的CNNLSMTac4Cpred总体上优于XG-ac4C。

。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种新的混合ac4C预测方法(CNNLSTMac4CPred)，步骤如下：

步骤1：将序列中的三个核苷酸组成一个词，在保留了一个同义词之后用数字进行编码；

步骤2：将用数字编码好的N4-乙酰胞苷序列输入到用长短时记忆网络和卷积神经网络搭建的CNNLSTM模型中，将模型中最后第二层的输出视为N4-乙酰胞苷序列的语义特征；

步骤3：对于每个DNA序列进行KNF (k核苷酸频率)和PseTNC(位置特异性三核苷酸序列)特征编码；

步骤4：构建极限梯度提升（XGBoost）模型，在极限梯度提升（XGBoost）模型中优化参数；

步骤5：训练极限梯度提升（XGBoost）模型并使用训练后的极限梯度提升（XGBoost）模型预测N4-乙酰胞苷修饰位点。

2.根据权利要求项1所述的一种新的混合ac4C预测方法(CNNLSTMac4CPred)，其特征在于，在所述的步骤1中包括以下内容：使用Zhao等人划分好的数据集；数据集包含训练集与测试集，训练集中有1160个阳性样品，10855个阴性样品，测试集中有469个阳性样品，4343个阴性样品；对于每个DNA序列，用K-mer方法将序列中的三个核苷酸组成一个词，在保留了一个同义词之后用数字进行编码。

3.根据权利要求项1所述的一种新的混合ac4C预测方法(CNNLSTMac4CPred)，其特征在于，在所述的步骤2中包括以下内容：

3.1构建CNNLSTM模型并训练，构建的模型包括：嵌入层、一维卷积层、池化层、双向长短时记忆网络层、丢弃层、扁平化层和完全连接层，具体组成框架介绍如下：

（1）嵌入层是CNNLSTM的第一层，将词的整数索引映射到密集的低维向量，这一层通常是从文本到矢量的桥梁，输入是形状(批次大小、序列长度)，输出是形状(批次大小、序列长度、嵌入维度)；

（2）一维卷积层，卷积神经网络(CNN)广泛应用于图像识别、语音识别、生物医学等方面，随着深度学习的发展，CNN就像砖头一样，成为复杂深度学习模式的重要组成部分，CNN的核心是卷积层，它学习了输入的高级表示，因此充当特征提取器，卷积层的每个神经元与前一层的相邻神经元相连，称为感受区，卷积层的输入和输出有时被称为特征图，卷积层的输入称为输入特征图，输出称为输出特征图，本专利对特征图使用一维卷积，即以嵌入层的输出作为一维卷积层的输入；

（3）池化层，在卷积神经网络中通常会在相邻的卷积层之间加入一个池化层，池化层可以有效的缩小参数矩阵的尺寸，从而减少最后连接层的中的参数数量，所以加入池化层可以加快计算速度和防止过拟合的作用，池化（pooling）是在不同的通道上分开执行的，池化操作不改变通道数，且不需要参数控制；

（4）双向长短时记忆网络层，递归神经网络(RNN)是一种特别适用于序列分析的神经网络模型，RNN的显著优势在于它利用了序列中的上下文信息，但RNN没有处理长距离依赖的问题，容易导致梯度消失或爆炸，为了解决这一问题，人们提出了长短时记忆(LSTM)结构，简单地说，LSTM用长短期记忆模块取代了RNN的部分隐含层，为了获取DNA序列的双向语义，本专利使用了双向递归神经网络(Bidirectional RNN)，双向RNN由两个LSTM组成：一个是前向的，另一个是后向的，前向LSTM有助于学习前一种表征，后向LSTM有助于学习相反方向的表征；

（5）丢弃层，Hinton提出的丢弃是解决过度贴合问题的较好方案之一，当训练数据较少时，深度学习模型容易过拟合，与正则化不同，该算法在训练过程中按一定比例丢弃一部分神经元，并全部采用预测神经元，丢弃是一种简单而有效的学习方式，因此构建深度学习模型已成为当务之急；

（6）扁平化层和完全连接层，扁平化层用于将多维输入转换为一维输出，扁平化层没有任何参数，其作用是帮助后续构建完全连通的层，全连接层类似于传统的多层感知，相当于一个特征空间变换，可以把有用的信息提取整合；

3.2利用训练集对CNNLSTM模型进行训练，对于正负样本不平衡(负样本数远远大于正数样本数)，本专利设定类的权重与正负样本数之比成正比，将序列输入到训练好的CNNLSTM模型中，将完全连通层的输出作为26464维向量的语义特征。

4.根据权利要求项1所述的一种新的混合ac4C预测方法(CNNLSTMac4CPred)，其特征在于，在所述的步骤3中包括以下内容：KNF描述了序列中存在k个核苷酸的所有可能的多核苷酸的频率，本专利把k分别设为2、3和4，因此KNF是一个16+64+256=336维向量；PseTNC是一种对DNA/RNA序列进行编码的方法，与伪氨基酸组成(PseAAC)非常相似，被广泛应用于细胞定位预测、膜蛋白类型分类和识别翻译后修饰位点，本专利使用了三核苷酸的全部12个理化性质，权重因子ω设置为0.05，λ设置为200，因此每个DNA序列被编码成264维的向量。

5.根据权利要求项1所述的一种新的混合ac4C预测方法(CNNLSTMac4CPred)，其特征在于，在所述的步骤4中包括以下内容：

5.1构建极限梯度提升（XGBoost）模型，梯度提升决策树(GBDT)以其高效、准确、可解释等特点成为一种流行的机器学习算法，GBDT已被广泛用于多类分类、点击预测和排名， GBDT是一种附加模型，即在训练过程中，将贪婪学习用于前向分布，在每次迭代中学习一棵分类回归树(CART)，以拟合前t-1棵树的预测结果与训练样本真实值之间的残差，极限梯度提升（XGBoost）是GBDT的实现之一，与GBDT相比，XGBoost做了一些改进，在效果和性能上都有了显著的提高，首先，GBDT将目标函数扩展到一阶Taylor，而XGBoost将目标函数扩展到二阶Taylor，保留了更多关于目标函数的信息，这有助于改进效果；其次，GBDT是为新的基本模型寻找新的拟合标签，而XGBoost是为新的基本模型寻找新的目标函数；第三，XGBoost 增加了叶重的L2正则化项，使模型的方差更小；假设数据集为{(x₁,y₁),(x₂,y₂),⋯,(x_N, y_N)}，其中N为样本数，x₁∈R^m，y_i为第i个样本的标签，XGBoost是一个加法模型，假定由t个树组成，第i个预测由以下公式计算：

，其中

是第t次迭代后样本i的预测结果，

是前t-1棵树的预测结果，f_t(x_i)是第t次迭代的树，损失函数可由预测值

与真实值y_i进行表示：

，为了减少或避免过拟合，在损失函数中加入了正则化，因此，上式被重写为：

，其中Ω(f_t)是正则化项，第一项是残差之和，决策树Ω的复杂度由叶节点的数量决定，叶节点越少模型越简单，此外叶节点不应包含太多权重，因此目标函数的正则化项由向量的L2范式确定，该向量由所有生成的决策树的叶节点数和所有节点的权重组成，由下式定义：

，其中λ和γ是两个用户定义的超级参数，T是叶节点的数量，ω_j是第j个叶节点的权重，与传统的GBDT使用一阶泰勒展开不同，XGBoost使用二阶泰勒展开来逼近损失函数，也就是：

，这里

和

，为了加快计算速度，XGBoost将样本的计算转移到了引线节点的权重上，下式被定义为落入第j个叶节点的样本数：

，其中q (x_i)表示树结构，上面几个公式被积分到：

，这里

和C是一个常数，在上式中，当叶节点的权重被设置为：

，目标函数达到最优值：

，上式被视为评估第t个决策树的质量的度量，从理论上讲，有可能列举出所有的树，但在实践中，这样做是不可能的，为了降低计算复杂度，交替使用贪婪算法，该算法从单个叶节点开始，迭代地向树中添加分支；

5.2为了重现结果，我们将XGBoost的种子设置为100，对XGBoost中的其他参数也进行了优化，对具有CNNLSTM语义特征的训练集进行了五次交叉验证，性能最好的参数被保留下来并随后被使用。

6.根据权利要求项1所述的一种新的混合ac4C预测方法(CNNLSTMac4CPred)，其特征在于，在所述的步骤5中包括以下内容：训练极限梯度提升（XGBoost）模型并使用训练后的极限梯度提升（XGBoost）模型预测N4-乙酰胞苷修饰位点；具体操作如下：将根据权利要求2所述的步骤将DNA序列中的三个核苷酸组成一个词，在保留了一个同义词之后用数字进行编码，输入到权利要求3所搭建的CNNLSTM模型中提取语义特征，将DNA序列分别用权利要求4所述的KNF和PseTNC方法提取特征，组合特征后输入到权利要求5所述的极限梯度提升（XGBoost）模型中进行训练和预测。