CN114093420A

CN114093420A - 一种基于XGBoost的DNA重组位点预测方法

Info

Publication number: CN114093420A
Application number: CN202210024162.3A
Authority: CN
Inventors: 刘振栋; 陈曦; 戴琼海; 李冬雁; 吕欣荣; 杨玉荣; 秦梦颖; 柏苛; 李晓峰; 季向阳; 刘烨斌; 张伟; 胡国胜; 刘芳含; 魏珑
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-02-25
Anticipated expiration: 2042-01-11
Also published as: CN114093420B; US20230307093A1

Abstract

本发明涉及计算生物学领域，主要是关于一种DNA重组位点的预测方法，特别是涉及到一种基于XGBoost的DNA重组位点预测方法，包括：根据初始数据集的样本对数据进行预处理，平衡正负样本；构建初始XGBoost回归预测模型；利用Optuna框架和平衡后的数据集进行模型的参数寻优；训练优化后的XGBoost回归预测模型；构建评价指标对模型的性能进行评价；根据模型得分的合理判断，对模型进行处理，直到获得稳定的高精度模型；最后输出预测位点的重组率，并经过特征重要性度量为特征打分，输出特征得分图。本发明可移植性好，预测效率高；可以发现尚未知晓的对重组起作用的特征，可以有效改进合成位点的设计方法，提高重组率；具有高度的灵活性和可扩展性。

Description

一种基于XGBoost的DNA重组位点预测方法

技术领域

本发明涉及计算生物学领域，主要是关于一种DNA重组位点的预测方法，特别是涉及到一种基于XGBoost的DNA重组位点预测办法。

背景技术

DNA重组指的是不同DNA分子断裂和连接而产生DNA片段的交换并重新组合形成新DNA分子的过程，是基因工程中使用的基本工具之一，DNA重组技术的发展极大促进了分子生物学的迅速发展。位点特异性重组是DNA重组中的一类，指的是在DNA片段的相对位置发生了DNA序列重排，它不依赖于DNA顺序的同源性，而依赖于能与某些酶相结合的DNA序列的存在。研究细菌整合子系统的特异性重组位点可以为重组系统发展提供一个新思路。

attC是整合子系统发生位点特异性重组的主要位点，以往的研究表明，酪氨酸重组酶对重组attI位点具有较高的序列同源性要求，但重组酶可以有效地重组序列、结构高度可变的attC位点。同时，整合酶的结合和重组依赖于attC位点的三个未配对的结构特征：螺旋外碱基(EHBs)、未配对的中心间隔区(UCS)和可变末端结构(VTS)。因此，研究attC位点结构和功能之间的相关关系，有助于解决重组位点序列受限的问题，开发一个不依赖共有序列或相似序列的结构特异性DNA重组系统。

发明内容

针对位点序列级的约束问题，本发明提供了一种基于XGBoost的DNA重组位点预测方法XGBattCPred。XGBattCPred采用数据驱动方法，重点关注了细菌整合子系统的attC位点，分析和量化了attC位点的结构特征，采用位点的结构数据结合XGBoost回归算法构建回归预测模型，根据参数寻优策略构建高精度的预测模型，并利用特征重要性度量进行特征筛选，改进合成位点的设计方法。其目的在于解决当前重组位点预测实验耗时、效率不高等问题和位点重组过程中序列受限问题。

为实现上述目的，本发明提供如下技术方案：一种基于XGBoost的DNA重组位点预测方法，包括以下步骤：

（1）对attC位点的初始结构数据集D={D₁,D₂,...,D_n}进行预处理，对数据集D中的每个特征D_i（1≤i≤n）执行筛选、删除和归一化等操作，通过以上数据预处理，得到数据集D’；

（2）对步骤（1）预处理后的D’数据集，定义attC位点重组率的阈值为a，其中将数据集中的位点分类为积极位点（重组率≥a）和消极位点（重组率＜a），在数据集D’中添加class列对样本进行标记，即积极位点标记为1（class=1），消极位点标记为0（class=0）；筛选正负样本，对数据集D’进行欠采样构建平衡数据集，得到数据集D”；所述的a的取值范围为[0.4~1]；

（3）将步骤（2）得到的数据集D”按照训练集数量与验证集数量的比值为M:N进行划分，其中M为数据集D”中训练集的数量，N为数据集D”中验证集的数量，以此构建初始XGBoost回归预测模型；所述的M:N的取值范围为1~6：1；

（4）对步骤（3）得到的初始模型进行参数寻优，Optuna框架是一种高效的超参数优化框架；利用Optuna框架对XGBoost回归模型的超参数连续进行b次c轮的迭代优化训练；采用k-折交叉验证选择出最优的b组超参数组合T={T₁,T₂,...,T_n}(1≤n≤b)，其中每组超参数的交叉验证得分通过公式

进行计算，式中

为均方误差，k为将数据集D”平均分成k份；所述的b的取值范围为[1~10]，c的取值范围为[50~200]，k的取值范围为[5~ 10]；

（5）利用步骤（4）得到的b组最优超参数组合T分别重新构建XGBoost回归预测模型W={W₁,W₂,...,W_n}（1≤n≤b），将数据集D”以M：N的比例分割成训练集和验证集，将训练集输入优化后的XGBoost回归模型中训练模型，通过验证集检验模型的性能；

（6）对步骤（4-5）得到的模型构建评估机制对模型性能进行评价，分别通过公式

，公式

，公式

和公式

评价预测b个回归模型的性能，式中y_i和z_i分别表示实际重组率和预测重组率，

和

为其均值，m为总的数据点个数，Var是每个分布的方差；

（7）对步骤（6）得到的b个回归模型的评价指标得分进行合理评估，根据标准：

，选择获得最高精度的XGBoost回归预测模型W_i作为最终的预测模型；将步骤（2）得到的数据集D”输入满足要求的W_i模型进行模型训练，将预测集输入训练好的W_i回归模型，得到预测集中各位点的重组率；

（8）根据步骤（7）输出的训练预测结果，对特征进行重要性度量，根据对预测模型起作用的重要程度可以对重组位点特征序列中的每个特征进行打分R_i（1≤i≤n），其中，其中

，n为数据集D”中的特征个数，并根据判断：

，筛选出特征序列中的重要特征；根据输出的特征序列的得分数据可以得到对重组起积极作用的重要特征，得到改进重组位点的预测模型，用于改进合成重组位点的设计。

2、根据权利要求1步骤（1）中所述的数据预处理方法，其特征在于：步骤（1）中所述的对数据集D进行预处理时包括以下步骤：

（1-1）若对于每个D_i（1≤i≤n），D_ij（1≤j≤m）全为0，则去掉特征D_i；

（1-2）通过公式

判断D_i的方差，若S² _Di=0，则去掉特征D_i，式中μ为特征D_i的m个取值的平均数；所述的m的取值范围为[0~12879]；

（1-3）通过公式

标准化D_i，式中μ为D_i的m个取值的平均数，σ为D_i的m个取值的标准差；

（1-4）通过公式

线性归一化D_i，将D_i的的值缩放到[0,1]之间，式中Xmin为D_i的m个取值中的最小值，Xmax为D_i的m个取值中的最大值。

优选地，步骤（2）中a的取值为0.46，积极位点标记为1，消极位点标记为0；

优选地，步骤（3）中M的取值为2，N的取值为1；

优选地，步骤（4）中b的取值为4，c的取值为100，k的取值为5；

优选地，步骤（7）中XGBoost回归算法的决策树个数为800，树的最大深度为4。

与现有技术相比，本发明的有益效果为：

本算法构建了一个针对重组位点的高精度预测模型，根据建模结果筛选的重要特征对是对现有的结果的有效补充，可以帮助改进重组位点的设计方法，实现更高效的重组。本发明改进合成重组位点的设计方法十分有效，并且能够提高位点间的重组率。该算法基于基于机器学习的思想，充分了解了重组位点结构和功能之间的相关关系，实现了预测效率的显著提高。同时，针对序列受限问题，通过对重组位点的特征进行筛选，选择出重要特征，这可以有效地改进重组位点的设计方法。与传统的随机森林等预测算法相比，本发明具有更高的效率和灵活性，可视化性更高。

附图说明

图1为基于XGBoost的DNA重组位点预测方法流程图；

图2为attC重组位点的结构示意图，其中UCS为不成对的中间区域，VTS为可变末端结构，N为任意碱基，R为嘌呤，Y为嘧啶；

图3为用来构建突变体文库的attC_r0折叠结构示意图；

图4为特征序列中所有特征的得分图。

具体实施方式

为了清楚的阐明本发明的技术方案，下面通过具体实施方式结合附图1-4对本发明进行阐述，此处的实例仅用于解释本发明，并不限定本发明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

图1展示了XGBattCPred预测DNA重组位点的方法的流程步骤。本实施例选取的DNA重组位点为细菌整合子系统的attC位点，attC位点的结构图如图2所示，由于该位点结构高度依赖其功能，因此面向该位点的结构特征建立预测模型。可以说明的是，该方法同样适用于其他DNA重组位点和基于序列特征的遗传元件。在本实施例中，数据库选定访问attC_r0突变体库进行分析，该库包括attC_r0位点恒定区域内（如图3所示）单突变的所有序列和包含两个突变所有可能组合的序列。

XGBattCPred输入文件包含一个txt类型文件和一个input类型文件。L1_listABCD_input_file.txt文件为12879个attC_r0突变体的结构特征数据集D，包括9个全局特征和283个基本特征，数据库的部分数据展示表1所示，在该数据集基础上进行初始数据预处理；attCFeatures.input文件为包含13个attC位点的结构数据的数据集Z，最后的预测模型用来输出上述位点的重组率。

表1

。

XGBattCPred输出文件包含一个undersampling类型文件、一个reg类型文件和一个output类型文件。L1_listABCD_input_file.undersampling文件为在数据集D’中进行欠采样，平衡正负样本后得到的数据集D”，在此基础上进行模型构建；L1_listABCD_output_file.reg文件为模型在各项评价指标上的得分结果，用来评估模型的性能；attCFrequencies.output文件为输出的数据集Z中各位点的重组率。XGBattCPred方法的输出为该方法预测的attC位点的重组率及其特征得分。以下是DNA重组位点预测的具体步骤：

如附图1所示，本发明可分为以下三个模块：

1、初始数据集预处理模块

首先对初始结构数据库的数据进行预处理，去除异常值和特征。然后设定重组率的阈值，标记出正负样本增加标签列作为标准数据集。根据正样本（即positive site样本）数目对标准数据集进行欠采样操作，建立平衡数据集；

2、模型构建模块

首先通过划分预处理得到的平衡数据集构建初始预测模型，然后采用Optuna框架对模型的超参数进行训练，参数优化过程采用交叉验证得分进行评估。根据筛选得到得分最高的一组超参数重新构建机器学习模型；

3、模型评估与预测模块

对重构得到的预测模型进行评分，获取不同模型的PCC、MAE、RMSE和VarScore得分。筛选出各项指标得分最好的模型作为最终的预测模型，将平衡数据集划分为训练集和验证集，输入筛选得到的模型中进行训练。将所需预测的位点的结构特征数据作为输入，预测位点的重组率；

4、特征度量和分析模块

将平衡数据集作为输入，根据训练集和验证集的结果得到attC位点结构特征序列的得分情况，对得分最高的前20个特征进行分析，可以为寻找其他重要特征缩小范围，为传统的生化实验提供信息支撑。

如附图1所示，本实施例的各模块步骤如下：

1、初始数据集预处理模块

本实施例对attC_r0突变体的初始结构数据集D={D₁,D₂,...,D_n}进行预处理，其中D包含12879个数据点，292个特征项（其中全局特征9项，基本特征283项），即D_i（1≤i≤292），D_ij（1≤j≤12879）。对数据集D中的D_i（1≤i≤292）进行处理，包括如下步骤：

（1-1）若对于每个D_i，D_ij（1≤j≤12879）全为0，则去掉特征D_i；在本实施例中，数据集D中不存在全为0的特征项，故未去掉任何特征，此时数据集D中包含12879个数据点，292个特征项；

（1-2）通过公式

判断D_i的方差，若S² _Di=0，则去掉特征D_i，式中μ为特征D_i的12879个取值的平均数；在本实施例中，数据集D中存在14个方差为0的特征，分别为：base_1、base_2、base_3、base_4、base_5、base_6、base_7、base_8、base_9、bp_proba_29_32_u、bp_proba_30_33_u、bp_proba_30_32_u、bp_proba_30_31_u、bp_proba_31_32_u，在数据集D中删除上述特征，此时数据集D中包含12879个数据点，278个特征项；

（1-3）通过公式

标准化D_i，式中μ为D_i的12879个取值的平均数，σ为D_i的12879个取值的标准差；在本实施例中以i=1为例，特征D_i=MFE_dG_u的均值为0.470240，特征D_i=MFE_dG_u的标准差为0.134266，此时数据集D中包含12879个数据点，278个特征项；

（1-4）通过公式

线性归一化D_i，将D_i的的值缩放到[0,1]之间，式中Xmin为D_i的12879个取值中的最小值，Xmax为D_i的12879个取值中的最大值，在本实施例中以i=2为例，特征D_i=Boltz_dG_u 的最大值为0.8585，最小值为0.0229；得到预处理后的标准数据集D’，其中D’包含12879个数据点，278个特征项。

面向标准数据集D’，定义attC位点重组率的阈值为a=0.46，将数据集中的位点分类为积极位点（重组率≥0.46）和消极位点（重组率＜0.46），在数据集D’中添加class列对样本进行标记，得到数据集D’中全部样本的分类信息，即积极位点标记为1（class=1），消极位点标记为0（class=0）。筛选数据集D’中的正负样本，对数据集D’进行欠采样构建平衡数据集，得到平衡数据集D”；在本实施例中，标准数据集D’包含正样本1762个，负样本11117个，在数据集D’中随机选择1762个负样本，与正样本组合成平衡数据集D”，D”中共包含3524个数据点，279个特征项（增加特征项class）。

2、模型构建模块模块

将平衡数据集D”按照训练集：验证集=2:1的比例构建初始XGBoost回归预测模型；在本实施例中训练集和验证集中的样本数量分别为2349和1175。

对得到的初始模型进行参数寻优，Optuna框架是一种高效的超参数优化框架；在本实施例中，利用Optuna框架对XGBoost回归模型的超参数连续进行4次100轮的迭代优化训练；采用5折交叉验证选择出最优的4组超参数组合T={T₁,T₂,T₃,T₄}；每次训练时，按照4：1的比例在平衡数据集D”中抽取训练集和验证集，实验中训练集和验证集中的样本数量分别为2819和705，其中每组超参数的交叉验证得分通过公式

进行计算，式中

为均方误差，k为将数据集D”平均分成k份；

在本实施例中共经过4轮参数寻优操作，分别得到4组最优超参数组合T={T₁,T₂,T₃,T₄}，使用这四组超参数组合重新构建XGBoost回归预测模型W={W₁,W₂,W₃,W₄}，将数据集D”以2：1的比例分割成训练集和验证集，其中训练集和验证集中的样本数量分别为2349和1175，将训练集输入优化后的XGBoost回归模型中训练模型，通过验证集检验模型的性能。

3、模型评估与预测模块

构建评估机制对得到的重构预测模型进行模型性能评价，在本实施例中，分别通过公式

，公式

，公式

和公式

评价4个回归模型的性能，式中y_i和z_i分别表示实际重组率和预测重组率，

和

为其均值，n为总的数据点个数，Var是每个分布的方差。

模型评价指标得分是评估模型性能的直观表现，对以上得到的4个回归模型的评价指标得分进行合理评估，本实施例中各模型得分如表2所示，根据标准：

，选择获得最高精度的W₂模型作为本实例的最终预测模型，命名为XGBattCPred；如表3所示，将XGBattCPred与决策树回归、岭回归、支持向量回归和随机森林回归算法相比，本实施例所使用的模型在四个评价维度上均取得了较好的得分，这表明了XGBattCPred的强大性能。

表2

。

表3

。

将平衡数据集D”进行划分后输入XGBattCPred模型进行模型训练；将预测集Z输入训练好的XGBattCPred，实现对预测集中各位点的重组率的高精度预测，在本实施例中以Z中第三个attC位点为例，XGBattCPred模型输出该位点的重组率为0.32013062。

XGBattCPred模型输出的数据集Z中所有位点的重组率如表4所示。

表4

。

4、特征度量和分析模块

根据XGBattCPred模型训练输出的预测结果，对特征进行重要性度量，根据对预测模型起作用的重要程度对重组位点特征序列中的每个特征进行打分R_i（1≤i≤n），其中

，n=278为平衡数据集D”中的特征个数，本实施例输出的attC位点结构特征序列中各特征的得分情况如图4所示，根据判断：

，选择出得分最高的前20个重要特征分别为：Boltz_dG_u、MFE_freq_u、MFE_dG_u、pos_entr_38_u、pos_entr_46_u、bp_proba_14_49_u、bp_proba_16_49_u、pos_entr_18_u、pos_entr_37_u、pos_entr_39_u、base_54、pos_entr_14_u、bp_proba_24_37_u、pos_entr_17_u、pos_entr_44_u、pfold、Boltz_diversity_u、pos_entr_10_u、pos_entr_12_u和dG_ratio_BOT_TOP_u。

特征筛选对改进合成重组位点的设计方法十分有效，在本实施例中，特征序列的得分情况表明了attC位点的重组是一个多特征作用的结果，大多数的特征对attC位点的重组起积极作用。因此，表征特征序列中得分最高的前20个特征，不仅可以聚焦重要特征范围，避免盲目进行实验而浪费时间，还可以通过分析该组特征具有较高得分的具体原因，为进行下一步的生化实验测试提供有力的数据支撑，一旦获得了可观的实验结果，将有效改进合成重组位点的设计方法，提高位点间的重组率。

在本实例中三个全局特征（Boltz_dG_u、MFE_freq_u、MFE_dG_u）获得较高的分数，紧随其后的是碱基配对的概率和位置熵，分析这些特征所在的区域，以及这些特征在何种状态下能够对重组率起积极作用，可以帮助改善合成重组位点的方法。为验证该实例所提特征的可信度，本实例用得到的20个特征构建数据集V={V₁,V₂,...,V_n}（1≤n≤20），使用数据集V重新构建XGBoost回归预测模型，得到该模型在四个评价指标维度上的得分分别为PCC=0.85、MAE=0.87、RMSE=0.013和VarScore=0.71，这表明本实例所提出的20个重要特征具有较高的准确度。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施案例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施案例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于XGBoost的DNA重组位点预测方法，包括以下步骤：

（2）对步骤（1）预处理后的D’数据集，定义attC位点重组率的阈值为a，将数据集中的位点分类为积极位点重组率≥a和消极位点重组率＜a，在数据集D’中添加class列对样本进行标记，即积极位点标记为1，class=1，消极位点标记为0，class=0，；筛选正负样本，对数据集D’进行欠采样构建平衡数据集，得到数据集D”；所述的a的取值范围为[0.4~1]；