CN114093420A - 一种基于XGBoost的DNA重组位点预测方法 - Google Patents
一种基于XGBoost的DNA重组位点预测方法 Download PDFInfo
- Publication number
- CN114093420A CN114093420A CN202210024162.3A CN202210024162A CN114093420A CN 114093420 A CN114093420 A CN 114093420A CN 202210024162 A CN202210024162 A CN 202210024162A CN 114093420 A CN114093420 A CN 114093420A
- Authority
- CN
- China
- Prior art keywords
- model
- data set
- recombination
- sites
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012270 DNA recombination Methods 0.000 title claims abstract description 18
- 238000005215 recombination Methods 0.000 claims abstract description 62
- 230000006798 recombination Effects 0.000 claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000011156 evaluation Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000013461 design Methods 0.000 claims abstract description 9
- 238000005259 measurement Methods 0.000 claims abstract description 6
- 238000012795 verification Methods 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000000547 structure data Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract 1
- 241000677647 Proba Species 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 6
- 108020004414 DNA Proteins 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 102000018120 Recombinases Human genes 0.000 description 2
- 108010091086 Recombinases Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000001580 bacterial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000012330 Integrases Human genes 0.000 description 1
- 108010061833 Integrases Proteins 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- KDCGOANMDULRCW-UHFFFAOYSA-N Purine Natural products N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 1
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 125000000561 purinyl group Chemical group N1=C(N=C2N=CNC2=C1)* 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Databases & Information Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Operations Research (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及计算生物学领域,主要是关于一种DNA重组位点的预测方法,特别是涉及到一种基于XGBoost的DNA重组位点预测方法,包括:根据初始数据集的样本对数据进行预处理,平衡正负样本;构建初始XGBoost回归预测模型;利用Optuna框架和平衡后的数据集进行模型的参数寻优;训练优化后的XGBoost回归预测模型;构建评价指标对模型的性能进行评价;根据模型得分的合理判断,对模型进行处理,直到获得稳定的高精度模型;最后输出预测位点的重组率,并经过特征重要性度量为特征打分,输出特征得分图。本发明可移植性好,预测效率高;可以发现尚未知晓的对重组起作用的特征,可以有效改进合成位点的设计方法,提高重组率;具有高度的灵活性和可扩展性。
Description
技术领域
本发明涉及计算生物学领域,主要是关于一种DNA重组位点的预测方法,特别是涉及到一种基于XGBoost的DNA重组位点预测办法。
背景技术
DNA重组指的是不同DNA分子断裂和连接而产生DNA片段的交换并重新组合形成新DNA分子的过程,是基因工程中使用的基本工具之一,DNA重组技术的发展极大促进了分子生物学的迅速发展。位点特异性重组是DNA重组中的一类,指的是在DNA片段的相对位置发生了DNA序列重排,它不依赖于DNA顺序的同源性,而依赖于能与某些酶相结合的DNA序列的存在。研究细菌整合子系统的特异性重组位点可以为重组系统发展提供一个新思路。
attC是整合子系统发生位点特异性重组的主要位点,以往的研究表明,酪氨酸重组酶对重组attI位点具有较高的序列同源性要求,但重组酶可以有效地重组序列、结构高度可变的attC位点。同时,整合酶的结合和重组依赖于attC位点的三个未配对的结构特征:螺旋外碱基(EHBs)、未配对的中心间隔区(UCS)和可变末端结构(VTS)。因此,研究attC位点结构和功能之间的相关关系,有助于解决重组位点序列受限的问题,开发一个不依赖共有序列或相似序列的结构特异性DNA重组系统。
发明内容
针对位点序列级的约束问题,本发明提供了一种基于XGBoost的DNA重组位点预测方法XGBattCPred。XGBattCPred采用数据驱动方法,重点关注了细菌整合子系统的attC位点,分析和量化了attC位点的结构特征,采用位点的结构数据结合XGBoost回归算法构建回归预测模型,根据参数寻优策略构建高精度的预测模型,并利用特征重要性度量进行特征筛选,改进合成位点的设计方法。其目的在于解决当前重组位点预测实验耗时、效率不高等问题和位点重组过程中序列受限问题。
为实现上述目的,本发明提供如下技术方案:一种基于XGBoost的DNA重组位点预测方法,包括以下步骤:
(1)对attC位点的初始结构数据集D={D1,D2,...,Dn}进行预处理,对数据集D中的每个特征Di(1≤i≤n)执行筛选、删除和归一化等操作,通过以上数据预处理,得到数据集D’;
(2)对步骤(1)预处理后的D’数据集,定义attC位点重组率的阈值为a,其中将数据集中的位点分类为积极位点(重组率≥a)和消极位点(重组率<a),在数据集D’中添加class列对样本进行标记,即积极位点标记为1(class=1),消极位点标记为0(class=0);筛选正负样本,对数据集D’进行欠采样构建平衡数据集,得到数据集D”;所述的a的取值范围为[0.4~1];
(3)将步骤(2)得到的数据集D”按照训练集数量与验证集数量的比值为M:N进行划分,其中M为数据集D”中训练集的数量,N为数据集D”中验证集的数量,以此构建初始XGBoost回归预测模型;所述的M:N的取值范围为1~6:1;
(4)对步骤(3)得到的初始模型进行参数寻优,Optuna框架是一种高效的超参数优化框架;利用Optuna框架对XGBoost回归模型的超参数连续进行b次c轮的迭代优化训练;采用k-折交叉验证选择出最优的b组超参数组合T={T1,T2,...,Tn}(1≤n≤b),其中每组超参数的交叉验证得分通过公式 进行计算,式中为均方误差,k为将数据集D”平均分成k份;所述的b的取值范围为[1~10],c的取值范围为[50~200],k的取值范围为[5~ 10];
(5)利用步骤(4)得到的b组最优超参数组合T分别重新构建XGBoost回归预测模型W={W1,W2,...,Wn}(1≤n≤b),将数据集D”以M:N的比例分割成训练集和验证集,将训练集输入优化后的XGBoost回归模型中训练模型,通过验证集检验模型的性能;
(6)对步骤(4-5)得到的模型构建评估机制对模型性能进行评价,分别通过公式,公式,公式和公式评价预测b个回归模型的性能,式中yi和zi分别表示实际重组率和预测重组率,和为其均值,m为总的数据点个数,Var是每个分布的方差;
(7)对步骤(6)得到的b个回归模型的评价指标得分进行合理评估,根据标准:,选择获得最高精度的XGBoost回归预测模型Wi作为最终的预测模型;将步骤(2)得到的数据集D”输入满足要求的Wi模型进行模型训练,将预测集输入训练好的Wi回归模型,得到预测集中各位点的重组率;
(8)根据步骤(7)输出的训练预测结果,对特征进行重要性度量,根据对预测模型起作用的重要程度可以对重组位点特征序列中的每个特征进行打分Ri(1≤i≤n),其中,其中,n为数据集D”中的特征个数,并根据判断:,筛选出特征序列中的重要特征;根据输出的特征序列的得分数据可以得到对重组起积极作用的重要特征,得到改进重组位点的预测模型,用于改进合成重组位点的设计。
2、根据权利要求1步骤(1)中所述的数据预处理方法,其特征在于:步骤(1)中所述的对数据集D进行预处理时包括以下步骤:
(1-1)若对于每个Di(1≤i≤n),Dij(1≤j≤m)全为0,则去掉特征Di;
优选地,步骤(2)中a的取值为0.46,积极位点标记为1,消极位点标记为0;
优选地,步骤(3)中M的取值为2,N的取值为1;
优选地,步骤(4)中b的取值为4,c的取值为100,k的取值为5;
优选地,步骤(7)中XGBoost回归算法的决策树个数为800,树的最大深度为4。
与现有技术相比,本发明的有益效果为:
本算法构建了一个针对重组位点的高精度预测模型,根据建模结果筛选的重要特征对是对现有的结果的有效补充,可以帮助改进重组位点的设计方法,实现更高效的重组。本发明改进合成重组位点的设计方法十分有效,并且能够提高位点间的重组率。该算法基于基于机器学习的思想,充分了解了重组位点结构和功能之间的相关关系,实现了预测效率的显著提高。同时,针对序列受限问题,通过对重组位点的特征进行筛选,选择出重要特征,这可以有效地改进重组位点的设计方法。与传统的随机森林等预测算法相比,本发明具有更高的效率和灵活性,可视化性更高。
附图说明
图1为基于XGBoost的DNA重组位点预测方法流程图;
图2为attC重组位点的结构示意图,其中UCS为不成对的中间区域,VTS为可变末端结构,N为任意碱基,R为嘌呤,Y为嘧啶;
图3为用来构建突变体文库的attCr0折叠结构示意图;
图4为特征序列中所有特征的得分图。
具体实施方式
为了清楚的阐明本发明的技术方案,下面通过具体实施方式结合附图1-4对本发明进行阐述,此处的实例仅用于解释本发明,并不限定本发明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
图1展示了XGBattCPred预测DNA重组位点的方法的流程步骤。本实施例选取的DNA重组位点为细菌整合子系统的attC位点,attC位点的结构图如图2所示,由于该位点结构高度依赖其功能,因此面向该位点的结构特征建立预测模型。可以说明的是,该方法同样适用于其他DNA重组位点和基于序列特征的遗传元件。在本实施例中,数据库选定访问attCr0突变体库进行分析,该库包括attCr0位点恒定区域内(如图3所示)单突变的所有序列和包含两个突变所有可能组合的序列。
XGBattCPred输入文件包含一个txt类型文件和一个input类型文件。L1_listABCD_input_file.txt文件为12879个attCr0突变体的结构特征数据集D,包括9个全局特征和283个基本特征,数据库的部分数据展示表1所示,在该数据集基础上进行初始数据预处理;attCFeatures.input文件为包含13个attC位点的结构数据的数据集Z,最后的预测模型用来输出上述位点的重组率。
表1
XGBattCPred输出文件包含一个undersampling类型文件、一个reg类型文件和一个output类型文件。L1_listABCD_input_file.undersampling文件为在数据集D’中进行欠采样,平衡正负样本后得到的数据集D”,在此基础上进行模型构建;L1_listABCD_output_file.reg文件为模型在各项评价指标上的得分结果,用来评估模型的性能;attCFrequencies.output文件为输出的数据集Z中各位点的重组率。XGBattCPred方法的输出为该方法预测的attC位点的重组率及其特征得分。以下是DNA重组位点预测的具体步骤:
如附图1所示,本发明可分为以下三个模块:
1、初始数据集预处理模块
首先对初始结构数据库的数据进行预处理,去除异常值和特征。然后设定重组率的阈值,标记出正负样本增加标签列作为标准数据集。根据正样本(即positive site样本)数目对标准数据集进行欠采样操作,建立平衡数据集;
2、模型构建模块
首先通过划分预处理得到的平衡数据集构建初始预测模型,然后采用Optuna框架对模型的超参数进行训练,参数优化过程采用交叉验证得分进行评估。根据筛选得到得分最高的一组超参数重新构建机器学习模型;
3、模型评估与预测模块
对重构得到的预测模型进行评分,获取不同模型的PCC、MAE、RMSE和VarScore得分。筛选出各项指标得分最好的模型作为最终的预测模型,将平衡数据集划分为训练集和验证集,输入筛选得到的模型中进行训练。将所需预测的位点的结构特征数据作为输入,预测位点的重组率;
4、特征度量和分析模块
将平衡数据集作为输入,根据训练集和验证集的结果得到attC位点结构特征序列的得分情况,对得分最高的前20个特征进行分析,可以为寻找其他重要特征缩小范围,为传统的生化实验提供信息支撑。
如附图1所示,本实施例的各模块步骤如下:
1、初始数据集预处理模块
本实施例对attCr0突变体的初始结构数据集D={D1,D2,...,Dn}进行预处理,其中D包含12879个数据点,292个特征项(其中全局特征9项,基本特征283项),即Di(1≤i≤292),Dij(1≤j≤12879)。对数据集D中的Di(1≤i≤292)进行处理,包括如下步骤:
(1-1)若对于每个Di,Dij(1≤j≤12879)全为0,则去掉特征Di;在本实施例中,数据集D中不存在全为0的特征项,故未去掉任何特征,此时数据集D中包含12879个数据点,292个特征项;
(1-2) 通过公式判断Di的方差,若S2 Di=0,则去掉特征Di,式中μ为特征Di的12879个取值的平均数;在本实施例中,数据集D中存在14个方差为0的特征,分别为:base_1、base_2、base_3、base_4、base_5、base_6、base_7、base_8、base_9、bp_proba_29_32_u、bp_proba_30_33_u、bp_proba_30_32_u、bp_proba_30_31_u、bp_proba_31_32_u,在数据集D中删除上述特征,此时数据集D中包含12879个数据点,278个特征项;
(1-3)通过公式标准化Di,式中μ为Di的12879个取值的平均数,σ为Di的12879个取值的标准差;在本实施例中以i=1为例,特征Di=MFE_dG_u的均值为0.470240,特征Di=MFE_dG_u的标准差为0.134266,此时数据集D中包含12879个数据点,278个特征项;
(1-4)通过公式线性归一化Di,将Di的的值缩放到[0,1]之间,式中Xmin为Di的12879个取值中的最小值,Xmax为Di的12879个取值中的最大值,在本实施例中以i=2为例,特征Di=Boltz_dG_u 的最大值为0.8585,最小值为0.0229;得到预处理后的标准数据集D’,其中D’包含12879个数据点,278个特征项。
面向标准数据集D’,定义attC位点重组率的阈值为a=0.46,将数据集中的位点分类为积极位点(重组率≥0.46)和消极位点(重组率<0.46),在数据集D’中添加class列对样本进行标记,得到数据集D’中全部样本的分类信息,即积极位点标记为1(class=1),消极位点标记为0(class=0)。筛选数据集D’中的正负样本,对数据集D’进行欠采样构建平衡数据集,得到平衡数据集D”;在本实施例中,标准数据集D’包含正样本1762个,负样本11117个,在数据集D’中随机选择1762个负样本,与正样本组合成平衡数据集D”,D”中共包含3524个数据点,279个特征项(增加特征项class)。
2、模型构建模块模块
将平衡数据集D”按照训练集:验证集=2:1的比例构建初始XGBoost回归预测模型;在本实施例中训练集和验证集中的样本数量分别为2349和1175。
对得到的初始模型进行参数寻优,Optuna框架是一种高效的超参数优化框架;在本实施例中,利用Optuna框架对XGBoost回归模型的超参数连续进行4次100轮的迭代优化训练;采用5折交叉验证选择出最优的4组超参数组合T={T1,T2,T3,T4};每次训练时,按照4:1的比例在平衡数据集D”中抽取训练集和验证集,实验中训练集和验证集中的样本数量分别为2819和705,其中每组超参数的交叉验证得分通过公式进行计算,式中为均方误差,k为将数据集D”平均分成k份;
在本实施例中共经过4轮参数寻优操作,分别得到4组最优超参数组合T={T1,T2,T3,T4},使用这四组超参数组合重新构建XGBoost回归预测模型W={W1,W2,W3,W4},将数据集D”以2:1的比例分割成训练集和验证集,其中训练集和验证集中的样本数量分别为2349和1175,将训练集输入优化后的XGBoost回归模型中训练模型,通过验证集检验模型的性能。
3、模型评估与预测模块
构建评估机制对得到的重构预测模型进行模型性能评价,在本实施例中,分别通过公式,公式,公式和公式评价4个回归模型的性能,式中yi和zi分别表示实际重组率和预测重组率,和为其均值,n为总的数据点个数,Var是每个分布的方差。
模型评价指标得分是评估模型性能的直观表现,对以上得到的4个回归模型的评价指标得分进行合理评估,本实施例中各模型得分如表2所示,根据标准:,选择获得最高精度的W2模型作为本实例的最终预测模型,命名为XGBattCPred;如表3所示,将XGBattCPred与决策树回归、岭回归、支持向量回归和随机森林回归算法相比,本实施例所使用的模型在四个评价维度上均取得了较好的得分,这表明了XGBattCPred的强大性能。
表2
表3
将平衡数据集D”进行划分后输入XGBattCPred模型进行模型训练;将预测集Z输入训练好的XGBattCPred,实现对预测集中各位点的重组率的高精度预测,在本实施例中以Z中第三个attC位点为例,XGBattCPred模型输出该位点的重组率为0.32013062。
XGBattCPred模型输出的数据集Z中所有位点的重组率如表4所示。
表4
4、特征度量和分析模块
根据XGBattCPred模型训练输出的预测结果,对特征进行重要性度量,根据对预测模型起作用的重要程度对重组位点特征序列中的每个特征进行打分Ri(1≤i≤n),其中,n=278为平衡数据集D”中的特征个数,本实施例输出的attC位点结构特征序列中各特征的得分情况如图4所示,根据判断: ,选择出得分最高的前20个重要特征分别为:Boltz_dG_u、MFE_freq_u、MFE_dG_u、pos_entr_38_u、pos_entr_46_u、bp_proba_14_49_u、bp_proba_16_49_u、pos_entr_18_u、pos_entr_37_u、pos_entr_39_u、base_54、pos_entr_14_u、bp_proba_24_37_u、pos_entr_17_u、pos_entr_44_u、pfold、Boltz_diversity_u、pos_entr_10_u、pos_entr_12_u和dG_ratio_BOT_TOP_u。
特征筛选对改进合成重组位点的设计方法十分有效,在本实施例中,特征序列的得分情况表明了attC位点的重组是一个多特征作用的结果,大多数的特征对attC位点的重组起积极作用。因此,表征特征序列中得分最高的前20个特征,不仅可以聚焦重要特征范围,避免盲目进行实验而浪费时间,还可以通过分析该组特征具有较高得分的具体原因,为进行下一步的生化实验测试提供有力的数据支撑,一旦获得了可观的实验结果,将有效改进合成重组位点的设计方法,提高位点间的重组率。
在本实例中三个全局特征(Boltz_dG_u、MFE_freq_u、MFE_dG_u)获得较高的分数,紧随其后的是碱基配对的概率和位置熵,分析这些特征所在的区域,以及这些特征在何种状态下能够对重组率起积极作用,可以帮助改善合成重组位点的方法。为验证该实例所提特征的可信度,本实例用得到的20个特征构建数据集V={V1,V2,...,Vn}(1≤n≤20),使用数据集V重新构建XGBoost回归预测模型,得到该模型在四个评价指标维度上的得分分别为PCC=0.85、MAE=0.87、RMSE=0.013和VarScore=0.71,这表明本实例所提出的20个重要特征具有较高的准确度。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施案例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施案例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于XGBoost的DNA重组位点预测方法,包括以下步骤:
(1)对attC位点的初始结构数据集D={D1,D2,...,Dn}进行预处理,对数据集D中的每个特征Di(1≤i≤n)执行筛选、删除和归一化等操作,通过以上数据预处理,得到数据集D’;
(2)对步骤(1)预处理后的D’数据集,定义attC位点重组率的阈值为a,将数据集中的位点分类为积极位点重组率≥a和消极位点重组率<a,在数据集D’中添加class列对样本进行标记,即积极位点标记为1,class=1,消极位点标记为0,class=0,;筛选正负样本,对数据集D’进行欠采样构建平衡数据集,得到数据集D”;所述的a的取值范围为[0.4~1];
(3)将步骤(2)得到的数据集D”按照训练集数量与验证集数量的比值为M:N进行划分,其中M为数据集D”中训练集的数量,N为数据集D”中验证集的数量,以此构建初始XGBoost回归预测模型;所述的M:N的取值范围为1~6:1;
(4)对步骤(3)得到的初始模型进行参数寻优,Optuna框架是一种高效的超参数优化框架;利用Optuna框架对XGBoost回归模型的超参数连续进行b次c轮的迭代优化训练;采用k-折交叉验证选择出最优的b组超参数组合T={T1,T2,...,Tn}(1≤n≤b),其中每组超参数的交叉验证得分通过公式进行计算,式中为均方误差,k为将数据集D”平均分成k份;所述的b的取值范围为[1~10],c的取值范围为[50~200],k的取值范围为[5~ 10];
(5)利用步骤(4)得到的b组最优超参数组合T分别重新构建XGBoost回归预测模型W={W1,W2,...,Wn}(1≤n≤b),将数据集D”以M:N的比例分割成训练集和验证集,将训练集输入优化后的XGBoost回归模型中训练模型,通过验证集检验模型的性能;
(6)对步骤(4-5)得到的模型构建评估机制对模型性能进行评价,分别通过公式,公式 ,公式 和公式 评价预测b个回归模型的性能,式中yi和zi分别表示实际重组率和预测重组率, i和 i为其均值,m为总的数据点个数,Var是每个分布的方差;
(7)对步骤(6)得到的b个回归模型的评价指标得分进行合理评估,根据标准:,选择获得最高精度的XGBoost回归预测模型Wi作为最终的预测模型;将步骤(2)得到的数据集D”输入满足要求的Wi模型进行模型训练,将预测集输入训练好的Wi回归模型,得到预测集中各位点的重组率;
3.根据权利要求1所述的预测方法,其特征在于:步骤(2)中a的取值为0.46,积极位点标记为1,消极位点标记为0。
4.根据权利要求1所述的预测方法,其特征在于:步骤(3)中M的取值为2,N的取值为1。
5.根据权利要求1所述的预测方法,其特征在于:步骤(4)中b的取值为4,c的取值为100,k的取值为5。
6.根据权利要求1所述的预测方法,其特征在于:步骤(7)中XGBoost回归算法的决策树个数为800,树的最大深度为4。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210024162.3A CN114093420B (zh) | 2022-01-11 | 2022-01-11 | 一种基于XGBoost的DNA重组位点预测方法 |
US18/151,485 US20230307093A1 (en) | 2022-01-11 | 2023-01-09 | Method for predicting dna recombination sites based on xgboost |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210024162.3A CN114093420B (zh) | 2022-01-11 | 2022-01-11 | 一种基于XGBoost的DNA重组位点预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114093420A true CN114093420A (zh) | 2022-02-25 |
CN114093420B CN114093420B (zh) | 2022-05-27 |
Family
ID=80308488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210024162.3A Active CN114093420B (zh) | 2022-01-11 | 2022-01-11 | 一种基于XGBoost的DNA重组位点预测方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230307093A1 (zh) |
CN (1) | CN114093420B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114639441A (zh) * | 2022-05-18 | 2022-06-17 | 山东建筑大学 | 一种基于带权多粒度扫描的转录因子结合位点预测方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118212588B (zh) * | 2024-04-08 | 2024-09-06 | 广州新华学院 | 一种基于改进YOLOv8轻量化目标学习检测方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101280301A (zh) * | 2008-03-18 | 2008-10-08 | 复旦大学附属华山医院 | 一种利用整合子系统定点、定向的基因重组方法 |
CN107025384A (zh) * | 2015-10-15 | 2017-08-08 | 赵乐平 | 一种复杂数据预测模型的构建方法 |
CN109215740A (zh) * | 2018-11-06 | 2019-01-15 | 中山大学 | 基于Xgboost的全基因组RNA二级结构预测方法 |
CN110111838A (zh) * | 2019-05-05 | 2019-08-09 | 山东建筑大学 | 含假结基于扩展结构的核糖核酸折叠结构预测方法与装置 |
CN111489787A (zh) * | 2020-04-21 | 2020-08-04 | 桂林电子科技大学 | 一种CRISPR/Cas9靶向敲除定点DNA效率的预测方法 |
US20200342958A1 (en) * | 2019-04-23 | 2020-10-29 | Cedars-Sinai Medical Center | Methods and systems for assessing inflammatory disease with deep learning |
US20210005283A1 (en) * | 2019-07-03 | 2021-01-07 | Bostongene Corporation | Techniques for bias correction in sequence data |
CN113241119A (zh) * | 2021-05-12 | 2021-08-10 | 中南大学 | 一种基于多种DNA序列编码方式和深度学习的6mA甲基化预测框架 |
CN113715629A (zh) * | 2021-08-31 | 2021-11-30 | 华南理工大学 | 基于改进符号回归和XGBoost算法的剩余续驶里程预测方法 |
-
2022
- 2022-01-11 CN CN202210024162.3A patent/CN114093420B/zh active Active
-
2023
- 2023-01-09 US US18/151,485 patent/US20230307093A1/en not_active Abandoned
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101280301A (zh) * | 2008-03-18 | 2008-10-08 | 复旦大学附属华山医院 | 一种利用整合子系统定点、定向的基因重组方法 |
CN107025384A (zh) * | 2015-10-15 | 2017-08-08 | 赵乐平 | 一种复杂数据预测模型的构建方法 |
CN109215740A (zh) * | 2018-11-06 | 2019-01-15 | 中山大学 | 基于Xgboost的全基因组RNA二级结构预测方法 |
US20200342958A1 (en) * | 2019-04-23 | 2020-10-29 | Cedars-Sinai Medical Center | Methods and systems for assessing inflammatory disease with deep learning |
CN110111838A (zh) * | 2019-05-05 | 2019-08-09 | 山东建筑大学 | 含假结基于扩展结构的核糖核酸折叠结构预测方法与装置 |
US20210005283A1 (en) * | 2019-07-03 | 2021-01-07 | Bostongene Corporation | Techniques for bias correction in sequence data |
CN111489787A (zh) * | 2020-04-21 | 2020-08-04 | 桂林电子科技大学 | 一种CRISPR/Cas9靶向敲除定点DNA效率的预测方法 |
CN113241119A (zh) * | 2021-05-12 | 2021-08-10 | 中南大学 | 一种基于多种DNA序列编码方式和深度学习的6mA甲基化预测框架 |
CN113715629A (zh) * | 2021-08-31 | 2021-11-30 | 华南理工大学 | 基于改进符号回归和XGBoost算法的剩余续驶里程预测方法 |
Non-Patent Citations (4)
Title |
---|
ELEN TEVANYAN 等: "Recognizing Patterns of Nucleosome and DNA Structures Positioning", 《2018 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 * |
ELEN TEVANYAN 等: "Recognizing Patterns of Nucleosome and DNA Structures Positioning", 《2018 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》, 24 January 2019 (2019-01-24), pages 2808 - 2809 * |
刘子铭 等: "染色体易位重组位点的自动识别方法研究", 《生物信息学》 * |
刘子铭 等: "染色体易位重组位点的自动识别方法研究", 《生物信息学》, 30 September 2021 (2021-09-30), pages 159 - 169 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114639441A (zh) * | 2022-05-18 | 2022-06-17 | 山东建筑大学 | 一种基于带权多粒度扫描的转录因子结合位点预测方法 |
CN114639441B (zh) * | 2022-05-18 | 2022-08-05 | 山东建筑大学 | 一种基于带权多粒度扫描的转录因子结合位点预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114093420B (zh) | 2022-05-27 |
US20230307093A1 (en) | 2023-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114093420B (zh) | 一种基于XGBoost的DNA重组位点预测方法 | |
CN103745258A (zh) | 基于最小生成树聚类的遗传算法的复杂网络社区挖掘方法 | |
CN112382411A (zh) | 一种基于异质图的药物-蛋白质靶向作用预测方法 | |
CN115240772A (zh) | 一种基于图神经网络的解析单细胞多组学中活性通路的方法 | |
CN114819056B (zh) | 一种基于域对抗和变分推断的单细胞数据整合方法 | |
CN103699812A (zh) | 基于遗传算法的植物品种真实性鉴定位点筛选方法 | |
CN106202999A (zh) | 基于不同尺度tuple词频的微生物高通量测序数据分析协议 | |
CN108876595A (zh) | 一种基于数据挖掘的p2p个人信用评估方法及装置 | |
Liu et al. | Cluster analysis of RNA-sequencing data | |
CN109801681B (zh) | 一种基于改进的模糊聚类算法的snp选择方法 | |
Dakhli et al. | Power spectrum and dynamic time warping for DNA sequences classification | |
CN115985394A (zh) | 一种针对合成致死机理疾病类型的靶点发现方法 | |
Berry et al. | Choosing the tree which actually best explains the data: another look at the bootstrap in phylogenetic reconstruction | |
Sen et al. | Biological Data Mining for Genomic Clustering Using Unsupervised Neural Learning. | |
Soh et al. | moPGA: Towards a new generation of multi-objective genetic algorithms | |
Dheenathayalan et al. | Identifying significant genes from DNA microarray using genetic algorithm | |
CN117912573B (zh) | 基于深度学习的多层次生物分子网络构建方法 | |
Rozhnov et al. | Scheme of optimal ensembles of clustering algorithms with a combined use of the Greedy Heuristics Method and a matched binary partitioning matrix | |
Wassan et al. | A new phylogeny-driven random forest-based classification approach for functional metagenomics | |
Gong et al. | BDLR: lncRNA identification using ensemble learning | |
CN112270952B (zh) | 一种识别癌症驱动通路的方法 | |
Wu et al. | Multiple sequence alignment using ga and nn | |
Yang | Chromatogram Alignment Algorithm Based on Deep Neural Network and an Application in Bio-aerosol Detection | |
Häuser | Quantitative Analysis and Characterization of Natural Language Evolution Datasets | |
Cai et al. | K-means clustering analysis based on immune genetic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |