CN110379464B - 一种细菌中dna转录终止子的预测方法 - Google Patents

一种细菌中dna转录终止子的预测方法 Download PDF

Info

Publication number
CN110379464B
CN110379464B CN201910688863.5A CN201910688863A CN110379464B CN 110379464 B CN110379464 B CN 110379464B CN 201910688863 A CN201910688863 A CN 201910688863A CN 110379464 B CN110379464 B CN 110379464B
Authority
CN
China
Prior art keywords
feature set
feature
terminator
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910688863.5A
Other languages
English (en)
Other versions
CN110379464A (zh
Inventor
樊永显
王婉茹
朱庆琪
徐海波
崔娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201910688863.5A priority Critical patent/CN110379464B/zh
Publication of CN110379464A publication Critical patent/CN110379464A/zh
Application granted granted Critical
Publication of CN110379464B publication Critical patent/CN110379464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种细菌中DNA转录终止子的预测方法,包括如下步骤:1)获取细菌的终止子和非终止子序列作为基准数据集和独立数据集;2)特征集提取;3)特征集排序;4)特征集选择;5)特征集提取方法对比;6)训练模型;7)构建组合分类器;8)方法评估。这种预测方法可以提取多种DNA信息中的特征,还减少了计算时间,避免出现过拟合现象,同时还可以选出最优的分类模型,提高了预测终止子预测的准确率。

Description

一种细菌中DNA转录终止子的预测方法
技术领域
本发明涉及生物信息学中序列相互作用的分类预测技术,具体是一种细菌中DNA转录终止子的预测方法。
背景技术
近年来,生物信息学和计算机科学相结合而衍生出一个新的研究方向,即以核苷酸、蛋白质、基因序列数据集作为主要研究对象,并利用数学、信息学、计算机科学等手段,以计算机硬件、软件和计算机网络为主要工具,对数量极其庞大的原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、探索、比较、分析,从中获取基因编码、基因调控、核苷酸和蛋白质结构功能机器相互关系等理性知识。在大量的信息和知识的基础上,探索生命起源、生物进化以及细胞器官和个体的发生、发育病变、衰亡等生命科学重大的问题,搞清他们的基本规律和时空联系。最终通过对生物实验数据的获取、加工、存储检索和分析,进而达到节食数据所蕴含的生物学意义的目的。就基因组来说,得到序列仅仅是第一步,后一步工作是所谓基因组时代的任务,及收集、整理、检索和分析序列中表达的结构和功能信息,找出规律。
终止子,是给予RNA聚合酶转录终止信号的DNA序列,在一个操纵元中至少在构成基因群最后一个基因的后面有一个终止子。在原核生物中,发现终止信号存在于RNA真核中的聚合酶已经转录过的序列之中。转录终止是基因表达的重要调控步骤。如果基因中没有终止子,转录不能停止,这将导致基因表达异常。检测这样的终止子可以确定细菌生物体中的操纵子结构,优化基因组注释。因此,准确鉴定转录终止子在转录调控的研究中至关重要。
对于终止子的预测研究虽然不是很多,但近年来也已取得较为显著的成果。2011年Magali Naville等人进行了对于非依赖于ρ因子的转录终止子的研究。该研究主要使用两个已经发表的算法Erpin and RNAmotif对终止子进行探测,最终结果中特异性及敏感性分别为95.3%、87.8%。2018年林昊等人对基于序列的细菌的终止子的预测进行了研究,取得了很大进展,其准确率达到95%,其中大肠杆菌和枯草芽孢杆菌的终止子识别率分别为100%、87.5%,但还有进一步提升空间。
发明内容
本发明为解决现有的终止子预测的准确率问题,提供一种细菌中DNA转录终止子的预测方法。这种预测方法可以提取多种DNA信息中的特征,还减少了计算时间,避免出现过拟合现象,同时还可以选出最优的分类模型,提高了预测终止子的准确率。
实现本发明目的的技术方案是:
一种细菌中DNA转录终止子的预测方法,包括如下步骤:
1)获取细菌的终止子和非终止子序列作为基准数据集和独立数据集:其中基准数据集用于训练模型,独立数据集用于检验分类器的分类效果;
2)特征集提取:采用k-元组核苷酸组分方法、伪核苷酸组分方法、位置特异性得分方法和特定碱基组合方法这四种方法提取基准数据集中的k-元组核苷酸组分、伪核苷酸组分、位置特异性得分和特定碱基中共17种特征集,其中,k-元组核苷酸组分:
计算DNA序列中不同k-元组核苷酸组分的出现频次,首先,用公式(1)表示每条由腺嘌呤A,鸟嘌呤G,胞嘧啶C,胸腺嘧啶T这4类L个寡核苷酸组成的DNA序列样本D,K-元组的K可以取1,2,3,…,k,…,n,其中n趋近无穷大,任意先后取K个核苷酸为一组,共有4k种组合,如K=2时,共有42=16种组合,依次为AA,AC,AG,AT,CA,…,TT,通过k-元组核苷酸组分方法,对基准数据集中每个样本DNA序列对,从第一个核苷酸开始,从左到右取K个相邻的核苷酸,然后右移一个核苷酸,取后面相邻的K个核苷酸,重复上述操作L-K+1次就可以遍历整条DNA序列对,L为每个样本RNA序列对的长度,然后统计整条DNA序列对中每一种K-元组核苷酸组分出现的频率,如公式(2)所示,将4k种组合出现的频率转化成4k维的向量,得到矩阵D中第1至4k维向量;
D=R1 R2 R3 R4 R5 R6 … Ri … RL   (1),
Ri为第i个位置上的寡核苷酸,
Figure BDA0002147240300000021
其中
Figure BDA0002147240300000022
为每个k-元核苷酸组分在DNA序列中出现的频率;
伪核苷酸组分:
除了以上的核苷酸组分特征,本技术方案还使用了核苷酸的物理化学性质,通过使用Ⅰ-伪核苷酸组分方法,也称为平行关伪核苷酸组分方法,将核苷酸组分和伪核苷酸组分结合起来,伪核苷酸组分方法不仅考虑了DNA序列的全局或长程顺序信息,并且计算了DNA序列的生物化学信息,提取伪核苷酸组分特征集如下所示:
Figure BDA0002147240300000031
其中,
Figure BDA0002147240300000032
fi K-tuple(i=1,2,3…,4k)为第i种k-元核苷酸在DNA频率,与公式(2)中意义相同,ω为权重因子,用于权衡核苷酸组分和DNA局部结构性质的影响,θj为j-阶关联因子,反应每条DNA序列中所有相邻二核苷酸的j-阶序列顺序关联性,θj定义为:
Figure BDA0002147240300000033
其中λ是一个整数值,反应序列顺序关联阶数,(RiRi+1,Ri+jRi+j+1)定义如下:
Figure BDA0002147240300000034
μ是当前研究中认为等于6的局部DNA结构性质的数量,这6种结构性质如下所示:
Figure BDA0002147240300000035
Pv(RiRi+1)为位置i处二核苷酸RiRi+1的第v(v=1,2,3,4,5,6)种DNA局部结构性质的数值,Pv(Ri+jRi+j+1)为位置i+j处二核苷酸Ri+jRi+j+1的第v种DNA局部结构性质的数值,具体定义如下:
Figure BDA0002147240300000041
其中,符号<>是指取由A,C,G,T组成的16种二核苷酸的平均值,SD指标准差,运用公式(8)转化后得到的标准值,对于每一类物化性质,16种二核苷酸的均值为零,如果再次进行相同的转换,均值依旧为零,本技术方案所需的六类DNA物化性质的标准值可以在现有文献中获取;
位置特异性得分:
位置特征主要使用位置权重矩阵(position weight matrix,PWM)又叫位置特异性权重矩阵(position-specific weight matrix,PSWM),又叫位置特异性得分矩阵(position-specific scoring matrix,PSSM)计算所得,
P0为k-联体核苷酸出现的背景概率,如公式(9)所示:
Figure BDA0002147240300000042
Pxi为k-联体核苷酸x出现在位点i的概率,如公式(10)所示:
Figure BDA0002147240300000043
然后计算位置特异性得分矩阵中每一个元素:
Figure BDA0002147240300000044
最后计算每一个序列的得分,即将每一个序列每一个位置对应的得分相加,如公式(12)所示:
Figure BDA0002147240300000045
特定碱基组合:
碱基含量特征主要是获取单个核苷酸(A,C,G,T)在每一个DNA序列中的含量特征,然后通过计算得出特征来表示每一条序列,本技术方案共提取了5种特征,分别如以下公式所示:
Figure BDA0002147240300000046
Figure BDA0002147240300000051
Figure BDA0002147240300000052
Figure BDA0002147240300000053
Figure BDA0002147240300000054
Figure BDA0002147240300000055
分别表示数据集中第i个样本RNA序列对中A+T,G+C的总含量,
Figure BDA0002147240300000056
分别表示数据集中第i个样本DNA序列对中A+T,G+C的含量比例,pi表示A+T含量与G+C含量的比值;
3)特征集排序:将每种提取后的特征集分别排序,使用两种排序方法:
(1)F-score方法
特征选择的基本任务是研究如何从众多特征中找出那些对分类识别最有效的特征,从而实现特征空间维数的压缩。F-score是一种衡量特征集在正负样本之间的辨别能力的方法,给定的训练向量xk,,k=1,2,3…m,如果正实例和负实例的数目分别是n+和n-,则第i个特征的F分数被推断为:
Figure BDA0002147240300000057
其中
Figure BDA0002147240300000058
分别为第i个特征分别在整个数据集、正样本集、负样本集中的平均特征值,xk,i (+)是第k个正样本中第i个特征的特征值,xk,i (-)是第k个负样本中第i个特征的特征值,分子表示正集合和负集合之间的区别,分母表示两个集合中的每个集合中的一个样本,Fi的值越大,表明第i个特征包含识别度信息越高,对分类的影响越大,因此,本技术方案使用公式(18)得到的分数作为特征选择标准,将Fi按照从大到小的顺序排名,选择对分类影响大的特征集作为样本数据特征集;
(2)二项分布方法(Binomial distribution,简称BD)
为进一步优化实验,本技术方案又使用二项分布方法来对特征集进行排序:
qi=mi/M   (19),
其中,qi为先验概率,mi表示在第i类样品中出现的给定4联体序列的数目,M是四个子集中所有4联体序列的总数,
Figure BDA0002147240300000061
nij代表第j类样本中出现第i种特征的次数,Ni代表所有数据中出现第i中特征的次数,
Pj=min(P(n1j),P(n2j))   (21),
CLij为置信水平,然后使用置信水平进行降序排序,本技术方案选取了置信水平大于0.5的特征集来训练模型,以及进行测试;
4)特征集选择,使用增量特征选择方法(Incremental Feature Select,简称IFS)对每一个特征集进行特征选择,即先使用一个特征集作为训练集进行训练模型,再逐个将步骤3)中的采用二项分布方法得到的特征集加入训练集然后训练模型,直至找到分类准确率最高的特征集数量;
5)特征集提取方法对比:从k-元组核苷酸组分方法、伪核苷酸组分方法、位置特异性得分方法和特定碱基组合方法这4种特征集提取方法中提取了17种特征集,但17种特征集中可能存在完全无效的特征集,所以本技术方案使用SVM+5折交叉验证法对不同的特征集提取方法进行评估,选出最佳的特征集提取方法中的特征集;
6)训练模型:使用SVM、
Figure BDA0002147240300000062
Bayes,即NB、Logistic Regression,即LR、KNN和MLP算法对步骤5)中选出的特征集进行5折交叉验证实验,在5折交叉验证实验中将选出的特征集随机分为5组,选择其中1组作为测试集,其余为训练集,利用训练集训练模型并构建SVM、NB、LR、KNN和MLP算法对应的分类器,将测试集输入到分类器中,得到的分类结果即为预测的终止子结果;
7)构建组合分类器:为进一步提升分类准确率,使用2种集成算法来优化实验,将步骤6)中的各个单一分类器组合,得到一组组合分类器,使用每个组合分类器对DNA序列进行预测,预测所得的结果即为预测的终止子结果;
8)方法评估:使用步骤7)中构建的各个组合分类器对步骤1)中的独立数据集进行分类,以评估步骤6)中训练好的模型,继而得出一个最优的组合分类器,使用得到的最优组合分类器与iTerm-PseKNC算法构建的模型分别对DNA序列进行分类对比,得到的对比结果即为预测的终止子结果。
步骤7)中所述的2种集成算法分别为AdaBoost算法和Bagging算法。
这种预测方法提取多种DNA信息中的特征,还减少了计算时间,避免出现过拟合现象,同时还选出最优的分类模型,提高了预测终止子预测的准确率。
附图说明
图1为实施例的结构图;
图2为实施例中基准数据集的分布图;
图3为实施例中独立数据集的分布图;
图4为实施例总改变特征集个数时的分类准确率示意图;
图5为实施例中不同特征集选择方法和不使用特征集选择方法的准确率示意图;
图6为实施例中预测终止子的操作界面示意图;
图7为实施例中预测终止子操作界面正在进行中的示意图;
图8为实施例中预测终止子的操作界面结果示意图;
图9为实施例中AdaBoost算法组合分类器的示意图;
图10为实施例中Bagging算法组合分类器的示意图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
本例中,为了清楚的表示提取出的多个特征集,对特征集进行了编号,各表中的编号即为特征集类别,表中还使用Sn,Sp,Mcc,Acc作为评估方法的效果,其中Sn表示模型灵敏度,Sp表示模型特异性,Mcc表示模型的马修斯指数,Acc表示模型预测准确度。
参照图1,一种细菌中DNA转录终止子的预测方法,包括如下步骤:
1)获取细菌的终止子和非终止子序列作为基准数据集和独立数据集:本例从http://lin-group.cn/server/iTerm-PseKNC/网站中获取了4个数据集,如图2、图3所示,即280个大肠杆菌终止子序列、560个大肠杆菌非终止子序列、425个枯草芽包杆菌终止子序列和147个大肠杆菌终止子序列,其中280个大肠杆菌终止子序列和560个大肠杆菌非终止子序列为基准数据集用于训练模型,如表1所示;425个枯草芽包杆菌终止子序列和147个大肠杆菌终止子序列为独立数据集用于检验分类器的分类效果,如表2所示:
表1基准数据集
Figure BDA0002147240300000081
表2独立数据集
物种 种类 数目 长度
大肠杆菌 启动子 147 ~50bp
枯草芽孢杆菌 启动子 425 ~50bp
2)特征集提取:采用k-元组核苷酸组分方法、伪核苷酸组分方法、位置特异性得分方法和特定碱基组合方法这四种方法提取基准数据集中的k-元组核苷酸组分、伪核苷酸组分、位置特异性得分和特定碱基共17种特征集,其中,k-元组核苷酸组分:
计算DNA序列中不同k-元组核苷酸的出现频次,首先,用公式(1)表示每条由腺嘌呤A,鸟嘌呤G,胞嘧啶C,胸腺嘧啶T这4类L个寡核苷酸组成的DNA序列样本D,K-元组的K可以取1,2,3,…,k,…,n,其中n趋近无穷大,任意先后取K个核苷酸为一组,共有4k种组合,如K=2时,共有42=16种组合,依次为AA,AC,AG,AT,CA,…,TT,通过k-元组核苷酸组分的方法,对基准数据集中每个样本DNA序列对,从第一个核苷酸开始,从左到右取K个相邻的核苷酸,然后右移一个核苷酸,取后面相邻的K个核苷酸,重复上述操作L-K+1次就可以遍历整条DNA序列对,L为每个样本RNA序列对的长度,统计整条DNA序列对中每一种K-元组核苷酸组分出现的频率,如公式(2)所示,将4k种组合出现的频率转化成4k维的向量,得到矩阵D中第1至4k维向量;
D=R1 R2 R3 R4 R5 R6 … Ri … RL   (1),
Ri为第i个位置上的寡核苷酸,
Figure BDA0002147240300000091
其中
Figure BDA0002147240300000092
为每个k-元组核苷酸组分在DNA序列中出现的频率,
本例中,k=4,5,6,共提取3种特征集,如表3所示:
表3提取的3种特征集
特征集编号 K值 特征集个数
1 K=4 <![CDATA[4<sup>4</sup>]]>
2 K=5 <![CDATA[4<sup>5</sup>]]>
3 K=6 <![CDATA[4<sup>6</sup>]]>
伪核苷酸组分:
除了以上的核苷酸组分特征,本例还使用了核苷酸的物理化学性质,通过使用Ⅰ-伪核苷酸组分方法,也称为平行关伪核苷酸组分方法,将核苷酸组分和伪核苷酸组分结合起来,这种伪核苷酸组分方法不仅考虑了DNA序列的全局或长程顺序信息,并且计算了DNA序列的生物化学信息,提取伪核苷酸组分特征集如下所示:
Figure BDA0002147240300000093
其中,
Figure BDA0002147240300000094
fi K-tuple(i=1,2,3…,4k)为第i种k-元组核苷酸组分在DNA频率,与公式(2)中意义相同,ω为权重因子,用于权衡核苷酸组分和DNA局部结构性质的影响,θj为j-阶关联因子,反应每条DNA序列中所有相邻二核苷酸的j-阶序列顺序关联性,θj定义为:
Figure BDA0002147240300000101
其中λ是一个整数值,反应序列顺序关联阶数,(RiRi+1,Ri+jRi+j+1)定义如下:
Figure BDA0002147240300000102
μ是当前研究中认为等于6的局部DNA结构性质的数量,这6种结构性质如下所示:
Figure BDA0002147240300000103
Pv(RiRi+1)为位置i处二核苷酸RiRi+1的第v(v=1,2,3,4,5,6)种DNA局部结构性质的数值,Pv(Ri+jRi+j+1)为位置i+j处二核苷酸Ri+jRi+j+1的第v种DNA局部结构性质的数值,具体定义如下:
Figure BDA0002147240300000104
其中,符号<>是指取由A,C,G,T组成的16种二核苷酸的平均值,SD指标准差,运用公式(8)转化后的得到的标准值,对于每一类物化性质,16种二核苷酸的均值为零,如果再次进行相同的转换,均值依旧为零,本例所需的这六类DNA物化性质的标准值可以在现有文献中获取,
本例中,k=4,5,6,共提取3种特征集,如表4所示:
表4提取的3种特征集
特征集编号 K值 特征集个数
4 K=4 <![CDATA[4<sup>4</sup>+5]]>
5 K=5 <![CDATA[4<sup>5</sup>+5]]>
6 K=6 <![CDATA[4<sup>6</sup>+5]]>
位置特异性得分:
位置特征主要使用位置权重矩阵(position weight matrix,PWM)又叫位置特异性权重矩阵(position-specific weight matrix,PSWM),又叫位置特异性得分矩阵(position-specific scoring matrix,PSSM)计算所得,P0为k-联体核苷酸出现的背景概率,如公式(9)所示:
Figure BDA0002147240300000111
Pxi为k-联体核苷酸x出现在位点i的概率,如公式(10)所示:
Figure BDA0002147240300000112
然后计算位置特异性得分矩阵中每一个元素:
Figure BDA0002147240300000113
最后计算每一个序列的得分,即将每一个序列每一个位置对应的得分相加,如公式(12)所示:
Figure BDA0002147240300000114
通过位置特异性得分矩阵本例共得到6种特征集,如表5所示:
表5 6种特征集
特征集编号 K值 特征集个数
7 K=1 1
8 K=2 1
9 K=3 1
10 K=4 1
11 K=5 1
12 K=6 1
特定碱基组合:
碱基含量特征主要是获取单个核苷酸(A,C,G,T)在每一个DNA序列中的含量特征,然后通过计算得出特征来表示每一条序列,本例共提取了5种特征,分别如以下公式所示:
Figure BDA0002147240300000121
Figure BDA0002147240300000122
Figure BDA0002147240300000123
Figure BDA0002147240300000124
Figure BDA0002147240300000125
Figure BDA0002147240300000126
分别表示数据集中第i个样本RNA序列对中A+T,G+C的总含量,
Figure BDA0002147240300000127
分别表示数据集中第i个样本DNA序列对中A+T,G+C的含量比例,pi表示A+T含量与G+C含量的比值,
通过提取特定碱基本例共得到5种特征集,如表6所示:
表6提取的5种特征集
特征集编号 特征集名称
13 atContent
14 gcContent
15 atgcRatio
16 gcSkew
17 atSkew
3)特征集排序:将每种提取后的特征集分别排序,使用两种排序方法:
(1)F-score方法
特征选择的基本任务是研究如何从众多特征中找出那些对分类识别最有效的特征,从而实现特征空间维数的压缩。F-score是一种衡量特征集在正负样本之间的辨别能力的方法给定的训练向量xk,,k=1,2,3…m,如果正实例和负实例的数目分别是n+和n-,则第i个特征的F分数被推断为:
Figure BDA0002147240300000131
其中
Figure BDA0002147240300000132
分别为第i个特征分别在整个数据集、正样本集、负样本集中的平均特征值,xk,i (+)是第k个正样本中第i个特征的特征值,xk,i (-)是第k个负样本中第i个特征的特征值,分子表示正集合和负集合之间的区别,分母表示两个集合中的每个集合中的一个样本,Fi的值越大,表明第i个特征包含识别度信息越高,对分类的影响越大,因此,本例使用公式(18)得到的分数作为特征选择标准,将Fi按照从大到小的顺序排名,选择对分类影响大的特征集作为样本数据特征集;
(2)二项分布方法
为进一步优化实验,本例又使用二项分布方法来对特征集进行排序:
qi=mi/M   (19),
其中,qi为先验概率,mi表示在第i类样品中出现的给定4联体序列的数目,M是四个子集中所有4联体序列的总数,
Figure BDA0002147240300000133
nij代表第j类样本中出现第i种特征的次数,Ni代表所有数据中出现第i中特征的次数,
Pj=min(P(n1j),P(n2j))   (21),
CLij为置信水平,然后使用置信水平进行降序排序,本例选取了置信水平大于0.5的特征集来训练模型,以及进行测试;
4)特征集选择:使用增量特征选择方法对每一个特征集进行特征选择,即先使用一个特征集作为训练集进行训练模型,再逐个将步骤3)中的采用二项分布方法得到的特征集加入训练集然后训练模型,直至找到分类准确率最高的特征集数量,如表7所示,为特征集选择前和特征集选择后的结果,为了更好的展示特征选择结果,本例分别用如图4所示的特征数目及分类准确率图,和如图5所示的特征集选择前后准确率的对比图进行展示;
表7特征集选择前和特征集选择后的结果
Figure BDA0002147240300000141
5)特征集提取方法对比:从k-元组核苷酸组分方法、伪核苷酸组分方法、位置特异性得分方法和特定碱基组合方法这4种特征集提取方法中提取了17种特征集,但17种特征集中可能存在完全无效的特征集,所以本例使用SVM+5折交叉验证法对不同的特征集提取方法进行评估,如表8所示,选出最佳的特征集提取方法中的特征集,
表8四大特征提取方法结果
Figure BDA0002147240300000142
Figure BDA0002147240300000151
6)训练模型:使用SVM、
Figure BDA0002147240300000153
Bayes,即NB、Logistic Regression,即LR、KNN和MLP算法对步骤5)中选出的特征集进行5折交叉验证实验,在5折交叉验证实验中将选出的特征集随机分为5组,选择其中1组作为测试集,其余为训练集,利用训练集训练模型并构建SVM、NB、LR、KNN和MLP算法对应的分类器,将测试集输入到分类器中,得到的分类结果即为预测的终止子结果,如表9所示:
表9分类结果
Figure BDA0002147240300000152
7)构建组合分类器:为进一步提升分类准确率,使用AdaBoost算法和Bagging算法这2种集成算法来优化实验,将步骤6)中的各个单一分类器组合,得到一组组合分类器,其中,AdaBoost算法是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器,即弱分类器,AdaBoost算法本身就是通过改变数据分布来实现的,它根据每次训练集中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值,然后将修改过权值的新数据集送给下层分类器进行训练,再将每次训练得到的分类器融合起来,作为最后的决策分类器,本例中,主要使用决策树、支持向量机、逻辑回归朴素贝叶斯作为弱分类器进行迭代算法,如图9所示;Bagging算法是一种提高分类准确率的集成算法,先将训练集分离成多个子集,然后训练多个模型,通过给定组合投票的方式获得最优解,以获得更好的学习性能以及更优秀的泛化性能,本例中分别将支持向量机、朴素贝叶斯、逻辑回归作为基学习器,来集成新的模型,如图10所示;然后使用每个组合分类器对DNA序列进行预测,预测所得的结果即为预测的终止子结果,如表10所示,
表10组合分类器预测结果
Figure BDA0002147240300000161
Figure BDA0002147240300000171
从步骤6)和步骤7)得到45种不同的方法中选出了9种性能较好,且具有代表性的方法,再进一步筛选,如表11所示,
表11 9种具有代表性的方法
Figure BDA0002147240300000172
8)方法评估:使用步骤7)中构建的各个组合分类器对步骤1)中的独立数据集进行分类,以评估步骤6)和步骤7)中训练好的模型,继而得出一个最优的组合分类器,如表12所示,
表12评估结果
编号 大肠杆菌(E.coli) 枯草芽孢杆菌(B.subtilis)
13 0.4476 0.6115
17 0.9937 0.9835
18 1 0.9952
27 1 1
31 0.9897+0.0047 0.9898+0.0012
32 0.952 1
33 0.9952 1
40 1 0.9764
41 1 0.8941
选取表12中准确率最高的27号分类器与iTerm-PseKNC算法构建的模型分别对DNA序列进行分类对比,得到的对比结果即为预测的终止子结果,如表13所示:
表13对比结果
方法 Sn Sp Mcc Acc E.coli B.subtilis
iTerm-PseKNC 0.8607 0.9946 0.8881 0.9571 100% 87.5%
本例 0.9962 1 0.9991 0.9988 100% 100%
从表12中的对比结果可知,本例的方法预测的准确率明显优于其他方法的准确率。
从实验中得到了一个分类最好的方法,编译成为可执行文件,最后使用C#编写了一个界面,如图6所示,并且提取成为了方便使用的工具包,如图7所示,用户只需要将想要预测的序列输入预测工具中,就可以得到预测结果,如图8所示,1表示正样本,即预测的为终止子,若显示0,0表示负样本,则预测的不是终止子。

Claims (1)

1.一种细菌中DNA转录终止子的预测方法,其特征在于,包括如下步骤:
1)获取细菌的终止子和非终止子序列作为基准数据集和独立数据集:其中基准数据集用于训练模型,独立数据集用于检验分类器的分类效果;
2)特征集提取:采用k-元组核苷酸组分方法、伪核苷酸组分方法、位置特异性得分方法和特定碱基组合方法这四种方法提取基准数据集中的k-元组核苷酸组分、伪核苷酸组分、位置特异性得分和特定碱基共17种特征集;
3)特征集排序:将每种提取后的特征集分别排序,使用两种排序方法,即F-score方法对每一种特征集分别进行大小排序,每一种特征集中选择对分类影响大的特征集作为样本数据特征集,然后又采用二项分布方法分别对每一种样本数据特征集使用置信水平进行排序;
4)特征集选择,使用增量特征选择方法对每一个特征集进行特征选择,即先使用一个特征集作为训练集进行训练模型,再逐个将步骤3)中的采用二项分布方法得到的特征集加入训练集然后训练模型,直至找到分类准确率最高的特征集数量;
5)特征集提取方法对比:从k-元组核苷酸组分方法、伪核苷酸组分方法、位置特异性得分方法和特定碱基组合方法这4种特征集提取方法中,使用SVM+5折交叉验证法对不同的特征集提取方法进行评估,选出最佳的特征集提取方法中的特征集;
6)训练模型:使用SVM、Naïve Bayes,即NB、Logistic Regression,即LR、KNN和MLP算法对步骤5)中选出的特征集进行5折交叉验证实验,在5折交叉验证实验中将选出的特征集随机分为5组,选择其中1组作为测试集,其余为训练集,利用训练集训练模型并构建SVM、NB、LR、KNN和MLP算法对应的分类器,将测试集输入到各分类器中,得到的分类结果即为预测的终止子结果;
7)构建组合分类器:使用2种集成算法,将步骤6)中的各个分类器组合,得到一组组合分类器,使用每一个组合分类器对DNA序列进行预测,预测所得的结果即为预测的终止子结果;所述的2种集成算法为AdaBoost算法和Bagging算法;
8)方法评估:使用步骤7)中构建的各个组合分类器对步骤1)中的独立数据集进行分类,以评估步骤6)中训练好的模型,继而得出一个最优的组合分类器,使用得到的最优组合分类器与iTerm-PseKNC算法构建的模型分别对DNA序列进行分类对比,得到的对比结果即为预测的终止子结果。
CN201910688863.5A 2019-07-29 2019-07-29 一种细菌中dna转录终止子的预测方法 Active CN110379464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910688863.5A CN110379464B (zh) 2019-07-29 2019-07-29 一种细菌中dna转录终止子的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910688863.5A CN110379464B (zh) 2019-07-29 2019-07-29 一种细菌中dna转录终止子的预测方法

Publications (2)

Publication Number Publication Date
CN110379464A CN110379464A (zh) 2019-10-25
CN110379464B true CN110379464B (zh) 2023-05-12

Family

ID=68256646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910688863.5A Active CN110379464B (zh) 2019-07-29 2019-07-29 一种细菌中dna转录终止子的预测方法

Country Status (1)

Country Link
CN (1) CN110379464B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341387B (zh) * 2020-02-19 2023-06-30 吉林大学 一种基于基本组分序向量的单向编码无监督分类的方法
CN111755074B (zh) * 2020-07-03 2022-05-17 桂林电子科技大学 一种酿酒酵母菌中dna复制起点的预测方法
CN111951889B (zh) * 2020-08-18 2023-12-22 安徽农业大学 一种rna序列中m5c位点的识别预测方法及系统
CN113837293A (zh) * 2021-09-27 2021-12-24 电子科技大学长三角研究院(衢州) mRNA亚细胞定位模型训练方法、定位方法及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463799A (zh) * 2017-08-23 2017-12-12 福建师范大学福清分校 交互融合特征表示与选择性集成的dna结合蛋白识别方法
CN107742063A (zh) * 2017-10-20 2018-02-27 桂林电子科技大学 一种原核生物σ54启动子的预测方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102203603A (zh) * 2008-10-17 2011-09-28 豪夫迈罗氏有限公司 用于预测hiv病毒趋向性和分类氨基酸序列的技术
CN101930437B (zh) * 2009-06-19 2014-08-13 日电(中国)有限公司 在语义网进行查询的不确定与不一致本体推理方法和设备
CN102495906A (zh) * 2011-12-23 2012-06-13 天津神舟通用数据技术有限公司 一种实现断点续传的增量式数据迁移方法
WO2013097257A1 (zh) * 2011-12-31 2013-07-04 深圳华大基因科技有限公司 一种检验融合基因的方法及系统
CN104331642B (zh) * 2014-10-28 2017-04-12 山东大学 用于识别细胞外基质蛋白的集成学习方法
GB201508419D0 (en) * 2015-05-15 2015-07-01 Cambridge Entpr Ltd Detection of T cell exhaustion or lack of T cell costimulation and uses thereof
CN105938522A (zh) * 2016-04-11 2016-09-14 中国人民解放军第三军医大学 一种预测细菌iv型分泌系统效应分子的方法
CN107506614B (zh) * 2016-06-14 2021-07-02 武汉生命之美科技有限公司 一种细菌ncRNA预测方法
CN106446602A (zh) * 2016-09-06 2017-02-22 中南大学 蛋白质分子中rna结合位点的预测方法及系统
WO2018064547A1 (en) * 2016-09-30 2018-04-05 The Trustees Of Columbia University In The City Of New York Methods for classifying somatic variations
DE102017002092B4 (de) * 2017-03-04 2018-11-08 Johannes-Gutenberg-Universität Mainz Verfahren zur Detektion von bekannten Nukleotid-Modifikationen in einer RNA
CN107092592B (zh) * 2017-04-10 2020-06-05 浙江鸿程计算机系统有限公司 一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法
CN107194207A (zh) * 2017-06-26 2017-09-22 南京理工大学 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法
CN107451616A (zh) * 2017-08-01 2017-12-08 西安电子科技大学 基于深度半监督迁移学习的多光谱遥感图像地物分类方法
CN108255735B (zh) * 2018-01-31 2020-02-11 平安科技(深圳)有限公司 关联环境测试方法、电子装置及计算机可读存储介质
CN108596053B (zh) * 2018-04-09 2020-06-02 华中科技大学 一种基于ssd和车辆姿态分类的车辆检测方法和系统
CN109817275B (zh) * 2018-12-26 2020-12-01 东软集团股份有限公司 蛋白质功能预测模型生成、蛋白质功能预测方法及装置
CN109859798B (zh) * 2019-01-21 2023-06-23 桂林电子科技大学 一种细菌中sRNA与其靶标mRNA相互作用的预测方法
CN110046714A (zh) * 2019-03-25 2019-07-23 天津大学 基于多特征信息融合的长链非编码rna亚细胞定位方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463799A (zh) * 2017-08-23 2017-12-12 福建师范大学福清分校 交互融合特征表示与选择性集成的dna结合蛋白识别方法
CN107742063A (zh) * 2017-10-20 2018-02-27 桂林电子科技大学 一种原核生物σ54启动子的预测方法

Also Published As

Publication number Publication date
CN110379464A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN110379464B (zh) 一种细菌中dna转录终止子的预测方法
Ruiz et al. Incremental wrapper-based gene selection from microarray data for cancer classification
KR102349921B1 (ko) 시료 미생물의 동정 및 분류 방법
Soueidan et al. Machine learning for metagenomics: methods and tools
Erickson et al. DNA barcoding in land plants: developing standards to quantify and maximize success
Rasheed et al. Metagenomic taxonomic classification using extreme learning machines
CN111710364B (zh) 一种菌群标记物的获取方法、装置、终端及存储介质
Bengtsson-Palme Strategies for taxonomic and functional annotation of metagenomes
Filkov et al. Heterogeneous data integration with the consensus clustering formalism
US20190177719A1 (en) Method and System for Generating and Comparing Reduced Genome Data Sets
Yeh Applying data mining techniques for cancer classification on gene expression data
Babu et al. A comparative study of gene selection methods for cancer classification using microarray data
Baten et al. Fast splice site detection using information content and feature reduction
CN112259167B (zh) 基于高通量测序的病原体分析方法、装置和计算机设备
Juneja et al. An approach to DNA sequence classification through machine learning: DNA sequencing, K Mer counting, thresholding, sequence analysis
CN111755074B (zh) 一种酿酒酵母菌中dna复制起点的预测方法
Tian et al. PlasmidHunter: Accurate and fast prediction of plasmid sequences using gene content profile and machine learning
JP4461240B2 (ja) 遺伝子発現プロファイル検索装置、遺伝子発現プロファイル検索方法およびプログラム
Krause et al. Understanding the role of (advanced) machine learning in metagenomic workflows
Duan Applying supervised learning algorithms and a new feature selection method to predict coronary artery disease
Abraham et al. Malignancy Transcriptome Analysis, Tools and Deep Learning Methodologies for Prediction of Diseases
CN111951889A (zh) 一种rna序列中m5c位点的识别预测方法及系统
Woloszynek et al. Analysis methods for shotgun metagenomics
Mapiye et al. Phenotype Prediction of DNA Sequence Data: A Machine-and Statistical Learning Approach
Aljouie et al. Cross-validation and cross-study validation of chronic lymphocytic leukaemia with exome sequences and machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant