CN111755074A - 一种酿酒酵母菌中dna复制起点的预测方法 - Google Patents

一种酿酒酵母菌中dna复制起点的预测方法 Download PDF

Info

Publication number
CN111755074A
CN111755074A CN202010636957.0A CN202010636957A CN111755074A CN 111755074 A CN111755074 A CN 111755074A CN 202010636957 A CN202010636957 A CN 202010636957A CN 111755074 A CN111755074 A CN 111755074A
Authority
CN
China
Prior art keywords
prediction model
features
sequence
dna
cnn prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010636957.0A
Other languages
English (en)
Other versions
CN111755074B (zh
Inventor
樊永显
王婉茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010636957.0A priority Critical patent/CN111755074B/zh
Publication of CN111755074A publication Critical patent/CN111755074A/zh
Application granted granted Critical
Publication of CN111755074B publication Critical patent/CN111755074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Abstract

本发明公开了一种酿酒酵母菌中DNA复制起点的预测方法,步骤为:获取酿酒酵母菌中的正样本序列和负样本序列;使用二进制编码法和PSEKNC‑I两种方法提取特征;使用F‑score和IFS方法对PSEKNC‑I法得到的特征进行筛选,得到预筛选特征;将二进制编码法得到特征和预筛选特征进行组合,获得特征组合后的样本数据集;构建CNN预测模型并训练,输入数据获得初步预测结果;调整训练后CNN预测模型中参数,对训练后的CNN预测模型进行优化;使用五折交叉验证法对优化后的CNN预测模型进行评估最终得到最优的CNN预测模型,将数据输入最优模型中,得到最终的预测结果。该方法提取多种DNA信息中的特征,减少了计算时间,避免过拟合现象,选出最优的分类模型,提高了预测复制起点预测的准确率。

Description

一种酿酒酵母菌中DNA复制起点的预测方法
技术领域
本发明涉及生物信息学中序列相互作用的分类预测技术领域,具体是一种酿酒酵母菌中DNA复制起点的预测方法。
背景技术
近年来,生物信息学和计算机科学相结合而衍生出一个新的研究方向,即以核苷酸、蛋白质、基因序列数据集作为主要研究对象,并利用数学、信息学、计算机科学等手段,以计算机硬件、软件和计算机网络为主要工具,对数量极其庞大的原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、探索、比较、分析,从中获取基因编码、基因调控、核苷酸和蛋白质结构功能机器相互关系等理性知识。在大量的信息和知识的基础上,探索生命起源、生物进化以及细胞器官和个体的发生、发育病变、衰亡等生命科学重大的问题,搞清他们的基本规律和时空联系。最终通过对生物实验数据的获取、加工、存储检索和分析,进而达到节食数据所蕴含的生物学意义的目的。就基因组来说,得到序列仅仅是第一步,后一步工作是所谓基因组时代的任务,及收集、整理、检索和分析序列中表达的结构和功能信息,找出规律。
生命的传承以及基因的传递依靠的主要方式就是DNA的复制,而复制起点 (ORI)决定着复制的开始,准确地识别复制起点不仅有助于优化基因的表达,并且可以给遗传病中的新药研究提供新的策略。复制起始在时间、位置上的错误以及复制过程中核苷酸的错配,均会导致DNA序列突变、基因组重组等事件的发生,增加错误遗传信息的传递,增强细胞基因组的不稳定性。这样就会直接影响到细胞的正常分裂和胚胎的正常发育,也与癌症以及众多遗传疾病的发生密切相关因此,准确鉴定DNA复制起点在基因研究中至关重要。
迄今为止,已经有很多针对于ORI的研究,这些研究都取得一定的成果。 2004年,Cozzarelli课题组利用复制起始区富含AT碱基的自复制一致性序列 (ACS)和富含A碱基的3'区域作为序列特征,通过Oriscan算法对酵母复制起始位点进行了预测。2014年,Li通过计算GC profile和GC skew的值去分析酿酒酵母基因的组分偏差,利用一型伪核苷酸组分来提取序列信息并构建了一个在线预测器iORI-PseKNC去识别酿酒酵母的复制起始位点序列。2016年,Zhang 初次尝试构建人类ORI数据集,并基于随机森林分类器用一型伪核苷酸组分提取信息构建iOri-Human在线预测器来识别人类ORIs。
发明内容
本发明的目的在于解决现有的DNA复制起点的预测准确率的问题,而提供一种酿酒酵母菌中DNA复制起点的预测方法,该预测方法可以提取多种DNA 信息中的特征,还减少计算时间,避免出现过拟合现象,同时还构建出最优的分类模型,提高预测复制起点的准确率。
实现本发明目的的技术方案是:
一种酿酒酵母菌中DNA复制起点的预测方法,包括如下步骤:
1)获取样本数据集:获取酿酒酵母菌中的正样本序列和负样本序列;
2)特征提取:使用二进制编码法和PSEKNC-I两种方法表示样本序列,即使用一个向量表示每一条NDA序列;
3)特征选择:使用F-score方法和增量特征选择方法(Incremental FeatureSelect,IFS)对步骤2)中使用PSEKNC-I法得到的特征进行筛选,得到预筛选特征;
4)特征组合:将步骤2)中采用二进制编码法得到特征和步骤3)得到的预筛选特征进行组合,使用二项分布对组合后的特征进一步筛选,获得特征组合后的样本数据集;
5)构建模型:构建CNN预测模型,将步骤4)获得的样本数据集进行五折交叉验证实验,将五折交叉实验选出的数据集随机分为5组,其中1组作为测试集,剩余4组作为训练集,利用训练集对构建的CNN预测模型进行训练,得到训练后的CNN预测模型,将测试集输入训练后的预测模型分类器中,得到的分类结果即为预测的复制起点的初步结果;
6)参数调优:根据步骤5)得到的初步结果,调整训练后的CNN预测模型中的卷积层数、卷积个数、滤波器大小、步长,以及输出层概率,对训练后的 CNN预测模型进行优化;
7)模型评估:使用五折交叉验证法对优化后的CNN预测模型进行评估,并使用敏感性(Sn)、特异性(Sp)、准确率(Acc)、马修斯相关系数(MCC)四个评估系数对优化后的CNN预测模型的进行衡量,最终得到最优的CNN预测模型,将DNA序列输入最优的CNN预测模型中,即得到最终的DNA复制起点预测结果。
步骤2)中,所述的二进制编码法,是利用0、1表示DNA序列中的核苷酸,把每个DNA序列转化为特征向量,DNA序列中的核苷酸表示方式如下:
Figure RE-GDA0002618045430000031
公式(1)中,A(0,0,0,0)为DNA序列中的腺嘌呤、C(0,1,0,1)为DNA序列中的胞嘧啶、G(0,0,1,0)为DNA序列中的鸟嘌呤、T(0,0,0,1)为DNA序列中的胸腺嘧啶。
步骤2)中,所述的PSEKNC-I法,包括如下步骤:
2-1)计算DNA序列中不同k-元组核苷酸组分的出现频次,利用如下公式(2) 表示每条由腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶T这4类L个寡核苷酸组成的DNA序列样本R,其中k的取值为1,2,3,…,k,…,n,n趋近无穷大;
R=R1 R2 R3 R4 R5 R6 … Ri … RL (2)
Ri为DNA序列中第i个位置上的寡核苷酸;
2-2)任意先后取k个核苷酸为一组,共有4k种组合,通过k-元组核苷酸组分方法,对基准数据集中每个样本DNA序列对,从第一个核苷酸开始,从左到右取k个相邻的核苷酸,然后右移一个核苷酸,取后面相邻的k个核苷酸,重复上述操作L-k+1次就遍历整条DNA序列对,L为每个样本DNA序列对的长度,统计整条DNA序列对中每一种k-元组核苷酸组分出现的频率;
2-3)将4k种组合出现的频率转化为4k维的向量,得到矩阵D中第1至第 4k维向量,矩阵D表达式为:
Figure RE-GDA0002618045430000032
公式(3)中,
Figure RE-GDA0002618045430000033
为每个k-元核苷酸组分在DNA序列中出现的频率。
步骤3)中,所述的F-score方法,是对步骤2)提取的特征Xk进行排序,k=1,2,3,…,m,若正样本和负样本数目分别是n+和n-,则第i个特征的F分数被推断为:
Figure RE-GDA0002618045430000041
其中
Figure RE-GDA0002618045430000042
分别为第i个特征分别在整个数据集、正样本集、负样本集中的平均特征值,
Figure RE-GDA0002618045430000043
是第k个正样本中第i个特征的特征值,
Figure RE-GDA0002618045430000044
是第k个负样本中第i个特征的特征值,分子表示正集合和负集合之间的区别,分母表示两个集合中的每个集合中的一个样本,Fi的值越大,表明第i个特征包含识别度信息越高,对分类的影响越大,则使用公式(10)得到的分数作为特征选择标准,将Fi按照从大到小的顺序排名,选择对分类影响大的特征集作为样本数据特征集。
步骤3)中,所述的使用增量特征选择方法,是对每一个特征集进行特征选择,即先使用一个特征集作为训练集进行训练模型,再逐个将步骤3)中的采用二项分布方法得到的特征集加入训练集然后训练模型,直至找到分类准确率最高的特征集数量。
步骤4)中,所述的二项分布方法,是使用如下公式对特征集进行排序:
qi=mi/M (11)
其中,qi为先验概率,mi表示在第i类样品中出现的给定数据值的数目,M 是特征集中所有数据值的总数,
Figure RE-GDA0002618045430000045
nij代表第j类样本中出现第i种特征的次数,Nj代表所有数据中出现第i中特征的次数,
Pj=min(P(n1j),P(n2j)) (13)
CLij=1-P(nij) (14)
CLj=max(CLi1,CLi2) (15)
CLij为置信水平,然后对置信水平进行降序排序,选取置信水平大于0.5的特征集来训练模型,以及进行测试。
本发明提供的一种酿酒酵母菌中DNA复制起点的预测方法,该方法提取多种DNA信息中的特征,减少了计算时间,避免出现过拟合现象,同时还选出最优的分类模型,提高了预测复制起点预测的准确率。
附图说明
图1为一种酿酒酵母菌中DNA复制起点的预测方法的流程图;
图2为实施例中基准数据集的分布图;
图3为卷积神经网络预测流程图。
具体实施方式
下面结合附图和实施例对本发明内容做进一步阐述,但不是对本发明的限定。
实施例:
如图1所示,一种酿酒酵母菌中DNA复制起点的预测方法,包括如下步骤:
1)获取样本数据集:收集了酿酒酵母菌中405条包含复制起点的的正样本序列和406条不包含复制起点负样本序列,如图2所示;
2)特征提取:使用二进制编码法和PSEKNC-I两种方法表示样本序列,即使用一个向量表示每一条NDA序列;
所述的二进制编码法,是利用0、1表示DNA序列中的核苷酸,把每个DNA 序列转化为特征向量,DNA序列中的核苷酸表示方式如下:
Figure RE-GDA0002618045430000051
公式(1)中,A(0,0,0,0)为DNA序列中的腺嘌呤、C(0,1,0,1)为DNA序列中的胞嘧啶、G(0,0,1,0)为DNA序列中的鸟嘌呤、T(0,0,0,1)为DNA序列中的胸腺嘧啶。
PSEKNC-I法,包括如下步骤:
2-1)计算DNA序列中不同k-元组核苷酸组分的出现频次,利用如下公式(2) 表示每条由腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶T这4类L个寡核苷酸组成的DNA序列样本R,其中k的取值为1,2,3,…,k,…,n,n趋近无穷大;
R=R1 R2 R3 R4 R5 R6 … Ri … RL (2)
Ri为DNA序列中第i个位置上的寡核苷酸;
2-2)任意先后取k个核苷酸为一组,共有4k种组合,通过k-元组核苷酸组分方法,对基准数据集中每个样本DNA序列对,从第一个核苷酸开始,从左到右取k个相邻的核苷酸,然后右移一个核苷酸,取后面相邻的k个核苷酸,重复上述操作L-k+1次就遍历整条DNA序列对,L为每个样本DNA序列对的长度,统计整条DNA序列对中每一种k-元组核苷酸组分出现的频率;
2-3)将4k种组合出现的频率转化为4k维的向量,得到矩阵D中第1至第 4k维向量,矩阵D表达式为:
Figure RE-GDA0002618045430000061
公式(3)中,
Figure RE-GDA0002618045430000062
为每个k-元核苷酸组分在DNA序列中出现的频率。
除了以上的核苷酸组分特征,本例还使用了核苷酸的物理化学性质,通过使用Ⅰ-伪核苷酸组分方法,也称为平行关伪核苷酸组分方法,将核苷酸组分和伪核苷酸组分结合起来,这种伪核苷酸组分方法不仅考虑了DNA序列的全局或长程顺序信息,并且计算了DNA序列的生物化学信息,提取伪核苷酸组分特征集如下所示:
Figure RE-GDA0002618045430000063
其中,
Figure RE-GDA0002618045430000064
Figure RE-GDA0002618045430000065
为第i种k-元组核苷酸组分在DNA频率,与公式(3)中意义相同,ω为权重因子,用于权衡核苷酸组分和DNA局部结构性质的影响,θj为j-阶关联因子,反应每条DNA序列中所有相邻二核苷酸的j-阶序列顺序关联性,θj定义为:
Figure RE-GDA0002618045430000071
其中λ是一个整数值,反应序列顺序关联阶数,(RiRi+1,Ri+jRi+j+1)定义如下:
Figure RE-GDA0002618045430000072
μ是当前研究中认为等于6的局部DNA结构性质的数量,这6种结构性质如下所示:
Figure RE-GDA0002618045430000073
Pv(RiRi+1)为位置i处二核苷酸RiRi+1的第v(v=1,2,3,4,5,6)种DNA 局部结构性质的数值,Pv(Ri+jRi+j+1)为位置i+j处二核苷酸Ri+jRi+j+1的第v种 DNA局部结构性质的数值,具体定义如下:
Figure RE-GDA0002618045430000074
其中,符号<>是指取由A,C,G,T组成的16种二核苷酸的平均值,SD指标准差,运用公式(9)转化后的得到的标准值,对于每一类物化性质,16种二核苷酸的均值为零,如果再次进行相同的转换,均值依旧为零。表1展示了16中核苷酸性质的标准值。
表1核苷酸物化性质标准值
Figure RE-GDA0002618045430000075
Figure RE-GDA0002618045430000081
本例中,k=4,5,6,共提取3种特征集,如表2所示:
表2提取的3种特征集
Figure RE-GDA0002618045430000082
3)特征选择:使用F-score方法和增量特征选择方法(Incremental FeatureSelect, IFS)对步骤2)中使用PSEKNC-I法得到的特征进行筛选,得到预筛选特征;具体是对步骤2)提取的特征xk进行排序,k=1,2,3,…,m,若正样本和负样本数目分别是n+和n-,则第i个特征的F分数被推断为:
Figure RE-GDA0002618045430000083
其中
Figure RE-GDA0002618045430000084
分别为第i个特征分别在整个数据集、正样本集、负样本集中的平均特征值,
Figure RE-GDA0002618045430000085
是第k个正样本中第i个特征的特征值,
Figure RE-GDA0002618045430000086
是第k个负样本中第i个特征的特征值,分子表示正集合和负集合之间的区别,分母表示两个集合中的每个集合中的一个样本,Fi的值越大,表明第i个特征包含识别度信息越高,对分类的影响越大,则使用公式(10)得到的分数作为特征选择标准,将Fi按照从大到小的顺序排名,选择对分类影响大的特征集作为样本数据特征集。
使用增量特征选择方法,是对每一个特征集进行特征选择,即先使用一个特征集作为训练集进行训练模型,再逐个将步骤3)中的采用二项分布方法得到的特征集加入训练集然后训练模型,直至找到分类准确率最高的特征集数量。
4)特征组合:将步骤2)中采用二进制编码法得到特征和步骤3)得到的预筛选特征进行组合,使用二项分布对组合后的特征进一步筛选,获得特征组合后的样本数据集;
所述的二项分布方法,是使用如下公式对特征集进行排序:
qi=mi/M (11)
其中,qi为先验概率,mi表示在第i类样品中出现的给定数据值的数目,M 是特征集中所有数据值的总数,
Figure RE-GDA0002618045430000091
nij代表第j类样本中出现第i种特征的次数,Ni代表所有数据中出现第i中特征的次数,
Pj=min(P(n1j),P(n2j)) (13),
CLij=1-P(nij) (14)
CLj=max(CLi1,CLi2) (15)
CLij为置信水平,然后对置信水平进行降序排序,选取置信水平大于0.5的特征集来训练模型,以及进行测试。
5)构建模型:构建CNN预测模型,将步骤4)获得的样本数据集进行五折交叉验证实验,将五折交叉实验选出的数据集随机分为5组,其中1组作为测试集,剩余4组作为训练集,利用训练集对构建的CNN预测模型进行训练,得到训练后的CNN预测模型,将测试集输入训练后的预测模型分类器中,得到的分类结果即为预测的复制起点的初步结果;CNN的预测流程如图3所示。
6)参数调优:根据步骤5)得到的初步结果,调整训练后的CNN预测模型中的卷积层数、卷积个数、滤波器大小、步长,以及输出层概率,对训练后的 CNN预测模型进行优化;
如下表3中列出了上述参数的范围,根据最小的验证损失选择了性能最佳的参数,其中预测较好的前三个模型如表4所示。
表3模型调参
Figure RE-GDA0002618045430000101
表4模型展示
Figure RE-GDA0002618045430000102
Figure RE-GDA0002618045430000111
7)模型评估:使用五折交叉验证法对优化后的CNN预测模型进行评估,并使用如下公式计算(14)敏感性(Sn)、特异性(Sp)、准确率(Acc)、马修斯相关系数(MCC)四个评估系数对优化后的CNN预测模型的进行衡量,最终得到最优的CNN预测模型,将DNA序列输入最优的CNN预测模型中,即得到最终的DNA复制起点预测结果。最后将本申请的预测方法与现有的方法作了比较,对比结果如表5所示。从表5中的对比结果可知,本例的方法预测的准确率明显优于其他方法的准确率。
Figure RE-GDA0002618045430000112
表5对比结果
Figure RE-GDA0002618045430000113

Claims (2)

1.一种酿酒酵母菌中DNA复制起点的预测方法,其特征在于,包括如下步骤:
1)获取样本数据集:获取酿酒酵母菌中的正样本序列和负样本序列;
2)特征提取:使用二进制编码法和PSEKNC-I两种方法表示样本序列,即使用一个向量表示每一条NDA序列;
3)特征选择:使用F-score方法和增量特征选择方法对步骤2)中使用PSEKNC-I法得到的特征进行筛选,得到预筛选特征;
4)特征组合:将步骤2)中采用二进制编码法得到特征和步骤3)得到的预筛选特征进行组合,使用二项分布对组合后的特征进一步筛选,获得特征组合后的样本数据集;
5)构建模型:构建CNN预测模型,将步骤4)获得的样本数据集进行五折交叉验证实验,将五折交叉实验选出的数据集随机分为5组,其中1组作为测试集,剩余4组作为训练集,利用训练集对构建的CNN预测模型进行训练,得到训练后的CNN预测模型,将测试集输入训练后的预测模型分类器中,得到的分类结果即为预测的复制起点的初步结果;
6)参数调优:根据步骤5)得到的初步结果,调整训练后的CNN预测模型中的卷积层数、卷积个数、滤波器大小、步长,以及输出层概率,对训练后的CNN预测模型进行优化;
7)模型评估:使用五折交叉验证法对优化后的CNN预测模型进行评估,并使用敏感性、特异性、准确率、马修斯相关系数四个评估系数对优化后的CNN预测模型的进行衡量,最终得到最优的CNN预测模型,将DNA序列输入最优的CNN预测模型中,即得到最终的DNA复制起点预测结果。
2.根据权利要求1所述的一种酿酒酵母菌中DNA复制起点的预测方法,其特征在于,步骤2)中,所述的二进制编码法,是利用0、1表示DNA序列中的核苷酸,把每个DNA序列转化为特征向量,DNA序列中的核苷酸表示方式如下:
Figure RE-FDA0002618045420000011
公式(1)中,A(0,0,0,0)为DNA序列中的腺嘌呤、C(0,1,0,1)为DNA序列中的胞嘧啶、G(0,0,1,0)为DNA序列中的鸟嘌呤、T(0,0,0,1)为DNA序列中的胸腺嘧啶。
CN202010636957.0A 2020-07-03 2020-07-03 一种酿酒酵母菌中dna复制起点的预测方法 Active CN111755074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010636957.0A CN111755074B (zh) 2020-07-03 2020-07-03 一种酿酒酵母菌中dna复制起点的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010636957.0A CN111755074B (zh) 2020-07-03 2020-07-03 一种酿酒酵母菌中dna复制起点的预测方法

Publications (2)

Publication Number Publication Date
CN111755074A true CN111755074A (zh) 2020-10-09
CN111755074B CN111755074B (zh) 2022-05-17

Family

ID=72679166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010636957.0A Active CN111755074B (zh) 2020-07-03 2020-07-03 一种酿酒酵母菌中dna复制起点的预测方法

Country Status (1)

Country Link
CN (1) CN111755074B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643758A (zh) * 2021-09-22 2021-11-12 华南农业大学 面向肠杆科细菌获得抗β-内酰胺类耐药性基因的预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030119068A1 (en) * 2000-05-12 2003-06-26 Spaink Herman Pieter Use of proteinaceous molecules in methods for molecular computing
CN103843001A (zh) * 2011-04-14 2014-06-04 考利达基因组股份有限公司 复杂核酸序列数据的处理和分析
CN110379464A (zh) * 2019-07-29 2019-10-25 桂林电子科技大学 一种细菌中dna转录终止子的预测方法
CN110890127A (zh) * 2019-11-27 2020-03-17 山东大学 酿酒酵母dna复制起始区域识别方法
CN111161793A (zh) * 2020-01-09 2020-05-15 青岛科技大学 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030119068A1 (en) * 2000-05-12 2003-06-26 Spaink Herman Pieter Use of proteinaceous molecules in methods for molecular computing
CN103843001A (zh) * 2011-04-14 2014-06-04 考利达基因组股份有限公司 复杂核酸序列数据的处理和分析
CN110379464A (zh) * 2019-07-29 2019-10-25 桂林电子科技大学 一种细菌中dna转录终止子的预测方法
CN110890127A (zh) * 2019-11-27 2020-03-17 山东大学 酿酒酵母dna复制起始区域识别方法
CN111161793A (zh) * 2020-01-09 2020-05-15 青岛科技大学 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DUYEN THIDO等: "Using extreme gradient boosting to identify origin of replication in Saccharomyces cerevisiae via hybrid features", 《GENOMICS》 *
FU-YING DAO等: "A computational platform to identify origins of replication sites in eukaryotes", 《BRIEFINGS IN BIOINFORMATICS》 *
IMANNAZARI等: "iN6-Methyl (5-step): Identifying RNA N6-methyladenosine sites using deep learning mode via Chou"s 5-step rules and Chou"s general PseKNC", 《CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS》 *
YONGXIAN FAN等: "Using multi-layer perceptron to identify origins of replication in eukaryotes via informative features", 《BMC BIOINFORMATICS》 *
王婉茹: "基于序列信息的转录终止子及复制起点的预测研究", 《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643758A (zh) * 2021-09-22 2021-11-12 华南农业大学 面向肠杆科细菌获得抗β-内酰胺类耐药性基因的预测方法

Also Published As

Publication number Publication date
CN111755074B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
Si et al. Model-based clustering for RNA-seq data
Ruiz et al. Incremental wrapper-based gene selection from microarray data for cancer classification
Wu et al. A novel abundance-based algorithm for binning metagenomic sequences using l-tuples
Molinaro et al. Tree-based multivariate regression and density estimation with right-censored data
Liu et al. Selecting informative genes with parallel genetic algorithms in tissue classification
CN110379464B (zh) 一种细菌中dna转录终止子的预测方法
CN112466404B (zh) 一种宏基因组重叠群无监督聚类方法及系统
CN114927162A (zh) 基于超图表征与狄利克雷分布的多组学关联表型预测方法
CN110111843A (zh) 对核酸序列进行聚类的方法、设备及存储介质
CN114864003A (zh) 基于混合实验组和对照组单细胞样本的差异分析方法及系统
WO2022167821A1 (en) Drug optimisation by active learning
CN109801681B (zh) 一种基于改进的模糊聚类算法的snp选择方法
CN111755074B (zh) 一种酿酒酵母菌中dna复制起点的预测方法
CN107992722A (zh) 基于对称不确定性和信息交互增益的特征选择方法
CN110890127A (zh) 酿酒酵母dna复制起始区域识别方法
CN113823356A (zh) 一种甲基化位点识别方法及装置
Ambroise et al. Transcriptional network inference from functional similarity and expression data: a global supervised approach
Zintzaras et al. Forest classification trees and forest support vector machines algorithms: Demonstration using microarray data
CN116680594A (zh) 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法
CN113260710A (zh) 用于通过多个定制掺合混合物验证微生物组序列处理和差异丰度分析的组合物、系统、设备和方法
CN113192562B (zh) 融合多尺度模块结构信息的致病基因识别方法及系统
CN111951889B (zh) 一种rna序列中m5c位点的识别预测方法及系统
Shanan et al. Using alignment-free methods as preprocessing stage to classification whole genomes
CN108182347B (zh) 一种大规模跨平台基因表达数据分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant