CN106446602A - 蛋白质分子中rna结合位点的预测方法及系统 - Google Patents

蛋白质分子中rna结合位点的预测方法及系统 Download PDF

Info

Publication number
CN106446602A
CN106446602A CN201610804573.9A CN201610804573A CN106446602A CN 106446602 A CN106446602 A CN 106446602A CN 201610804573 A CN201610804573 A CN 201610804573A CN 106446602 A CN106446602 A CN 106446602A
Authority
CN
China
Prior art keywords
feature
rna binding
binding site
features
rna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610804573.9A
Other languages
English (en)
Inventor
邓磊
阮俊
刘帝伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201610804573.9A priority Critical patent/CN106446602A/zh
Publication of CN106446602A publication Critical patent/CN106446602A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种蛋白质分子中RNA结合位点的预测方法及系统,以有效预测RNA和蛋白质结合位点,解决生物实验的成本昂贵和实验周期长等问题。本发明公开的预测方法包括:选取样本集;对RNA蛋白质复合物的特征进行编码;以目标类别与候选特征之间的最大相关,以及候选特征与已经选出特征之间的最小冗余为规则筛选特征,并对筛选出的特征进行排序,使用增量特征选择方法确定最佳的特征数和最优的特征集;使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型,对各子模型所对应的基分类器进行加权融合,产生联合后的结果分类器;将要测试的数据输入结果分类器,通过各子模型的投票获取最终的预测结果。

Description

蛋白质分子中RNA结合位点的预测方法及系统
技术领域
本发明涉及生物信息技术领域,尤其涉及一种蛋白质分子中RNA结合位点的预测方法及系统。
背景技术
蛋白质和RNA(核糖核酸)是生命化合物中最重要的两种生物大分子。蛋白质和RNA间的相互作用在很多重要的生命活动中扮演着不可或缺的角色,比如蛋白质合成,转录(转录是遗传信息由DNA转换到RNA的过程)后的修改,调节基因表达以及许多病毒的复制和组装。取得关于蛋白质RNA相互作用残基的信息有助于理解许多和蛋白质RNA相互作用有关的很多生物学活动的机制和功能。此外,识别蛋白质RNA相互作用位点会对基于RNA的药物设计有着直接的帮助。因此,近几年预测RNA绑定的蛋白质以及它们相互作用的残基引起了广泛的关注。
过去的几年里,已经有很多研究从结构或者是序列来分析和预测了蛋白质RNA混合体中蛋白质和RNA之间相互作用残基。基于很多不同的特征,多种机器学习算法已经被应用到这个问题上了,比如基于不同特征的神经网络分类器,支持向量机模型和朴素贝叶斯分类器等。
发明内容
本发明目的在于公开一种蛋白质分子中RNA结合位点的预测方法及系统,以有效预测RNA和蛋白质结合位点,解决生物实验的成本昂贵和实验周期长等问题。
为实现上述目的,本发明公开一种蛋白质分子中RNA结合位点的预测方法,包括:
选取训练样本集和检验样本集;
对RNA蛋白质复合物的特征进行编码;
以目标类别与候选特征之间的最大相关,以及候选特征与已经选出特征之间的最小冗余为规则筛选特征,并对筛选出的特征进行排序,使用增量特征选择方法确定最佳的特征数和最优的特征集;
使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型,对各子模型所对应的基分类器进行加权融合,产生联合后的结果分类器;
将要测试的数据输入结果分类器,通过各子模型的投票获取最终的预测结果。
为实现上述目的,本发明还公开一种蛋白质分子中RNA结合位点的预测系统,包括:
数据库,用于选取并存储训练样本集和检验样本集;
第一处理模块,用于对RNA蛋白质复合物的特征进行编码;
第二处理模块,用于以目标类别与候选特征之间的最大相关,以及候选特征与已经选出特征之间的最小冗余为规则筛选特征,并对筛选出的特征进行排序,使用增量特征选择方法确定最佳的特征数和最优的特征集;
第三处理模块,用于使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型,对各子模型所对应的基分类器进行加权融合,产生联合后的结果分类器;
第四处理模块,将要测试的数据输入结果分类器,通过各子模型的投票获取最终的预测结果。
本发明具有以下有益效果:
通过mRMR-IFS筛选特征,保留主要的影响特征,减少噪声特征对预测准确性的影响,显著提高了蛋白质RNA结合位点预测的准确性,解决了生物实验成本昂贵和实验周期长等问题。
下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的公开的蛋白质分子中RNA结合位点的预测方法流程图;
图2是来获取蛋白质链和创建每个数据集的方法示意图;
图3是各类特征的重要性比较,基于RBP170数据集对各类特征按最大相关及最小冗余特性进行排序,并统计前N个特征中各类特征所占的数量,数量越大,其对模型的影响程度越大;特征种类包括三大类,即位点特征,欧式距离特征,Voronoi结构特征;
图4为RBP170数据集上的mRMR-IFS曲线,包括MCC和AUC值,当MCC与AUC的均值最大时,模型的性能最好,在该图示中,位置在上的曲线为AUC曲线,位置在下的曲线为MCC曲线;
图5为在RBP170数据集上不同分类器的ROC曲线;
图6为在独立测试集RBP101上不同分类器的ROC曲线;
图7为模型预测的RNA结合位点与真实的RNA结合位点之间的对比,其中,图(a)左右分别是旋转180度的真实结合位点图示,图(b)是对应图(a)的预测结合位点图示。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例1
本实施例公开一种蛋白质分子中RNA结合位点的预测方法,如图1所示,包括:
步骤S1、选取训练样本集和检验样本集。
可选的,如图2所示,本实施例中的样本集可以采用公开的PDB(Protein DataBank)数据库,该训练样本集可以采用其中的数据库RBP170,独立的检验样本集可以采用其中的数据库RBP101。其中训练样本主要用来学习训练,检验样本主要用于测试检验。
步骤S2、对RNA蛋白质复合物的特征进行编码。
可选的,本实施例可以将基于序列的特征:如物理化学特征、侧链环境、特异位点得分矩阵、进化保守型得分、无序度、局部结构熵等;以及基于结构的特征:如相对溶剂可及面积、二级结构、相互作用倾向、原子和残基接触、实体统计赝势、Voronoi触点和势、地形指数与SCE评分、和结构邻居结合得到了63个位点特征,63个Euclidean特征(即欧式距离特征)以及63个Voronoi结构特征。如图3所示的各类特征的重要性比较,其中,基于RBP170数据集对各类特征按最大相关及最小冗余特性进行排序,并统计前N个特征中各类特征所占的数量,数量越大,其对模型的影响程度越大;特征种类包括三大类,即位点特征,欧式距离特征,Voronoi结构特征。
步骤S3、以目标类别与候选特征之间的最大相关,以及候选特征与已经选出特征之间的最小冗余为规则筛选特征,并对筛选出的特征进行排序,使用增量特征选择(IFS)方法确定最佳的特征数和最优的特征集。
该步骤中,候选特征同上,可以包括基于序列的特征和基于结构的特征;其中:
基于序列的特征包括:物理化学特征,侧链环境,特异位点得分矩阵,进化保守型得分,无序度,局部结构熵;
基于结构的特征包括:相对溶剂可及面积,二级结构,相互作用倾向,原子和残基接触,实体统计赝势,Voronoi触点和势,地形指数与SCE评分,并考虑和结构邻居的结合。
该步骤S3中,即通过最大相关最小冗余(mRMR)筛选特征,可选的,提取特征时所使用的最大相关及最小冗余以互信息MI来度量,定义为:
其中x和y是两个随机变量,p(x,y)是两个随机变量的联合密度函数,p(x),p(y)是x,y的边缘分布,所提取的特征列表为:F={f1,f2,...,fi),其中1≤i≤n。
进一步的,在该步骤S3中,确定最佳的特征数和最优的特征集可以按特征的最大相关及最小冗余对特征进行排名,并绘制mRMR-IFS曲线,然后从曲线中选择使MCC和AUC的均值最大时对应的特征数目作为最终分类器的特征集大小;其中该mRMR-IFS曲线以MCC(马氏相关系数)值和AUC(Area under Curve)值作为y坐标,以特征数目Fi的下标i作为x坐标轴,i=1,2,...,n。如图4所示,该特征集的优选数目可设置为180。
步骤S4、使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型,对各子模型所对应的基分类器进行加权融合,产生联合后的结果分类器。
该步骤即训练迭代决策树模型。在该步骤S4中,可以通过Boosting技术予以实现。其中,通过Boosting框架对训练样本集的操作,得到不同的训练样本子集,用该样本子集去训练生成基分类器;每得到一个样本集就用该基分类算法在该样本集上产生一个基分类器,这样在给定训练轮数n后,就可产生n个基分类器,然后Boosting框架算法将这n个基分类器进行加权融合,产生一个最后的结果分类器,在这n个基分类器中,每个单个的分类器的识别率不一定很高,但他们联合后的结果有很高的识别率,这样便提高了该弱分类算法的识别率。例如:使用Boosting技术建模时,第一次迭代每个样本被选入训练样本集的概率或者说其权重相同,模型建立完毕,重新调整各样本的权重,使它们进行第二次迭代,此次权重调整的原则是:上次未能正确预测的样本权重增大,上次正确预测的样本权重减小;第三次迭代重复第二次迭代,以此类推;其中,样本权重越大,其被选入训练样本集的可能性越大;由于对预测结果模棱两可的样本往往位于边界处,故多次迭代后,边界处的样本权重显著性增大。
优选的,本实施例所采用的迭代决策树算法如下:
输入:
数据集:
损失函数:L(y,Θ(x));
迭代次数=M;
输出:
1)、初始化
2)、从m=1到M,重复步骤3)到6);
3)、计算损失函数的负梯度作为残差值;
4)、通过使用输入x的Logistic函数找到一个合适的分类模型,并得到βh(x;α)的估计αm
5)、通过最小化L(yim-1(xi)+βh(xim))得到估计βm
6)、更新Θm(x)=Θm-1(x)+βmh(x;αm);
7)、返回
步骤S5、将要测试的数据输入结果分类器,通过各子模型的投票获取最终的预测结果。与上述Boosting技术对应的,在投票阶段,由于经过K次迭代而产生的K个模型;Boosting采用加权投票方式,不同模型按其误差大小确定权重;通常,误差大的权重小,误差小的权重大。权重大的对结果影响大,权重小的对结果影响小。这样经过K个模型的加权投票结果,是最为稳健的。
采用本发明的上述方法分别在RBP170数据集及独立测试集RBP101上所确定的分类器的ROC曲线与其他分类器的对比如图5及图6,其中,PredRBR AUC所对应的曲线为本发明的实验结果,相比于其他分类器,具有更好的实验结果。
依托上述步骤,如图7所示,以NusB-NusE-BoxA RNA复合体为对象,本案申请人研究了NusB上的RNA捆绑残基(3R2C:A),通过对TP(正确的肯定数目)、FN(漏报,没有找到正确匹配的数目)、FP(误报,没有的匹配不正确)、TN(正确拒绝的非匹配数目)的统计,对其结合位点整个预测的准确性ACC是0.88,和通过X射线晶体衍射或者核磁共振等方法实验实际测出的RNA结合位点相比较,预测结果非常准确。其中,三联NusB-Nus-BoxA RNA复合体(PDB代码为3R2C)是启动进行的转录抗终止作用所需的整个抗终止复合体,对解释关键蛋白质-蛋白质和蛋白质-RNA相互作用具有重要意义。
综上,本实施例公开的蛋白质分子中RNA结合位点的预测方法,能综合考虑了结构特征,序列特征,以及邻居特征,能有效的考虑各种可能对预测结果产生影响的因素,并进一步通过mRMR-IFS筛选特征,从而保留主要的影响特征,减少噪声特征对预测准确性的影响,本发明可以显著提高蛋白质RNA结合位点预测的准确性,解决了生物实验成本昂贵和实验周期长的问题。
实施例2
与上述方法实施例相对应的,本实施例公开一种蛋白质分子中RNA结合位点的预测系统,包括:
数据库,用于选取并存储训练样本集和检验样本集;
第一处理模块,用于对RNA蛋白质复合物的特征进行编码;
第二处理模块,用于以目标类别与候选特征之间的最大相关,以及候选特征与已经选出特征之间的最小冗余为规则筛选特征,并对筛选出的特征进行排序,使用增量特征选择方法确定最佳的特征数和最优的特征集;
第三处理模块,用于使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型,对各子模型所对应的基分类器进行加权融合,产生联合后的结果分类器;
第四处理模块,将要测试的数据输入结果分类器,通过各子模型的投票获取最终的预测结果。
优选的,所述候选特征包括基于序列的特征和基于结构的特征;其中:
基于序列的特征包括:物理化学特征,侧链环境,特异位点得分矩阵,进化保守型得分,无序度,局部结构熵;
基于结构的特征包括:相对溶剂可及面积,二级结构,相互作用倾向,原子和残基接触,实体统计赝势,Voronoi触点和势,地形指数与SCE评分,并考虑和结构邻居的结合。
优选的,该系统提取特征时所使用的最大相关及最小冗余以互信息MI来度量,定义为:
其中x和y是两个随机变量,p(x,y)是两个随机变量的联合密度函数,p(x),p(y)是x,y的边缘分布,所提取的特征列表为:F={f1,f2,...,fi),其中1≤i≤n。
优选的,该系统确定最佳的特征数和最优的特征集包括:按特征的最大相关及最小冗余对特征进行排名,并绘制mRMR-IFS曲线,然后从曲线中选择使MCC和AUC的均值最大时对应的特征数目作为最终分类器的特征集大小;其中mRMR-IFS曲线以MCC值和AUC值作为y坐标轴,以特征数目Fi的下标i作为x坐标轴,i=1,2,...,n。
优选的,上述系统所采用的迭代决策树算法如下:
输入:
数据集:
损失函数:L(y,Θ(x));
迭代次数=M;
输出:
1)、初始化
2)、从m=1到M,重复步骤3)到6);
3)、计算损失函数的负梯度作为残差值;
4)、通过使用输入x的Logistic函数找到一个合适的分类模型,并得到βh(x;α)的估计αm
5)、通过最小化L(yim-1(xi)+βh(xim))得到估计βm
6)、更新Θm(x)=Θm-1(x)+βmh(x;αm);
7)、返回
同理,本实施例公开的蛋白质分子中RNA结合位点的预测系统,其能综合考虑了结构特征,序列特征,以及邻居特征,能有效的考虑各种可能对预测结果产生影响的因素,并进一步通过mRMR-IFS筛选特征,从而保留主要的影响特征,减少噪声特征对预测准确性的影响,本发明可以显著提高蛋白质RNA结合位点预测的准确性,解决了生物实验成本昂贵和实验周期长的问题。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种蛋白质分子中RNA结合位点的预测方法,其特征在于,包括:
选取训练样本集和检验样本集;
对RNA蛋白质复合物的特征进行编码;
以目标类别与候选特征之间的最大相关,以及候选特征与已经选出特征之间的最小冗余为规则筛选特征,并对筛选出的特征进行排序,使用增量特征选择方法确定最佳的特征数和最优的特征集;
使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型,对各子模型所对应的基分类器进行加权融合,产生联合后的结果分类器;
将要测试的数据输入结果分类器,通过各子模型的投票获取最终的预测结果。
2.根据权利要求1所述的蛋白质分子中RNA结合位点的预测方法,其特征在于,所述候选特征包括基于序列的特征和基于结构的特征;其中:
基于序列的特征包括:物理化学特征,侧链环境,特异位点得分矩阵,进化保守型得分,无序度,局部结构熵;
基于结构的特征包括:相对溶剂可及面积,二级结构,相互作用倾向,原子和残基接触,实体统计赝势,Voronoi触点和势,地形指数与SCE评分,并考虑和结构邻居的结合。
3.根据权利要求1所述的蛋白质分子中RNA结合位点的预测方法,其特征在于,提取特征时所使用的最大相关及最小冗余以互信息MI来度量,定义为:
I ( x , y ) - ∫ ∫ p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) d x d y
其中x和y是两个随机变量,p(x,y)是两个随机变量的联合密度函数,p(x),p(y)是x,y的边缘分布,所提取的特征列表为:F={f1,f2,...,fi),其中1≤i≤n。
4.根据权利要求3所述的蛋白质分子中RNA结合位点的预测方法,其特征在于,所述确定最佳的特征数和最优的特征集包括:
按特征的最大相关及最小冗余对特征进行排名,并绘制mRMR-IFS曲线,然后从曲线中选择使MCC和AUC的均值最大时对应的特征数目作为最终分类器的特征集大小;
其中mRMR-IFS曲线以MCC值和AUC值作为y坐标轴,以特征数目Fi的下标i作为x坐标轴,i=1,2,...,n。
5.根据权利要求1至4任一所述的蛋白质分子中RNA结合位点的预测方法,其特征在于,所述迭代决策树算法包括:
输入:
数据集:D={(x1,y1),(x2,y2),...,(xn,yn)},xi∈x,yi∈{-1,+1};
损失函数:L(y,Θ(x));
迭代次数=M;
输出:
1)、初始化
2)、从m=1到M,重复步骤3)到6);
3)、计算损失函数的负梯度作为残差值;
r i = - [ ∂ L ( y i , Θ ( x i ) ) ∂ Θ ( x i ) ] Θ ( x ) = Θ m - 1 ( x ) , i = { 1 , ... , M } ;
4)、通过使用输入x的Logistic函数找到一个合适的分类模型,并得到βh(x;α)的估计αm
5)、通过最小化L(yim-1(xi)+βh(xim))得到估计βm
6)、更新Θm(x)=Θm-1(x)+βmh(x;αm);
7)、返回
6.一种蛋白质分子中RNA结合位点的预测系统,其特征在于,包括:
数据库,用于选取并存储训练样本集和检验样本集;
第一处理模块,用于对RNA蛋白质复合物的特征进行编码;
第二处理模块,用于以目标类别与候选特征之间的最大相关,以及候选特征与已经选出特征之间的最小冗余为规则筛选特征,并对筛选出的特征进行排序,使用增量特征选择方法确定最佳的特征数和最优的特征集;
第三处理模块,用于使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型,对各子模型所对应的基分类器进行加权融合,产生联合后的结果分类器;
第四处理模块,将要测试的数据输入结果分类器,通过各子模型的投票获取最终的预测结果。
7.根据权利要求6所述的蛋白质分子中RNA结合位点的预测系统,其特征在于,所述候选特征包括基于序列的特征和基于结构的特征;其中:
基于序列的特征包括:物理化学特征,侧链环境,特异位点得分矩阵,进化保守型得分,无序度,局部结构熵;
基于结构的特征包括:相对溶剂可及面积,二级结构,相互作用倾向,原子和残基接触,实体统计赝势,Voronoi触点和势,地形指数与SCE评分,并考虑和结构邻居的结合。
8.根据权利要求6所述的蛋白质分子中RNA结合位点的预测系统,其特征在于,提取特征所使用的最大相关及最小冗余以互信息MI来度量,定义为:
I ( x , y ) - ∫ ∫ p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) d x d y
其中x和y是两个随机变量,p(x,y)是两个随机变量的联合密度函数,p(x),p(y)是x,y的边缘分布,所提取的特征列表为:F={f1,f2,...,fi),其中1≤i≤n。
9.根据权利要求8所述的蛋白质分子中RNA结合位点的预测系统,其特征在于,所述确定最佳的特征数和最优的特征集包括:
按特征的最大相关及最小冗余对特征进行排名,并绘制mRMR-IFS曲线,然后从曲线中选择使MCC和AUC的均值最大时对应的特征数目作为最终分类器的特征集大小;其中mRMR-IFS曲线以MCC值和AUC值作为y坐标轴,以特征数目Fi的下标i作为x坐标轴,i=1,2,...,n。
10.根据权利要求6至9任一所述的蛋白质分子中RNA结合位点的预测系统,其特征在于,所述迭代决策树算法包括:
输入:
数据集:D={(x1,y1),(x2,y2),...,(xn,yn)},xi∈x,yi∈{-1,+1};
损失函数:L(y,Θ(x));
迭代次数=M;
输出:
1)、初始化
2)、从m=1到M,重复步骤3)到6);
3)、计算损失函数的负梯度作为残差值;
r i = - [ ∂ L ( y i , Θ ( x i ) ) ∂ Θ ( x i ) ] Θ ( x ) = Θ m - 1 ( x ) , i = { 1 , ... , M } ;
4)、通过使用输入x的Logistic函数找到一个合适的分类模型,并得到βh(x;α)的估计αm
5)、通过最小化L(yim-1(xi)+βh(xim))得到估计βm
6)、更新Θm(x)=Θm-1(x)+βmh(x;αm);
7)、返回
CN201610804573.9A 2016-09-06 2016-09-06 蛋白质分子中rna结合位点的预测方法及系统 Pending CN106446602A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610804573.9A CN106446602A (zh) 2016-09-06 2016-09-06 蛋白质分子中rna结合位点的预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610804573.9A CN106446602A (zh) 2016-09-06 2016-09-06 蛋白质分子中rna结合位点的预测方法及系统

Publications (1)

Publication Number Publication Date
CN106446602A true CN106446602A (zh) 2017-02-22

Family

ID=58165269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610804573.9A Pending CN106446602A (zh) 2016-09-06 2016-09-06 蛋白质分子中rna结合位点的预测方法及系统

Country Status (1)

Country Link
CN (1) CN106446602A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108508207A (zh) * 2017-04-14 2018-09-07 北京林业大学 蛋白质-dna结合位点的鉴定方法
CN108595909A (zh) * 2018-03-29 2018-09-28 山东师范大学 基于集成分类器的ta蛋白靶向预测方法
CN108830043A (zh) * 2018-06-21 2018-11-16 苏州大学 基于结构网络模型的蛋白质功能位点预测方法
CN109599149A (zh) * 2018-10-25 2019-04-09 华中科技大学 一种rna编码潜能的预测方法
CN110070912A (zh) * 2019-04-15 2019-07-30 桂林电子科技大学 一种CRISPR/Cas9脱靶效应的预测方法
CN110379464A (zh) * 2019-07-29 2019-10-25 桂林电子科技大学 一种细菌中dna转录终止子的预测方法
CN110444249A (zh) * 2019-08-14 2019-11-12 信阳师范学院 一种基于计算的预测荧光蛋白质的方法
CN113241117A (zh) * 2021-05-21 2021-08-10 北京工业大学 一种基于残差图卷积神经网络rna-蛋白质结合位点判别方法
CN113936738A (zh) * 2021-12-14 2022-01-14 鲁东大学 一种基于深度卷积神经网络的rna-蛋白质结合位点预测方法
CN114882945A (zh) * 2022-07-11 2022-08-09 鲁东大学 一种基于集成学习的rna-蛋白质结合位点预测方法
WO2023044931A1 (zh) * 2021-09-27 2023-03-30 京东方科技集团股份有限公司 Rna-蛋白质相互作用预测方法、装置、介质及电子设备
CN113241117B (zh) * 2021-05-21 2024-05-31 北京工业大学 一种基于残差图卷积神经网络rna-蛋白质结合位点判别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630346A (zh) * 2009-06-26 2010-01-20 上海大学 基于支持向量机的蛋白质与核酸相互作用在线预报方法
CN101710364A (zh) * 2009-12-14 2010-05-19 重庆大学 一种蛋白质与rna相互作用位点计算识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630346A (zh) * 2009-06-26 2010-01-20 上海大学 基于支持向量机的蛋白质与核酸相互作用在线预报方法
CN101710364A (zh) * 2009-12-14 2010-05-19 重庆大学 一种蛋白质与rna相互作用位点计算识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JEROME H.FRIEDMAN: "Greedy Function Approximation:A Gradient Boosting Machine", 《THE ANNALS OF STATISTICS》 *
XIN MA ET AL.: "Sequence-based predictor of ATP-binding residues using random forest and mRMR-IFS feature selection", 《JOURNAL OF THEORETICAL BIOLOGY》 *
王美霞: "蛋白质-RNA相互作用的集成算法预测研究及统计分析", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108508207A (zh) * 2017-04-14 2018-09-07 北京林业大学 蛋白质-dna结合位点的鉴定方法
CN108595909A (zh) * 2018-03-29 2018-09-28 山东师范大学 基于集成分类器的ta蛋白靶向预测方法
CN108830043B (zh) * 2018-06-21 2021-03-30 苏州大学 基于结构网络模型的蛋白质功能位点预测方法
CN108830043A (zh) * 2018-06-21 2018-11-16 苏州大学 基于结构网络模型的蛋白质功能位点预测方法
CN109599149A (zh) * 2018-10-25 2019-04-09 华中科技大学 一种rna编码潜能的预测方法
CN109599149B (zh) * 2018-10-25 2020-09-08 华中科技大学 一种rna编码潜能的预测方法
CN110070912A (zh) * 2019-04-15 2019-07-30 桂林电子科技大学 一种CRISPR/Cas9脱靶效应的预测方法
CN110379464A (zh) * 2019-07-29 2019-10-25 桂林电子科技大学 一种细菌中dna转录终止子的预测方法
CN110444249A (zh) * 2019-08-14 2019-11-12 信阳师范学院 一种基于计算的预测荧光蛋白质的方法
CN110444249B (zh) * 2019-08-14 2022-02-01 信阳师范学院 一种基于计算的预测荧光蛋白质的方法
CN113241117A (zh) * 2021-05-21 2021-08-10 北京工业大学 一种基于残差图卷积神经网络rna-蛋白质结合位点判别方法
CN113241117B (zh) * 2021-05-21 2024-05-31 北京工业大学 一种基于残差图卷积神经网络rna-蛋白质结合位点判别方法
WO2023044931A1 (zh) * 2021-09-27 2023-03-30 京东方科技集团股份有限公司 Rna-蛋白质相互作用预测方法、装置、介质及电子设备
CN113936738A (zh) * 2021-12-14 2022-01-14 鲁东大学 一种基于深度卷积神经网络的rna-蛋白质结合位点预测方法
CN114882945A (zh) * 2022-07-11 2022-08-09 鲁东大学 一种基于集成学习的rna-蛋白质结合位点预测方法

Similar Documents

Publication Publication Date Title
CN106446602A (zh) 蛋白质分子中rna结合位点的预测方法及系统
Sun et al. Evolving deep convolutional neural networks for image classification
JP6208552B2 (ja) 識別器、識別プログラム、及び識別方法
CN108319938A (zh) 用于高性能人脸识别系统的高质量训练数据准备系统
CN108921604B (zh) 一种基于代价敏感分类器集成的广告点击率预测方法
CN111210869B (zh) 一种蛋白质冷冻电镜结构解析模型训练方法和解析方法
Maitra et al. A systematic evaluation of different methods for initializing the k-means clustering algorithm
CN106250442A (zh) 一种网络安全数据的特征选择方法及系统
CN110084314B (zh) 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法
CN101438296A (zh) 用于在非-计量相似性空间中群集模板的方法和设施
CN113240113B (zh) 一种增强网络预测鲁棒性的方法
CN115620803B (zh) 一种基于跨图注意力的蛋白质相互作用点位预测方法
Liu et al. Constrained oversampling: An oversampling approach to reduce noise generation in imbalanced datasets with class overlapping
CN110110845A (zh) 一种基于并行多级宽度神经网络的学习方法
CN109164794B (zh) 基于偏f值selm的多变量工业过程故障分类方法
Bidgoli et al. Evolutionary computation in action: Hyperdimensional deep embedding spaces of gigapixel pathology images
CN109934352B (zh) 智能模型的自动进化方法
Ghosh et al. Two-Phase Evolutionary Convolutional Neural Network Architecture Search for Medical Image Classification
CN115204475A (zh) 一种戒毒场所安全事件风险评估方法
Ghanbari Sorkhi et al. Predicting drug-target interaction based on bilateral local models using a decision tree-based hybrid support vector machine
Ma et al. Machine learned replacement of N-labels for basecalled sequences in DNA barcoding
Purnomo et al. Synthesis ensemble oversampling and ensemble tree-based machine learning for class imbalance problem in breast cancer diagnosis
CN113627522A (zh) 基于关系网络的图像分类方法、装置、设备及存储介质
Choi et al. Boosted Stacking Ensemble Machine Learning Method for Wafer Map Pattern Classification.
Zhang et al. Automated test input generation for convolutional neural networks by implementing multi-objective evolutionary algorithms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222

RJ01 Rejection of invention patent application after publication