CN107577924B - 一种基于深度学习的长链非编码rna亚细胞位置预测方法 - Google Patents

一种基于深度学习的长链非编码rna亚细胞位置预测方法 Download PDF

Info

Publication number
CN107577924B
CN107577924B CN201710951364.1A CN201710951364A CN107577924B CN 107577924 B CN107577924 B CN 107577924B CN 201710951364 A CN201710951364 A CN 201710951364A CN 107577924 B CN107577924 B CN 107577924B
Authority
CN
China
Prior art keywords
deep learning
training
prediction
features
coding rna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710951364.1A
Other languages
English (en)
Other versions
CN107577924A (zh
Inventor
曹真
杨旸
沈红斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201710951364.1A priority Critical patent/CN107577924B/zh
Publication of CN107577924A publication Critical patent/CN107577924A/zh
Application granted granted Critical
Publication of CN107577924B publication Critical patent/CN107577924B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及RNA生物学领域,具体涉及一种基于深度学习的长链非编码RNA(long noncoding RNA,lncRNA)亚细胞位置预测算法。针对多分类问题训练样本中存在的类别不均衡性,本发明提出了一种新型的上采样方法来对训练样本进行预处理。采用堆叠的栈式自编码器来对序列的原始特征进行特征提取。本发明采用了基于深度学习的融合算法来整合多个分类器的预测效果。采用上采样方法大大减小了数据集的不平衡性对分类器效果的影响。在原始特征中有效提取出了区分度较高的更高层次特征。采用基于深度学习的融合算法整合各个分类器的预测结果,提高了鲁棒性,更加适应亚细胞位置多样性和复杂性的具体情形。

Description

一种基于深度学习的长链非编码RNA亚细胞位置预测方法
技术领域
本发明涉及RNA生物学领域,具体涉及一种基于深度学习的长链非编码RNA(longnoncoding RNA,lncRNA)亚细胞位置预测算法。
背景技术
非编码RNA(noncoding RNA,ncRNA)已经被证明是重要的调控因子。microRNA(miRNA)和lncRNA是ncRNA的两种主要类型。近年来lncRNA在RNA生物学领域受到极大关注。相关的研究表明lncRNA的位置信息对于了解其复杂的生物学功能有着很大的帮助。此外,它们已被证明是某些疾病的标志物。因此,理解lncRNA的细胞功能已经成为后基因组织时代的核心任务。
像蛋白质一样,lncRNA的功能依赖于它们所处的细胞区域。因此,定位信息可以为揭示其功能提供重要的参考。过去十年来,由于通过生物实验鉴定亚细胞定位的困难,亚细胞定位的自动预测已成为生物信息学的热门话题。然而,几乎所有现有的预测工具都是为蛋白质设计的。据了解目前尚没有公开发表的lncRNA亚细胞定位的预测算法。原因主要有两个方面:一方面,由于lncRNA在核基因的调控中起作用,所以大多数lncRNA被认为是专属于核内的。然而最近很多研究发现并证实了他们亚细胞位置的多样性。另一方面,对lncRNA亚细胞定位的预测研究受限于信息源。对于大多数lncRNAs而言,序列特征可能是唯一可用的信息来源。
随着新一代测序技术的发展,现在已经有足够序列信息来对lncRNA进行分析研究。基于序列的亚细胞位置预测可以大致分为两类,即基于相似性的搜索算法和机器学习算法。lncRNA在其序列中通常具有很大的多样性。因此,相比于公共数据库中具有丰富的序列信息和定位注释信息的蛋白质,基于机器学习的预测方法更适用于lncRNA亚细胞定位预测的研究。特别是近年来,出现了一些很好的lncRNAs数据库,如RNAlocate(http://www.rna-society.org/rnalocate/)和LncATLAS,其中包含实验验证的lncRNAs的相关知识,这就为训练机器学习模型提供了标准的训练数据集。
基于机器学习模型中的一个重要问题是如何将原始数据编码为训练特征。因此,如何从原始序列中提取区分度较高的高层次特征是本发明的关键问题。原始的序列词袋特征,如k-mers特征中存在大量的噪声和无效信息,其精度非常有限,使用过长k-mers甚至会导致过拟合和模型复杂度的指数性提升。
与传统的机器学习模型不同,无监督的深度学习模型可以自动捕获高级语义表征特征并且具有较机器学习更加优越的学习能力。正是考虑到深度学习模型在特征提取中的突出优势,本发明旨在基于堆叠的栈式自编码器框架从lncRNA原始序列中挖掘高层次特征,并开发一种用于预测lncRNA亚细胞位置的计算工具。为了提高性能,还实现了一个集成神经网络,用他来集成多个分类器的预测结果以提升本发明的鲁棒性。
此外,本发明发现训练样本中存在着较为严重的数据分布不平衡问题。例如,在组建的lncRNA数据集中,位于细胞质,细胞核,细胞溶质,核糖体和外来体中的样本数量分别为304,152,96,47和26。大多数机器学习方法的分类结果对主类别存在偏见,而对于同样重要甚至更加重要的少数类别则会表现不佳。因此,本发明采用上采样的方法来解决这一问题并且在一定程度上缓解了数据不平衡对实验结果所造成的影响。
发明内容:
针对当前领域内没有相关的预测算法的现状,本发明的目的在于提供一种长链非编码RNA(long noncoding RNA,lncRNA)亚细胞位置预测算法。
本发明是通过以下技术方案实现的:
一种基于深度学习的长链非编码RNA亚细胞位置预测算法,算法流程图如图1,包括以下步骤:
S1、组建lncRNA序列亚细胞位置预测训练基准数据集;
S2、从lncRNA序列中提取原始的k-mer频率特征;
S3、采用上采样算法对训练数据进行预处理;
S4、采用三层堆叠的栈式自编码器对提取的频率信息就行特征提取,将得到的频率特征和利用模型抽取的特征分别接入随机森林分类器和支持向量机模型训练;
S5、将四个分类器的输出概率经过基于神经网络的整合算法进行融合训练输出预测结果。
进一步的,所述步骤S1组建lncRNA序列亚细胞位置预测训练基准数据集,数据集组建流程图如图2,具体包括以下步骤:
S11、从RNAlocate数据库中提取全部的lncRNA序列,将全部的1361条序列中official symbol相同但存在多个亚细胞位置的样本合并预处理,合并后得到1074条记录;
S12、清洗序列信息,剔除掉不含亚细胞位置信息的样本序列,清洗后得到714条记录;
S13、为了减少序列冗余对于分类器精度的影响,使用cd-hit工具在714条lncRNA序列中删除了冗余度在80%以上的序列样本,随后剔除掉样本量较少的类别,最终选择包含位于5个亚细胞区域的625条序列信息作为基准lncRNA亚细胞位置预测训练数据集(见表1)。
表1本发明组建的用做lncLocator训练样本的lncRNA亚细胞位置预测数据集。
Figure GDA0002948004570000031
表1
进一步的,所述步骤S2从lncRNA序列中提取原始的k-mer频率特征,具体如下:
从lncRNA序列中提取原始的k-mer频率特征,所谓的原始的频率特征就是指lncRNA序列中的核苷酸组合特征。假设组建的lncRNA标准数据集为
Figure GDA0002948004570000032
那么lncRNA的序列可以表示为N=B1B2B3B4B5B6…BL,在这里L代表给定序列的核苷酸的个数,根据碱基的不同,B可以被替换为A,C,G或者U中的一个。
对于k-mer的核苷酸组成特征而言,可以表示为B1B2B3…Bk,由于B存在ACGU四种可能,所以对应共有4k种不同的组合情况,接下来只需要判定B1B2B3…Bk,B2B3B4…Bk+1,…,BL-k+1BL-k+2BL-k+3…BL分别属于哪种组合情况,因此所提取的特征便是这4k种不同的组成在给定序列中出现的次数。在本发明中,由于采用的k-mer特征,故所得到的原始频率特征即为256维,每一维特征对应这种组合在给定序列中出现的次数。
进一步的,所述步骤S3采用上采样算法对训练数据进行预处理,数据上采样部分的流程图如图3,具体步骤如下:
S31、确定需要上采样的类别,假定为
Figure GDA0002948004570000041
接下来利用原始的数据集
Figure GDA0002948004570000042
训练初始分类器——Cmodel,训练得到的分类器用来判断接下来步骤中合成的样本是否被采纳。
Figure GDA0002948004570000043
S32、对需要上采样的类别合成新样本,对每一个需要合成新样本的集合
Figure GDA0002948004570000044
Figure GDA0002948004570000045
在其中随机选取两个样本
Figure GDA0002948004570000046
Figure GDA0002948004570000047
Figure GDA0002948004570000048
利用下面的公式合成对应类别的新样本
Figure GDA0002948004570000049
Figure GDA00029480045700000410
λ是0到1之间的随机值。接下来利用之前训练的模型Cmodel来对合成的新样本
Figure GDA00029480045700000411
的可信度进行判别:
Figure GDA00029480045700000412
只要分类的预测结果位于我们之前设定的阈值之中则该样本会被采纳。
Figure GDA00029480045700000413
Figure GDA00029480045700000414
S33、重复训练直到每个类别达到预先设定的样本数量。
进一步的,所述步骤S4采用三层堆叠的栈式自编码器对提取的频率信息就行特征提取,将得到的频率特征和利用模型抽取的特征分别接入随机森林分类器和支持向量机模型训练,具体如下:
S41、构建并训练堆叠的三层栈式自编码网络对原始频率特征进行特征提取。
栈式自编码器是一个利用输出来重构输入的神经网络模型。对于一个栈式自编码器而言它存在一个隐藏层用来对输入信息进行编码。理论上每个自编码器都是一个无监督的学习模型。假设有一个输入数据x,自编码器网络首先将x映射到y。在映射之后,y作为中间输出用于重建x,最终输出z。栈式自编码器模型可以被看作有两部分组成,编码部分和解码部分,两个过程可以分别由以下两个公式表示:
y=f(Wx+b)
z=g(WTy+b')
当栈式自编码器的隐藏层的维度小于输入维度时,就可以有效的对输入数据进行特征提取。
本发明使用了三层堆叠的栈式自编码网络,相比与单层的栈式自编码网络,更加高效的发挥栈式自编码器的特征提取效果。此外由于在本发明中它是一种顺序构建的逐层结构,使用神经网络的全连接层连接。此外,本发明通过将模型中的某些激活单元以某种概率随机设置为零的方式来避免过拟合问题。
S42、训练初始的四个弱分类器。
将原始的k-mer特征和利用三层堆叠的栈式自编码器(Autoencoder)抽取的高层次特征分别提供给随机森林分类器(RF)和支持向量机分类器(SVM)。最终得到四个不同的分类器,根据输入特征和使用分类器的不同分别命名为原始频率特征组合随机森林(RF),原始频率特征组合支持向量机(SVM),堆叠栈式自编码器提取特征组合随机森林(AE+RF)和堆叠栈式自编码器提取特征组合支持向量机(AE+SVM)。
进一步的,所述步骤S5将四个分类器的输出概率经过基于神经网络的整合算法进行融合训练输出预测结果,具体如下:
通过基于深度学习的集成算法整合多个弱分类器。
本发明通过基于深度学习的集成算法来整合步骤四中提到的4个分类器的预测结果,该模型通过使用四个分类器的输出概率值来训练神经网络。受深度学习模型高效性的启发,本发明利用训练的多层神经网络模型来整合各个分类器的预测结果。本发明使用的整合算法的策略是将0级分类器的输出作为1级分类器的训练数据,通过训练1级分类器来找出最优的组合方式来整合各个0级分类器的预测结果。在本发明中,0级分类器的输出是四个分类器的预测概率值,这些概率值作为1级分类器(3层神经网络)的输入。
本发明提出了一种完全基于序列的预测方法,lncLocator算法的整体流程图如图14,通过整合机器学习和深度学习框架来预测lncRNA亚细胞定位。采用的深度学习模型包括高级特征提取阶段的堆叠栈式自编码器和集成算法中使用到的神经网络。采用的机器学习模型包括随机森林和支持向量机。本发明从lncRNA序列中提取原始序列组成特征,然后将它们馈送到堆叠栈式自编码器中以学习区分度较高的高层次特征,进一步将特征输入随机森林和SVM分类器对亚细胞定位进行预测。为了解决类不平衡的问题,本发明采用了一种上采样的方法来提高我们的预测效果和鲁棒性。最后,利用集成算法的策略来整合不同分类器的预测结果来提升模型的预测性能。
相比现有技术,本发明具有如下有益效果:
1.本发明专门组建了用于lncRNA亚细胞位置预测的标准数据集(625条序列,5个亚细胞位置),预测过程完全基于序列信息,不依赖于其他信息,具有较好的可推广性,本发明在组建的数据集上的预测整体精确度达到了61%,此外在平均精确度上比其他方法分别有5%-9%的提高。
2.本发明提出了一种新的上采样算法来对不平衡训练样本进行预处理,以减小分类器由于对大类别样本的偏好而产生的预测精度的降低。
3.本发明特征提取阶段采用深度学习框架,堆叠的栈式自编码器来对序列提取的频率特征进行二次提取,使得提取的特征具有更高的辨别率。
4.采用基于深度学习的融合算法,神经网络整合各个分类器的预测结果,相比于较常见融合算法的预测结果更加具有鲁棒性,此外融合阶段结合深度学习网络,更加适应亚细胞位置多样性和复杂性的具体情形。
附图说明
图1基于深度学习的长链非编码RNA亚细胞位置预测算法流程图
图2数据集组建流程图
图3数据上采样部分的流程图
图4采用上采样与未采用上采样的评价指标精确度对比图
图5采用上采样与未采用上采样的评价指标F1得分对比图
图6采用上采样与未采用上采样的评价指标召回率对比图
图7原始频率特征组合随机森林(RF)混淆矩阵对比图
图8原始频率特征组合支持向量机(SVM)混淆矩阵对比图
图9堆叠栈式自编码器提取特征组合随机森林(AE+RF)混淆矩阵对比图
图10堆叠栈式自编码器提取特征组合支持向量机(AE+SVM)混淆矩阵对比图
图11是NN ensemble(lncLocator)本发明lncLocator算法混淆矩阵对比图
图12是LoR ensemble逻辑回归算法混淆矩阵对比图
图13是Averageensemble平均投票算法混淆矩阵对比图
图14是lncLocator算法的整体流程图
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程。
本发明考虑到数据集的不平衡性,其中位于细胞质,细胞核,细胞溶质,核糖体和外来体的样本数分别为304,152,96,47和26,所以对除第一类外的其他各类别进行了二倍上采样。本发明中三层堆叠的栈式自编码器中编码层和解码层所采用的激活函数均为sigmoid函数,优化器选用的adam优化器,损失函数选用的重构输出与原始输入的平方误差。Batch_size和nb_epoch均为100,三层的神经元个数分别设置为256,128,64;对于基于深度学习的整合模型部分,本发明中三层神经元的个数分别设置为20,20,5。损失函数选用的交叉熵,优化器依然选用的adam优化器,Batch_size和nb_epoch均为100。
本发明采用的评价指标如下:
Figure GDA0002948004570000071
Figure GDA0002948004570000072
Figure GDA0002948004570000073
Figure GDA0002948004570000074
Figure GDA0002948004570000075
其中,n为数据集的类别数;TP、FP、FN分别为真阳性、假阳性、假阴性结果。
实验的预测结果如下:
在实验阶段,将本发明中提出的算法与之前常用的逻辑回归整合算法以及平均投票整合算法进行了比较。四个弱分类器的预测概率作为整合算法的输入。
表2不采用上采样方法时不同集成算法的预测效果
Figure GDA0002948004570000081
表2
a使用本发明中提出集成算法
b使用逻辑回归集成算法
c使用平均投票集成算法
正如表2所示,本发明提出的整合算法预测效果要好于其他的单独的预测算法和其他的整合算法。
表3上采样算法的预测效果
Figure GDA0002948004570000082
表3
图4~6为采用上采样与未采用上采样的评价指标对比图,图4:精确度;图5:F1得分;图6:召回率;图7~13为混淆矩阵对比图。
从图4~6和图7~13中可以看出,本发明中提出的上采样算法将F1得分和召回率分别从0.3732和0.3893提升到了0.4368,0.4268,虽然准确率在原有基础上略有下降。显然可以看出整体的准确率的略有下降换来了较少数类别预测精确度的提升。在多分类问题中,样本数较少的类别的重要性不容小视,因此类平均精确度能更好的反映分类器的预测效果。由评价指标的定义易知,在本实验中召回率的物理意义即为类平均准确率。从图4~6和图7~13中可以看出,本发明中提出的算法在类平均准确率和F1得分值上远远领先其他的方法。
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。

Claims (6)

1.一种基于深度学习的长链非编码RNA亚细胞位置预测方法,其特征在于:包括以下步骤:
S1、组建lncRNA序列亚细胞位置预测训练基准数据集;
S2、从lncRNA序列中提取原始的k-mer频率特征;
S3、采用上采样算法对训练数据进行预处理;
S4、采用三层堆叠的栈式自编码器对提取的频率信息进行特征提取,将得到的频率特征和利用模型抽取的特征分别接入随机森林分类器和支持向量机模型训练;
S5、将四个分类器的输出概率经过基于神经网络的整合算法进行融合训练输出预测结果。
2.根据权利要求1所述的一种基于深度学习的长链非编码RNA亚细胞位置预测方法,其特征在于:步骤S2中所述原始的k-mer频率特征是指lncRNA序列中的核苷酸组合特征,采用k-mer特征,得到的原始频率特征为256维,每一维特征对应这种组合在给定序列中出现的次数。
3.根据权利要求1所述的一种基于深度学习的长链非编码RNA亚细胞位置预测方法,其特征在于:所述步骤S3具体包括以下步骤:
S31、确定需要上采样的类别;
S32、对需要上采样的类别合成新样本;
S33、重复训练直到每个类别达到预先设定的样本数量。
4.根据权利要求1所述的一种基于深度学习的长链非编码RNA亚细胞位置预测方法,其特征在于:步骤S4中所述栈式自编码器是利用输出来重构输入的神经网络模型,当栈式自编码器的隐藏层的维度小于输入维度时,对输入数据进行特征提取,将模型中的激活单元以概率随机设置为零的方式,避免过拟合问题。
5.根据权利要求1所述的一种基于深度学习的长链非编码RNA亚细胞位置预测方法,其特征在于:步骤S4中所述频率特征和利用模型抽取的特征分别接入随机森林分类器和支持向量机模型训练,得到四个不同的分类器,根据输入特征和使用分类器的不同分别命名为原始频率特征组合随机森林,原始频率特征组合支持向量机,堆叠栈式自编码器提取特征组合随机森林和堆叠栈式自编码器提取特征组合支持向量机。
6.根据权利要求1所述的一种基于深度学习的长链非编码RNA亚细胞位置预测方法,其特征在于:步骤S5中所述基于神经网络的整合算法的策略是将0级分类器的输出作为1级分类器的训练数据,通过训练1级分类器来找出最优的组合方式来整合各个0级分类器的预测结果,0级分类器的输出是四个分类器的预测概率值,这些概率值作为1级分类器3层神经网络的输入。
CN201710951364.1A 2017-10-13 2017-10-13 一种基于深度学习的长链非编码rna亚细胞位置预测方法 Active CN107577924B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710951364.1A CN107577924B (zh) 2017-10-13 2017-10-13 一种基于深度学习的长链非编码rna亚细胞位置预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710951364.1A CN107577924B (zh) 2017-10-13 2017-10-13 一种基于深度学习的长链非编码rna亚细胞位置预测方法

Publications (2)

Publication Number Publication Date
CN107577924A CN107577924A (zh) 2018-01-12
CN107577924B true CN107577924B (zh) 2021-05-11

Family

ID=61037226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710951364.1A Active CN107577924B (zh) 2017-10-13 2017-10-13 一种基于深度学习的长链非编码rna亚细胞位置预测方法

Country Status (1)

Country Link
CN (1) CN107577924B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895390A (zh) * 2018-09-12 2020-03-20 珠海格力电器股份有限公司 确定家用电器的放置位置的方法及设备
CN110046714A (zh) * 2019-03-25 2019-07-23 天津大学 基于多特征信息融合的长链非编码rna亚细胞定位方法
CN110502691A (zh) * 2019-07-05 2019-11-26 平安科技(深圳)有限公司 基于客户分类的产品推送方法、装置及可读存储介质
CN111462820A (zh) * 2020-03-31 2020-07-28 浙江科技学院 基于特征筛选和集成算法的非编码rna预测方法
CN112201308A (zh) * 2020-10-12 2021-01-08 哈尔滨工业大学(深圳) LncRNA预测方法、装置、计算设备及计算机可读存储介质
CN112201300B (zh) * 2020-10-23 2022-05-13 天津大学 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法
CN112309495B (zh) * 2020-10-30 2022-12-09 山东大学 基于机器学习的海藻固碳蛋白预测方法及系统
CN112837753B (zh) * 2021-02-07 2022-07-22 中国科学院新疆理化技术研究所 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法
CN113093695A (zh) * 2021-03-23 2021-07-09 武汉大学 一种数据驱动的sdn控制器故障诊断系统
CN115295079A (zh) * 2022-01-20 2022-11-04 云南师范大学 基于元图学习的长链非编码rna亚细胞定位预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102827923A (zh) * 2011-06-16 2012-12-19 上海聚类生物科技有限公司 长的非编码rna靶基因预测的方法
CN105894517A (zh) * 2016-04-22 2016-08-24 北京理工大学 基于特征学习的ct图像肝脏分割方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140359422A1 (en) * 2011-11-07 2014-12-04 Ingenuity Systems, Inc. Methods and Systems for Identification of Causal Genomic Variants

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102827923A (zh) * 2011-06-16 2012-12-19 上海聚类生物科技有限公司 长的非编码rna靶基因预测的方法
CN105894517A (zh) * 2016-04-22 2016-08-24 北京理工大学 基于特征学习的ct图像肝脏分割方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于支持向量机的人类ncRNA基因预测;于彬 等;《青岛科技大学学报(自然科学版)》;20170430;第38卷(第2期);112页左栏-117页右栏 *

Also Published As

Publication number Publication date
CN107577924A (zh) 2018-01-12

Similar Documents

Publication Publication Date Title
CN107577924B (zh) 一种基于深度学习的长链非编码rna亚细胞位置预测方法
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN111161793B (zh) 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN110289050B (zh) 一种基于图卷积和词向量的药物-靶标相互作用预测方法
CN108733976B (zh) 基于融合生物与拓扑特征的关键蛋白质识别方法
CN114927162A (zh) 基于超图表征与狄利克雷分布的多组学关联表型预测方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN108427865B (zh) 一种预测LncRNA和环境因素关联关系的方法
Dou et al. Accurate identification of RNA D modification using multiple features
Huang et al. 6mA-Pred: identifying DNA N6-methyladenine sites based on deep learning
Queyrel et al. Towards end-to-end disease prediction from raw metagenomic data
CN112926640A (zh) 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质
CN116343908B (zh) 融合dna形状特征的蛋白质编码区域预测方法、介质和装置
CN113792794B (zh) 一种基于膜算法的特征选择方法
Ma et al. CRBP-HFEF: prediction of RBP-Binding sites on circRNAs based on hierarchical feature expansion and fusion
Qin et al. An efficient method to identify differentially expressed genes in microarray experiments
CN113837293A (zh) mRNA亚细胞定位模型训练方法、定位方法及可读存储介质
Bagyamani et al. Biological significance of gene expression data using similarity based biclustering algorithm
CN114512188B (zh) 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法
Liu et al. Prediction of piRNA-mRNA interactions based on an interactive inference network
Bai et al. A hybrid convolutional network for prediction of anti-cancer drug response
CN113160881B (zh) 一种基于mRMR和MBFA的高维数据特征选择方法
CN115240775B (zh) 基于stacking集成学习策略的Cas蛋白预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant