CN109599149B - 一种rna编码潜能的预测方法 - Google Patents

一种rna编码潜能的预测方法 Download PDF

Info

Publication number
CN109599149B
CN109599149B CN201811252397.8A CN201811252397A CN109599149B CN 109599149 B CN109599149 B CN 109599149B CN 201811252397 A CN201811252397 A CN 201811252397A CN 109599149 B CN109599149 B CN 109599149B
Authority
CN
China
Prior art keywords
prediction
rna
feature
feature set
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811252397.8A
Other languages
English (en)
Other versions
CN109599149A (zh
Inventor
刘士勇
童晓雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201811252397.8A priority Critical patent/CN109599149B/zh
Publication of CN109599149A publication Critical patent/CN109599149A/zh
Application granted granted Critical
Publication of CN109599149B publication Critical patent/CN109599149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明属于基因注释领域,更具体地,涉及一种RNA编码潜能的预测方法。该方法(命名为CPPred)通过整合多个序列特征,特别是本发明使用CTD来描述RNA的全局分布;然后,以候选特征之间的冗余度和相关性作为标准,并结合递增特征选择方法,从中选取最佳特征集合作为特征向量;通过支持向量机(SVM)建立预测模型;最后根据待预测的RNA序列的特征向量,获取预测结果。本发明提供的预测方法在预测长的RNA序列和当前已有方法结果相当(准确度达到90%以上),然而在短的RNA序列预测上,该方法明显优于当前已有的方法。

Description

一种RNA编码潜能的预测方法
技术领域
本发明属于基因注释领域,更具体地,涉及一种RNA编码潜能的预测方法。
背景技术
近几年来,下一代测序技术产生了成千上万新的转录本,于是快速且准确地区分编码RNAs和非编码RNAs(ncRNAs)成为分析这些数据的关键。在生物体中,ncRNA虽然不能编码蛋白质但是也具有重要的生物功能,比如基因调控、基因沉默、RNA修饰和加工。
在编码潜能的预测领域,已经公开了一种使用无比对逻辑回归模型的编码潜能评估工具CPAT。其使用4个序列特征:开放阅读框的长度、开放阅读框的覆盖率、Fickett打分和六聚体打分。此预测领域中,还公开了 CPC2,其也只是使用4个序列特征:开放阅读框的长度、Fickett分数,开放阅读框的完整性和等电点。另外一种工具PLEK,使用改进的k-mer策略预测长链非编码RNA和编码RNA。虽然这些工具可以很好的区分长的编码 RNA和ncRNA,但是对于sORF的编码潜能的预测精度较低,故在预测sORF 上仍存在很大不足。
目前,越来越多的sORF的数据被发现,然而具有意义和功能的sORFs 的数目比较少。2010年,sORF finder被提出,它是一种专门为预测sORF 设计的程序,它只使用六聚体特征来预测sORF的编码。然而,只使用一个特征得到的预测结果会有很高的假阳性率。所以,在sORF预测方面仍然是一个悬而未决的问题。故本发明提出一种RNA编码潜能的预测方法CPPred,不仅能够很好的预测长的RNA序列,而且对于短的RNA序列的预测也有较高的准确性。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种RNA编码潜能的预测方法,该方法(命名为CPPred)通过整合多个序列特征,特别是本发明使用CTD来描述RNA的全局分布;然后,以候选特征之间的冗余度和相关性作为标准,并结合递增特征选择方法,从中选取最佳特征集合作为特征向量;通过支持向量机(SVM)建立预测模型;最后根据待预测的RNA 序列的特征向量,获取预测结果。本发明提供的预测方法在预测长的RNA 序列和当前已有方法结果相当(准确度达到90%以上),然而在短的RNA序列预测上,该方法明显优于当前已有的方法。由此解决现有技术的sORF的编码潜能的预测方法和工具存在的预测准确度不高以及存在过拟合风险的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种RNA编码潜能的预测方法,包括如下步骤:
(1)训练集中的RNA样本候选特征集合的获取:所述候选特征集合包括开放阅读框的长度、开放阅读框的覆盖率、六聚体分数、Fickett分数、开放阅读框的完整性、多肽的等电点、多肽的亲水性、多肽的不稳定性以及CTD编码特征;
(2)最佳特征集合的获取:根据步骤(1)所述候选特征集合中各特征之间的相关性和冗余度选择方法获取最佳特征集合;
(3)使用步骤(2)获得的最佳特征集合,对训练集中所有的RNA样本采用机器学习方法进行训练,获取RNA编码潜能预测模型;
(4)将待预测RNA序列对应的最佳特征集合代入到步骤(3)中所述的预测模型,得到待预测RNA序列的预测结果。
优选地,所述CTD编码特征表示全局转录本序列描述符,其中:
第一个描述符C用于描述转录本序列中每个核苷酸的百分比组成;
第二个描述符T用于描述相邻位置之间四个核苷酸转换的频率百分比;
第三个描述符D用于描述每个核苷酸转录序列上的五个相对位置,分别为0、25%、50%、75%和100%,其中0代表第一个相对位置,100%代表最后一个相对位置。
优选地,步骤(2)具体为:采用最大相关最小冗余方法对所述候选特征集合中的特征进行排序,结合递增特征选择方法使用交叉验证方法进行训练和测试,获取样本的评估指标σ,选取σ最大时的特征集合作为最佳特征集合。
优选地,所述评估指标σ为马修相关系数。
优选地,步骤(2)具体为:对步骤(1)所述候选特征集合中各特征采用主成分分析PCA选择方法获取最佳特征集合。
优选地,步骤(3)获得RNA编码潜能预测模型以后,将测试集中的RNA 序列对应的最佳特征集合代入到所述的预测模型,得到测试集中RNA序列的预测结果,以验证所述预测模型的准确性。
优选地,所述训练集用于建模,所述测试集用于检测模型的准确性,使用时对所述训练集内部进行去冗余操作,以减少过拟合风险;同时训练集和测试集之间也进行去冗余操作。
优选地,步骤(3)所述机器学习方法为支持向量机法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明的RNA编码潜能预测的方法CPPred不依赖于RNA的长度,通过引入CTD编码的特征,CPPRed既能区分长的编码RNAs和ncRNAs,又能很好的区分短的编码RNAs和ncRNAs;在短序列预测上更有优势,相较于现有技术的短序列预测方法准确度高。
(2)本发明首次使用了CTD编码的转录本特征来预测真核生物的RNA的编码潜能,再结合现有工具的特征开发的一种新的预测编码潜能的工具。该工具大大降低了物种依赖性,具有良好的物种普适性。
(3)本发明RNA编码潜能的预测方法通过对选择的训练集和测试集进行去冗余操作,并通过精心选择特定的候选特征集合,再对候选特征进行排序,获得最佳特征集合,利用最佳特征集合进行模型的构建以及待测序列的预测,本发明RNA编码潜能预测工具没有过度拟合,也不存在过度拟合的风险。
(4)在确定最终的预测模型时,以马修相关系数作为评估指标,比通过准确度评估更具说服力,建立的预测模型更为优越。
附图说明
图1为本发明RNA编码预测方法流程图;
图2为本发明数据集的构建流程图;
图3为本发明中CTD编码的特征的示例;
图4为本发明中候选特征集合中特征的排名示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明公开了一种RNA编码潜能的预测工具CPPred,如图1所示,其原理步骤包括:
(1)训练集中的RNA样本候选特征集合的获取;选取来自RNA序列和蛋白质序列的多个特征,其包含之前开发的CPAT(Wang et al.,2013,CPAT: Coding-PotentialAssessment Tool using an alignment-free logistic regression model.NUCLEICACIDS RES)和CPC2(Kang et al.,2017,CPC2: a fast and accurate coding potentialcalculator based on sequence intrinsic features.NUCLEIC ACIDS RES)软件的特征。本发明所述候选特征集合包括开放阅读框的长度、开放阅读框的覆盖率、六聚体分数、Fickett分数(通过核苷酸组成和密码子使用偏差的组合效应来计算得到)、开放阅读框的完整性、多肽的等电点、多肽的亲水性、多肽的不稳定性以及CTD编码特征;本发明特别在候选特征集合中增加了CTD编码的特征,其是首次应用到真核生物预测RNA编码潜能的特征。
本发明数据集包括测试集和训练集,训练集用于建模,测试集用于检测模型的准确性。本发明选取训练集或测试集时,训练集内部进行去冗余操作,以减少过拟合风险,得到更普适的模型。同时训练集和测试集之间要也进行去冗余,可避免训练过的数据用于测试,失去测试的意义。然而,之前预测编码潜能的工具在构建数据的时候却没有去冗余操作,这样可能存在过拟合的风险。
一些实施例中,如图2所示,将RefSeq数据库中所有人类的mRNA数据作为阳性样本,随机选取2/3作为训练集,剩余的1/3作为测试集。将 Ensembl数据库中所有人类的非编码RNA数据作为阴性样本,首先,删除没有注释来源的数据;然后,在剩余的数据中随机选取2/3作为训练集,剩余的1/3作为测试集。训练集内部使用CD-hit方法按照序列一致性阈值大于或者等于99%去冗余。同时,为了确保训练集和测试集之间也是非冗余的,使用CD-hit方法对训练集和测试集按照序列一致性阈值大于或等于80%进行去冗余操作。这样,得到人类测试集,其包括8557条编码RNA序列和8241 条非编码RNA序列。随后,从人类测试中的编码RNA中提取出长度小于303 个核苷酸的ORF片段的RNA序列。同时,将来自ncRNAs的相当数量的相当长的ncRNA随机筛选出来。可以得到,短序列的测试集,包括641条编码的RNA序列和641条非编码的RNA序列。
CTD是预测蛋白质的折叠时被提出的,其是描述全局蛋白质序列的描述符。本发明中,CTD用于描述全局转录本序列的描述符。
RNA是含有四种核苷酸A,T,G和C的序列。第一个指数C描述了转录本序列中每个核苷酸的百分比组成。第二描述符T描述了相邻位置之间四个核苷酸转换的百分比频率。随后,计算每个核苷酸沿着转录本序列的五个相对位置,其中0(第一个),25%,50%,75%和100%(最后一个),以描述最后的描述符D。
CTD编码的特征的详细过程如图3所示,以一条40个碱基的RNA序列为例,该序列包括4个腺嘌呤(As),4个胸腺嘧啶(Ts),12个鸟嘌呤 (Gs)和20个胞嘧啶(Cs)。对于As,第一描述符C是4/40=10.0%,对于Bs,4/40=10.0%,对于Gs,12/40=30.0%,对于Cs,20/40=50%。对于第二描述符T,在A和T之间存在零转变,A和G之间存在四个转变, A和C之间有三个转变,T和G之间有三个转变,T和C之间有三个转变,G 和C之间有四个转变。因此,这些转变的频率分别为0/39=0.0,4/39= 0.103,3/39=0.077,3/39=0.077,3/39=0.077和16/39=0.410。第一个,25%,50%,75%和100%的As分别位于1,1,7,25和40个残基上,则As的D描述符是1/40=0.025,1/40=0.025,7/40=0.175,25 /40=0.625和40/40=1.0。同样,Ts的D描述符是0.075,0.075, 0.10,0.450和0.50,对于Gs是0.125,0.375,0.650,0.825和0.925,对于Cs是0.050,0.275,0.425,0.70和0.975。如图4所示,由CTD编码的特征T2和C0在预测编码潜能中发挥着重要的作用。
(2)最佳特征集合的获取:根据步骤(1)所述候选特征集合中各特征之间的相关性和冗余度选择方法获取最佳特征集合。
一些实施例中,步骤(2)具体为:采用最大相关最小冗余方法(mRMR 方法)对所述候选特征集合中的特征进行排序,结合递增特征选择方法使用交叉验证方法进行训练和测试,获取样本的评估指标σ,选取σ最大时的特征集合作为最佳特征集合。评估指标σ可以为马修相关系数,也可以为其他常规评估指标,但优选马修相关系数。马修相关系数为一个综合的评估指标,以马修相关系数作为评估指标,比通过准确度评估更具说服力,建立的预测模型更为优越。
递增特征选择方法,一些实施例中具体为:首先选择使用mRMR方法排名第一的特征进行训练建立模型,计算其10倍交叉验证的评估性能,然后选用排名在前2个的特征进行建模,也计算10倍交叉验证的性能,以此类推,每增加一个排名在前面的特征,就得到一个模型,直至特征全部添加完毕。
一些实施例中,采用最大相关最小冗余方法(mRMR方法)对训练样本集的候选特征集合中的特征进行排序后,结合递增特征选择方法使用十倍交叉验证方法进行训练和测试,获取排序后38个特征递增叠加的马修相关系数MCC1,MCC2…MCC38,其分别表示1个,2个…38个特征递增叠加后对应的马修相关系数。选取MCC最大时对应的特征集合作为最佳特征集合。将 MCC1,MCC2…MCC38的值作为纵坐标,将特征个数作为横坐标,作图如图4所示,可以看出,采用上述方法排序后,38个特征中前七个特征,包括ORF 的完整度、ORF的覆盖率、多肽的稳定性、CTD编码的特征(T2,C0)、多肽的等电点和ORF的长度递增叠加马修相关系数增长速率较大,而后31个特征递增叠加马修相关系数增长速率平缓,说明在候选特征集合中,ORF的完整度、ORF的覆盖率、多肽的稳定性、CTD编码的特征(T2,C0)、多肽的等电点和ORF的长度是预测编码潜能中的重要特征,这样的组合特征对于编码潜能的预测具有重要作用。进而也说明本发明选择的CTD编码特征 T2和C0在RNA编码潜能预测中的作用不容忽视。
如图4所示,当特征个数是37的时候,MCC值最大(MCC=0.953),故选择前37个特征作为最佳特征集合。
对步骤(1)所述候选特征集合中各特征也可采用主成分分析PCA选择方法获取最佳特征集合,其能够获得和上述方法相同的最佳特征集合的特征数目。
(3)使用步骤(2)获得的最佳特征集合,对训练集中所有的RNA样本采用机器学习方法进行训练,获取RNA编码潜能预测模型;一些实施例中机器学习方法为支持向量机法(SVM)。
(4)将测试集中的RNA序列对应的最佳特征集合代入到所述的预测模型,得到测试集中RNA序列的预测结果,以验证所述预测模型的准确性。
(4)将待预测RNA序列对应的最佳特征集合代入到步骤(3)中所述的预测模型,得到待预测RNA序列的预测结果。SVM方法默认阈值为0.5,模型输出值大于或等于该阈值,表明该待测RNA序列为可编码序列,否则为非编码序列。
方法评估:
将测试集中的RNA序列对应的最佳特征集合代入到上述步骤中所建的预测模型,得到待预测样本的预测结果,本发明使用多种评估指标,分别包括灵敏度(SN)、特异性(SP)、精确度(PRE)、准确度(ACC)、F-measure、马修相关系数(MCC)、受试者操作特性曲线下的面积(AUC,area under the receiver operation characteristic curve),具体如下:
Figure BDA0001841982800000081
Figure BDA0001841982800000082
Figure BDA0001841982800000083
Figure BDA0001841982800000084
Figure BDA0001841982800000085
Figure BDA0001841982800000091
其中,TP为真阳性,指阳性数据中被正确预测为阳性的个数;FN为假阴性,指阳性数据中被错误地预测为阴性的个数;TN为真阴性,指阴性数据中被正确地预测为阴性的个数;FP为假阳性,指阴性数据中被错误地预测为阳性的个数。
从MCC的定义来看,它是预测结果的一种综合评估。对于AUC,其是以灵敏度为纵坐标,特异性为横坐标绘制的曲线与x轴围成的面积。它考虑在不同阈值下对应的SN和SP值,故AUC也是一种对预测结果进行综合评估的指标。
实施例
本发明使用CPPred测试了人类,小鼠,斑马鱼和酿酒酵母的数据,并与现有的CPAT、CPC2、PLEK、sORF finder工具测试结果进行比较。
在人类测试集(包括长序列和短序列)和人类sORF的测试集上,不同预测工具预测性能比较结果见表1和表2。从表1和表2可以看出,不论是人类测试集还是人类sORF的测试集,CPPred均优于CPAT和CPC2,然而略差于PLEK。这是因为PLEK的训练集和人类测试集之间有冗余。
表1:CPPred与CPAT、CPC2、PLEK人类的测试集上的比较
Figure BDA0001841982800000092
表2:CPPred与CPAT、CPC2、PLEK、sORF finder在人类sORF的测试集上的比较
Figure BDA0001841982800000101
在小鼠测试集和小鼠sORF的测试集上,测试结果见表3和表4。从表 3和表4可以看出,CPPred都优于其他几种方法(表格3和4)。
表3:CPPred与CPAT、CPC2、PLEK在小鼠测试集上的比较
Figure BDA0001841982800000102
表4:CPPred与CPAT、CPC2、PLEK、sORF finder在小鼠sORF测试集上的比较
Figure BDA0001841982800000103
Figure BDA0001841982800000111
在斑马鱼测试集和斑马鱼sORF的测试集上,测试结果见表5和表6。从表5和表6可以看出,CPPred都优于其他几种方法。
表5:CPPred与CPAT、CPC2、PLEK在斑马鱼测试集上的比较
Figure BDA0001841982800000112
表6:CPPred与CPAT、CPC2、PLEK、sORF finder在斑马鱼sORF测试集上的比较
Figure BDA0001841982800000113
在酿酒酵母测试集和酿酒酵母sORF的测试集上,测试结果见表7和表8。从表7和表8可以看出,CPPred都优于其他几种方法。
表7:CPPred与CPAT、CPC2、PLEK在酿酒酵母测试集上的比较
Figure BDA0001841982800000121
表8:CPPred与CPAT、CPC2、PLEK、sORF finder在酿酒酵母测试集上的比较
Figure BDA0001841982800000122
另外,作为对比,使用CTD特征训练的模型(OCTD-Model)和只使用开放阅读框的长度,开放阅读框的覆盖率,六聚体分数,Fickett分数,开放阅读框的完整性,多肽的等电点,多肽的亲水性,多肽的不稳定性,即非CTD编码的特征训练的模型(NCTD-Model),然后在人类sORF数据上进行测试。这里CPPred在人类sORF数据的性能也列在表9中。结果表明 CTD编码的特征更有利于短的RNA序列的预测。
表9:在人类sORF的测试集上OCTD-Model,NCTD-Model和CPPred的性能
Figure BDA0001841982800000131
从上述表1至表8可以看出,本发明的CPPred在人类,小鼠,斑马鱼和酿酒酵母测试集上,具有高的准确性,相比于CPAT,CPC2和PLEK工具的准确性有微弱的提高,然而,本发明的CPPRed在这些物种的短的RNA序列上具有特别的优势,比之前开发的工具有一个比较大的提升。这可能是因为,本发明使用了CTD编码的特征,而CTD编码的特征与RNA的二级结构具有相关性,RNA的二级结构在RNA编码中起着重要作用,故CPPred捕获了二级结构的特征,从而在预测性能上更具有特别的优势。
本发明中CPPred是在人类数据上进行的训练,在多个物种的测试集上进行了测试,如表格1-8结果显示,CPPred预测准确性相对来说都比较高,故该工具大大降低了物种依赖性,具有良好的物种普适性。这可能是在训练集构建的时候,进行了去冗余操作,避免了过拟合的情况,得到的模型不具有某种偏好性,得到了更普遍适用性的模型。
本发明为了进一步评估CPPred,于是对最近新发现的人类编码RNA进行了测试,从2017年11月27日到2018年4月3日,RefSeq数据库中获得了74条新的人类编码RNA序列,其中包括5条短的RNA序列。CPPred成功预测了74条新的人类编码RNA序列中的67条序列,成功预测了新的人类短的RNA序列中的4条。由此可以看出,CPPred具有较强的预测能力。

Claims (6)

1.一种RNA编码潜能的预测方法,其特征在于,包括如下步骤:
(1)训练集中的RNA样本候选特征集合的获取:所述候选特征集合包括开放阅读框的长度、开放阅读框的覆盖率、六聚体分数、Fickett分数、开放阅读框的完整性、多肽的等电点、多肽的亲水性、多肽的不稳定性以及CTD编码特征;
(2)最佳特征集合的获取:根据步骤(1)所述候选特征集合中各特征之间的相关性和冗余度选择方法获取最佳特征集合;
(3)使用步骤(2)获得的最佳特征集合,对训练集中所有的RNA样本采用机器学习方法进行训练,获取RNA编码潜能预测模型;
(4)将待预测RNA序列对应的最佳特征集合代入到步骤(3)中所述的预测模型,得到待预测RNA序列的预测结果;
所述CTD编码特征表示全局转录本序列描述符,其中:
第一个描述符C用于描述转录本序列中每个核苷酸的百分比组成;
第二个描述符T用于描述相邻位置之间四个核苷酸转换的频率百分比;
第三个描述符D用于描述每个核苷酸在转录本序列上的五个相对位置,分别为0、25%、50%、75%和100%,其中0代表第一个相对位置,100%代表最后一个相对位置。
2.如权利要求1所述的预测方法,其特征在于,步骤(2)具体为:采用最大相关最小冗余方法对所述候选特征集合中的特征进行排序,结合递增特征选择方法使用交叉验证方法进行训练和测试,获取样本的评估指标σ,选取σ最大时的特征集合作为最佳特征集合;所述评估指标σ为马修相关系数。
3.如权利要求1所述的预测方法,其特征在于,步骤(2)具体为:对步骤(1)所述候选特征集合中各特征采用主成分分析PCA选择方法获取最佳特征集合。
4.如权利要求1所述的预测方法,其特征在于,步骤(3)获得RNA编码潜能预测模型以后,将测试集中的RNA序列对应的最佳特征集合代入到所述的预测模型,得到测试集中RNA序列的预测结果,以验证所述预测模型的准确性。
5.如权利要求4所述的预测方法,其特征在于,所述训练集用于建模,所述测试集用于检测模型的准确性,使用时对所述训练集内部进行去冗余操作,以减少过拟合风险;同时训练集和测试集之间也进行去冗余操作。
6.如权利要求1所述的预测方法,其特征在于,步骤(3)所述机器学习方法为支持向量机法。
CN201811252397.8A 2018-10-25 2018-10-25 一种rna编码潜能的预测方法 Active CN109599149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811252397.8A CN109599149B (zh) 2018-10-25 2018-10-25 一种rna编码潜能的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811252397.8A CN109599149B (zh) 2018-10-25 2018-10-25 一种rna编码潜能的预测方法

Publications (2)

Publication Number Publication Date
CN109599149A CN109599149A (zh) 2019-04-09
CN109599149B true CN109599149B (zh) 2020-09-08

Family

ID=65957071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811252397.8A Active CN109599149B (zh) 2018-10-25 2018-10-25 一种rna编码潜能的预测方法

Country Status (1)

Country Link
CN (1) CN109599149B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111276182B (zh) * 2020-01-21 2023-06-20 中南民族大学 Rna序列编码潜力的计算方法及系统
CN111462820A (zh) * 2020-03-31 2020-07-28 浙江科技学院 基于特征筛选和集成算法的非编码rna预测方法
CN111899792B (zh) * 2020-08-05 2022-10-14 南京邮电大学 一种筛选具有肽编码能力小开放阅读框的方法
CN112669905B (zh) * 2020-12-31 2024-03-01 中南民族大学 基于数据增强的rna序列编码潜力预测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049679A (zh) * 2012-12-28 2013-04-17 上海交通大学 蛋白质潜在致敏性的预测方法
CN106446602A (zh) * 2016-09-06 2017-02-22 中南大学 蛋白质分子中rna结合位点的预测方法及系统
CN106529207A (zh) * 2016-10-08 2017-03-22 华中科技大学 一种与核糖核酸结合的蛋白质的预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049679A (zh) * 2012-12-28 2013-04-17 上海交通大学 蛋白质潜在致敏性的预测方法
CN106446602A (zh) * 2016-09-06 2017-02-22 中南大学 蛋白质分子中rna结合位点的预测方法及系统
CN106529207A (zh) * 2016-10-08 2017-03-22 华中科技大学 一种与核糖核酸结合的蛋白质的预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《On the identification of long non-coding RNAs from RNA-seq》;Francesca Cristiano等;《2016 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)》;20161231;第1103-1106页 *
《小干涉RNA沉默效率预测和长非编码RNA表观调控研究》;刘利;《中国博士学位论文全文数据库 基础科学辑》;20140915;第A006-8页 *
《蛋白质-RNA相互作用界面预测与设计》;黄阳玉等;《物理化学学报》;20121031;第28卷(第10期);第2390-2400页 *
《蛋白质—核酸相互作用的特征分析及预测方法研究》;孙美建;《中国优秀硕士学位论文全文数据库 基础科学辑》;20170515(第5期);第A006-58页 *

Also Published As

Publication number Publication date
CN109599149A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109599149B (zh) 一种rna编码潜能的预测方法
CN105886616B (zh) 一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法
CN108595913B (zh) 鉴别mRNA和lncRNA的有监督学习方法
Wang et al. Guidelines for bioinformatics of single-cell sequencing data analysis in Alzheimer’s disease: review, recommendation, implementation and application
CN111192631A (zh) 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
US20120191685A1 (en) Method for identifying peptides and proteins from mass spectrometry data
JP7319197B2 (ja) 標的核酸のシークエンシングデータをアライメントする方法
JPWO2020058176A5 (zh)
Zhu et al. Mechanisms of intron loss and gain in the fission yeast Schizosaccharomyces
CN108470194B (zh) 一种特征筛选方法及装置
CN110556163B (zh) 一种基于翻译组的长链非编码rna翻译小肽的分析方法
CN107463797B (zh) 高通量测序的生物信息分析方法及装置、设备及存储介质
CN113096737B (zh) 一种用于对病原体类型进行自动分析的方法及系统
WO2020115580A1 (en) System and method for promoter prediction in human genome
Egertson et al. A theoretical framework for proteome-scale single-molecule protein identification using multi-affinity protein binding reagents
KR101928091B1 (ko) 진균류 유전체 해독을 위한 시스템 및 방법
CN114627964B (zh) 一种基于多核学习预测增强子及其强度分类方法及分类设备
CN108595914A (zh) 一种烟草线粒体rna编辑位点高精度预测方法
CN114694746A (zh) 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法
CN114758721A (zh) 一种基于深度学习的转录因子结合位点定位方法
CN113257341A (zh) 一种基于深度残差网络的蛋白质残基间距离分布预测方法
Freedman et al. Building better genome annotations across the tree of life
CN116646010B (zh) 人源性病毒检测方法及装置、设备、存储介质
CN110364222B (zh) 基于动态建模的阿尔兹海默症分泌蛋白质数据处理方法
Van Berlo et al. Protein complex prediction using an integrative bioinformatics approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant