CN112669905A - 基于数据增强的rna序列编码潜力预测方法及系统 - Google Patents

基于数据增强的rna序列编码潜力预测方法及系统 Download PDF

Info

Publication number
CN112669905A
CN112669905A CN202011633130.0A CN202011633130A CN112669905A CN 112669905 A CN112669905 A CN 112669905A CN 202011633130 A CN202011633130 A CN 202011633130A CN 112669905 A CN112669905 A CN 112669905A
Authority
CN
China
Prior art keywords
orf length
coding rna
less
coding
rna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011633130.0A
Other languages
English (en)
Other versions
CN112669905B (zh
Inventor
谌先敢
阳小飞
章文
李臣鸿
陈素
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN202011633130.0A priority Critical patent/CN112669905B/zh
Publication of CN112669905A publication Critical patent/CN112669905A/zh
Application granted granted Critical
Publication of CN112669905B publication Critical patent/CN112669905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种基于数据增强的RNA序列编码潜力预测方法及系统,涉及生物信息学领域。该方法包括以下步骤:计算训练样本的序列特征,在训练样本的特征空间中进行双端数据增强,得到经过增强后的样本特征,用于训练机器学习模型;将训练完成的机器学习模型用于RNA序列编码潜力的预测。本发明能显著提高包含sORF数据的人类RNA序列编码潜力预测的准确率。

Description

基于数据增强的RNA序列编码潜力预测方法及系统
技术领域
本发明涉及生物信息学领域,具体是涉及一种基于数据增强的RNA(RibonucleicAcid,核糖核酸)序列编码潜力预测方法及系统。
背景技术
高通量测序技术已经产生了大量的转录本,这些转录本是DNA(DeoxyriboNucleicAcid,脱氧核糖核酸)转录产物的组合,包括coding RNA(编码RNA)和ncRNA(non-codingRNA,非编码RNA)。ncRNA是指不编码蛋白质的RNA,曾经被认为与基因表达无关。后来人们认识到ncRNA在基因表达调控和疾病发病机制中起着关键作用。估计转录本的编码潜力,即区分编码RNA和ncRNA,对于下游生物学功能分析至关重要。
国内外的研究人员已经提出了许多用于RNA序列编码潜力预测的计算方法,它们使用不同的特征和不同的分类器来构建预测模型。这些方法的成功应用说明,特征工程和分类器工程已经在RNA序列的编码潜力预测这一问题上得到了广泛的研究。
目前的方法取得了一定的效果,但局限性也存在,即这些方法对包含sORF(smallOpen Reading Frame,小开放阅读框)的数据的预测较差。ORF(Open Reading Frame,开放阅读框)是由起始密码子、终止密码子以及位于两者之间的核苷酸序列三个部分构成的一段核苷酸片段,sORF是指长度小于300nt(nucleotide,核苷酸)的ORF。coding RNA(编码RNA)和ncRNA(非编码RNA)均可能包含sORF,包含sORF的编码RNA和非编码RNA可以被称为small coding RNAs(小编码RNA)和small ncRNAs(小非编码RNA)。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:目前的方法对包含sORF的RNA序列的编码潜力预测的准确率还有待进一步提高。
发明内容
本发明的目的是为了克服上述背景技术的不足,提供一种基于数据增强的RNA序列编码潜力预测方法及系统,能够显著提高包含sORF数据的人类RNA序列编码潜力预测的准确率。
第一方面,提供一种基于数据增强的RNA序列编码潜力预测方法,包括以下步骤:
计算训练样本的序列特征,在训练样本的特征空间中进行双端数据增强,得到经过增强后的样本特征,用于训练机器学习模型;
使用训练完成的机器学习模型进行RNA序列编码潜力的预测。
在一些实施例中,所述在训练样本的特征空间中进行双端数据增强包括以下步骤:
基于ORF长度小于303nt的编码RNA和ORF长度大于460nt的非编码RNA产生新的样本,将其与原有的样本合并在一起,作为增强后的样本特征。
在一些实施例中,所述基于ORF长度小于303nt的编码RNA和ORF长度大于460nt的非编码RNA产生新的样本,将其与原有的样本合并在一起,作为增强后的样本特征,包括以下步骤:
根据ORF长度是否小于303nt的条件,将编码RNA的特征集合分为2个不同的特征集合:ORF长度大于等于303nt的编码RNA,ORF长度小于303nt的编码RNA;
根据ORF长度是否小于460nt的条件,将ncRNA的特征集合分为2个不同的特征集合:ORF长度大于等于460nt的ncRNA,ORF长度小于460nt的ncRNA;
增强ORF长度小于303nt的编码RNA和ORF长度大于等于460nt的ncRNA。
在一些实施例中,所述数据增强的方式包括:随机采样RS、合成少数类过采样技术SMOTE、自适应合成采样方法ADASYN、变分自编码器VAE。
在一些实施例中,所述数据增强的方式采用优化后的随机采样,包括以下步骤:
随机采样时,使选取ORF长度小于180nt的编码RNA比选取ORF长度大于等于180nt且小于303nt的编码RNA的概率高,在选取编码RNA的特征上加入扰动,形成新的样本特征。
在一些实施例中,所述使选取ORF长度小于180nt的编码RNA比选取ORF长度大于等于180nt且小于303nt的编码RNA的概率高,包括以下步骤:
将ORF长度小于180nt的编码RNA复制3份,结合ORF长度在180nt和303nt之间的编码RNA,形成新的样本集合,从新的样本集合中随机选择一个样本。
第二方面,提供一种基于数据增强的RNA序列编码潜力预测系统,包括:
计算单元,用于:计算训练样本的序列特征;
双端数据增强单元,用于:在训练样本的特征空间中进行双端数据增强,得到经过增强后的样本特征,用于训练机器学习模型;
预测单元,用于:使用训练完成的机器学习模型进行RNA序列编码潜力的预测。
在一些实施例中,所述双端数据增强单元具体用于:基于ORF长度小于303nt的编码RNA和ORF长度大于460nt的非编码RNA产生新的样本,将其与原有的样本合并在一起,作为增强后的样本特征。
在一些实施例中,所述数据增强的方式包括:随机采样RS、合成少数类过采样技术SMOTE、自适应合成采样方法ADASYN、变分自编码器VAE。
在一些实施例中,所述数据增强的方式采用优化后的随机采样,包括以下步骤:
随机采样时,使选取ORF长度小于180nt的编码RNA比选取ORF长度大于等于180nt且小于303nt的编码RNA的概率高,在选取编码RNA的特征上加入扰动,形成新的样本特征。
与现有技术相比,本发明的优点如下:
(1)本申请提供一种基于数据增强的人类RNA序列编码潜力预测方法,是一种称为“双端增强”的数据增强方法,计算训练样本的序列特征,在训练样本的特征空间中进行双端数据增强,得到经过增强后的样本特征,用于训练机器学习模型;使用训练完成的机器学习模型进行RNA序列编码潜力的预测,在提升人类RNA序列编码潜力预测的性能方面有显著效果。
(2)本申请在“双端增强”的数据增强方法的基础上,对现有的随机采样方法进行优化,针对ORF长度小于303nt的编码RNA,设计了一种优化后的新的随机采样方法,随机采样时,使选取ORF长度小于180nt的编码RNA比选取ORF长度大于等于180nt且小于303nt的编码RNA的概率高,在选取编码RNA的特征上加入扰动,形成新的样本特征。该优化后的新随机采样方法比现有的随机采样RS、SMOTE、ADASYN、VAE这4种过采样方法的效果好。
附图说明
图1是本发明实施例中基于数据增强的RNA序列编码潜力预测方法的流程图。
图2是本发明实施例中训练样本的编码RNA和非编码RNA的数量统计图。
图3是本发明实施例中生成新样本的原理图。
图4是本发明实施例中ORF长度小于303nt的编码RNA的数量统计示意图。
具体实施方式
现在将详细参照本发明的具体实施例,在附图中例示了本发明的例子。尽管将结合具体实施例描述本发明,但将理解,不是想要将本发明限于所述的实施例。相反,想要覆盖由所附权利要求限定的在本发明的精神和范围内包括的变更、修改和等价物。应注意,这里描述的方法步骤都可以由任何功能块或功能布置来实现,且任何功能块或功能布置可被实现为物理实体或逻辑实体、或者两者的组合。
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明作进一步详细说明。
注意:接下来要介绍的示例仅是一个具体的例子,而不作为限制本发明的实施例必须为如下具体的步骤、数值、条件、数据、顺序等等。本领域技术人员可以通过阅读本说明书来运用本发明的构思来构造本说明书中未提到的更多实施例。
本申请的创新点一在于:
为了进一步提高人类RNA序列编码潜力预测的准确率,本申请实施例提供一种基于数据增强的人类RNA序列编码潜力预测方法,是一种称为“双端增强”的数据增强方法,包括以下步骤:
计算训练样本的序列特征,在训练样本的特征空间中进行双端数据增强,得到经过增强后的样本特征,用于训练机器学习模型;
使用训练完成的机器学习模型进行RNA序列编码潜力的预测。
作为优选的实施方式,在训练样本的特征空间中进行双端数据增强包括以下步骤:
参见图1所示,基于ORF长度小于303nt的编码RNA和ORF长度大于460nt的非编码RNA产生新的样本,将其与原有的样本合并在一起,作为增强后的样本特征。
作为优选的实施方式,基于ORF长度小于303nt的编码RNA和ORF长度大于460nt的非编码RNA产生新的样本,将其与原有的样本合并在一起,作为增强后的样本特征,包括以下步骤:
根据ORF长度是否小于303nt的条件,将编码RNA的特征集合分为2个不同的特征集合:ORF长度大于等于303nt的编码RNA,ORF长度小于303nt的编码RNA;
根据ORF长度是否小于460nt的条件,将ncRNA的特征集合分为2个不同的特征集合:ORF长度大于等于460nt的ncRNA,ORF长度小于460nt的ncRNA;
增强ORF长度小于303nt的编码RNA和ORF长度大于等于460nt的ncRNA。
作为优选的实施方式,数据增强的方式包括:随机采样RS、合成少数类过采样技术SMOTE、自适应合成采样方法ADASYN、变分自编码器VAE。
作为优选的实施方式,随机采样包括以下步骤:
随机采样时,使选取ORF长度小于180nt的编码RNA比选取ORF长度大于等于180nt且小于303nt的编码RNA的概率高,在选取编码RNA的特征上加入扰动,形成新的样本特征。
作为优选的实施方式,使选取ORF长度小于180nt的编码RNA比选取ORF长度大于等于180nt且小于303nt的编码RNA的概率高,包括以下步骤:
将ORF长度小于180nt的编码RNA复制3份,结合ORF长度在180nt和303nt之间的编码RNA,形成新的样本集合,从新的样本集合中随机选择一个样本。
本申请实施例还提供一种基于数据增强的RNA序列编码潜力预测系统,包括:
计算单元,用于:计算训练样本的序列特征;
双端数据增强单元,用于:在训练样本的特征空间中进行双端数据增强,得到经过增强后的样本特征,用于训练机器学习模型;
预测单元,用于:使用训练完成的机器学习模型进行RNA序列编码潜力的预测。
作为优选的实施方式,双端数据增强单元具体用于:基于ORF长度小于303nt的编码RNA和ORF长度大于460nt的非编码RNA产生新的样本,将其与原有的样本合并在一起,作为增强后的样本特征,具体包括以下步骤:
根据ORF长度是否小于303nt的条件,将编码RNA的特征集合分为2个不同的特征集合:ORF长度大于等于303nt的编码RNA,ORF长度小于303nt的编码RNA;
根据ORF长度是否小于460nt的条件,将ncRNA的特征集合分为2个不同的特征集合:ORF长度大于等于460nt的ncRNA,ORF长度小于460nt的ncRNA;
增强ORF长度小于303nt的编码RNA和ORF长度大于等于460nt的ncRNA。
作为优选的实施方式,数据增强的方式包括:随机采样RS、合成少数类过采样技术SMOTE、自适应合成采样方法ADASYN、变分自编码器VAE。
作为优选的实施方式,随机采样包括以下步骤:
随机采样时,使选取ORF长度小于180nt的编码RNA比选取ORF长度大于等于180nt且小于303nt的编码RNA的概率高,在选取编码RNA的特征上加入扰动,形成新的样本特征。
数据增强作为机器学习的一个重要环节,在各类任务中起着重要作用,但在RNA序列的编码潜力预测的应用上很少见。
本申请实施例中的全部数据被随机划分为两部分:训练样本集合和测试样本集合。整个分类过程遵循模式识别的框架,参见图1所示。
计算训练样本的序列特征,在特征空间中进行数据增强,得到经过增强后的样本特征,将样本特征及标签输入分类器进行训练,训练所得到的编码潜力预测模型用于对测试样本的特征进行预测,预测的标签与真实的标签进行比较,得到评估结果。
序列特征包括:ORF长度、ORF覆盖率、ORF完整性、Fickett评分、Hexamer评分、预测肽的等电位点(pI)、预测肽的亲水性(Gravy)的Grand平均值、预测肽的稳定性估计等8个特征,全局描述特征CTD(Composition、Transition和Distribution,核苷酸组成、转换和分布)包括核苷酸组成、核苷酸转换和核苷酸分布等30个特征,全部特征值包含这38个特征。
本发明实施例所采用的分类器是XGBoost,XGBoost是Extreme GradientBoosting(极限梯度提升)的简称,该算法是gradient boosting decision tree(梯度提升决策树)的改进,XGBoost的优势较多,例如:加入了正则项防止过拟合、支持并行化、Shrinkage(收缩)技术等等。
图2是根据训练样本的编码RNA和ncRNA的ORF长度计算得到的数量统计图,本申请实施例将编码RNA表示为正样本,ncRNA表示为负样本,从图2可以看出,与其他样本相比,ORF长度小于303nt的正样本(编码RNA)和ORF长度大于等于460nt的负样本(ncRNA)的数量偏少,申请人尝试过目前所有的经典方法,做过大量试验后发现:增加这两类样本的数量,可以提高模型的性能。
本申请实施例中的数据增强具体包括以下步骤:
根据ORF长度是否小于303nt的条件,将编码RNA的特征集合分为2个不同的特征集合:ORF长度大于等于303nt的编码RNA,ORF长度小于303nt的编码RNA;
根据ORF长度是否小于460nt的条件,将ncRNA的特征集合分为2个不同的特征集合:ORF长度大于等于460nt的ncRNA,ORF长度小于460nt的ncRNA。
本申请提出“双端增强”的数据增强方法,就是指:增强ORF长度小于303nt的编码RNA和ORF长度大于等于460nt的ncRNA,如图3所示。
具体的数据增强方式有以下四种方法可以选择:
RS(Random Sampling,随机采样)、SMOTE(Synthetic Minority OversamplingTEchnique,合成少数类过采样技术)、ADASYN(Adaptive Synthetic Sampling,自适应合成采样方法)、VAE(Variational Autoencoder,变分自编码器)。
下面详细说明这四种现有的过采样方法生成N个新样本的具体步骤。
现有的随机采样RS:N是正整数,取值范围初步设置为1-20000,RS是指在需要增强样本的特征空间中随机选择一个样本,将它作为新样本,该过程重复N次,以生成N个新样本。
现有的SMOTE:将需要扩充的原样本的数目表示为Ns,SMOTE首先从需要增强样本的特征空间中随机选择一个样本,表示为Fi,然后找到与该样本最近的k个样本,从这k个样本中随机选择一个样本,表示为Fnear,新样本通过如下公式生成:
Fnew=Fi+λ*(Fi-Fnear)
其中,Fnew表示新样本,λ是0至1之间的随机数。定义p=N/Ns,p是正整数,取值范围一般为1-40,为每个样本Fi生成p个新样本,i=1,…,Ns,最终得到p×Ns(N)个新样本。
现有的ADASYN:ADASYN也是首先从需要扩充的原样本的特征空间中随机选择一个样本,表示为Fi,计算比值ri=Δi/K,i=1,…,Ns,其中,ri就是该公式表示的比值,k表示k个最近邻居,Δi是不属于Fi的k个最近邻居的样本数目。使用公式
Figure BDA0002880557770000101
Figure BDA0002880557770000102
对ri进行标准化,对每个样本Fi生成
Figure BDA0002880557770000103
个新样本,
Figure BDA0002880557770000104
表示将ri经过标准化之后的比值,最终得到N个新样本。
现有的VAE:VAE是一种深度生成模型,该模型的目标是为了刻画数据分布,通过逼近数据的真实分布来提取数据的结构。VAE在RNA序列编码潜力预测中目前还没有人使用过。
本申请实施例使用训练完成的深度生成模型来产生新的样本,然后将这些新样本用于数据增强。变分自编码器(VAE)是一种重要的深度生成模型,在图像领域已经取得了成功的应用,本申请实施例使用变分自编码器来生成新的样本。首先分别使用ORF长度小于303nt的编码RNA和ORF长度大于等于460nt的ncRNA训练不同的VAE模型,训练完VAE模型之后,使用训练完成的VAE模型来得到新的样本,将新样本与训练集合中原有的样本一起共同用于训练编码潜力预测模型。
本申请实施例的创新点二在于:
本申请实施例在“双端增强”的数据增强方法的基础上,对现有的随机采样方法进行优化,针对ORF长度小于303nt的编码RNA,设计了一种新的随机采样方法。
从图4中ORF长度小于303nt的编码RNA的数量统计图中可以看出,ORF长度小于180nt的编码RNA的数量比ORF长度在180nt和303nt之间的编码RNA少得多。
优化后的新随机采样方法包括以下步骤:
本申请实施例在优化后的随机采样的过程中,使选取ORF长度小于180nt的编码RNA比选取ORF长度大于等于180nt且小于303nt的编码RNA的概率高,并且在选取编码RNA的特征上加入扰动,形成新的样本特征。每次选取一个样本,加上扰动,该过程重复N次,以生成N个新样本。
新样本特征的计算公式如下所示:
Fnew=Fi*(V*a+1)
Fi为从需要增强样本的特征空间中随机选择一个样本,选择样本的时候以较高的概率选择ORF长度小于180nt的编码RNA,以较低的概率选择ORF长度在180nt和303nt之间的编码RNA,V是一个数值在0至1之间的一个38维的特征向量,α是扰动系数,此次被设置为0.005。
以较高的概率选择ORF长度小于180nt的编码RNA的具体实现方式如下:在编码RNA中,存在449个ORF长度小于303nt的编码RNA,在这449个编码RNA中,ORF长度小于180nt的编码RNA是31个,ORF长度在180nt和303nt之间的编码RNA是418个。将ORF长度小于180nt的编码RNA复制3份,结合ORF长度在180nt和303nt之间的编码RNA,形成新的样本集合,该集合的样本数量是31*3+418=511。从这511个样本的集合中随机选择一个样本Fi,加上扰动产生新样本。经过测试,该优化后的新随机采样方法比现有的随机采样RS、SMOTE、ADASYN、VAE这4种过采样方法的效果好。
为了评估本方法的性能,下面在四个测试集合上初步测试比较本申请实施例中优化后的新随机采样(RS)方法,分别比较不增强方案、单端增强方案、双端增强方案这三种不同的方案的MCC(Matthews Correlation Coefficient,马修斯相关系数)指标。
不增强方案是指:不进行任何数据增强,只使用原始的训练数据。
单端增强方案是指:只增强ORF长度小于303nt的编码RNA。
需要注意的是:公开号为CN111276182A、申请号为CN202010075959.7的专利申请保护的技术方案就是“单端增强方案”。
双端增强方案是指:增强ORF长度小于303nt的编码RNA和ORF长度大于等于460nt的ncRNA。本申请实施例的创新之一就是双端增强方案。
需要注意的是:单端增强方案可以看作成双端增强方案在ORF长度大于等于460nt的ncRNA的增强数目为0时的一种特例。
参见表1所示,本申请实施例在四个测试集合上进行比较,所用的评估指标是MCC指标,MCC指标是比较全面的指标,MCC指标的数值越大,说明对应方案的性能越好,人类RNA序列编码潜力的预测越准确。
需要注意的是:本申请实施例所使用的训练数据均为人类的RNA数据,测试集合1和2的测试数据均来自于人类的RNA数据,测试集合3和4的测试数据均来自老鼠的RNA数据。
具体来说,表1中的测试集合1是来自人类RNA经过去冗余之后的数据,测试集合2包括从测试集合1挑选出来的sORF长度小于303nt的序列;测试集合3是来自老鼠的RNA数据,测试集合4包括从测试集合3挑选出来的sORF长度小于303nt的序列。其中,测试集合1和测试集合2的测试数据均来自人类RNA数据,是最重要的两个测试数据集合。
表1、本申请实施例在四个测试集合上比较三种方案的MCC指标结果
Figure BDA0002880557770000131
从表1中可以看出:在测试集合1(来自人类的RNA数据)上,不增强方案的MCC指标是0.9294,单端增强方案的MCC指标是0.9331,双端增强方案的MCC指标是0.9347,单端增强方案的MCC指标比不增强方案的MCC指标提升了0.0037;双端增强方案的MCC指标比不增强方案的MCC指标提升了0.0053,双端增强方案的MCC指标比单端增强方案的MCC指标提升了0.0016。由于目前流行的其他编码潜力预测方法在MCC指标上都很难有进一步提升,因此,双端增强方案的MCC指标比单端增强方案的MCC指标提升0.0016是非常显著的性能提升。
从表1中可以看出:在测试集合2(来自测试集合1中sORF长度小于303nt的序列,人类的RNA数据)上,不增强方案的MCC指标是0.6233,单端增强方案的MCC指标是0.6627,双端增强方案的MCC指标是0.6824,单端增强方案的MCC指标比不增强方案的MCC指标提升了0.0394,双端增强方案的MCC指标比不增强方案的MCC指标提升了0.0591;双端增强方案的MCC指标比单端增强方案的MCC指标提升了0.0197。由于目前流行的其他编码潜力预测方法在MCC指标上都很难有进一步提升,因此,双端增强方案的MCC指标比单端增强方案的MCC指标提升0.0197是非常显著的性能提升。
从表1中可以看出:在测试集合3(来自老鼠的RNA数据)上,不增强方案的MCC指标是0.92995,单端增强方案的MCC指标是0.9307,双端增强方案的MCC指标是0.9236,单端增强方案的MCC指标比不增强方案的MCC指标提升了0.00075;双端增强方案的MCC指标比不增强方案的MCC指标下降了0.00635,双端增强方案的MCC指标比单端增强方案的MCC指标下降了0.0071。
从表1中可以看出:在测试集合4(来自测试集合3中sORF长度小于303nt的序列,老鼠的RNA数据)上,不增强方案的MCC指标是0.4539,单端增强方案的MCC指标是0.5070,双端增强方案的MCC指标是0.5207,单端增强方案的MCC指标比不增强方案的MCC指标提升了0.0531;双端增强方案的MCC指标比不增强方案的MCC指标提升了0.0668,双端增强方案的MCC指标比单端增强方案的MCC指标提升了0.0137。
上述表1中的测试结果说明:在训练数据和测试数据均为人类的RNA数据时,例如测试集合1和2,双端增强方案的MCC指标均超过了单端增强方案的MCC指标,本申请实施例提出的双端增强方案能够有效提升人类RNA序列编码潜力的预测准确率。
在训练数据为人类的RNA数据、测试数据来自老鼠的RNA数据时,例如测试集合3和4,在测试集合3上,单端增强方案的MCC指标比不增强方案的MCC指标提升了0.00075;双端增强方案的MCC指标比不增强方案的MCC指标下降了0.00635,双端增强方案的MCC指标比单端增强方案的MCC指标下降了0.0071;在测试集合4上,单端增强方案的MCC指标比不增强方案的MCC指标提升了0.0531;双端增强方案的MCC指标比不增强方案的MCC指标提升了0.0668,双端增强方案的MCC指标比单端增强方案的MCC指标提升了0.0137。因此,在测试集合3和4来自老鼠的RNA数据时,本申请实施例提出的双端增强方案只有助于提升带sORF的RNA序列编码潜力的预测准确率。
综上所述,从表1中可以看出,在测试集合1、2、4上,与不增强方案相比,单端增强方案和双端增强方案均提升了性能,双端增强方案的性能明显超过单端增强方案。
在测试集合3上,与不增强方案相比,单端增强方案的性能有少量提升,而双端增强方案的性能则有一定程度的下降。
由于单端增强方案可以看作成双端增强方案在ORF长度大于等于460nt的ncRNA的增强数目为0时的一种特例,因此,本申请实施例提出的“双端增强方案”在提升人类RNA序列编码潜力预测的性能方面有显著效果。
基于同一发明构思,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的所有方法步骤或部分方法步骤。
本发明实现上述方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Ran domAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
基于同一发明构思,本申请实施例还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法中的所有方法步骤或部分方法步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CP U),还可以是其他通用处理器、数字信号处理器(Digital Signal Pro cessor,DSP)、专用集成电路(Application Specific Integrated Circu it,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FP GA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(例如声音播放功能、图像播放功能等);存储数据区可存储根据手机的使用所创建的数据(例如音频数据、视频数据等)。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia C ard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Ca rd)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、服务器或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、服务器和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于数据增强的RNA序列编码潜力预测方法,其特征在于,包括以下步骤:
计算训练样本的序列特征,在训练样本的特征空间中进行双端数据增强,得到经过增强后的样本特征,用于训练机器学习模型;
使用训练完成的机器学习模型进行RNA序列编码潜力的预测。
2.如权利要求1所述的方法,其特征在于:
所述在训练样本的特征空间中进行双端数据增强包括以下步骤:
基于ORF长度小于303nt的编码RNA和ORF长度大于460nt的非编码RNA产生新的样本,将其与原有的样本合并在一起,作为增强后的样本特征。
3.如权利要求2所述的方法,其特征在于:所述基于ORF长度小于303nt的编码RNA和ORF长度大于460nt的非编码RNA产生新的样本,将其与原有的样本合并在一起,作为增强后的样本特征,包括以下步骤:
根据ORF长度是否小于303nt的条件,将编码RNA的特征集合分为2个不同的特征集合:ORF长度大于等于303nt的编码RNA,ORF长度小于303nt的编码RNA;
根据ORF长度是否小于460nt的条件,将ncRNA的特征集合分为2个不同的特征集合:ORF长度大于等于460nt的ncRNA,ORF长度小于460nt的ncRNA;
增强ORF长度小于303nt的编码RNA和ORF长度大于等于460nt的ncRNA。
4.如权利要求3所述的方法,其特征在于:所述数据增强的方式包括:随机采样RS、合成少数类过采样技术SMOTE、自适应合成采样方法ADASYN、变分自编码器VAE。
5.如权利要求3所述的方法,其特征在于:
所述数据增强的方式采用优化后的随机采样,包括以下步骤:
随机采样时,使选取ORF长度小于180nt的编码RNA比选取ORF长度大于等于180nt且小于303nt的编码RNA的概率高,在选取编码RNA的特征上加入扰动,形成新的样本特征。
6.如权利要求5所述的方法,其特征在于:
所述使选取ORF长度小于180nt的编码RNA比选取ORF长度大于等于180nt且小于303nt的编码RNA的概率高,包括以下步骤:
将ORF长度小于180nt的编码RNA复制3份,结合ORF长度在180nt和303nt之间的编码RNA,形成新的样本集合,从新的样本集合中随机选择一个样本。
7.一种基于数据增强的RNA序列编码潜力预测系统,其特征在于,包括:
计算单元,用于:计算训练样本的序列特征;
双端数据增强单元,用于:在训练样本的特征空间中进行双端数据增强,得到经过增强后的样本特征,用于训练机器学习模型;
预测单元,用于:使用训练完成的机器学习模型进行RNA序列编码潜力的预测。
8.如权利要求7所述的系统,其特征在于:
所述双端数据增强单元具体用于:基于ORF长度小于303nt的编码RNA和ORF长度大于460nt的非编码RNA产生新的样本,将其与原有的样本合并在一起,作为增强后的样本特征。
9.如权利要求8所述的系统,其特征在于:所述数据增强的方式包括:随机采样RS、合成少数类过采样技术SMOTE、自适应合成采样方法ADASYN、变分自编码器VAE。
10.如权利要求5所述的系统,其特征在于:
所述数据增强的方式采用优化后的随机采样,包括以下步骤:
随机采样时,使选取ORF长度小于180nt的编码RNA比选取ORF长度大于等于180nt且小于303nt的编码RNA的概率高,在选取编码RNA的特征上加入扰动,形成新的样本特征。
CN202011633130.0A 2020-12-31 2020-12-31 基于数据增强的rna序列编码潜力预测方法及系统 Active CN112669905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011633130.0A CN112669905B (zh) 2020-12-31 2020-12-31 基于数据增强的rna序列编码潜力预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011633130.0A CN112669905B (zh) 2020-12-31 2020-12-31 基于数据增强的rna序列编码潜力预测方法及系统

Publications (2)

Publication Number Publication Date
CN112669905A true CN112669905A (zh) 2021-04-16
CN112669905B CN112669905B (zh) 2024-03-01

Family

ID=75413216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011633130.0A Active CN112669905B (zh) 2020-12-31 2020-12-31 基于数据增强的rna序列编码潜力预测方法及系统

Country Status (1)

Country Link
CN (1) CN112669905B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694755A (zh) * 2022-03-28 2022-07-01 中山大学 基因组组装方法、装置、设备及存储介质
CN116453599A (zh) * 2023-06-19 2023-07-18 深圳大学 开放阅读框预测方法、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109599149A (zh) * 2018-10-25 2019-04-09 华中科技大学 一种rna编码潜能的预测方法
CN111276182A (zh) * 2020-01-21 2020-06-12 中南民族大学 Rna序列编码潜力的计算方法及系统
CN111462820A (zh) * 2020-03-31 2020-07-28 浙江科技学院 基于特征筛选和集成算法的非编码rna预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109599149A (zh) * 2018-10-25 2019-04-09 华中科技大学 一种rna编码潜能的预测方法
CN111276182A (zh) * 2020-01-21 2020-06-12 中南民族大学 Rna序列编码潜力的计算方法及系统
CN111462820A (zh) * 2020-03-31 2020-07-28 浙江科技学院 基于特征筛选和集成算法的非编码rna预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵佳;于家峰;王吉华;: "LncRNA中sORFs分布特征研究", 德州学院学报, no. 06, pages 13 - 17 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694755A (zh) * 2022-03-28 2022-07-01 中山大学 基因组组装方法、装置、设备及存储介质
CN116453599A (zh) * 2023-06-19 2023-07-18 深圳大学 开放阅读框预测方法、设备及存储介质
CN116453599B (zh) * 2023-06-19 2024-03-19 深圳大学 开放阅读框预测方法、设备及存储介质

Also Published As

Publication number Publication date
CN112669905B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
Hsu et al. A practical guide to support vector classification
CN107622182B (zh) 蛋白质局部结构特征的预测方法及系统
CN111192631A (zh) 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN112669905A (zh) 基于数据增强的rna序列编码潜力预测方法及系统
CN111401534A (zh) 一种蛋白质性能预测方法、装置和计算设备
KR20120066462A (ko) 얼굴 인식 방법 및 시스템, 얼굴 인식을 위한 학습용 특징 벡터 추출 장치 및 테스트용 특징 벡터 추출 장치
CN109766476B (zh) 视频内容情感分析方法、装置、计算机设备及存储介质
CN109599149B (zh) 一种rna编码潜能的预测方法
CN115514376A (zh) 基于改进符号聚合近似的高频时序数据压缩方法及装置
CN112837747A (zh) 基于注意力孪生网络的蛋白质结合位点预测方法
CN111276182B (zh) Rna序列编码潜力的计算方法及系统
CN112884149A (zh) 一种基于随机敏感度st-sm的深度神经网络剪枝方法及系统
Xin et al. Audio Pyramid Transformer with Domain Adaption for Weakly Supervised Sound Event Detection and Audio Classification.
Lee et al. NAS-TasNet: neural architecture search for time-domain speech separation
CN111950579A (zh) 分类模型的训练方法和训练装置
Jiao et al. Identification of plant vacuole proteins by exploiting deep representation learning features
CN111275166B (zh) 基于卷积神经网络的图像处理装置、设备及可读存储介质
CN116312502A (zh) 基于顺序采样分块机制的端到端流式语音识别方法及装置
CN114582420A (zh) 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统
Pipoli et al. Squeeze and Learn: Compressing Long Sequences with Fourier Transformers for Gene Expression Prediction
CN112309495A (zh) 基于机器学习的海藻固碳蛋白预测方法及系统
CN114694757A (zh) Rna序列编码潜力预测方法及系统
CN115019235B (zh) 一种场景划分和内容检测的方法和系统
Fujiwara et al. Protein motif extraction using hidden Markov model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant