CN111276182B - Rna序列编码潜力的计算方法及系统 - Google Patents
Rna序列编码潜力的计算方法及系统 Download PDFInfo
- Publication number
- CN111276182B CN111276182B CN202010075959.7A CN202010075959A CN111276182B CN 111276182 B CN111276182 B CN 111276182B CN 202010075959 A CN202010075959 A CN 202010075959A CN 111276182 B CN111276182 B CN 111276182B
- Authority
- CN
- China
- Prior art keywords
- orf
- data
- training data
- training
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种RNA序列编码潜力的计算方法及系统,涉及生物信息学领域。该方法包括以下步骤:对训练数据中的部分数据进行过采样,得到新训练数据;计算新训练数据的序列特征,将该序列特征及标签输入分类器进行训练;采用训练所得到的模型对测试数据的特征进行预测;将预测的标签与真实的标签进行比较,得到评估结果。本发明能实现对包含sORF数据的RNA序列编码潜力的准确预测。
Description
技术领域
本发明涉及生物信息学领域,具体是涉及一种RNA(RibonucleicAcid,核糖核酸)序列编码潜力的计算方法及系统。
背景技术
人类基因组中只有不到2%的碱基对编码蛋白质,剩余部分的功能是未知的,在这些剩余的部分中,ncRNA(non-coding RNA,非编码RNA)是指未翻译成蛋白质的转录本,通过被认为在各种生物过程中起重要作用,且与癌症等疾病有关。
新一代的测序技术产生了大量的新转录本,估计这些转录本的编码潜力对于分析这些数据非常重要。区分cRNA(coding RNA,编码RNA)和ncRNA是一个二元分类问题,目前有许多很好的方法。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:目前的众多方法取得了很好的效果,但局限性也存在,即这些方法对包含sORF(small Open ReadingFrame,小开放阅读框)的数据的预测很差。ORF(Open Reading Frame,开放阅读框)是由起始密码子、终止密码子以及位于两者之间的核苷酸序列三个部分构成的一段核苷酸片段,sORF是指长度小于300核苷酸(nucleotide,nt)的ORF。编码RNA和非编码RNA均可能包含sORF,包含sORF的编码RNA和非编码RNA可以被称为小编码RNA(small coding RNAs)和小非编码RNA(small ncRNAs)。目前的经典方法在区分smallcoding RNAs和small ncRNAs方面的准确率不高。
发明内容
本发明的目的是为了克服上述背景技术的不足,提供一种RNA序列编码潜力的计算方法及系统,能够实现对包含sORF数据的RNA序列编码潜力的准确预测。
第一方面,提供一种RNA序列编码潜力的计算方法,包括以下步骤:
对训练数据中的部分数据进行过采样,得到新训练数据;
计算新训练数据的序列特征,将该序列特征及标签输入分类器进行训练;
采用训练所得到的模型对测试数据的特征进行预测;
将预测的标签与真实的标签进行比较,得到评估结果。
根据第一方面,在第一方面的第一种可能的实现方式中,所述训练数据中的部分数据为训练数据中ORF长度在151-303的转录本。
根据第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述对训练数据中的部分数据进行过采样,包括以下步骤:
对训练数据中ORF长度小于303的编码RNAs进行过采样,使之达到与ORF长度在151-303之间的非编码RNAs同样的数目。
根据第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述对训练数据中的部分数据进行过采样,还包括以下步骤:
在除ORF长度和ORF完整性以外的特征值上,加一定比例的扰动值,生成新的样本点。
根据第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,在除ORF长度和ORF完整性以外的特征值上,加一定比例的扰动值,数学公式如下:
Fnew=F+Fother*a,
其中,Fnew是加入扰动之后的新特征值,F是原来的特征值,Fother是除ORF长度和ORF完整性以外的其他特征值,a是扰动的系数。
第二方面,提供一种RNA序列编码潜力的计算系统,包括:
过采样单元,用于:对训练数据中的部分数据进行过采样,得到新训练数据;
训练单元,用于:计算新训练数据的序列特征,将该序列特征及标签输入分类器进行训练;
预测单元,用于:采用训练所得到的模型对测试数据的特征进行预测;
评估单元,用于:将预测的标签与真实的标签进行比较,得到评估结果。
根据第二方面,在第二方面的第一种可能的实现方式中,所述训练数据中的部分数据为训练数据中ORF长度在151-303的转录本。
根据第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述过采样单元对训练数据中的部分数据进行过采样,包括以下步骤:
对训练数据中ORF长度小于303的编码RNAs进行过采样,使之达到与ORF长度在151-303之间的非编码RNAs同样的数目。
根据第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述过采样单元对训练数据中的部分数据进行过采样,还包括以下步骤:
在除ORF长度和ORF完整性以外的特征值上,加一定比例的扰动值,生成新的样本点。
根据第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,在除ORF长度和ORF完整性以外的特征值上,加一定比例的扰动值,数学公式如下:
Fnew=F+Fother*a,
其中,Fnew是加入扰动之后的新特征值,F是原来的特征值,Fother是除ORF长度和ORF完整性以外的其他特征值,a是扰动的系数。
与现有技术相比,本发明的优点如下:
(1)本发明对训练数据中的部分数据进行过采样,得到新训练数据;具体是对训练集合中ORF长度在151-303的转录本进行数据过采样的处理,使用新训练数据训练好的模型,能够实现对包含sORF数据的RNA序列编码潜力的准确预测。
(2)本发明还设计一种专门对RNA序列特征进行过采样的方法,用于RNA序列的过采样,能够进一步提高模型的性能。
附图说明
图1是本发明实施例中RNA序列编码潜力的计算方法的流程图。
图2是本发明实施例中对训练数据中的部分数据进行过采样的原理图。
图3是本发明实施例对训练数据进行过采样的详细流程图。
具体实施方式
现在将详细参照本发明的具体实施例,在附图中例示了本发明的例子。尽管将结合具体实施例描述本发明,但将理解,不是想要将本发明限于所述的实施例。相反,想要覆盖由所附权利要求限定的在本发明的精神和范围内包括的变更、修改和等价物。应注意,这里描述的方法步骤都可以由任何功能块或功能布置来实现,且任何功能块或功能布置可被实现为物理实体或逻辑实体、或者两者的组合。
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明作进一步详细说明。
注意:接下来要介绍的示例仅是一个具体的例子,而不作为限制本发明的实施例必须为如下具体的步骤、数值、条件、数据、顺序等等。本领域技术人员可以通过阅读本说明书来运用本发明的构思来构造本说明书中未提到的更多实施例。
参见图1所示,本发明实施例提供一种RNA序列编码潜力的计算方法(Codingpotential calculator method and system based on RNAsequence),包括以下步骤:
对训练数据中的部分数据进行过采样,得到新训练数据;
计算新训练数据的序列特征,将该序列特征及标签输入分类器进行训练;
采用训练所得到的模型对测试数据的特征进行预测;
将预测的标签与真实的标签进行比较,得到评估结果。
作为优选的实施方式,所述训练数据中的部分数据为训练数据中ORF长度在151-303的转录本。
作为优选的实施方式,所述对训练数据中的部分数据进行过采样,包括以下步骤:
对训练数据中ORF长度小于303的编码RNAs进行过采样,使之达到与ORF长度在151-303之间的非编码RNAs同样的数目。
作为优选的实施方式,所述对训练数据中的部分数据进行过采样,还包括以下步骤:
在除ORF完整性绝对值为1以外的特征值上,加一定比例的扰动值,生成新的样本点。
作为优选的实施方式,在除ORF完整性绝对值为1以外的特征值上,加一定比例的扰动值,数学公式如下:
Fnew=F+Fother*a,
其中,Fnew是加入扰动之后的新特征值,F是原来的特征值,Fother是除ORF长度和ORF完整性以外的其他特征值,a是扰动的系数。
本发明实施例还提供一种RNA序列编码潜力的计算系统,包括:
过采样单元,用于:对训练数据中的部分数据进行过采样,得到新训练数据;
训练单元,用于:计算新训练数据的序列特征,将该序列特征及标签输入分类器进行训练;
预测单元,用于:采用训练所得到的模型对测试数据的特征进行预测;
评估单元,用于:将预测的标签与真实的标签进行比较,得到评估结果。
作为优选的实施方式,所述训练数据中的部分数据为训练数据中ORF长度在151-303的转录本。
作为优选的实施方式,所述过采样单元对训练数据中的部分数据进行过采样,包括以下步骤:
对训练数据中ORF长度小于303的编码RNAs进行过采样,使之达到与ORF长度在151-303之间的非编码RNAs同样的数目。
作为优选的实施方式,所述过采样单元对训练数据中的部分数据进行过采样,还包括以下步骤:
在除ORF长度和ORF完整性以外的特征值上,加一定比例的扰动值,生成新的样本点。
作为优选的实施方式,在除ORF长度和ORF完整性以外的特征值上,加一定比例的扰动值,数学公式如下:
Fnew=F+Fother*a,
其中,Fnew是加入扰动之后的新特征值,F是原来的特征值,Fother是除ORF长度和ORF完整性以外的其他特征值,a是扰动的系数。
申请人认为:目前的方法在区分small code RNAs和smallncRNAs时的性能较差,主要原因在于训练集中,ORF长度在151-303的转录本中,small code RNAs的数量远小于small ncRNAs的数量。为了提高模型在区分small code RNAs和small ncRNAs上的性能,本发明实施例对训练集合中ORF长度在151-303的转录本进行数据过采样的处理,使这部分数据达到平衡。
参见图2所示,虚线椭圆内的是ORF长度位于151和303之间的转录本,样本空间表示为Hs,“+”代表正样本,“-”代表负样本,“*”代表经过过采样之后生成的新样本。其他数据组成的样本空间表示为Ho。在对Hs中的数据进行过采样之前,分类器得到的决策边界是其中的虚线,对Hs中的数据进行过采样之后,产生了新的决策边界。
本发明实施例的创新点有以下两点:
一、对训练集合中ORF长度在151-303的转录本进行数据过采样的处理,使这部分数据达到平衡;
二、另外设计一种专门对RNA序列特征进行过采样的方法。
全部数据被随机划分为两部分:训练数据和测试数据。整个分类过程遵循模式识别的框架,参见图1所示。对训练数据中的部分数据进行过采样,得到新训练数据,计算新训练数据的序列特征,将该序列特征及标签输入分类器进行训练,训练所得到的模型用于对测试数据的特征进行预测,预测的标签与真实的标签进行比较,得到评估结果。
序列特征包括:ORF长度、ORF覆盖率、ORF完整性、Fickett评分、Hexamer评分、预测肽的等电位点(pI)、预测肽的亲水性(Gravy)的Grand平均值、预测肽的稳定性估计等8个特征,全局描述特征CTD(composition,transition和distribution)包括核苷酸组成、核苷酸转换和核苷酸分布等30个特征,全部特征值包含这38个特征。
本发明实施例所采用的分类器是XGBoost,XGBoost是ExtremeGradient Boosting的简称,该算法是gradient boosting decision tree的改进,XGBoost的优势较多,例如:加入了正则项防止过拟合、支持并行化、Shrinkage技术等等。
对训练数据中的部分数据进行过采样,得到新训练数据,详细流程参见图3所示。
训练数据包含编码RNAs和非编码RNAs。按照ORF长度是否大于303的条件,编码RNAs分为ORF长度小于303的数据和其他ORF长度的数据,非编码RNAs分为ORF长度位于151-303之间的数据和其他长度的数据。对ORF长度小于303的编码RNAs进行过采样,使之达到与ORF长度位于151和303之间的非编码RNAs同样的数目。这样ORF长度小于303的编码RNAs和ORF长度位于151-303之间的非编码RNAs的数目达到平衡,这些数据和其他长度的编码RNAs和非编码RNAs一起形成新的训练数据。这些新训练数据的特征及标签用于训练分类器。
本发明实施例在对训练集合中ORF长度在151-303的转录本进行数据过采样的处理的基础上,针对RNA序列特征,还设计了一种专门针对RNA序列特征的过采样方法,用于RNA序列的过采样,以进一步提高模型的性能。本发明实施例的思想是在原来的特征值基础上加上扰动值生成新的样本点,原来的特征值包含38个特征,并不是每个特征都适合加扰动值。ORF长度本身是整数,ORF完整性的绝对值为1(即ORF完整性的值为1或者-1)的特征值不适合加扰动,本发明实施例在除ORF长度和ORF完整性之外的其他特征值上加上一定比例的扰动,数学公式如下:
Fnew=F+Fother*a
其中,Fnew是加入扰动之后的新特征值,F是原来的特征值,Fother是除ORF长度和ORF完整性以外的其他特征值,a是扰动的系数,a在此可以设置为0.005,该参数可以调节。
本发明实施例与现有的CPPred(coding potential prediction)方法在四个测试集合上进行比较,所用的评估指标是敏感性(sensitivity,SN)、特异性(specificity,SP)、准确率(accuracy,ACC)、精度(precision,PRE)、F分数(F-score)、AUC(Area Under Curve)和MCC(Matthews Correlation Coefficient)。
为了评估本方法的性能,下面在四个测试集合上将本发明实施例的方法与CPPred可以进行比较。测试集合1是来自人类的经过去冗余之后的数据。测试集合2包括从测试集合1挑选出来的sORF长度小于303的序列。测试集合3是来自老鼠数据,测试集合4包括从测试集合3挑选出来的sORF长度小于303的序列。
表1、测试集合1上两种方法的比较表
SP(%) | SN(%) | PRE(%) | ACC(%) | F-score | AUC | MCC | |
CPPred | 97.04 | 95.44 | 97.10 | 96.23 | 0.963 | 0.992 | 0.925 |
本方法 | 96.75 | 96.58 | 96.86 | 96.66 | 0.967 | 0.995 | 0.933 |
表2、测试集合2上两种方法的比较表
SP(%) | SN(%) | PRE(%) | ACC(%) | F-score | AUC | MCC | |
CPPred | 97.97 | 63.34 | 96.90 | 80.66 | 0.766 | 0.928 | 0.654 |
本方法 | 97.81 | 71.14 | 97.02 | 84.48 | 0.821 | 0.953 | 0.715 |
表3、测试集合3上两种方法的比较表
SP(%) | SN(%) | PRE(%) | ACC(%) | F-score | AUC | MCC | |
CPPred | 97.70 | 95.57 | 98.48 | 96.40 | 0.970 | 0.993 | 0.926 |
本方法 | 97.29 | 96.21 | 98.22 | 96.63 | 0.972 | 0.994 | 0.930 |
表4、测试集合4上两种方法的比较表
SP(%) | SN(%) | PRE(%) | ACC(%) | F-score | AUC | MCC | |
CPPred | 97.00 | 46.81 | 92.96 | 74.00 | 0.623 | 0.906 | 0.518 |
本方法 | 96.9 | 51.06 | 93.30 | 75.89 | 0.660 | 0.905 | 0.551 |
在上述的各种评估指标中,MCC是比较全面的指标,ACC是比较重要的指标,这两个指标的数组越大,说明算法的性能越好。在这四个测试集合上,本发明实施例的方法的MCC和ACC指标均优于CPPred方法。从表2和表4可以看出,在测试集合2和测试集合4上,本发明实施例的方法比CPPred方法提高较多,而表1和表3中的结果说明,在测试集合1和测试集合3上,本发明实施例的方法比CPPred好,但提高得不太多。这是因为,本发明实施例的方法适合处理sORF长度小于303的序列,而这样的序列在整个测试集合中所占的比例并不高,所以,虽然本发明实施例的方法提高了sORF长度小于303的序列的分类精度,有助于整个测试集合的分类精度的提升,但是不会大幅度提高整体的分类精度。
从这四个表格可以看出,本发明实施例的方法在性能上超过目前最好的方法CPPred,本发明实施例的方法中对部分数据进行过采样的技术可以提高RNA序列编码潜力的预测性能。
基于同一发明构思,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的所有方法步骤或部分方法步骤。
本发明实现上述方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
基于同一发明构思,本申请实施例还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法中的所有方法步骤或部分方法步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Pr ocessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(例如声音播放功能、图像播放功能等);存储数据区可存储根据手机的使用所创建的数据(例如音频数据、视频数据等)。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、服务器或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、服务器和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (2)
1.一种RNA序列编码潜力的计算方法,其特征在于,包括以下步骤:
对训练数据中的部分数据进行过采样,得到新训练数据;
计算新训练数据的序列特征,将该序列特征及标签输入分类器进行训练;
采用训练所得到的模型对测试数据的特征进行预测;
将预测的标签与真实的标签进行比较,得到评估结果;
所述训练数据包含编码RNAs和非编码RNAs,按照ORF长度是否大于303的条件,编码RNAs分为ORF长度小于303的数据和其他ORF长度的数据;非编码RNAs分为ORF长度位于151-303之间的数据和其他长度的数据;
所述对训练数据中的部分数据进行过采样,包括以下步骤:
对训练数据中ORF长度小于303的编码RNAs进行过采样,使之达到与ORF长度在151-303之间的非编码RNAs同样的数目;
所述对训练数据中的部分数据进行过采样,还包括以下步骤:
在除ORF长度和ORF完整性以外的特征值上,加一定比例的扰动值,生成新的样本点;
在除ORF长度和ORF完整性以外的特征值上,加一定比例的扰动值,数学公式如下:
Fnew=F+Fother*a,
其中,Fnew是加入扰动之后的新特征值,F是原来的特征值,Fother是除ORF长度和ORF完整性以外的其他特征值,a是扰动的系数。
2.一种RNA序列编码潜力的计算系统,其特征在于,包括:
过采样单元,用于:对训练数据中的部分数据进行过采样,得到新训练数据;
训练单元,用于:计算新训练数据的序列特征,将该序列特征及标签输入分类器进行训练;
预测单元,用于:采用训练所得到的模型对测试数据的特征进行预测;
评估单元,用于:将预测的标签与真实的标签进行比较,得到评估结果;
所述训练数据包含编码RNAs和非编码RNAs,按照ORF长度是否大于303的条件,编码RNAs分为ORF长度小于303的数据和其他ORF长度的数据;非编码RNAs分为ORF长度位于151-303之间的数据和其他长度的数据;
所述对训练数据中的部分数据进行过采样,包括以下步骤:
对训练数据中ORF长度小于303的编码RNAs进行过采样,使之达到与ORF长度在151-303之间的非编码RNAs同样的数目;
所述过采样单元对训练数据中的部分数据进行过采样,还包括以下步骤:
在除ORF长度和ORF完整性以外的特征值上,加一定比例的扰动值,生成新的样本点;
在除ORF长度和ORF完整性以外的特征值上,加一定比例的扰动值,数学公式如下:
Fnew=F+Fother*a,
其中,Fnew是加入扰动之后的新特征值,F是原来的特征值,Fother是除ORF长度和ORF完整性以外的其他特征值,a是扰动的系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010075959.7A CN111276182B (zh) | 2020-01-21 | 2020-01-21 | Rna序列编码潜力的计算方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010075959.7A CN111276182B (zh) | 2020-01-21 | 2020-01-21 | Rna序列编码潜力的计算方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111276182A CN111276182A (zh) | 2020-06-12 |
CN111276182B true CN111276182B (zh) | 2023-06-20 |
Family
ID=71001875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010075959.7A Active CN111276182B (zh) | 2020-01-21 | 2020-01-21 | Rna序列编码潜力的计算方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111276182B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669905B (zh) * | 2020-12-31 | 2024-03-01 | 中南民族大学 | 基于数据增强的rna序列编码潜力预测方法及系统 |
CN116364170B (zh) * | 2023-03-09 | 2024-06-07 | 山东第一医科大学(山东省医学科学院) | 一种环状rna编码潜能的预测方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107111689A (zh) * | 2014-12-10 | 2017-08-29 | 皇家飞利浦有限公司 | 用于生成非编码‑编码基因共表达网络的方法和系统 |
CN108614955A (zh) * | 2018-05-04 | 2018-10-02 | 吉林大学 | 一种基于序列组成,结构信息及理化特征的lncRNA鉴定方法 |
CN109599149A (zh) * | 2018-10-25 | 2019-04-09 | 华中科技大学 | 一种rna编码潜能的预测方法 |
-
2020
- 2020-01-21 CN CN202010075959.7A patent/CN111276182B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107111689A (zh) * | 2014-12-10 | 2017-08-29 | 皇家飞利浦有限公司 | 用于生成非编码‑编码基因共表达网络的方法和系统 |
CN108614955A (zh) * | 2018-05-04 | 2018-10-02 | 吉林大学 | 一种基于序列组成,结构信息及理化特征的lncRNA鉴定方法 |
CN109599149A (zh) * | 2018-10-25 | 2019-04-09 | 华中科技大学 | 一种rna编码潜能的预测方法 |
Non-Patent Citations (2)
Title |
---|
《The small peptide world long noncoding RNAs》;SeoWon Choi et al.;《Briefings in Bioinformatics》;第20卷(第5期);全文 * |
《基于多特征的长非编码RNA识别方法》;党合萱;《中国优秀硕士学位论文全文数据库基础科学辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111276182A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | QC-Chain: fast and holistic quality control method for next-generation sequencing data | |
CN112669905B (zh) | 基于数据增强的rna序列编码潜力预测方法及系统 | |
CN111276182B (zh) | Rna序列编码潜力的计算方法及系统 | |
CN112732583B (zh) | 一种基于聚类和多种群遗传算法的软件测试数据生成方法 | |
CN116361801B (zh) | 基于应用程序接口语义信息的恶意软件检测方法及系统 | |
Glusman et al. | Optimal scaling of digital transcriptomes | |
CN113435499B (zh) | 标签分类方法、装置、电子设备和存储介质 | |
CN114047929B (zh) | 基于知识增强的用户定义函数识别方法、装置及介质 | |
CN111710364B (zh) | 一种菌群标记物的获取方法、装置、终端及存储介质 | |
CN111599431A (zh) | 基于报告单的数据编码模型生成方法、系统和设备 | |
CN117951649B (zh) | 多肽与受体结合活性预测模型的训练方法、装置及设备 | |
CN112861519A (zh) | 医疗文本纠错方法、装置以及存储介质 | |
CN107463797B (zh) | 高通量测序的生物信息分析方法及装置、设备及存储介质 | |
CN112507107A (zh) | 术语匹配方法、装置、终端和计算机可读存储介质 | |
CN116825187A (zh) | 一种lncRNA-蛋白质相互作用预测方法及其相关设备 | |
CN116503608A (zh) | 基于人工智能的数据蒸馏方法及相关设备 | |
CN116386725A (zh) | 联合病理组学特征的肿瘤差异基因表达谱预测方法及系统 | |
Pipoli et al. | Squeeze and Learn: Compressing Long Sequences with Fourier Transformers for Gene Expression Prediction | |
CN114490929A (zh) | 一种招投标信息采集方法、装置、存储介质及终端设备 | |
CN117116350B (zh) | Rna测序数据的校正方法、装置、电子设备及存储介质 | |
CN113723415B (zh) | 一种生存时长预测方法、装置、设备及介质 | |
CN117238368B (zh) | 分子遗传标记分型方法和装置、生物个体识别方法和装置 | |
CN110993028B (zh) | 突变数据识别方法、训练方法、处理装置及存储介质 | |
CN113689327B (zh) | 头发曲直处理方法、系统、终端设备及存储介质 | |
CN115019235B (zh) | 一种场景划分和内容检测的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |