CN110010194A - 一种rna二级结构的预测方法 - Google Patents
一种rna二级结构的预测方法 Download PDFInfo
- Publication number
- CN110010194A CN110010194A CN201910285287.XA CN201910285287A CN110010194A CN 110010194 A CN110010194 A CN 110010194A CN 201910285287 A CN201910285287 A CN 201910285287A CN 110010194 A CN110010194 A CN 110010194A
- Authority
- CN
- China
- Prior art keywords
- rna
- secondary structure
- base
- primary sequence
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000010801 machine learning Methods 0.000 claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 238000000547 structure data Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 9
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 174
- 238000012706 support-vector machine Methods 0.000 claims description 10
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000006664 bond formation reaction Methods 0.000 claims description 3
- 229910052739 hydrogen Inorganic materials 0.000 claims description 3
- 239000001257 hydrogen Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims description 2
- 108091026890 Coding region Proteins 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 9
- 238000012545 processing Methods 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 239000002585 base Substances 0.000 description 67
- 238000010586 diagram Methods 0.000 description 7
- 108020004414 DNA Proteins 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000003513 alkali Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 108091027963 non-coding RNA Proteins 0.000 description 2
- 102000042567 non-coding RNA Human genes 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000006820 DNA synthesis Effects 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000001243 protein synthesis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 229920002477 rna polymer Polymers 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Analytical Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种RNA二级结构的预测方法,本发明通过对PDB数据集进行数据预处理,将其分为RNA一级序列数据集和RNA二级结构数据集;再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理,将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型,得到一个目标函数,并将RNA二级结构数据集作为机器学习模型的输出标签,对机器学习模型进行训练和测试;最后利用训练和测试后的机器学习模型进行RNA二级结构预测。本发明采用监督学习算法,利用人工智能的方法对RNA二级结构进行预测,大大的提高了预测效率,并且预测结果较为准确。
Description
技术领域
本发明涉及生物研究领域,特别涉及一种RNA二级结构的预测方法。
背景技术
核糖核苷酸分子RNA作为生物体内一种大分子,它是存在于生物体中重要的物质,不仅与脱氧核糖核苷酸分子DNA和蛋白质共同协作维持生物体的各项活动的进行,并且在DNA和蛋白质合成中扮演着重要的角色。研究发现,对RNA结构的研究能够帮助我们更加全面地了解RNA分子功能,这样就有利于生物研究学者探索RNA与DNA和蛋白质间的相互关系,从而了解生物体功能并且了解和治疗疾病。
RNA分子结构由三部分结构组成:一级序列、二级结构、三级空间结构。RNA三级空间结构是由二级结构单元之间的相互作用,扭曲、折叠等等在空间中形成的稳定结构,因此RNA二级结构的预测对于RNA结构来说起着重要的作用,如何有效地RNA二级结构成为生物信息学领域的重要研究问题之一。
传统地预测RNA二级结构的方法都是用实验物理、化学或计算机等方法预测其结构。但RNA分子本身具有晶体难以获得、分子降解速度快等特点,所以用实验物理、化学实验的方法预测其二级结构相对耗时长、成本高。而利用基于比较序列分析法和基于最小自由能法的计算机来预测这些空间结构,较传统方法虽然提高了预测的效率,但对于RNA一级序列基数较长的二级结构来说,其预测的时间和费用也远远增加。
发明内容
本发明的目的在于,提供一种RNA二级结构的预测方法。本发明可以对RNA二级结构进行预测,预测结果较为准确,预测效率大大提高。
本发明的技术方案:一种RNA二级结构的预测方法,将PDB数据集进行数据预处理,分为RNA一级序列数据集和RNA二级结构数据集;再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理,将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型,并将RNA二级结构数据集作为机器学习模型的输出标签,对机器学习模型进行训练和测试;最后利用训练和测试后的机器学习模型进行RNA二级结构预测。
上述的RNA二级结构的预测方法,所述对RNA一级序列进行计算机编码处理方法是用一个5bit正交的0/1编码方式来表示碱基类型中的一种,其中各碱基和二级制编码间的对应关系为:A-1000、C-0100、G-0010、U-0001。
前述的RNA二级结构的预测方法,所述编码后的RNA一级序列作为特征输入的方法是通过选择一个中心碱基和该中心碱基前后相邻的1-3个作为一个窗口进行编辑输入,通过移动窗口的中心碱基的位置得到多个样本输入。
前述的RNA二级结构的预测方法,所述特征输入还包括远程RNA区域的分子间的碱基互补配对作用,即RNA一级序列中靠近5’端的碱基和靠近3’端的碱基根据碱基配对规则形成的RNA特有的特征向量,表示为RNA长程相关性。
前述的RNA二级结构的预测方法,所述RNA一级序列中的各个碱基记作1,2,3,...,n,根据碱基配对规则将每一个配对的碱基用i,j∈{1,2,3,L,n}来表示,记作i-j;
其中,碱基配对i-j必须满足:
(1)配对碱基i-j之间必须按照C-G、A-U或者G-U的规则来配对,它们之间分别由三个,两个或者一个氢键形成配对;
(2)每个碱基最多只能和另一个碱基配对,即i对应的j只有一个;
(3)在一条RNA序列链上,距离太近的碱基不允许配对,即对于i-j而言,j-i≥4;
(4)一个RNA二级结构中的两条配对碱基不能交叉配对,配对的k-l全在i-j里面或者全部在i-j外面,即如果i<j,k<l,i<k,则i<k<l<j或者i<j<k<1。
前述的RNA二级结构的预测方法,所述在RNA长程相关性中选取连续n条符合碱基配对规则的碱基对分别标记为1和2,其余未能配对的则标记为0作为特征向量输入至机器学习模型中。
前述的RNA二级结构的预测方法,所述n=4-6。
与现有技术比较,本发明具有以下有益效果:
1、本发明通过对PDB数据集进行数据预处理,将其分为RNA一级序列数据集和RNA二级结构数据集;再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理,将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型,得到一个目标函数,并将RNA二级结构数据集作为机器学习模型的输出标签,对机器学习模型进行训练和测试;最后利用训练和测试后的机器学习模型进行RNA二级结构预测。本发明采用监督学习算法,利用人工智能的方法对RNA二级结构进行预测,大大的提高了预测效率,并且预测结果较为准确。
2、本发明通过优化了RNA一级序列的编码方式,并将编码后的RNA一级序列作为特征输入至机器学习模型中,在特征输入的过程中选择一个中心碱基和该中心碱基前后相邻的1-3个作为一个窗口进行编辑输入,通过移动窗口的中心碱基的位置得到多个样本输入,解决了RNA一级序列由于太长而难以输入机器学习模型的问题,大大的提高了RNA二级结构的预测效率。
3、本发明还在特征输入的过程中加入RNA长程相关性这一特征,并选取连续n条符合碱基配对规则的碱基对分别标记为1和2,其余未能配对的则标记为0作为特征向量输入至机器学习模型中,由于RNA长程相关性中含有RNA真实的生物信息结构,并通过调整n的数值,从而进一步提高了RNA二级结构预测的精确率。
附图说明:
图1是本发明从PDB数据中查询的其中一个RNA信息’2JTP.pdb’中的部分示例;
图2是本发明’2JTP.pdb’对应得到的二级结构;
图3是本发明实施例1中RNA二级结构预测精确度柱形图;
图4是本发明实施例1中RNA二级结构预测召回率柱形图;
图5是本发明的1A9L.pdb中的RNA长程相关性的特征向量示意图;
图6是本发明实施例2中RNA二级结构预测精确度柱形图;
图7是本发明实施例2中RNA二级结构预测召回率柱形图;
图8是本发明实施例3中调整窗口数和RNA长程相关性中的碱基对数来测试RNA二级结构的总体预测精度的结果示意图;
图9是本发明的“1A9L.pdb”的RNA二级结构图;
图10是本发明在没有RNA长程相关性中的碱基配对这一特征的RNA二级结构预测示意图;
图11是本发明添加RNA长程相关性中的碱基配对这一特征的RNA二级结构预测示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例1:一种RNA二级结构的预测方法:从PDB数据库官网下载得到PDB数据集,如图1所示为下载得到的PDB数据中其中一个RNA信息’2JTP.pdb’中的部分示例,PDB数据库中包含有RNA序列信息、RNA的一级序列和三维空间坐标三个部分,图中可以看出’SEQRES’中就记录着RNA的一级序列,先对PDB数据集进行数据预处理,通过正则表达式的方式将一级序列提取出来,其中有部分数据是有除A、C、G、U的其他字符的,这时需要清洗掉这些字符得到正确的RNA一级序列。用已知的RNA二级结构预测软件RNAview通过在Linux系统下批量预测出每一个一级序列对应的RNA二级结构,并将维度过高的RNA三级结构剔除,只留下二级结构和部分假结结构。’2JTP.pdb’对应得到的二级结构如图2所示,’+/+’代表双键稳定的碱基对,’-/-’代表单键易断的碱基对,最右边一列希腊数字对应’+/+’或’-/-’等等。数据预处理后将分为RNA一级序列数据集和RNA二级结构数据集,再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理,在用一个5bit正交的0/1编码方式来表示碱基类型中的一种,其中各碱基和二级制编码间的对应关系为:A-1000、C-0100、G-0010、U-0001。通过选择一个中心碱基和该中心碱基前后相邻的1-3个作为一个窗口进行编辑输入至基于监督学习算法建立的机器学习模型中,通过移动窗口的中心碱基的位置得到多个样本输入。RNA二级结构数据集作为机器学习模型的输出标签是采用E-NSSEL(Extend New SecondaryStructure Element Label)二级结构表示方法将RNA二级结构细分为五类结构单元,对应配对的和没配对的以及假结中的每个结构单元,分别用从1到5的数字给定一个E-NSSEL标识。如表1所示,从1到3的数字区分不含假结中的普通茎区结构(+/-Stem)和未配对的碱基(loop),并且用1到5的数字来标记含有假结中的相关假结结构(+/-pseudoknots)、普通茎区结构(+/-Stem)和未配对的碱基(loop):
表1
所述机器学习模型的建模方式选用python扩展库中scikit-learn包中的SVM包直接建模,选用高斯核函数:K(x,z)=exp(-γ||x-z||2)来作为空间映射函数,C和gamma作为模型参数。本发明RNA二级结构预测准确率的度量标准是支持向量机模型中的精确率precision,召回率recall,以及两者之间的权重比例系数f1-score。在RNA二级结构预测中,用TP表示正确预测碱基对的个数;FN表示真实结构中存在但没有被正确预测出的碱基对个数;FP表示真实结构中不存在却被错误预测到的碱基对个数;TN表示正确预测的不配对的碱基个数。具体计算公式为:
f1为当β=1时的值:此时准确率和召回率一样重要。
通过对PBD数据集进行数据预处理最终得到无假结的282条RNA一级序列和具有假结的37条RNA基因序列。首先对282条无假结结构的PDB数据进行预测分析,这282条无假结结构的PDB数据一共包含有7175个碱基。将这些PDB数据的7175个碱基分为7:3的训练集和验证集。用5022个碱基进行训练预测出结果,再用2153个碱基做验证得到精确率和召回率。支持向量机模型选用RBF核函数,通过网格搜索的方式,得到参数c=5000,gamma=0.0001为最佳参数。最后利用训练和测试后的机器学习模型进行RNA二级结构预测。
本发明采用支持向量机(SVM)、随机森林(Random Forest)、k邻近(K-Neighbors)三种机器监督学习算法对RNA二级结构进行预测,以及它们对表1中SSE标签1、SSE标签3、SSE标签5的预测结果对比分析。其三种算法下的RNA二级结构预测精确度如图3所示,RNA二级结构预测召回率如图4所示。从图3和图4中可以看出图中实验数据表明用随机森林方法预测和支持向量机算法预测效率比k邻近方法预测较好,并且RNA二级结构的平均预测准确率在78%以上,平均预测召回率在75%以上,预测结果较为准确,预测效率大大提高。
实施例2:一种RNA二级结构的预测方法:从PDB数据库官网下载得到PDB数据集,先对PDB数据集进行数据预处理,通过正则表达式的方式将一级序列提取出来,其中有部分数据是有除A、C、G、U的其他字符的,这时需要清洗掉这些字符得到正确的RNA一级序列。用已知的RNA二级结构预测软件RNAview通过在Linux系统下批量预测出每一个一级序列对应的RNA二级结构,并将维度过高的RNA三级结构剔除,只留下二级结构和部分假结结构。数据预处理后将PDB数据集分为RNA一级序列数据集和RNA二级结构数据集,再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理,在用一个5bit正交的0/1编码方式来表示碱基类型中的一种,其中各碱基和二级制编码间的对应关系为:A-1000、C-0100、G-0010、U-0001。通过选择一个中心碱基和该中心碱基前后相邻的1-3个作为一个窗口进行编辑输入至基于监督学习算法建立的机器学习模型中,通过移动窗口的中心碱基的位置得到多个样本输入。所述特征输入还包括远程RNA区域的分子内相互补充作用,即RNA一级序列中靠近5’端的碱基和靠近3’端的碱基根据碱基配对规则形成的RNA特有的特征向量,表示为RNA长程相关性。所述RNA一级序列中的各个碱基记作1,2,3,...,n,根据碱基配对规则将每一个配对的碱基用i,j∈{1,2,3,L,n}来表示,记作i-j;
其中,碱基配对i-j必须满足:
(1)配对碱基i-j之间必须按照C-G、A-U或者G-U的规则来配对,它们之间分别由三个,两个或者一个氢键形成配对;
(2)每个碱基最多只能和另一个碱基配对,即i对应的j只有一个;
(3)在一条RNA序列链上,距离太近的碱基不允许配对,即对于i-j而言,j-i≥4;
(4)一个RNA二级结构中的两条配对碱基不能交叉配对,配对的k-l全在i-j里面或者全部在i-j外面,即如果i<j,k<l,i<k,则i<k<l<j或者i<j<k<1。
在RNA长程相关性中选取连续4条符合碱基配对规则的碱基对分别标记为1和2,其余未能配对的则标记为0作为特征向量输入至机器学习模型中。如图5所示为1A9L.pdb中的RNA长程相关性的特征向量。
在加上RNA长程相关性这一特征的情况下,采用支持向量机(SVM)、随机森林(Random Forest)、k邻近(K-Neighbors)三种机器监督学习算法对RNA二级结构进行预测,以及它们对表1中SSE标签1、SSE标签3、SSE标签5的预测结果对比分析,其三种算法下的RNA二级结构预测精确度如图6所示,RNA二级结构预测召回率如图7所示。从图6和图7中可以看出采用RAN长程相关性作为特征输入只机器学习模型中,其RNA二级结构的平均预测准确率在85%以上,平均预测召回率在80%以上,相对于实施例1来说,其三种算法的预测准确性都大大的提高,而且预测效率进一步地加快。
实施例3:一种RNA二级结构的预测方法,按实施例2的操作步骤进行RNA二级结构的预测,但在将编码后的RNA一级序列作为特征输入至机器学习模型中时,调整窗口数和RNA长程相关性中的碱基对数来测试RNA二级结构的总体预测精度。本实施例中单独使用SVM分类器进行,采用定量分析的方法来确定最适合RNA二级结构预测,其测试结果如图8所示。从图8可以看出,在没有RNA长程相关性中的碱基配对情况时,即base pair=0时,其窗口数量越多,总体预测精度最高可以达80%,这是因为RNA二级结构中碱基之间的关系变大,其窗口数量越大,预测精度越高。
在加入RNA长程相关性这一特征向量后,在碱基对数等于3-5之间,其RNA二级结构预测的准确性明显较没有RNA长程相关性中的碱基配对情况时有很大的提高,当碱基配对数为4时,SVM分类器的性能达到峰值,最大精度可达82%。因此,本发明采用RNA长程相关性作为新的特征可以提高机器学习模型对RNA二级结构的预测准确性。
取1A9L.pdb”RNA一级序列进行结构预测,其“1A9L.pdb”RNA一级序列为GGGUGACUCCAGAGGUCGAGAGACCGGAGAUAUCACCC,RNA二级结构如图9所示。在没有RNA长程相关性中的碱基配对这一特征的RNA二级结构预测如图10所示。添加RNA长程相关性中的碱基配对这一特征的RNA二级结构预测如图11所示。图10-图11未预测出来的RNA二级结构用虚线标出,从图9-图11中可以看出相对较长一点的RNA一级序列中,序列靠5’端和靠3’端的碱基在加入RNA长程相关性这一特征向量后其预测精度比未加入特征向量时提高了许多。
在进行RNA二级结构预测后,采用支持向量机方法在PDB数据集中对无假结的282个RNA一级序列和在具有假结的37个RNA基因序列进行比对。其中碱基对的个数n=4,支持向量机模型核函数选用RBF核函数,参数c=5000,gamma=0.0001,其中无假结的RNA二级结构的预测结果如表2中所示,有假结的RNA二级结构的预测结果如表3所示。从表2和表3中可以看出,实施例2中的预测准确率相对于实施例1来说更进一步地提升了预测的准确率。
表2
表3
综上所述,本发明通过对PDB数据集进行数据预处理,将其分为RNA一级序列数据集和RNA二级结构数据集;再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理,将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型,得到一个目标函数,并将RNA二级结构数据集作为机器学习模型的输出标签,对机器学习模型进行训练和测试;最后利用训练和测试后的机器学习模型进行RNA二级结构预测。本发明采用监督学习算法,利用人工智能的方法对RNA二级结构进行预测,大大的提高了预测效率,并且预测结果较为准确。本发明还在特征输入的过程中加入RNA长程相关性这一特征,并选取连续n条符合碱基配对规则的碱基对分别标记为1和2,其余未能配对的则标记为0作为特征向量输入至机器学习模型中,由于RNA长程相关性中含有RNA真实的生物信息结构,并通过调整n的数值,从而进一步提高了RNA二级结构预测的精确率。
Claims (8)
1.一种RNA二级结构的预测方法,其特征在于:将PDB数据集进行数据预处理,分为RNA一级序列数据集和RNA二级结构数据集;再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理,将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型中,并将RNA二级结构数据集作为机器学习模型的输出标签,对机器学习模型进行训练和测试;最后利用训练和测试后的机器学习模型进行RNA二级结构预测。
2.根据权利要求1所述的RNA二级结构的预测方法,其特征在于:所述对RNA一级序列进行计算机编码处理方法是用一个5bit正交的0/1编码方式来表示碱基类型中的一种,其中各碱基和二级制编码间的对应关系为:A-1000、C-0100、G-0010、U-0001。
3.根据权利要求2所述的RNA二级结构的预测方法,其特征在于:所述编码后的RNA一级序列作为特征输入的方法是通过选择一个中心碱基和该中心碱基前后相邻的1-3个作为一个窗口进行编辑输入,通过移动窗口的中心碱基的位置得到多个样本输入。
4.根据权利要求1所述的RNA二级结构的预测方法,其特征在于:所述的监督学习算法是随机森林算法或支持向量机算法。
5.根据权利要求1所述的RNA二级结构的预测方法,其特征在于:所述特征输入还包括远程RNA区域的分子之间存在的碱基互补配对作用,即RNA一级序列中靠近5’端的碱基和靠近3’端的碱基根据碱基配对规则形成的RNA特有的特征向量,表示为RNA长程相关性。
6.根据权利要求5所述的RAN二级结构的预测方法,其特征在于:所述RNA一级序列中的各个碱基记作1,2,3,...,n,根据碱基配对规则将每一个配对的碱基用i,j∈{1,2,3,L,n}来表示,记作i-j;
其中,碱基配对i-j必须满足:
(1)配对碱基i-j之间必须按照C-G、A-U或者G-U的规则来配对,它们之间分别由三个,两个或者一个氢键形成配对;
(2)每个碱基最多只能和另一个碱基配对,即i对应的j只有一个;
(3)在一条RNA序列链上,距离太近的碱基不允许配对,即对于i-j而言,j-i≥4;
(4)一个RNA二级结构中的两条配对碱基不能交叉配对,配对的k-l全在i-j里面或者全部在i-j外面,即如果i<j,k<l,i<k,则i<k<l<j或者i<j<k<1。
7.根据权利要求5所述的RNA二级结构的预测方法,其特征在于:所述在RNA长程相关性中选取连续n条符合碱基配对规则的碱基对分别标记为1和2,其余未能配对的则标记为0作为特征向量输入至机器学习模型中。
8.根据权利要求7所述的RNA二级结构的预测方法,其特征在于:所述n=3-5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910285287.XA CN110010194A (zh) | 2019-04-10 | 2019-04-10 | 一种rna二级结构的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910285287.XA CN110010194A (zh) | 2019-04-10 | 2019-04-10 | 一种rna二级结构的预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110010194A true CN110010194A (zh) | 2019-07-12 |
Family
ID=67170784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910285287.XA Pending CN110010194A (zh) | 2019-04-10 | 2019-04-10 | 一种rna二级结构的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110010194A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648719A (zh) * | 2019-09-23 | 2020-01-03 | 吉林大学 | 基于能量和概率的局部结构胃癌耐药lncRNA二级结构预测方法 |
CN113066527A (zh) * | 2021-04-14 | 2021-07-02 | 吉优诺(上海)基因科技有限公司 | 一种siRNA敲减mRNA的靶点预测方法和系统 |
CN113257359A (zh) * | 2021-06-08 | 2021-08-13 | 汕头大学 | 一种基于CNN-SVR的CRISPR/Cas9向导RNA编辑效率预测方法 |
CN113393900A (zh) * | 2021-06-09 | 2021-09-14 | 吉林大学 | 基于改进Transformer模型的RNA状态推断研究方法 |
CN113782096A (zh) * | 2021-09-16 | 2021-12-10 | 平安科技(深圳)有限公司 | Rna碱基不成对概率的预测方法及装置 |
CN113936737A (zh) * | 2021-10-14 | 2022-01-14 | 温州医科大学附属眼视光医院 | 一种基于rna基序向量比较rna结构的方法、系统和设备 |
DE202022101929U1 (de) | 2022-04-09 | 2022-06-02 | Pradipta Bhowmick | Intelligentes System zur Vorhersage der Sekundärstruktur von RNA unter Verwendung von faltbaren neuronalen Netzen und künstlicher Intelligenz |
CN115881209A (zh) * | 2023-02-15 | 2023-03-31 | 北京深势科技有限公司 | 一种rna二级结构预测的处理方法和装置 |
CN116825199A (zh) * | 2023-02-21 | 2023-09-29 | 王全军 | 筛选siRNA序列以降低脱靶效应的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186715A (zh) * | 2011-12-29 | 2013-07-03 | 上海聚类生物科技有限公司 | 预测核酸与蛋白相互作用的新算法 |
CN108846262A (zh) * | 2018-05-31 | 2018-11-20 | 广西大学 | 基于dft的rna二级结构距离计算构建系统发育树的方法 |
CN109215740A (zh) * | 2018-11-06 | 2019-01-15 | 中山大学 | 基于Xgboost的全基因组RNA二级结构预测方法 |
CN109273047A (zh) * | 2017-12-15 | 2019-01-25 | 武汉科技大学 | 一种基于模拟退火的核酸结构预测方法 |
-
2019
- 2019-04-10 CN CN201910285287.XA patent/CN110010194A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186715A (zh) * | 2011-12-29 | 2013-07-03 | 上海聚类生物科技有限公司 | 预测核酸与蛋白相互作用的新算法 |
CN109273047A (zh) * | 2017-12-15 | 2019-01-25 | 武汉科技大学 | 一种基于模拟退火的核酸结构预测方法 |
CN108846262A (zh) * | 2018-05-31 | 2018-11-20 | 广西大学 | 基于dft的rna二级结构距离计算构建系统发育树的方法 |
CN109215740A (zh) * | 2018-11-06 | 2019-01-15 | 中山大学 | 基于Xgboost的全基因组RNA二级结构预测方法 |
Non-Patent Citations (1)
Title |
---|
张娜: "基于支持向量机的含平面伪结的RNA二级结构预测", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648719A (zh) * | 2019-09-23 | 2020-01-03 | 吉林大学 | 基于能量和概率的局部结构胃癌耐药lncRNA二级结构预测方法 |
CN113066527A (zh) * | 2021-04-14 | 2021-07-02 | 吉优诺(上海)基因科技有限公司 | 一种siRNA敲减mRNA的靶点预测方法和系统 |
CN113066527B (zh) * | 2021-04-14 | 2024-02-09 | 吉优诺(上海)基因科技有限公司 | 一种siRNA敲减mRNA的靶点预测方法和系统 |
CN113257359A (zh) * | 2021-06-08 | 2021-08-13 | 汕头大学 | 一种基于CNN-SVR的CRISPR/Cas9向导RNA编辑效率预测方法 |
CN113393900A (zh) * | 2021-06-09 | 2021-09-14 | 吉林大学 | 基于改进Transformer模型的RNA状态推断研究方法 |
CN113782096A (zh) * | 2021-09-16 | 2021-12-10 | 平安科技(深圳)有限公司 | Rna碱基不成对概率的预测方法及装置 |
WO2023040148A1 (zh) * | 2021-09-16 | 2023-03-23 | 平安科技(深圳)有限公司 | Rna碱基不成对概率的预测方法、装置、存储介质及设备 |
CN113782096B (zh) * | 2021-09-16 | 2023-06-16 | 平安科技(深圳)有限公司 | Rna碱基不成对概率的预测方法及装置 |
CN113936737A (zh) * | 2021-10-14 | 2022-01-14 | 温州医科大学附属眼视光医院 | 一种基于rna基序向量比较rna结构的方法、系统和设备 |
DE202022101929U1 (de) | 2022-04-09 | 2022-06-02 | Pradipta Bhowmick | Intelligentes System zur Vorhersage der Sekundärstruktur von RNA unter Verwendung von faltbaren neuronalen Netzen und künstlicher Intelligenz |
CN115881209A (zh) * | 2023-02-15 | 2023-03-31 | 北京深势科技有限公司 | 一种rna二级结构预测的处理方法和装置 |
CN116825199A (zh) * | 2023-02-21 | 2023-09-29 | 王全军 | 筛选siRNA序列以降低脱靶效应的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110010194A (zh) | 一种rna二级结构的预测方法 | |
US20210383890A1 (en) | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network | |
Camproux et al. | A hidden markov model derived structural alphabet for proteins | |
Käll et al. | A combined transmembrane topology and signal peptide prediction method | |
Selbig et al. | Decision tree-based formation of consensus protein secondary structure prediction | |
Ray et al. | RNA secondary structure prediction using soft computing | |
Sun et al. | Computational tools for aptamer identification and optimization | |
US20240029834A1 (en) | Drug Optimization by Active Learning | |
CN110459264A (zh) | 基于梯度增强决策树预测环状rna与疾病相关性的方法 | |
Md Mukarram Hossain et al. | Evidence of statistical inconsistency of phylogenetic methods in the presence of multiple sequence alignment uncertainty | |
Liu et al. | Deep learning to predict the biosynthetic gene clusters in bacterial genomes | |
CN112133367A (zh) | 药物与靶点间的相互作用关系预测方法及装置 | |
CN116364209A (zh) | 一种基于蛋白质语言模型与蒙特卡洛的多肽设计方法 | |
Coste | Learning the language of biological sequences | |
US20230335228A1 (en) | Active Learning Using Coverage Score | |
CN106446601A (zh) | 一种大规模标注lncRNA功能的方法 | |
CN109378034B (zh) | 一种基于距离分布估计的蛋白质预测方法 | |
US20040153307A1 (en) | Discriminative feature selection for data sequences | |
Singh et al. | GeneAI 3.0: powerful, novel, generalized hybrid and ensemble deep learning frameworks for miRNA species classification of stationary patterns from nucleotides | |
CN110010192A (zh) | 基于决策树算法的rna二级结构的预测方法 | |
Noto et al. | Learning hidden markov models for regression using path aggregation | |
Wang et al. | Deep Learning Integration with Phenotypic Similarities and Heterogeneous Networks for Drug-Target Interaction Prediction | |
Liang et al. | Protein Secondary Structure Prediction using Deterministic Sequential Sampling | |
Edgar | Sequence alignment using large protein structure alphabets improves sensitivity to remote homologs | |
Leone et al. | De novo sequence-based method for ncRPI prediction using structural information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |