CN109215740A - 基于Xgboost的全基因组RNA二级结构预测方法 - Google Patents

基于Xgboost的全基因组RNA二级结构预测方法 Download PDF

Info

Publication number
CN109215740A
CN109215740A CN201811314747.9A CN201811314747A CN109215740A CN 109215740 A CN109215740 A CN 109215740A CN 201811314747 A CN201811314747 A CN 201811314747A CN 109215740 A CN109215740 A CN 109215740A
Authority
CN
China
Prior art keywords
sequence
rna
base
pairing
secondary structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811314747.9A
Other languages
English (en)
Inventor
肖侬
柯耀斌
饶家华
杨跃东
陈志广
卢宇彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201811314747.9A priority Critical patent/CN109215740A/zh
Publication of CN109215740A publication Critical patent/CN109215740A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供基于Xgboost的全基因组RNA二级结构预测方法,包括:获取RNA序列和RNA序列中碱基位点配对的可能性值;配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本;配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本;将正负样本组合成的样本数据集划分为训练集和测试集,将训练集和测试集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试;利用训练与测试后的机器学习模型进行RNA二级结构的预测。利用本发明得到RNA在形成二级结构时,每一个碱基位点会形成配对的概率分数,根据概率分数,能为下一步二级结构的形成提供判断依据。

Description

基于Xgboost的全基因组RNA二级结构预测方法
技术领域
本发明涉及生物信息学研究领域,具体涉及基于Xgboost的全基因组RNA二级结构预测方法。
背景技术
RNA二级结构预测是分子生物学的一个重要研究领域,对于推动生命科学的发展具有极其重要的意义。RNA分子结构由三级结构组成:一级结构、二级结构、三级结构。RNA二级结构是指RNA序列由自身回折形成的茎环结构,是一种介于一级结构和三级结构之间的结构,且存储较多高级结构信息,因此RNA二级结构的研究成为生物信息学领域的重要研究问题。二级结构的确定主要有两种方法:物理化学的实验方法和数学计算的预测方法。实验方法主要包括X射线晶体衍射和核磁共振(NMR)。虽然实验方法得到的结果精确,但由于RNA分子降解速度快,难以结晶,故通过等实验方法测定RNA分子的结构很不容易,费时费力,代价高昂,无法满足今天海量RNA二级结构预测的需求。另外实验方法只能测定包含较少碱基的RNA序列的二级结构,而面对分子量较大的RNA时,实验方法的精确度会急剧下降。
为了解决上述实验方法的弊端,人们开始着手借助数学计算方法,并结合计算机从理论上去预测RNA的二级结构,然后做进一步的验证。当只给定RNA的一级序列而缺少先验知识,传统的RNA二级结构预测方法一般采用最小自由能模型。该模型假设所有RNA都会折叠成一个具有最小自由能的二级结构,而二级结构中的每段模体(motif)都有相应的自由能计算方法,一般茎区的自由能为负值,环区自由能为正,茎区越长其自由能越小。因此可以近似的认为,配对的碱基使自由能降低,没有形成配对的碱基则会使自由能升高。
申请号为CN200910218023.9的专利公开了基于碱基片段编码和蚁群算法的RNA序列二级结构预测方法,属生物信息学研究领域,该发明将RNA序列重新编码,使RNA序列以编码序列的形式存储于SRAM中,并根据匹配表得到长度为n的茎区集合,对所有长度为n的茎区采用向右延伸的策略得到所有长度大于n的茎区集合,将得出的相应于RNA序列的所有可能的茎区集合存储于SDRAM中等待调用,然后通过ARM控制芯片随机选取某一茎区作为蚁群算法的初始结点,并利用轮盘赌的策略选择下一茎区,直至可选择的茎区集合为空,最后计算每只蚂蚁相应的二级结构的最小自由能,记录并更新能量最小的二级结构,按照给定的规则更新茎区之间的信息素值,并再次选取初始结点进行循环运算,直至达到给定的迭代步数或满足循环退出的条件,以括号法的模式输出RNA序列二级结构到LCD中,最终得到自由能最小的二级结构。但是,实验证明,真实结构往往不是自由能最小的二级结构。而且,自由能迄今为止还没有完全精确的计算规则。虽然可人为设定一个阈值将目标输出。但实际上,人为阈值设定,往往会带来输出目标过多或过少的问题,从而极大影响准确率等。
发明内容
为解决上述问题,本发明提供基于Xgboost的全基因组RNA二级结构预测方法,该方法中算法的准确性和运算效率就会得到很大的提高。
该技术方案为:
基于Xgboost的全基因组RNA二级结构预测方法,包括步骤:获取RNA序列和所述RNA序列中碱基位点配对的可能性值;配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本;配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本,所述正样本、负样本组合成样本数据集;将样本数据集划分为训练集和测试集,将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试;利用训练与测试后的机器学习模型进行RNA二级结构的预测。
本发明使用机器学习模型,能有效的提取输入信息的特征,包括许多未发现的隐藏特征规律。本发明将已测定二级结构的RNA样本作为输入信息,已测定二级结构的RNA样本包含了两个重要信息,一是RNA的序列结构,二是这个RNA的序列结构中碱基位点配对的可能性值。机器学习模型将在已测定二级结构的RNA样本中学到的规律大规模地应用到其他未知结构的序列预测中,预测其他未知结构中每一个碱基位点会形成配对的概率分数。本发明的机器学习模型是基于Xgboost算法建立的,首先将已测定二级结构的RNA样本进行“简化”,简化成序列片段,序列片段中包括了配对的可能性值低的碱基或者配对的可能性值高的碱基,根据其中碱基的配对的可能性值高与低,取配对的可能性值高和可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段被分为正样本与负样本,正负样本的内容取决于学习的问题,学习的问题是RNA结构中每一个碱基位点形成配对的结果,每一个碱基位点形成配对或者碱基位点的配对的可能性高则为正样本。每一个碱基位点没有形成配对或者碱基位点的配对的可能性低则为负样本。Xgboost适用于变量数较少的表格数据,并且考虑数据特征较为稀疏的情况,而且其分布式的架构,能为后续大规模的序列预测提供高效的支持。对于已测定二级结构的RNA样本较少,输入数据较为稀疏等特点,显然Xgboost会更适用于该数据,而实验结果也表明,在大部分数据集上,该机器学习模型会获得更好的预测效果。将已测定二级结构的RNA样本进行“简化”以及Xgboost算法的选择使得本发明的准确性和运算效率就会得到很大的提高。
进一步地,配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本;配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本的步骤包括:通过独热编码的方式对RNA序列编码;编码后的所述RNA序列中碱基位点配对的可能性值从高到低排序,筛选出前a个碱基作为配对的可能性值高的碱基,筛选出后b个碱基作为配对的可能性值低的碱基;可能性值高的碱基与其上游的长度为c的碱基序列、下游的长度为c的碱基序列组成序列片段,序列片段作为正样本并赋予标签“1”;可能性值低的碱基与其上游的长度为d的碱基序列、上游的长度为d的碱基序列组成序列片段,序列片段作为负样本并赋予标签“0”。以独热编码来表征序列基本组成而使得输入数据较为稀疏,数字编码形式的数据更加适合Xgboost,将已测定二级结构的RNA样本进行“简化”的方法是取可能性值高或低的碱基与其上游一定长度的碱基序列、下游一定长度的碱基序列组成序列片段,该方法方便简单。
进一步地,所述a=b。正样本数量与负样本数量比值为1:1,正负样本分布均衡,能提高机器学习模型的准确性。
进一步地,通过独热编码的方式对RNA序列编码的步骤包括:RNA序列由腺嘌呤A、尿嘧啶U、鸟嘌呤G、胞嘧啶C四种碱基构成;对四种碱基进行编码,具体为;RNA序列中的腺嘌呤A=(1,0,0,0),尿嘧啶U=(0,1,0,0),胞嘧啶C=(0,0,1,0),鸟嘌呤G=(0,0,0,1),RNA序列的开头与结尾缺少碱基的部分以(0,0,0,0)作为补长。
进一步地,将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试的步骤包括:利用训练集对机器学习模型进行训练;利用测试集对机器学习模型测试其预测的RNA序列上每一个碱基位点会形成配对的概率分数;
所述概率分数的预测模型为:
其中,K为树的总个数,fk为第k棵决策树的评估函数,为样本数据xi的预测结果;
预测模型的目标函数为:
其中,y=(y0,y1,…,yi,yn)是作为训练集的RNA序列中每一个序列片段的特征向量x=(x0,x1,…,xn)所对应的真实类别,0代表未配对的碱基位点,1代表配对的碱基位点,为样本数据xi的训练误差,为损失函数,Ω(fk)表示第k棵树的正则项。
与现有技术相比,本发明的有益效果在于,在已测定二级结构的RNA样本较少的条件下,采用Xgboost算法建立的机器学习模型进行模型搭建与训练、测试,通过Xgboost模型的训练、预测,可以得到最终RNA在形成二级结构时,每一个碱基位点会形成配对的概率分数,根据这一概率分数,能为下一步二级结构的形成提供判断依据。
附图说明
图1为本发明机器学习模型的训练流程图。
其中RNA Sequence表示RNA序列,Windows selection表示选择窗口,one-hotencoding表示独热编码,Input Features表示输入特征;windows size表示窗口大小,eXtreme Gradient Boosting Model表示基于Xgboost算法建立的机器学习模型,TrainingModel表示训练模型,Select the best model表示选择最佳模型,Selection表示分类器选择,Results of prediction表示预测结果。
具体实施方式
结合附图对本发明进行进一步说明。
本方法希望通过对最基本的序列结构进行有监督学习,从中获得一级序列形成二级结构的关键特征,辅助判断由一级序列结构如何形成二级结构。
如图1所示,首先获取数据集。数据集来源于生物学实验的结果,从生物学实验的结果中获得RNA序列和所述RNA序列中碱基位点配对的可能性值。所用到的数据集包括三个,分别标记为PARS-human,PARS-yeast,PDB-Xray数据集。具体的,PARS全称“ParallelAnalysis of RNA Structure(PARS)”,是2010年提出的通过生物学实验测定RNA二级结构的实验方法,PARS-Human指代在人基因上进行实验测定的数据集,PARS-Yeast指代在酵母基因上进行实验测定的数据集。PDB-Xray指的是RNA Strand数据库上对PDB数据库的RNA进行X射线衍射测定的RNA二级结构的数据集。
其次,窗口选择出RNA序列,通过独热编码的方式对RNA序列编码,RNA序列中的腺嘌呤A=(1,0,0,0),尿嘧啶U=(0,1,0,0),胞嘧啶C=(0,0,1,0),鸟嘌呤G=(0,0,0,1),RNA序列的开头与结尾缺少碱基的部分以(0,0,0,0)作为补长。
将RNA序列中碱基位点配对的可能性值进行一定的排序规则排序,若将配对的可能性值从高到低排序,则筛选出前a个碱基作为配对的可能性值高的碱基,筛选出前b个碱基作为配对的可能性值低的碱基;若将配对的可能性值从低到高排序,则筛选出前a个碱基作为配对的可能性值低的碱基,筛选出后b个碱基作为配对的可能性值高的碱基。可能性值高的碱基与其上游的长度为c的碱基序列、下游的长度为c的碱基序列组成序列片段,序列片段作为正样本并赋予标签“1”;可能性值低的碱基与其上游的长度为d的碱基序列、上游的长度为d的碱基序列组成序列片段,序列片段作为负样本并赋予标签“0”。以独热编码来表征序列基本组成而使得输入数据较为稀疏,将已测定二级结构的RNA样本进行“简化”的方法是取可能性值高或低的碱基与其上游一定长度的碱基序列、下游一定长度的碱基序列组成序列片段,该方法方便简单。正样本赋予标签“1”,负样本赋予标签“0”,所述正样本、负样本组合成样本数据集;样本数据集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试。
其中,a、b、c均为大于0的整数。优选地,所述a=b。正样本数量与负样本数量比值为1:1,正负样本分布均衡,能提高机器学习模型的准确性。
在一个实施例子中,a=b=5,c=d=6。由于本模型选择的上下游长度均为6,即一个样本片段的长度为6*2+1=13。对片段进行独热编码后,一个样本的特征维度即13*4=53,如图1所示,输入的特征维度为53。
将样本数据集划分为训练集和测试集,将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试;利用训练与测试后的机器学习模型进行RNA二级结构的预测。
本发明使用机器学习模型,能有效的提取输入信息的特征,包括许多未发现的隐藏特征规律。本发明将已测定二级结构的RNA样本作为输入信息,已测定二级结构的RNA样本包含了两个重要信息,一是RNA的序列结构,二是这个RNA的序列结构中碱基位点配对的可能性值。机器学习模型将在已测定二级结构的RNA样本中学到的规律大规模地应用到其他未知结构的序列预测中,预测其他未知结构中每一个碱基位点会形成配对的概率分数。本发明的机器学习模型是基于Xgboost算法建立的,首先将已测定二级结构的RNA样本进行“简化”,简化成序列片段,序列片段中包括了配对的可能性值低的碱基或者配对的可能性值高的碱基,根据其中碱基的配对的可能性值高与低,序列片段被分为正样本与负样本,正负样本的内容取决于学习的问题,学习的问题是RNA结构中每一个碱基位点形成配对的结果,每一个碱基位点形成配对或者碱基位点的配对的可能性高则为正样本。每一个碱基位点没有形成配对或者碱基位点的配对的可能性低则为负样本。Xgboost适用于变量数较少的表格数据,并且考虑数据特征较为稀疏的情况,而且其分布式的架构,能为后续大规模的序列预测提供高效的支持。对于已测定二级结构的RNA样本较少,且以独热编码来表征序列基本组成而使得输入数据较为稀疏等特点,显然Xgboost会更适用于该数据,而实验结果也表明,在大部分数据集上,该机器学习模型会获得更好的预测效果。
将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试的步骤包括:利用训练集对机器学习模型进行训练;利用测试集对机器学习模型测试其预测的RNA序列上每一个碱基位点会形成配对的概率分数。
Xgoost算法原理如下所示:
XGBoost模型属于集成学习方法,是分类回归树(CART):Ti(x,y)的集合,其中x=(x0,x1,…,xn)是作为训练集的RNA序列中每一个特定窗口片段所对应的特征向量,y是该特征向量所对应的真实类别(0代表未配对点,1代表配对点),训练后可对RNA序列上每一碱基位点在形成二级结构中的配对可能性进行预测。
XGBoost模型的目的是建立一个预测RNA序列二级结构中的配对点的有效分类器,预测时序列中的每一点都能够得到一个预测分数。而这个预测分数是由多个CART树分别得到并通过K个评估函数得到最终预测分数。
可知其预测模型为:
其中,K为树的总个数,fk为第k棵决策树的评估函数,为样本数据xi的预测结果;
训练误差函数为:
其中,为样本数据xi的训练误差,为损失函数,Ω(fk)表示第k棵树的正则项。
而关于训练误差函数的计算,由于XGBoost模型是一种集成学习方法,那么假设我们得到了一棵最优的CART树ft,则我们是在现有的t-1棵树的基础上,得到目标函数最小的CART树即为ft
其中,依然是样本xi的训练误差,Ω(ft)表示第t棵树的正则项,C是常数。
对于决策树的正则项部分,可以知道每一棵CART树的模型可以写成:
ft(x)=ωq(x),ω∈RT,q:Rd→{1,2,…,T}
其中,ω为叶子节点的得分值,q(x)表示样本x对应的叶子节点,T为该树的叶子节点数,
Rd为d维的实数集合,是通用表示。
其复杂度为:
其中,γ,λ为正则化系数,T为该树的叶子节点数。
则最终机器学习模型的目标函数为:
求解这一目标函数,令
可以得到:
其中Ij为在第j个叶子节点上的样本,Gj、Hj、g、h均属于代数符号,指代等号右边的式子,具体含义如式子所示。
对ωj求偏导,并使其导函数等于0,则有:
Gj+(Hj+λ)ωj=0
求解得:
则最后机器学习模型求解的最优解为:
通过基于XGBoost算法的机器学习模型的训练、预测,可以得到最终RNA在形成二级结构时,每一个碱基位点会形成配对的概率分数,根据这一概率分数,能为下一步二级结构的形成提供辅助判断。
在已测定二级结构的RNA样本较少的条件下,采用Xgboost算法建立的机器学习模型进行模型搭建与训练、测试,通过Xgboost模型的训练、预测,可以得到最终RNA在形成二级结构时,每一个碱基位点会形成配对的概率分数,根据这一概率分数,能为下一步二级结构的形成提供判断依据。

Claims (5)

1.基于Xgboost的全基因组RNA二级结构预测方法,其特征在于,包括步骤:
获取RNA序列和所述RNA序列中碱基位点配对的可能性值;
配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本;配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本,所述正样本、负样本组合成样本数据集;
将样本数据集划分为训练集和测试集,将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试;
利用训练与测试后的机器学习模型进行RNA二级结构的预测。
2.根据权利要求1所述的基于Xgboost的全基因组RNA二级结构预测方法,其特征在于,配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本;配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本的步骤包括:
通过独热编码的方式对RNA序列编码;
编码后的所述RNA序列中碱基位点配对的可能性值从高到低排序,筛选出前a个碱基作为配对的可能性值高的碱基,筛选出后b个碱基作为配对的可能性值低的碱基;
可能性值高的碱基与其上游的长度为c的碱基序列、下游的长度为c的碱基序列组成序列片段,序列片段作为正样本并赋予标签“1”;
可能性值低的碱基与其上游的长度为d的碱基序列、上游的长度为d的碱基序列组成序列片段,序列片段作为负样本并赋予标签“0”。
3.根据权利要求2所述的基于Xgboost的全基因组RNA二级结构预测方法,其特征在于,所述a=b。
4.根据权利要求2所述的基于Xgboost的全基因组RNA二级结构预测方法,其特征在于,通过独热编码的方式对RNA序列编码的步骤包括:
RNA序列由腺嘌呤A、尿嘧啶U、鸟嘌呤G、胞嘧啶C四种碱基构成;
对四种碱基进行编码,具体为:RNA序列中的腺嘌呤A=(1,0,0,0),尿嘧啶U=(0,1,0,0),胞嘧啶C=(0,0,1,0),鸟嘌呤G=(0,0,0,1),RNA序列的开头与结尾缺少碱基的部分以(0,0,0,0)作为补长。
5.根据权利要求1所述的基于Xgboost的全基因组RNA二级结构预测方法,其特征在于,将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型,对机器学习模型进行训练与测试的步骤包括:利用训练集对机器学习模型进行训练;利用测试集对机器学习模型测试其预测的RNA序列上每一个碱基位点会形成配对的概率分数;
所述概率分数的预测模型为:
其中,K为树的总个数,fk为第k棵决策树的评估函数,为样本数据xi的预测结果;
预测模型的目标函数为:
其中,y=(y0,y1,…,yi,yn)是作为训练集的RNA序列中每一个序列片段的特征向量x=(x0,x1,…,xn)所对应的真实类别,yi=0代表未配对的碱基位点,yi=1代表配对的碱基位点,为样本数据xi的训练误差,为损失函数,Ω(fk)表示第k棵树的正则项。
CN201811314747.9A 2018-11-06 2018-11-06 基于Xgboost的全基因组RNA二级结构预测方法 Pending CN109215740A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811314747.9A CN109215740A (zh) 2018-11-06 2018-11-06 基于Xgboost的全基因组RNA二级结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811314747.9A CN109215740A (zh) 2018-11-06 2018-11-06 基于Xgboost的全基因组RNA二级结构预测方法

Publications (1)

Publication Number Publication Date
CN109215740A true CN109215740A (zh) 2019-01-15

Family

ID=64995514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811314747.9A Pending CN109215740A (zh) 2018-11-06 2018-11-06 基于Xgboost的全基因组RNA二级结构预测方法

Country Status (1)

Country Link
CN (1) CN109215740A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110010192A (zh) * 2019-04-10 2019-07-12 浙江工商大学 基于决策树算法的rna二级结构的预测方法
CN110010194A (zh) * 2019-04-10 2019-07-12 浙江科技学院 一种rna二级结构的预测方法
CN110046259A (zh) * 2019-03-15 2019-07-23 浙江大学城市学院 一种基于判决书文本的涉毒案件深度分析方法
CN110364223A (zh) * 2019-06-24 2019-10-22 杭州电子科技大学 一种基于多示例学习的ires序列搜寻方法
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111489787A (zh) * 2020-04-21 2020-08-04 桂林电子科技大学 一种CRISPR/Cas9靶向敲除定点DNA效率的预测方法
CN113066527A (zh) * 2021-04-14 2021-07-02 吉优诺(上海)基因科技有限公司 一种siRNA敲减mRNA的靶点预测方法和系统
CN113393900A (zh) * 2021-06-09 2021-09-14 吉林大学 基于改进Transformer模型的RNA状态推断研究方法
CN113782096A (zh) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 Rna碱基不成对概率的预测方法及装置
CN114093420A (zh) * 2022-01-11 2022-02-25 山东建筑大学 一种基于XGBoost的DNA重组位点预测方法
CN115881209A (zh) * 2023-02-15 2023-03-31 北京深势科技有限公司 一种rna二级结构预测的处理方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007116787A1 (ja) * 2006-03-28 2007-10-18 Nec Soft, Ltd. Rnaの二次構造予測方法、予測装置及び予測プログラム
US20150141282A1 (en) * 2013-09-06 2015-05-21 Cornell University Rna sequences that induce fluorescence of small molecule fluorophores
CN106250718A (zh) * 2016-07-29 2016-12-21 於铉 基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法
CN107609351A (zh) * 2017-10-23 2018-01-19 桂林电子科技大学 一种基于卷积神经网络预测假尿苷修饰位点的方法
CN108491686A (zh) * 2018-03-30 2018-09-04 中南大学 一种基于双向XGBoost的基因调控网络构建方法
CN108509761A (zh) * 2018-03-26 2018-09-07 中山大学 一种基于梯度提升决策树和特征选择的药物靶标预测方法
CN108563922A (zh) * 2018-04-04 2018-09-21 中南大学 预测蛋白质rna结合物热点的方法、系统及存储介质
CN108629150A (zh) * 2018-03-16 2018-10-09 西安电子科技大学 基于多种群协助的量子遗传算法的rna二级结构预测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007116787A1 (ja) * 2006-03-28 2007-10-18 Nec Soft, Ltd. Rnaの二次構造予測方法、予測装置及び予測プログラム
US20150141282A1 (en) * 2013-09-06 2015-05-21 Cornell University Rna sequences that induce fluorescence of small molecule fluorophores
CN106250718A (zh) * 2016-07-29 2016-12-21 於铉 基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法
CN107609351A (zh) * 2017-10-23 2018-01-19 桂林电子科技大学 一种基于卷积神经网络预测假尿苷修饰位点的方法
CN108629150A (zh) * 2018-03-16 2018-10-09 西安电子科技大学 基于多种群协助的量子遗传算法的rna二级结构预测方法
CN108509761A (zh) * 2018-03-26 2018-09-07 中山大学 一种基于梯度提升决策树和特征选择的药物靶标预测方法
CN108491686A (zh) * 2018-03-30 2018-09-04 中南大学 一种基于双向XGBoost的基因调控网络构建方法
CN108563922A (zh) * 2018-04-04 2018-09-21 中南大学 预测蛋白质rna结合物热点的方法、系统及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PONTI ET AL: "A high-throughput approach to profile RNA structure", 《NUCLEIC ACIDS RESEARCH》 *
SEETIN ET AL: "RNA structure prediction: an overview of methods.", 《METHODS IN MOLECULAR BIOLOGY 》 *
TIANQI CHEN ET AL: "XGBoost: A Scalable Tree Boosting System", 《22ND ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046259A (zh) * 2019-03-15 2019-07-23 浙江大学城市学院 一种基于判决书文本的涉毒案件深度分析方法
CN110010194A (zh) * 2019-04-10 2019-07-12 浙江科技学院 一种rna二级结构的预测方法
CN110010192A (zh) * 2019-04-10 2019-07-12 浙江工商大学 基于决策树算法的rna二级结构的预测方法
CN110364223B (zh) * 2019-06-24 2021-04-06 杭州电子科技大学 一种基于多示例学习的ires序列搜寻方法
CN110364223A (zh) * 2019-06-24 2019-10-22 杭州电子科技大学 一种基于多示例学习的ires序列搜寻方法
CN111312329B (zh) * 2020-02-25 2023-03-24 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111489787A (zh) * 2020-04-21 2020-08-04 桂林电子科技大学 一种CRISPR/Cas9靶向敲除定点DNA效率的预测方法
CN111489787B (zh) * 2020-04-21 2023-05-12 桂林电子科技大学 一种CRISPR/Cas9靶向敲除定点DNA效率的预测方法
CN113066527A (zh) * 2021-04-14 2021-07-02 吉优诺(上海)基因科技有限公司 一种siRNA敲减mRNA的靶点预测方法和系统
CN113066527B (zh) * 2021-04-14 2024-02-09 吉优诺(上海)基因科技有限公司 一种siRNA敲减mRNA的靶点预测方法和系统
CN113393900A (zh) * 2021-06-09 2021-09-14 吉林大学 基于改进Transformer模型的RNA状态推断研究方法
CN113782096A (zh) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 Rna碱基不成对概率的预测方法及装置
WO2023040148A1 (zh) * 2021-09-16 2023-03-23 平安科技(深圳)有限公司 Rna碱基不成对概率的预测方法、装置、存储介质及设备
CN113782096B (zh) * 2021-09-16 2023-06-16 平安科技(深圳)有限公司 Rna碱基不成对概率的预测方法及装置
CN114093420A (zh) * 2022-01-11 2022-02-25 山东建筑大学 一种基于XGBoost的DNA重组位点预测方法
CN115881209A (zh) * 2023-02-15 2023-03-31 北京深势科技有限公司 一种rna二级结构预测的处理方法和装置

Similar Documents

Publication Publication Date Title
CN109215740A (zh) 基于Xgboost的全基因组RNA二级结构预测方法
Wang et al. DMfold: a novel method to predict RNA secondary structure with pseudoknots based on deep learning and improved base pair maximization principle
CN107862179A (zh) 一种基于相似性和逻辑矩阵分解的miRNA‑疾病关联关系预测方法
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
De Campos et al. Optimization of neural networks through grammatical evolution and a genetic algorithm
CN114927162A (zh) 基于超图表征与狄利克雷分布的多组学关联表型预测方法
CN111144555A (zh) 基于改进进化算法的循环神经网络架构搜索方法、系统及介质
CN101794351A (zh) 一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法
CN109147866A (zh) 基于采样与集成学习的蛋白质-dna绑定残基预测方法
WO2023197718A1 (zh) 一种预测环状rna ires的方法
CN113066527B (zh) 一种siRNA敲减mRNA的靶点预测方法和系统
JP2008146538A (ja) マイクロrna検出装置、方法およびプログラム
Liu et al. Rest: Constructing rectilinear steiner minimum tree via reinforcement learning
CN101324926A (zh) 一种面向复杂模式分类的特征选择方法
CN114512178A (zh) 基于伊辛机量子退火的密码子优化方法
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
CN109801681B (zh) 一种基于改进的模糊聚类算法的snp选择方法
CN114093426B (zh) 基于基因调控网络构建的标志物筛选方法
CN110111838B (zh) 含假结基于扩展结构的核糖核酸折叠结构预测方法与装置
Yoo et al. Discovery of gene-regulation pathways using local causal search.
CN114881359B (zh) 融合GBDT和XGBoost的路面IRI预测方法
CN113223622B (zh) 基于元路径的miRNA-疾病关联预测方法
Ren et al. Differential Evolution with fitness-difference based parameter control and hypervolume diversity indicator for numerical optimization
CN115295156A (zh) 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法
CN110162704B (zh) 基于多因子遗传算法的多规模关键用户提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Ke Yaobin

Inventor after: Rao Jiahua

Inventor after: Yang Yuedong

Inventor after: Chen Zhiguang

Inventor after: Lu Yutong

Inventor before: Xiao Nong

Inventor before: Ke Yaobin

Inventor before: Rao Jiahua

Inventor before: Yang Yuedong

Inventor before: Chen Zhiguang

Inventor before: Lu Yutong

CB03 Change of inventor or designer information
RJ01 Rejection of invention patent application after publication

Application publication date: 20190115

RJ01 Rejection of invention patent application after publication