CN110021340B - 一种基于卷积神经网络和规划动态算法的rna二级结构生成器及其预测方法 - Google Patents
一种基于卷积神经网络和规划动态算法的rna二级结构生成器及其预测方法 Download PDFInfo
- Publication number
- CN110021340B CN110021340B CN201810851933.XA CN201810851933A CN110021340B CN 110021340 B CN110021340 B CN 110021340B CN 201810851933 A CN201810851933 A CN 201810851933A CN 110021340 B CN110021340 B CN 110021340B
- Authority
- CN
- China
- Prior art keywords
- rna
- data
- neural network
- unit
- secondary structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 238000003491 array Methods 0.000 claims abstract description 10
- 238000003559 RNA-seq method Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 5
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 98
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000000547 structure data Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 6
- 229910052739 hydrogen Inorganic materials 0.000 description 5
- 239000001257 hydrogen Substances 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 101100112673 Rattus norvegicus Ccnd2 gene Proteins 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 210000002364 input neuron Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 241000726445 Viroids Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 125000003277 amino group Chemical group 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 229920002477 rna polymer Polymers 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000002910 structure generation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于卷积神经网络和规划动态算法的RNA二级结构生成器,包括:微处理器;存储单元,处理单元,其包括:预处理单元,负责获取缓存单元中RNA数据,并对所述RNA数据进行预处理;滑动窗口单元,其连接所述预处理单元,用于将经过预处理后的RNA数据分割为大小相同的RNA二维数组;卷积神经网络模型单元,其以前期收集的大量RNA测序及其结构数据为基础,构建卷积神经网络模型,对序列内各个碱基进行分类预测;规划动态算法单元,其用于修正卷积神经网络模型单元的预测结果,还公开了一种基于卷积神经网络和规划动态算法的RNA二级结构预测方法。
Description
技术领域
本发明涉及生物信息学领域,涉及一种基于卷积神经网络和规划动态算法的RNA二级结构的生成器及预测方法。
背景技术
核糖核酸(缩写为RNA,即Ribonucleic Acid),存在于生物细胞以及部分病毒、类病毒中的遗传信息载体。RNA就是由核糖核苷酸经磷酸二酯键缩合而成长链状分子。RNA分子通过其结构来表现其功能,然而,RNA分子的三级结构较为复杂,缺少有效的表示方法对其进行描述。因此,一般情况下会通过RNA的二级结构来研究RNA的功能及特性。
二级结构以往是由生物大分子在原子量级结构下的氢键来定义的。在蛋白质,二级结构则是以主链中氨基之间的氢键模式来定义,亦即DSSP所定义的氢键,并不包括主链与旁链间或是旁链之间的氢键。而RNA的二级结构则是以碱基之间的氢键来定义。在很多RNA分子,二级结构对RNA正常功能非常重要,有时甚至于较序列重要。
现有的生物实验测定RNA二级结构的方法主要有X射线晶体衍射和 NMR等方法。通过生物实验方法可以得到较为精确的RNA二级结构,然而这种方法十分低效、昂贵,难以大批量测定其结构。因此,通过计算机算法对RNA二级结构进行模拟成为一种有效的途径。
通过计算机设计算法来预测RNA的二级结构的主要方法有两大类,一类是利用动态规划算法,算法在能量或其他限制条件的影响下,通过迭代递归的思想来对RNA二级结构进行预测。另一类是通过序列比对的方法,在已知结构的RNA数据库中找到其同源序列,通过与同源序列比对的方法来对未知结构的RNA来进行预测。
目前,深度学习在各大领域的预测问题上均有非常有效的结果。深度学习的方法可以在大规模数据中,通过构建深层网络来提取出有效的、隐含的特征,并利用这些特征构建出有效的预测模型。目前,深度学习的方法在蛋白质的二级结构预测领域已经有了较大的突破。因此,将深度学习方法应用到RNA二级结构预测领域成为一个新的研究领域。
发明内容
本发明设计开发了一种RNA二级结构生成器,自动提取出数据中有效的隐藏特征,对序列内各个碱基进行分类预测。
本发明还设计开发了一种RNA二级结构预测方法,使用规划动态算法对预测结果进行修正,利用这种方法可以排除能量对RNA二级结构预测结果的影响。
本发明提供的技术方案为:
一种基于卷积神经网络和规划动态算法的RNA二级结构生成器,包括:
微处理器;
存储单元,其包括:
内存储单元,其用于RNA初始数据的存储;
缓存单元,其连接所述内存储单元;
存储单元,其与所述缓存单元连接,用于完成所述RNA二级结构预测结果数据的存储;
处理单元,其包括:
预处理单元,其用于获取缓存单元中RNA数据,并对所述RNA数据进行预处理;
滑动窗口单元,其连接所述预处理单元,用于将经过预处理后的 RNA数据分割为大小相同的核苷酸序列二维数组;
卷积神经网络模型单元,其以RNA测序及其结构数据为基础,构建卷积神经网络模型,对序列内各个碱基进行分类预测;
规划动态算法单元,其用于修正卷积神经网络模型单元的预测结果。优选的是,还包括:上位机,其包括:
USB接口,其与可移动存储设备连接,用于所述存储单元的扩容和数据转存;
JTAG调试接口,其与编程器转换设备连接,用于程序在线调试;
以太网接口,其用于连接所述微处理器,用于上位机与所述微处理器之间的通信;
显示单元,用于将预测结果输出显示。
优选的是,所述微处理器为ARM9微处理器。
一种基于卷积神经网络和规划动态算法的RNA二级结构预测方法,包括:
步骤一、选取已知RNA二级结构的数据作为训练样本,并对训练进行预处理得到训练数据;
步骤二、将经过预处理后的RNA数据分割为大小相同的RNA二维数组;
步骤三、准备训练样本集,将训练样本集进行分类,构建卷积神经网络模型,提取出数据中有效的隐藏特征,调整模型参数,优化预测精度,直至模型内部参数收敛,得到训练完成的卷积神经网络模型;
步骤四,对待预测的RNA序列数据进行预处理,并输入训练完成的卷积神经网络模型,对序列内各个碱基进行分类预测;其中,分类预测结果为生成RNA二级结构的概率;
步骤五、将分类预测完成的二级结构预测结果输入规划修正算法模型进行误差修正,进而得到最终的二级结构预测结果。
优选的是,所述预处理包括将RNA序列数据进行独热编码。
优选的是,所述步骤二利用滑动窗口的方式,将RNA四元组分割为多个相同的二维数组,并将其对应的结构数据作为对应数组的特征标签。
优选的是,所述步骤二包括:将所述二维数组作为输入向量群输入卷积神经网络模型,所述神经网络模型包括两个卷积层、两个池化层,两个全连接层和一个输出层,第一卷积层的卷积核为维度相等的矩阵,其大小为3×1 ×1,第二卷积层卷积核大小为3×1×8,输出层向量为三种RNA二级结构的生成概率。
优选的是,所述步骤五包括:
规划动态算法单元将读取卷积神经网络模型单元中的l个三元组与未标记的RNA的序列数据,并以此为依据,经过下面公式计算
N(i,j)表示未知结构RNA序列中第i个碱基到第j个碱基之间形成的结构的最大概率和;Ri为RNA序列上第i个碱基类别,Rj为RNA序列上的第j个碱基类别;
经过多次迭代后生成的N(1,l)所对应的结构为所求的符合RNA二级结构定义且各个碱基匹配概率之和最大的RNA二级结构。
本发明所述的有益效果
本发明能够从大量RNA序列及结构数据中自动提取出有效的隐含特征,从概率学的角度角度阐述RNA二级结构的形成规律;基于真实实验验证的RNA 数据,通过卷积神经网络与规划动态算法相结合,可以预测出未知结构的RNA 测序数据的结构,并以此为依据设计生物实验;本发明为RNA二级结构预测等RNA相关研究领域提供了一条新思路。
附图说明
图1为本发明所述的RNA二级结构生成器的硬件结构原理图。
图2为本发明所述的RNA二级结构生成器的电路原理图。
图3为本发明所述的RNA二级结构生成器的逻辑功能图。
图4为本发明所述的基于卷积神经网络和规划动态算法的RNA二级结构预测算法的流程图。
图5为本发明所述的卷积神经网络的结构图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供的基于卷积神经网络和规划动态算法的RNA二级结构生成器,包括,本发明的基于卷积神经网络与规划动态算法的RNA二级结构的生成器装置与上位机连接硬件结构图,包括上位机01及ARM9微处理器02构成的RNA二级结构生成装置。
在本发明的实施例中,通常利用一台通用的PC计算机作为上位机01,该上位机可通过RS-23串口和基于三星公司生产的32位的ARM920T核的微处理器的RNA二级结构生成装置进行连接,共同作用以完成RNA二级结构的生成。
上位机01的输入单元0111及显示单元0131均采用PC计算机的输入及输出设备来实现其功能。
本发明中可通过上位机01的以太网接口0123及ARM9微处理器02的以太网接口0213实现上位机01与ARM9微处理器02的互通信,以太网接口采用DM9000完全综合的、成本较低的单一快速以太网控制器芯片。
本发明中增加了上位01的JTAG调试接口0122及ARM9微处理器02的 JTAG调试接口0212,将此类接口通过JTAG仿真即编程器转换设备进行连接,可以实现上位机01实时地对ARM9微处理器02上程序的分析和执行的监控。
本发明中USB接口采用的是USB3.0接口,为了实现存储单元的扩增,可以将RNA二级结构预测结果数据通过上位机01的USB接口0121或ARM9微处理器02的USB接口0211转存到U盘。
ARM9微处理器02系统程序存储单元0220选用的是32M Hynix公司的HY57V561620CT SDRAM作为内存储单元0221,64M SAMSUNG公司的 K9F1208UOM Nand Flash作为缓存单元0222,及1G的硬盘作为扩展外存储单元0223。
ARM9微处理器02的处理单元0230中所包含的各单元均是固化在ARM9 微处理器上的RNA二级结构算法,并且在运算时使用32位运算部件。
如图2所示,是基于卷积神经网络和规划动态算法的RNA二级结构的预测方法装置电路原理图,其连接关系如下:USB接口0211、JTAG调试接口0212、以太网接口0213及RS-232串口0214的数据输入口Vin分别与ARM9微处理器02的数据输出引脚Vout1[0..7]相连,其GND分别与ARM9微处理器02的 GND相连。
内存储单元0221的数据输入口Vin与ARM9微处理器02的数据输出引脚Vout1[0..7]相连,其数据输出口Vout与缓存单元0222的数据输入口Vin 相连,其GND与ARM9微处理器02的GND相连。缓存单元0222的数据输入口Vin与内存储单元0221的数据输出口Vout相连,其数据输出口Vout与预处理单元的数据输入口、滑动窗口单元的数据输入口Vin以及ARM9微处理器02 的数据输入引脚Vin1[0..7]相连,其GND与ARM9微处理器02的GND相连。外存储单元0223的数据输入口Vin与规划动态算法单元0234的数据输出口 Vout相连,其数据输出口Vout与ARM9微处理器02的数据输入引脚Vin1[0..7] 相连,其GND与ARM9微处理器02的GND相连。
预处理单元0231的数据输入口Vin与缓存单元0223的数据输出口Vout相连,其数据输出口Vout与分别与ARM9微处理器02的数据输入引脚Vin1[0..7] 及滑动窗口单元0232的数据输入口Vin相连,其GND与ARM9微处理器02 的GND相连。滑动窗口单元0232的数据输入口Vin与预处理单元0231的数据输出口Vout和缓存单元的数据输出口Vout相连,其数据输出口Vout与卷积神经网络模型单元0233的数据输入口Vin相连,其GND与ARM9微处理器02的 GND相连。卷积神经网络模型单元0233的数据输入口Vin与滑动窗口单元 0232的数据输出口Vout相连,其数据输出口Vout与规划动态算法单元数据的输入口Vin相连,其GND与ARM9微处理器02的GND相连。规划动态算法单元0234的数据输入口Vin卷积神经网络模型单元0233的输出口Vout相连,其数据输出口Vout与外存储单元0223的数据输入口Vin相连,GND与ARM9微处理器02的GND相连。
图3为本发明基于卷积神经网络和规划动态算法的RNA二级结构的预测方法模型装置方法的逻辑功能图。如图3逻辑功能图所示,用户使用该装置进行RNA二级结构生成的步骤如下:
步骤A、通过上位机的输入单元0101输入大规模RNA测序与对应结构序列。并通过RS-232串口0105传至RNA二级结构预测装置的内存储单元0221,并进一步将数据读到缓存单元0222中;
步骤B、预处理单元0231从缓存单元0222中读取RNA序列,对序列进行one-hot编码,并将结果输出到滑动窗口单元0232。one-hot编码即为独热编码;
直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制。通常,在通信网络协议栈中,使用八位或者十六位状态的独热码,且系统占用其中一个状态码,余下的可以供用户使用
步骤C、滑动窗口单元0232从预处理单元中读出处理后的RNA序列,从缓存单元中读出对应RNA的结构信息,并利用滑窗设定的大小截取RNA序列,形成二维数组,将对应的结构数据作为数组的标签。
步骤D、再次从缓存单元中读取RNA数据,重复进行上述步骤B和步骤C 操作直至所有的RNA数据均处理完成。
步骤E、卷积神经网络模型单元从滑动窗口单元序列信息,调整模型参数,优化预测精度,直至模型内部参数收敛。
步骤F、重新从上位机的输入单元0101输入一条未知结构序列,经过步骤B和步骤C两步操作后,将其输入到卷积神经网络模型单元,得到概率输出。其中,步骤C操作不需要设定标签。
步骤G、规划动态算法单元获取卷积神经网络模型单元输出的的概率,和缓存单元中的序列信息,经过多次递归迭代,得到最优的RNA二级结构;将得到的最优RNA二级结构存于外存储单元中,并可通过RS-232串口传回到上位机的显示单元上进行输出显示。
如图4所示,本发明为了提取更具预测能力的特征,采用卷积神经网络和规划动态算法对RNA二级结构进行预测,具体步骤如下:
步骤一、选取已知RNA二级结构的数据作为训练样本,并对训练进行预处理得到训练数据,作为一种优选,将RNA序列数据进行独热编码,并将编码结果存储在滑动窗口单元中;
步骤二、将经过预处理后的RNA数据分割为大小相同的RNA二维数组;
步骤三、准备训练样本集,将训练样本集进行分类,构建卷积神经网络模型,提取出数据中有效的隐藏特征,调整模型参数,优化预测精度,直至模型内部参数收敛,得到训练完成的卷积神经网络模型;
步骤四,对待预测的RNA序列数据进行预处理,并输入训练完成的卷积神经网络模型,对序列内各个碱基进行分类预测;
步骤五、将分类预测完成的二级结构预测结果输入规划修正算法模型进行误差修正,进而得到最终的二级结构预测结果。
规划动态算法单元将读取卷积神经网络模型单元中的l个三元组与未标记的RNA的序列数据,并以此为依据,经过下面公式计算
N(i,j)表示未知结构RNA序列中第i个碱基到第j个碱基之间形成的结构的最大概率和。
其中,步骤三的卷积神经网络模型构建过程为:
采用利用滑动窗口的方式,将RNA四元组分割为L个大小相同的二维数组WL×4,其中d为滑动窗口的大小,并将其对应的结构数据作为对应数组的标签。
如图5所示,为了提取更具预测能力的特征,本发明采用卷积神经网络,包括:两个卷积层,两个池化层,两个全连接层和一个输出层
构建卷积神经网络,模型采用的是两个卷积层,两个池化层,两个全连接层,
作为一种优选,二维数组的个数选取为30,则针对每一个RNA四元组均有
表1卷积神经网络的结构表
其中,卷积层为对输入数据进行卷积操作,卷积核是维度相等的矩阵,其他参数通过学习得到,所有卷积核一起作用来提取输入数据的特征。
其中,b为权重,输出神经元与上层输出为1的神经元以权重b相连。
在卷积层以滑动窗口步长1对输入的RNA数据进行卷积,经过激活函数,得到28*4*8的特征数据;激活函数的作用是引入非线性因素,解决线性函数表达能录不够的问题,不同的激活函数对应不同的神经元,本文选取的是线性阈值神经元,输出表达式为:
其中,n表示输入神经元的个数,wi为卷积层的参数,通过算法自学习获得,参数在一次卷积操作的过程中保持不变。
池化层为将提取的特征数据,以滑动窗口步长2依次提取卷积层得到的特征数据的最大值,这样可以减少上一层到下一层输入神经元的个数,可以减少拟合,还可以增加要提取的特征维数。
卷积层的每个特征数据表示的是RNA序列的一种特征,层数越高,特征越抽象,加上全连接层的目的是将每一层的特征结合在一起,本文中全连接层的神经元与上一层的全部神经元连接。
输出层采用的是分类器,输出不同预测结果的概率分布,本发明中的输出结构为三种,分别采用三个标签“left”“right”“point”来表示三种二级结构的生成概率。输出的标签概率pleft,pright,ppoint以三元组的方式传输到在规划动态算法单元中,样本数据处理完成后得到l个三元组。
本发明能够从大量RNA序列及结构数据中自动提取出有效的隐含特征,从概率学的角度阐述RNA二级结构的形成规律。基于真实实验验证的RNA 数据,通过卷积神经网络与规划动态算法相结合,可以预测出未知结构的RNA测序数据的结构,并以此为依据设计生物实验。本发明为RNA二级结构预测等RNA相关研究领域提供了一条新思路。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (4)
1.一种基于卷积神经网络和规划动态算法的RNA二级结构预测方法,其特征在于,包括:
步骤一、选取已知RNA二级结构的数据作为训练样本,并对训练样本 进行预处理得到训练数据;
其中,所述RNA二级结构通过RNA二级结构生成器获取,所述RNA二级结构生成器包括:
微处理器;
存储单元,其包括:
内存储单元,其用于RNA初始数据的存储;
缓存单元,其连接所述内存储单元;
外存储单元,其与所述微处理器连接,用于完成所述RNA二级结构预测结果数据的存储;
处理单元,其包括:
预处理单元,其用于获取缓存单元中RNA数据,并对所述RNA数据进行预处理;
滑动窗口单元,其连接所述预处理单元,用于将经过预处理后的RNA数据分割为大小相同的核苷酸序列二维数组;
卷积神经网络模型单元,其以RNA测序及其结构数据为基础,构建卷积神经网络模型,对序列内各个碱基进行分类预测;
规划动态算法单元,其用于修正卷积神经网络模型单元的预测结果;
步骤二、将经过预处理后的RNA数据分割为大小相同的RNA二维数组;
步骤三、准备训练样本集,将训练样本集进行分类,构建卷积神经网络模型,提取出数据中有效的隐藏特征,调整模型参数,优化预测精度,直至模型内部参数收敛,得到训练完成的卷积神经网络模型;
步骤四、 对待预测的RNA序列数据进行预处理,并输入训练完成的卷积神经网络模型,对序列内各个碱基进行分类预测;其中,分类预测结果为生成RNA二级结构的概率;
步骤五、将分类预测完成的二级结构预测结果输入规划修正算法模型进行误差修正,进而得到最终的二级结构预测结果;
所述步骤五包括:
规划动态算法单元将读取卷积神经网络模型单元中的l个三元组与未标记的RNA的序列数据,并以此为依据,经过下面公式计算
N(i,j)表示未知结构RNA序列中第i个碱基到第j个碱基之间形成的结构的最大概率和;Ri为RNA序列上第i个碱基类别,Rj为RNA序列上的第j个碱基类别;
经过多次迭代后生成的N(1,l)所对应的结构为所求的符合RNA二级结构定义且各个碱基匹配概率之和最大的RNA二级结构。
2.根据权利要求1所述的基于卷积神经网络和规划动态算法的RNA二级结构预测方法,其特征在于,所述预处理包括将RNA序列数据进行独热编码。
3.根据权利要求2所述的基于卷积神经网络和规划动态算法的RNA二级结构预测方法,其特征在于,所述步骤二利用滑动窗口的方式,将RNA四元组分割为多个相同的二维数组,并将其对应的结构数据作为对应数组的特征标签。
4.根据权利要求1或3所述的基于卷积神经网络和规划动态算法的RNA二级结构预测方法,其特征在于,所述步骤二包括:将所述二维数组作为输入向量群输入卷积神经网络模型,所述神经网络模型包括两个卷积层、两个池化层,两个全连接层和一个输出层,第一卷积层的卷积核为维度相等的矩阵,其大小为3×1×1,第二卷积层卷积核大小为3×1×8,输出层向量为三种RNA二级结构的生成概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810851933.XA CN110021340B (zh) | 2018-07-30 | 2018-07-30 | 一种基于卷积神经网络和规划动态算法的rna二级结构生成器及其预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810851933.XA CN110021340B (zh) | 2018-07-30 | 2018-07-30 | 一种基于卷积神经网络和规划动态算法的rna二级结构生成器及其预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110021340A CN110021340A (zh) | 2019-07-16 |
CN110021340B true CN110021340B (zh) | 2021-04-02 |
Family
ID=67188346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810851933.XA Active CN110021340B (zh) | 2018-07-30 | 2018-07-30 | 一种基于卷积神经网络和规划动态算法的rna二级结构生成器及其预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110021340B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110600081A (zh) * | 2019-09-10 | 2019-12-20 | 吉林大学 | 一种端到端的基于深度学习的ncRNA家族识别方法 |
CN110648719B (zh) * | 2019-09-23 | 2021-03-05 | 吉林大学 | 基于能量和概率的局部结构胃癌耐药lncRNA二级结构预测方法 |
CN111341387B (zh) * | 2020-02-19 | 2023-06-30 | 吉林大学 | 一种基于基本组分序向量的单向编码无监督分类的方法 |
CN111860361B (zh) * | 2020-07-24 | 2023-07-25 | 吉林大学 | 一种绿色通道货物扫描图像夹带自动识别器及识别方法 |
DE202022101929U1 (de) | 2022-04-09 | 2022-06-02 | Pradipta Bhowmick | Intelligentes System zur Vorhersage der Sekundärstruktur von RNA unter Verwendung von faltbaren neuronalen Netzen und künstlicher Intelligenz |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908102A (zh) * | 2010-08-13 | 2010-12-08 | 山东建筑大学 | 基于茎区的核糖核酸二级结构的预测方法及装置 |
CN103593587A (zh) * | 2013-11-20 | 2014-02-19 | 吉林大学 | 基于组件式带假结长链rna二级结构的识别方法及装置 |
CN104537278A (zh) * | 2014-12-01 | 2015-04-22 | 中国人民解放军海军工程大学 | 对带假结的rna二级结构预测进行硬件加速的方法 |
CN105740646A (zh) * | 2016-01-13 | 2016-07-06 | 湖南工业大学 | 一种基于bp神经网络的蛋白质二级结构预测方法 |
CN108090327A (zh) * | 2017-12-20 | 2018-05-29 | 吉林大学 | 包含三维自由能的外源性miRNA调控靶基因预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3881238B2 (ja) * | 2001-12-28 | 2007-02-14 | セレスター・レキシコ・サイエンシズ株式会社 | Rna配列解析装置、rna配列解析方法、プログラム、および、記録媒体 |
WO2015021415A1 (en) * | 2013-08-09 | 2015-02-12 | The Scripps Research Institute | Transcriptome-wide design of selective, bioactive small molecules targeting rna |
-
2018
- 2018-07-30 CN CN201810851933.XA patent/CN110021340B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908102A (zh) * | 2010-08-13 | 2010-12-08 | 山东建筑大学 | 基于茎区的核糖核酸二级结构的预测方法及装置 |
CN103593587A (zh) * | 2013-11-20 | 2014-02-19 | 吉林大学 | 基于组件式带假结长链rna二级结构的识别方法及装置 |
CN104537278A (zh) * | 2014-12-01 | 2015-04-22 | 中国人民解放军海军工程大学 | 对带假结的rna二级结构预测进行硬件加速的方法 |
CN105740646A (zh) * | 2016-01-13 | 2016-07-06 | 湖南工业大学 | 一种基于bp神经网络的蛋白质二级结构预测方法 |
CN108090327A (zh) * | 2017-12-20 | 2018-05-29 | 吉林大学 | 包含三维自由能的外源性miRNA调控靶基因预测方法 |
Non-Patent Citations (8)
Title |
---|
Convolutional neural networks for classification of alignments of non-coding RNA sequences;Genta Aoki等;《Bioinformatics》;20180627;第34卷(第13期);第i237-244页 * |
Prediction of RNA-protein sequence and structure binding preferences using deep convolutional and recurrent neural networks;Xiaoyong Pan等;《BMC Genomics》;20180703;第1-11页 * |
RNA二级结构预测的神经网络方法;张秀苇等;《清华大学学报(自然科学版)》;20061231;第46卷(第10期);第1794-1796页第1-3节 * |
RNA二级结构预测算法的研究与实现;夏培明;《中国优秀硕士学位论文全文数据库 信息科技辑》;20111215(第S1期);第I138-7页 * |
基于动态算法的序列分析;李誌等;《吉林大学学报(信息科学版)》;20100131;第28卷(第1期);第41-46页 * |
基于深度学习的RNA二级结构预测研究;蔡磊鑫;《中国优秀硕士学位论文全文数据库 基础科学辑》;20180415(第04期);第A006-154页 * |
基于滑窗的lncRNA二级结构预测;代涛;《中国优秀硕士学位论文全文数据库 基础科学辑》;20180115(第01期);第A006-96页 * |
张秀苇等.RNA二级结构预测的神经网络方法.《清华大学学报(自然科学版)》.2006,第46卷(第10期), * |
Also Published As
Publication number | Publication date |
---|---|
CN110021340A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110021340B (zh) | 一种基于卷积神经网络和规划动态算法的rna二级结构生成器及其预测方法 | |
Wang et al. | SBSM-pro: support bio-sequence machine for proteins | |
Gong et al. | A multiobjective sparse feature learning model for deep neural networks | |
US7761392B2 (en) | Configurable infinite logic signal processing network and genetic computing method of designing the same | |
US12045723B2 (en) | Neural network method and apparatus | |
Yan et al. | Unsupervised and semi‐supervised learning: The next frontier in machine learning for plant systems biology | |
CN112199532B (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN106021990B (zh) | 一种将生物基因以特定的性状进行分类与自我识别的方法 | |
CN114420211A (zh) | 一种基于注意力机制的rna-蛋白质结合位点预测方法 | |
CN114999565B (zh) | 一种基于表示学习和图神经网络的药物靶标亲和力预测方法 | |
JP2024524795A (ja) | グラフニューラルネットワークに基づく遺伝子表現型予測 | |
CN111798935A (zh) | 基于神经网络的普适性化合物结构-性质相关性预测方法 | |
CN111816255A (zh) | 融合多视角和最优多标签链式学习的rna结合蛋白识别 | |
CN113990401A (zh) | 固有无序蛋白的药物分子设计方法和装置 | |
Tan et al. | FPGA-based hardware accelerator for the prediction of protein secondary class via fuzzy K-nearest neighbors with Lempel–Ziv complexity based distance measure | |
Song et al. | Importance weighted expectation-maximization for protein sequence design | |
CN114519429B (zh) | 获取目标体系的可观测量的方法、装置及介质 | |
CN112613391B (zh) | 一种基于反向学习二进制水稻育种算法的高光谱图像波段选择方法 | |
Krishnaraj et al. | Boosting methods for protein fold recognition: an empirical comparison | |
CN116453617A (zh) | 一种结合主动学习的多目标优化分子生成方法和系统 | |
CN113870950B (zh) | 一种稻瘟菌侵染水稻关键sRNA识别系统及识别方法 | |
Sanchez | Reconstructing our past˸ deep learning for population genetics | |
CN111883208B (zh) | 一种基因序列优化方法、装置、设备及介质 | |
KR20210050362A (ko) | 앙상블 모델 프루닝 방법, 유전자 가위를 검출하는 앙상블 모델 생성 방법 및 장치 | |
CN117995283B (zh) | 一种单样本宏基因组聚类方法、系统、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |