CN109448795A - 一种circRNA的识别方法及装置 - Google Patents
一种circRNA的识别方法及装置 Download PDFInfo
- Publication number
- CN109448795A CN109448795A CN201811341102.4A CN201811341102A CN109448795A CN 109448795 A CN109448795 A CN 109448795A CN 201811341102 A CN201811341102 A CN 201811341102A CN 109448795 A CN109448795 A CN 109448795A
- Authority
- CN
- China
- Prior art keywords
- circrna
- sequence
- base sequence
- identification model
- endpoint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种circRNA的识别方法及装置。其中,一种circRNA的识别方法,包括:从已确定的circRNA序列和非circRNA序列中分别提取预设数量的碱基序列;对提取的碱基序列进行编码,形成circRNA序列数据集和非circRNA序列数据集;将circRNA序列数据集和非circRNA序列数据集混合后,输入至circRNA识别模型中,训练得到最优circRNA识别模型;将待测碱基序列输入至最优circRNA识别模型,输出预测结果。
Description
技术领域
本公开属于circRNA识别领域,尤其涉及一种circRNA的识别方法及装置。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
circRNA(环状RNA),其中文全称为环状核糖核酸,由磷酸、核糖和碱基构成。circRNA是一类特殊的非编码RNA分子。与传统的线性RNA(linear RNA,含5’和3’末端)不同,circRNA分子呈封闭环状结构,不受RNA外切酶影响,表达更稳定,不易降解。在功能上,近年的研究表明,circRNA分子富含microRNA(miRNA)结合位点,在细胞中起到miRNA海绵(miRNA sponge)的作用,进而解除miRNA对其靶基因的抑制作用,升高靶基因的表达水平;这一作用机制被称为竞争性内源RNA(ceRNA)机制。通过与疾病关联的miRNA相互作用,circRNA在疾病中发挥着重要的调控作用。
在测序下机数据查找circRNA的方法主要有5种,即find_circ,circRNA_finder,CIRI,circExplorer,MapSplice。上述方法的原理都是基于识别在测序数据中由于circRNA的环状结构而形成的反向剪接信号。发明人发现由于跨过剪接位点的反向剪接序列在全部测序数据中的含量极低,传统查找circRNA的方法在计算circRNA的表达水平上存在可靠性差的缺陷。
发明内容
根据本公开的一个或多个实施例的一个方面,提供一种circRNA的识别方法,其能够提高circRNA识别准确率且降低circRNA的识别时间。
本公开提供的一种circRNA的识别方法,包括:
从已确定的circRNA序列和非circRNA序列中分别提取预设数量的碱基序列;
对提取的碱基序列进行编码,形成circRNA序列数据集和非circRNA序列数据集;
将circRNA序列数据集和非circRNA序列数据集混合后,输入至circRNA识别模型中,训练得到最优circRNA识别模型;
将待测碱基序列输入至最优circRNA识别模型,输出预测结果。
在一个或多个实施例中,从已确定的circRNA序列中提取预设数量的碱基序列的过程,包括:
以circRNA序列的accept端点为中心提取预设个数的碱基序列;
以circRNA序列的donor端点为中心提取预设个数的碱基序列。
在一个或多个实施例中,从已确定的非circRNA序列中提取预设数量的碱基序列的过程,包括:
随机选择非circRNA序列的accept端点和donor端点;
以非circRNA序列的accept端点为中心提取预设个数的碱基序列;
以非circRNA序列的donor端点为中心提取预设个数的碱基序列。
在一个或多个实施例中,对提取的碱基序列进行编码的过程,包括:
对碱基序列进行one-hot编码;
在碱基序列中,腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶分别对应0001,1000,0010,0100四位二进制数;非腺嘌呤、非胸腺嘧啶、非鸟嘌呤和非胞嘧啶的碱基序列全部编码为0000。
在一个或多个实施例中,所述circRNA识别模型为深度卷积神经网络和循环神经网络的组合网络。
在一个或多个实施例中,所述circRNA识别模型的搭建过程为:
搭建一个CNN1D的网络,激活函数使用relu函数,向CNN1D的网络依次添加一层RNN层和一层平坦层,组成一个CNN与RNN结合的第一神经网络;
将两个第一神经网络使用Concatenate函数连接,并在后面添加若干层全连接层,激活函数使用relu函数;再接入输出层,激活函数使用sigmoid函数,完成circRNA识别模型的搭建。
在一个或多个实施例中,在训练得到最优circRNA识别模型的过程中,反复调整circRNA识别模型中的参数,验证circRNA识别模型输出预测结果的准确率不再上升,即停止训练,保存调整后的circRNA识别模型参数。
本公开还提供了一种circRNA的识别装置。
本公开的一种circRNA的识别装置,包括:显示装置以及控制器,所述控制器包括存储器和处理器,所述存储器存储有计算机程序,所述程序被处理器执行时能够实现以下步骤:
从已确定的circRNA序列和非circRNA序列中分别提取预设数量的碱基序列;
对提取的碱基序列进行编码,形成circRNA序列数据集和非circRNA序列数据集;
将circRNA序列数据集和非circRNA序列数据集混合后,输入至circRNA识别模型中,训练得到最优circRNA识别模型;
将待测碱基序列输入至最优circRNA识别模型,输出预测结果。
本公开的有益效果是:
(1)本公开的circRNA的识别方法和装置,通过构建一个对circRNA序列识别并分类的模型,利用这个模型对circRNA信息进行识别,能够更加智能、更加方便的进行circRNA识别分类,实现已知的不同circRNA进行自我识别的优点,提高了circRNA的识别率。
(2)本公开在circRNA识别模型的搭建过程中,采用Concatenate函数连接两个神经网络,这两个神经网络是由CNN与RNN结合而成的,构成了深度学习模型,提高了circRNA识别准确率和识别circRNA的便利程度。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是本公开的一种circRNA的识别方法流程图。
图2是碱基序列编码示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释部分:
accept端点:受体位点,3’端。
donor端点:供体位点,5’端。
CNN1D:Convolutional Neural Network 1depth,深度为1的卷积神经网络。
RNN:Recurrent Neural Network,循环神经网络。神经网络是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是,RNN可以利用它内部的记忆来处理任意时序的输入序列,这让它可以更容易处理如不分段的手写识别、语音识别等。
relu函数:线性整流函数(Rectified Linear Unit,ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function),通常指代以斜坡函数及其变种为代表的非线性函数。
sigmoid函数:是一个在生物学中常见的S型函数,也称为S型生长曲线。在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间。
Concatenate函数:是网络结构设计中很重要的一种操作函数,经常用于将特征联合,多个卷积特征提取框架提取的特征融合或者是将输出层的信息进行融合。
图1是本公开的一种circRNA的识别方法流程图。
如图1所示,本公开的一种circRNA的识别方法,包括:
S110:从已确定的circRNA序列和非circRNA序列中分别提取预设数量的碱基序列。
在具体实施中,从已确定的circRNA序列中提取预设数量的碱基序列的过程,包括:
以circRNA序列的accept端点为中心提取预设个数的碱基序列;
以circRNA序列的donor端点为中心提取预设个数的碱基序列。
例如:将已确定的circRNA序列的accept端点为中心的前后各200个碱基序列提取,对应的donor端点为中心的前后各200个碱基序列提取,分别得到长度为401的accept序列和donor序列。
在具体实施中,从已确定的非circRNA序列中提取预设数量的碱基序列的过程,包括:
随机选择非circRNA序列的accept端点和donor端点;
以非circRNA序列的accept端点为中心提取预设个数的碱基序列;
以非circRNA序列的donor端点为中心提取预设个数的碱基序列。
例如:
在随机选择非circRNA序列的accept端点和donor端点后,将非circRNA序列的accept端点为中心的前后各200个碱基序列提取,对应的donor端点为中心的前后各200个碱基序列提取,分别得到长度为401的accept序列和donor序列。
S120:对提取的碱基序列进行编码,形成circRNA序列数据集和非circRNA序列数据集。
具体地,对提取的碱基序列进行编码的过程,包括:
对碱基序列进行one-hot编码;
在碱基序列中,腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C)分别对应0001,1000,0010,0100四位二进制数;非腺嘌呤、非胸腺嘧啶、非鸟嘌呤和非胞嘧啶的碱基序列全部编码为0000,如图2所示。
例如,碱基序列编码后得到的1604位二进制序列,再转化为4*401的矩阵,得到circRNA序列数据集。
在具体实施例中,可使用NumPy系统将编码后得到的1604位二进制序列转化为4*401的矩阵。
其中,NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。
其中,one-hot编码将类别变量转换为机器学习算法易于利用的一种形式的过程。
需要说明的是,除了对碱基序列进行one-hot编码之前,还可采用自定义编码,比如:腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C)分别对应0001,0011,0111,1111四位二进制数;非腺嘌呤、非胸腺嘧啶、非鸟嘌呤和非胞嘧啶的碱基序列全部编码为0000。
根据用户自定义,也可采用三位二进制数来进行编码。
S130:将circRNA序列数据集和非circRNA序列数据集混合后,输入至circRNA识别模型中,训练得到最优circRNA识别模型。
在具体实施中,所述circRNA识别模型为深度卷积神经网络和循环神经网络的组合网络。
具体地,所述circRNA识别模型的搭建过程为:
搭建一个CNN1D的网络,激活函数使用relu函数,向CNN1D的网络依次添加一层RNN层和一层平坦层,组成一个CNN与RNN结合的第一神经网络;
将两个第一神经网络使用Concatenate函数连接,并在后面添加若干层全连接层,激活函数使用relu函数;再接入输出层,激活函数使用sigmoid函数,完成circRNA识别模型的搭建。
需要说明的是,circRNA识别模型也可采用深度信念网络(DBN,Deep beliefnetwork)构成;其中,深度信念网络(DBN)由若干层受限玻尔兹曼机(RBM)堆叠而成,上一层RBM的隐层作为下一层RBM的可见层。
在具体实施中,在训练得到最优circRNA识别模型的过程中,反复调整circRNA识别模型中的参数,验证circRNA识别模型输出预测结果的准确率不再上升,即停止训练,保存调整后的circRNA识别模型参数。
具体地,circRNA序列数据集和非circRNA序列数据集混合后的数据分成三部分,其中一分部用于训练,一部分用于验证,剩余部分用于测试。
例如:circRNA序列数据集和非circRNA序列数据集混合后的数据总量的80%用于训练,10%用于验证,10%用于测试。
当验证准确率不再上升,即停止训练,用测试集测试其准确度。
模型训练完成后保存模型参数,并利用训练完成的参数对测试数据进行识别分类。
S140:将待测碱基序列输入至最优circRNA识别模型,输出预测结果。
本公开的circRNA的识别方法,通过构建一个对circRNA序列识别并分类的模型,利用这个模型对circRNA信息进行识别,能够更加智能、更加方便的进行circRNA识别分类,实现已知的不同circRNA进行自我识别的优点,提高了circRNA的识别率。
本公开在circRNA识别模型的搭建过程中,采用Concatenate函数连接两个神经网络,这两个神经网络是由CNN与RNN结合而成的,构成了深度学习模型,提高了circRNA识别准确率和识别circRNA的便利程度
本公开还提供了一种circRNA的识别装置。
本公开的一种circRNA的识别装置,包括:显示装置以及控制器,所述控制器包括存储器和处理器。
其中,显示装置用于显示circRNA的识别结果。
具体地,显示装置可以为LED显示屏、LCD显示屏、触摸屏或其他具有显示功能的终端。
所述存储器存储有计算机程序,所述程序被处理器执行时能够实现以下步骤:
(1)从已确定的circRNA序列和非circRNA序列中分别提取预设数量的碱基序列。
在具体实施中,从已确定的circRNA序列中提取预设数量的碱基序列的过程,包括:
以circRNA序列的accept端点为中心提取预设个数的碱基序列;
以circRNA序列的donor端点为中心提取预设个数的碱基序列。
例如:将已确定的circRNA序列的accept端点为中心的前后各200个碱基序列提取,对应的donor端点为中心的前后各200个碱基序列提取,分别得到长度为401的accept序列和donor序列。
在具体实施中,从已确定的非circRNA序列中提取预设数量的碱基序列的过程,包括:
随机选择非circRNA序列的accept端点和donor端点;
以非circRNA序列的accept端点为中心提取预设个数的碱基序列;
以非circRNA序列的donor端点为中心提取预设个数的碱基序列。
例如:
在随机选择非circRNA序列的accept端点和donor端点后,将非circRNA序列的accept端点为中心的前后各200个碱基序列提取,对应的donor端点为中心的前后各200个碱基序列提取,分别得到长度为401的accept序列和donor序列。
(2)对提取的碱基序列进行编码,形成circRNA序列数据集和非circRNA序列数据集。
具体地,对提取的碱基序列进行编码的过程,包括:
对碱基序列进行one-hot编码;
在碱基序列中,腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C)分别对应0001,1000,0010,0100四位二进制数;非腺嘌呤、非胸腺嘧啶、非鸟嘌呤和非胞嘧啶的碱基序列全部编码为0000。
例如,碱基序列编码后得到的1604位二进制序列,再转化为4*401的矩阵,得到circRNA序列数据集。
在具体实施例中,可使用NumPy系统将编码后得到的1604位二进制序列转化为4*401的矩阵。
其中,NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。
其中,one-hot编码将类别变量转换为机器学习算法易于利用的一种形式的过程。
需要说明的是,除了对碱基序列进行one-hot编码之前,还可采用自定义编码,比如:腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C)分别对应0001,0011,0111,1111四位二进制数;非腺嘌呤、非胸腺嘧啶、非鸟嘌呤和非胞嘧啶的碱基序列全部编码为0000。
根据用户自定义,也可采用三位二进制数来进行编码。
(3)将circRNA序列数据集和非circRNA序列数据集混合后,输入至circRNA识别模型中,训练得到最优circRNA识别模型。
在具体实施中,所述circRNA识别模型为深度卷积神经网络和循环神经网络的组合网络。
具体地,所述circRNA识别模型的搭建过程为:
搭建一个CNN1D的网络,激活函数使用relu函数,向CNN1D的网络依次添加一层RNN层和一层平坦层,组成一个CNN与RNN结合的第一神经网络;
将两个第一神经网络使用Concatenate函数连接,并在后面添加若干层全连接层,激活函数使用relu函数;再接入输出层,激活函数使用sigmoid函数,完成circRNA识别模型的搭建。
需要说明的是,circRNA识别模型也可采用深度信念网络(DBN,Deep beliefnetwork)构成;其中,深度信念网络(DBN)由若干层受限玻尔兹曼机(RBM)堆叠而成,上一层RBM的隐层作为下一层RBM的可见层。
在具体实施中,在训练得到最优circRNA识别模型的过程中,反复调整circRNA识别模型中的参数,验证circRNA识别模型输出预测结果的准确率不再上升,即停止训练,保存调整后的circRNA识别模型参数。
具体地,circRNA序列数据集和非circRNA序列数据集混合后的数据分成三部分,其中一分部用于训练,一部分用于验证,剩余部分用于测试。
例如:circRNA序列数据集和非circRNA序列数据集混合后的数据总量的80%用于训练,10%用于验证,10%用于测试。
当验证准确率不再上升,即停止训练,用测试集测试其准确度。
模型训练完成后保存模型参数,并利用训练完成的参数对测试数据进行识别分类。
(4)将待测碱基序列输入至最优circRNA识别模型,输出预测结果。
本公开的circRNA的识别装置,通过构建一个对circRNA序列识别并分类的模型,利用这个模型对circRNA信息进行识别,能够更加智能、更加方便的进行circRNA识别分类,实现已知的不同circRNA进行自我识别的优点,提高了circRNA的识别率。
本公开在circRNA识别模型的搭建过程中,采用Concatenate函数连接两个神经网络,这两个神经网络是由CNN与RNN结合而成的,构成了深度学习模型,提高了circRNA识别准确率和识别circRNA的便利程度。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (10)
1.一种circRNA的识别方法,其特征在于,包括:
从已确定的circRNA序列和非circRNA序列中分别提取预设数量的碱基序列;
对提取的碱基序列进行编码,形成circRNA序列数据集和非circRNA序列数据集;
将circRNA序列数据集和非circRNA序列数据集混合后,输入至circRNA识别模型中,训练得到最优circRNA识别模型;
将待测碱基序列输入至最优circRNA识别模型,输出预测结果。
2.如权利要求1所述的一种circRNA的识别方法,其特征在于,从已确定的circRNA序列中提取预设数量的碱基序列的过程,包括:
以circRNA序列的accept端点为中心提取预设个数的碱基序列;
以circRNA序列的donor端点为中心提取预设个数的碱基序列。
3.如权利要求1所述的一种circRNA的识别方法,其特征在于,从已确定的非circRNA序列中提取预设数量的碱基序列的过程,包括:
随机选择非circRNA序列的accept端点和donor端点;
以非circRNA序列的accept端点为中心提取预设个数的碱基序列;
以非circRNA序列的donor端点为中心提取预设个数的碱基序列。
4.如权利要求1所述的一种circRNA的识别方法,其特征在于,对提取的碱基序列进行编码的过程,包括:
对碱基序列进行one-hot编码;
在碱基序列中,腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶分别对应0001,1000,0010,0100四位二进制数;非腺嘌呤、非胸腺嘧啶、非鸟嘌呤和非胞嘧啶的碱基序列全部编码为0000。
5.如权利要求1所述的一种circRNA的识别方法,其特征在于,所述circRNA识别模型为深度卷积神经网络和循环神经网络的组合网络。
6.如权利要求5所述的一种circRNA的识别方法,其特征在于,所述circRNA识别模型的搭建过程为:
搭建一个CNN1D的网络,激活函数使用relu函数,向CNN1D的网络依次添加一层RNN层和一层平坦层,组成一个CNN与RNN结合的第一神经网络;
将两个第一神经网络使用Concatenate函数连接,并在后面添加若干层全连接层,激活函数使用relu函数;再接入输出层,激活函数使用sigmoid函数,完成circRNA识别模型的搭建。
7.如权利要求1所述的一种circRNA的识别方法,其特征在于,在训练得到最优circRNA识别模型的过程中,反复调整circRNA识别模型中的参数,验证circRNA识别模型输出预测结果的准确率不再上升,即停止训练,保存调整后的circRNA识别模型参数。
8.一种circRNA的识别装置,包括:显示装置以及控制器,所述控制器包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述程序被处理器执行时能够实现以下步骤:
从已确定的circRNA序列和非circRNA序列中分别提取预设数量的碱基序列;
对提取的碱基序列进行编码,形成circRNA序列数据集和非circRNA序列数据集;
将circRNA序列数据集和非circRNA序列数据集混合后,输入至circRNA识别模型中,训练得到最优circRNA识别模型;
将待测碱基序列输入至最优circRNA识别模型,输出预测结果。
9.如权利要求8所述的一种circRNA的识别装置,其特征在于,从已确定的circRNA序列中提取预设数量的碱基序列的过程,包括:
以circRNA序列的accept端点为中心提取预设个数的碱基序列;
以circRNA序列的donor端点为中心提取预设个数的碱基序列;
或从已确定的非circRNA序列中提取预设数量的碱基序列的过程,包括:
随机选择非circRNA序列的accept端点和donor端点;
以非circRNA序列的accept端点为中心提取预设个数的碱基序列;
以非circRNA序列的donor端点为中心提取预设个数的碱基序列;
或对提取的碱基序列进行编码的过程,包括:
对碱基序列进行one-hot编码;
在碱基序列中,腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶分别对应0001,1000,0010,0100四位二进制数;非腺嘌呤、非胸腺嘧啶、非鸟嘌呤和非胞嘧啶的碱基序列全部编码为0000;
在训练得到最优circRNA识别模型的过程中,反复调整circRNA识别模型中的参数,验证circRNA识别模型输出预测结果的准确率不再上升,即停止训练,保存调整后的circRNA识别模型参数。
10.如权利要求8所述的一种circRNA的识别装置,其特征在于,所述circRNA识别模型为深度卷积神经网络和循环神经网络的组合网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811341102.4A CN109448795B (zh) | 2018-11-12 | 2018-11-12 | 一种circRNA的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811341102.4A CN109448795B (zh) | 2018-11-12 | 2018-11-12 | 一种circRNA的识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109448795A true CN109448795A (zh) | 2019-03-08 |
CN109448795B CN109448795B (zh) | 2021-04-16 |
Family
ID=65551094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811341102.4A Active CN109448795B (zh) | 2018-11-12 | 2018-11-12 | 一种circRNA的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109448795B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322931A (zh) * | 2019-05-29 | 2019-10-11 | 南昌大学 | 一种碱基识别方法、装置、设备及存储介质 |
CN110600081A (zh) * | 2019-09-10 | 2019-12-20 | 吉林大学 | 一种端到端的基于深度学习的ncRNA家族识别方法 |
CN111243674A (zh) * | 2020-01-08 | 2020-06-05 | 华南理工大学 | 一种碱基序列的识别方法、装置和存储介质 |
CN111243658A (zh) * | 2020-01-07 | 2020-06-05 | 西南大学 | 一种基于深度学习的生物分子网络构建与优化方法 |
CN111584006A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 基于机器学习策略的环形rna识别方法 |
CN113344076A (zh) * | 2021-06-08 | 2021-09-03 | 汕头大学 | 一种基于集成学习的circRNA-miRNA相互作用关系预测方法 |
CN115394376A (zh) * | 2022-09-28 | 2022-11-25 | 奥明(杭州)生物医药有限公司 | 一种预测环状rna ires的方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010144151A2 (en) * | 2009-06-12 | 2010-12-16 | Pacific Biosciences Of California, Inc. | Single-molecule real-time analysis of protein synthesis |
CN106250707A (zh) * | 2016-08-12 | 2016-12-21 | 王双坤 | 一种基于深度学习算法处理头部结构像数据的方法 |
CN107058360A (zh) * | 2017-04-04 | 2017-08-18 | 杨展 | 一种基于快速克隆技术的环状rna表达载体构建方法及其应用 |
US20180176243A1 (en) * | 2016-12-16 | 2018-06-21 | Patternex, Inc. | Method and system for learning representations for log data in cybersecurity |
CN108384783A (zh) * | 2018-02-28 | 2018-08-10 | 中南大学 | 一种环状rna成环序列及应用 |
CN108595913A (zh) * | 2018-05-11 | 2018-09-28 | 武汉理工大学 | 鉴别mRNA和lncRNA的有监督学习方法 |
CN108681660A (zh) * | 2018-05-07 | 2018-10-19 | 福州大学 | 一种基于关联规则挖掘的非编码rna与疾病关系预测方法 |
-
2018
- 2018-11-12 CN CN201811341102.4A patent/CN109448795B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010144151A2 (en) * | 2009-06-12 | 2010-12-16 | Pacific Biosciences Of California, Inc. | Single-molecule real-time analysis of protein synthesis |
CN106250707A (zh) * | 2016-08-12 | 2016-12-21 | 王双坤 | 一种基于深度学习算法处理头部结构像数据的方法 |
US20180176243A1 (en) * | 2016-12-16 | 2018-06-21 | Patternex, Inc. | Method and system for learning representations for log data in cybersecurity |
CN107058360A (zh) * | 2017-04-04 | 2017-08-18 | 杨展 | 一种基于快速克隆技术的环状rna表达载体构建方法及其应用 |
CN108384783A (zh) * | 2018-02-28 | 2018-08-10 | 中南大学 | 一种环状rna成环序列及应用 |
CN108681660A (zh) * | 2018-05-07 | 2018-10-19 | 福州大学 | 一种基于关联规则挖掘的非编码rna与疾病关系预测方法 |
CN108595913A (zh) * | 2018-05-11 | 2018-09-28 | 武汉理工大学 | 鉴别mRNA和lncRNA的有监督学习方法 |
Non-Patent Citations (2)
Title |
---|
CHRIS DONAHUE ET AL: "Dance Dance Convolution", 《ICML"17: PROCEEDINGS OF THE 34TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 * |
周晶等: "基于序列特征的环状RNA识别", 《生物信息学》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322931A (zh) * | 2019-05-29 | 2019-10-11 | 南昌大学 | 一种碱基识别方法、装置、设备及存储介质 |
CN110600081A (zh) * | 2019-09-10 | 2019-12-20 | 吉林大学 | 一种端到端的基于深度学习的ncRNA家族识别方法 |
CN111243658A (zh) * | 2020-01-07 | 2020-06-05 | 西南大学 | 一种基于深度学习的生物分子网络构建与优化方法 |
CN111243674A (zh) * | 2020-01-08 | 2020-06-05 | 华南理工大学 | 一种碱基序列的识别方法、装置和存储介质 |
CN111243674B (zh) * | 2020-01-08 | 2023-07-04 | 华南理工大学 | 一种碱基序列的识别方法、装置和存储介质 |
CN111584006A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 基于机器学习策略的环形rna识别方法 |
CN111584006B (zh) * | 2020-05-06 | 2022-02-22 | 西安交通大学 | 基于机器学习策略的环形rna识别方法 |
CN113344076A (zh) * | 2021-06-08 | 2021-09-03 | 汕头大学 | 一种基于集成学习的circRNA-miRNA相互作用关系预测方法 |
CN113344076B (zh) * | 2021-06-08 | 2022-03-22 | 汕头大学 | 一种基于集成学习的circRNA-miRNA相互作用关系预测方法 |
CN115394376A (zh) * | 2022-09-28 | 2022-11-25 | 奥明(杭州)生物医药有限公司 | 一种预测环状rna ires的方法 |
WO2023197718A1 (zh) * | 2022-09-28 | 2023-10-19 | 奥明(杭州)生物医药有限公司 | 一种预测环状rna ires的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109448795B (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109448795A (zh) | 一种circRNA的识别方法及装置 | |
CN109918532A (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN108897989A (zh) | 一种基于候选事件元素注意力机制的生物事件抽取方法 | |
CN106528858A (zh) | 歌词生成方法及装置 | |
CN109492765A (zh) | 一种基于迁移模型的图像增量学习方法 | |
CN108171280A (zh) | 一种分类器构建方法及预测分类的方法 | |
CN107766506A (zh) | 一种基于层次化注意力机制的多轮对话模型构建方法 | |
CN106527757A (zh) | 一种输入纠错方法及装置 | |
CN106022473A (zh) | 一种融合粒子群和遗传算法的基因调控网络构建方法 | |
CN112000772A (zh) | 面向智能问答基于语义特征立方体的句子对语义匹配方法 | |
CN109961041A (zh) | 一种视频识别方法、装置及存储介质 | |
CN106779053A (zh) | 一种基于影响因子和神经网络的知识点摸底方法 | |
CN108510050A (zh) | 一种基于混洗蛙跳的特征选择方法 | |
CN105760706A (zh) | 一种二代测序数据的压缩方法 | |
CN107544960A (zh) | 一种基于变量绑定和关系激活的推理方法 | |
CN107944460A (zh) | 一种应用于生物信息学中类别不平衡分类方法 | |
CN109214407A (zh) | 事件检测模型、方法、装置、计算设备及存储介质 | |
CN105786898B (zh) | 一种领域本体的构建方法和装置 | |
CN106227719A (zh) | 中文分词歧义消除方法和系统 | |
CN110109543A (zh) | 基于被试迁移的c-VEP识别方法 | |
CN109189892A (zh) | 一种基于文章评论的推荐方法及装置 | |
CN110175657A (zh) | 一种图像多标签标记方法、装置、设备及可读存储介质 | |
CN107886163A (zh) | 基于agn及cnn的单目标优化问题寻优方法及装置 | |
Shivaprakash et al. | The evolution of placentation in flowering plants: A possible role for kin selection | |
CN113658633B (zh) | 噬菌体宿主属预测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |