CN111192631A - 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统 - Google Patents

用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统 Download PDF

Info

Publication number
CN111192631A
CN111192631A CN202010000530.1A CN202010000530A CN111192631A CN 111192631 A CN111192631 A CN 111192631A CN 202010000530 A CN202010000530 A CN 202010000530A CN 111192631 A CN111192631 A CN 111192631A
Authority
CN
China
Prior art keywords
data
feature mapping
rna
binding site
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010000530.1A
Other languages
English (en)
Other versions
CN111192631B (zh
Inventor
吴杨
杨瑞
赵屹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202010000530.1A priority Critical patent/CN111192631B/zh
Publication of CN111192631A publication Critical patent/CN111192631A/zh
Application granted granted Critical
Publication of CN111192631B publication Critical patent/CN111192631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明提供了一种构建用于预测蛋白质‑RNA相互作用结合位点模型的方法和系统,与其对应的还包括使用该方法预测蛋白质‑RNA相互作用结合位点的方法和系统。其使用RNA与蛋白质结合位点处及上下游的序列特征以及测定的RNA结构特征来训练深度学习模型,并使用所述模型对蛋白质‑RNA相互作用结合位点进行预测。在所述特征的提取过程中分别使用了基于卷积神经网络构建的基序获取模块和基于循环神经网络构建的上下文语义获取模块。本发明中训练出的模型在判断准确度和计算时间以及应用平台的广泛性方面都相比于现有技术有着显著进步。

Description

用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法 和系统
技术领域
本发明涉及RNA-蛋白质相互作用预测技术,尤其涉及用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法和系统,以及对应的使用所述方法预测蛋白质-RNA相互作用结合位点的方法和系统。
背景技术
目前基于深度学习技术对RNA-蛋白质相互作用预测的方法主要有DeepBind(参见Alipanahi,B et al.,(2015).Nature Biotechnology 33,831–
838.)、Deepnet-rbp(参见Zhang,S et al.,(2016).Nucleic Acids Res 44,e32–
e32)和iDeepE(参见Pan,X et al.,(2018).Bioinformatics 34,3427–3436)等。
现有技术DeepBind方法,该模型结构使用卷积神经网络,基于RNA的序列数据进行训练。由于提出时间较早,模型结构简单,因此建模能力不足,准确率较低。而且仅使用RNA与蛋白质结合的序列信息,未考虑RNA的结构信息。
另一个现有技术Deepnet-rbp方法,该方法整合RNA与蛋白质结合的序列信息,并引入“预测”(非真实实验数据)的RNA三级结构信息,使用深度信念网络进行建模,准确率有了一定的提升,但仍较低。另外预测RNA三级结构信息过程非常耗时,因此模型训练时间也较长。
另一个现有技术iDeepE方法,训练了两个分别基于全局序列和局部序列的卷积神经网络模型,并将这两个模型的预测结果求平均作为最终预测值。虽然其准确率相对有提升,但是大幅提升了训练模型的复杂程度,容易导致过拟合,同时也会大大增加了该模型在计算机上训练的计算时间。
另外,Deepnet-rbp方法使用的RNA结构为预测的体外结构,并非来自实验中的真实体内数据,从而不足以捕捉体内条件下的真实RNA结构信息,因此模型的预测准确度也相应受到影响。
发明内容
因此本发明实施例的目的在于克服上述现有技术的缺陷,提供一种用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法和系统,以及使用所述方法预测蛋白质-RNA相互作用结合位点的方法和系统,对蛋白质-RNA相互作用结合位点进行有效预测。
根据本发明的一方面,本发明提供一种构建用于预测蛋白质-RNA相互作用结合位点的模型的方法,包括以下步骤:
步骤1、获得已知的蛋白质-RNA相互作用的结合位点处及其上下游区域的序列数据,以及测定的所述蛋白质-RNA相互作用的结合位点及其上下游区域的结构数据;
步骤2、分别基于卷积神经网络CNN方法提取其中的所述结合位点处的序列数据的特征映射以及所述结构数据的特征映射,得到基序特征映射组合;
步骤3、分别基于循环神经网络RNN方法提取其中的结合位点及其上下游区域的序列数据的特征映射以及对应的结构数据的特征映射,得到上下文语义特征映射组合;
步骤4、将所述基序特征映射组合与所述上下文语义特征映射组合经过拼接和正则化处理进行融合得到整体特征映射组合;
步骤5、利用所述整体特征映射组合,在训练数据集上,基于深度学习方法进行模型训练,得到所述蛋白质-RNA相互作用结合位点的预测模型。
作为构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的优选方案,步骤1所述测定的所述蛋白质-RNA结合位点的结构数据是RNA结构组学测定实验技术所产生的结构数据。
作为构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的更优选方案,所述RNA结构组学测定实验技术所产生的结构数据是DMS-seq、PARS、icSHAPE结构数据。
作为构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的另一优选方案,步骤2所述基于卷积神经网络CNN方法的步骤包括:
步骤201,从步骤1得到的数据集中提取结合位点序列数据以及对应的结构数据,将其分别左右扩增到相同的长度,并对所述序列数据进行编码;
步骤202,将所述结构数据和经过编码的序列数据分别传递到卷积模块中进行卷积计算,然后分别使用激活函数对其进行激活,最后将其传递到最大池化层分别进行最大池化,输出结构的特征映射和序列的特征映射;
步骤203,将所述的结构特征映射和序列特征映射对应相加而融合,并且对融合后的特征映射组合进行正则化处理,之后传递到全连接层,最后使用激活函数对其进行激活,输出完整的基序特征映射组合。
作为构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的另一优选方案,步骤3所述基于循环神经网络RNN方法的步骤包括:
步骤301,从步骤1得到的数据集中提取结合位点及其上下游区域的序列数据,以及对应的结构数据,分别将其左右扩增到相同的长度,并对所述结合位点及其上下游区域的序列数据进行编码;
步骤302,将所述结合位点及其上下游区域的结构数据和经过编码的序列数据分别传递到卷积模块中进行卷积计算,然后分别使用激活函数进行激活,最后传递到最大池化层分别进行最大池化,提取出结合位点及其上下游区域的结构特征映射和序列特征映射;
步骤303,将所述的结合位点及其上下游区域结构的特征映射和序列的特征映射进行对应相加融合,并将融合的特征映射传递到采用了循环神经网络方法的Bi-LSTM层计算模型中进行序列上下文语义特征的学习,输出上下文语义特征映射;
步骤304,将所述的Bi-LSTM层的输入端的融合的特征映射与输出端的上下文语义特征映射相加构建成一个残差模块,输出完整的上下文语义特征映射组合。
在上述方法中进一步优选,步骤2或步骤3所述的编码采用如下公式:
Figure BDA0002353105750000031
其中,si,j表示待编码的序列数据,Mi,j表示编码后的输出值。
作为构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的又一优选方案,步骤5所述的基于深度学习方法包括使用均方误差损失进行回归训练,或使用Softmax激活函数和交叉熵损失进行分类训练。
根据本发明的另一方面,本发明提供一种构建用于预测蛋白质-RNA相互作用结合位点模型的系统,包括处理器,存储器以及储存在存储器上的计算机程序,所述计算机程序在处理器上执行实现上文任一所述的构建用于预测蛋白质-RNA相互作用结合位点模型的方法。
根据本发明的另一方面,本发明进一步提供一种用于预测蛋白质-RNA相互作用结合位点的方法,包括:
步骤1、将待测的RNA转录本的序列中特定长度的子序列做为潜在的RNA结合蛋白的结合位点,获得潜在的结合位点处及其上下游区域的序列数据,以及所述潜在结合位点及其上下游区域的结构数据,将所述序列数据和结构数据输入通过前述任一项构建的针对所述RNA结合蛋白的模型。
步骤2、分别基于卷积神经网络CNN方法提取其中的所述结合位点处的序列数据的特征映射以及所述结构数据的特征映射,得到基序特征映射组合;
步骤3、分别基于循环神经网络RNN方法提取其中的结合位点及其上下游区域的序列数据的特征映射以及对应的结构数据的特征映射,得到上下文语义特征映射组合;
步骤4、将所述基序特征映射组合与所述上下文语义特征映射组合经过拼接和正则化处理进行融合得到整体特征映射组合;
步骤5、将所述整体特征映射组合,通过分类预测,得到该RNA结合蛋白与待测RNA转录本子序列之间相互结合与否的判断结果;或通过回归预测,获得两者之间结合强度的预测值
根据本发明的另一方面,本发明提供一种用于预测蛋白质-RNA相互作用结合位点的系统,包括处理器,存储器以及储存在存储器上的计算机程序,所述计算机程序在处理器上执行实现所述用于预测蛋白质-RNA相互作用结合位点的方法。
根据本发明的另一方面,本发明提供一种计算机可读储存介质,其上储存有计算机程序,所述程序被处理器执行时实现所述用于预测蛋白质-RNA相互作用结合位点的方法。
本发明实施例的技术方案可以包括以下有益效果:
1,本发明(RBPnet)预测RNA结合蛋白的平均分类准确率0.961,超过了之前的最好算法iDeepE(目前已公开的技术方案中,发表时间最晚,预测准确度最高的模型)的平均准确率0.931,本发明在其基础上提升了3个百分点。
2,本发明所构建的网络模型可在CPU上训练,时间复杂度大大优于iDeepE,而iDeepE虽然可以在CPU上训练,但速度明显很慢。
3,对于10000个样本量,本发明的RBPnet模型在CPU上大约需要20分钟即可训练完毕,iDeepE方法则需要大约3小时完成。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
在附图中:
图1示出了根据本发明一个实施例的采用回归模型构建预测蛋白质-RNA相互作用结合位点模型的方法,以及使用该模型对待测数据进行预测的方法的流程示意图。
图2示出了根据本发明一个实施例训练得到的回归模型对长非编码RNA打分后按照功能性进行聚类的结果与验证示意图。
图3示出了根据本发明一个实施例的采用分类模型构建预测蛋白质-RNA相互作用结合位点模型的方法,以及使用该模型对待测数据进行预测的方法的流程示意图。
具体实施方式
根据本发明(RBPnet)的一个方面,训练所述模型所使用的原始数据不仅包括与蛋白质结合的RNA的序列数据,而且引入了RNA结构组学测定实验技术所产生的结构组学测定数据,如DMS-seq结构组学测定数据作为模型的输入数据。相比现有技术(比如上文提到的Deepnet-rbp等模型),基于DMS-seq技术的RNA结构组学数据可以提供体内真实细胞状态下RNA的二级结构信息,因此本发明将其用于RNA-蛋白质互作研究,用于解决使用软件预测RNA结构不准确并且不能反应真实状态下的体内RNA结构信息的问题。
根据本发明(RBPnet)的一个方面,在数据的处理部分中设计了两个模块,一个名为基序获取模块,由卷积神经网络构建,该模块将结合位点处的序列和结构数据作为输入,用于寻找与RNA结合蛋白(RBP)结合的位点附近的局部序列特征和局部结构特征;另一个名为上下文语义获取模块,由循环神经网络构建,该模块将结合位点及其周围(上下游)的序列和结构数据作为辅助特征,从而提升RNA-蛋白质互作预测模型的准确度。最终RBPnet模型将两个模块提取到的特征进行融合,通过分类或回归训练,获得蛋白质-RNA结合位点是否互作、互作强度的预测输出。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动下获得的所有其他实施例,都属于本发明保护的范围。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
第一个实施例:
本实施例详细描述了一种构建用于预测蛋白质-RNA相互作用结合位点的模型的方法,同时描述了使用上述方法构建模型并对未知RNA对应于某一RNA结合蛋白的潜在结合位点是否与该RNA结合蛋白发生相互作用进行预测的方法,其过程是基于python3.6.8-tensorflow1.5.0-keras2.2.4实现。
参考图1,本实施例包括构建模型的过程和使用模型进行预测的过程。其中第一过程为构建该模型的方法,分为五个步骤:1,构建数据集;2,构建RBPnet预测模型的基序获取模块;3,构建RBPnet预测模型的上下文语义获取模块;4,融合得到RBPnet预测模型的完整特征映射组合;5,利用完整特征映射组合,在训练数据集上,对RBPnet预测模型进行回归或分类训练。
本实施例的第二过程包括使用上一步所构建的模型对待测试数据进行预测。
其中第一过程步骤1为构建样本集,参考图1的输入部分。获得已知的蛋白质-RNA相互作用的结合位点处及其上下游区域的序列数据以及对应的结构数据,将其划分为训练集,验证集和测试集而作为输入层数据。其具体包括:
获取序列数据时,首先获得经过ENCODE国际项目(DNA元件百科全书)所产生的eCLIP数据,处理而得到一组峰值(peak)文件作为正数据集(即该RNA片段的基因组位置跟该RNA结合蛋白(RBP)是结合的,分类标签为1,回归标签是它的结合强度),同时,使用随机筛选的工具从RNA基因组中寻找等量的一些长度、GC含量、基因组功能元件分布等各方面比较匹配的基因组位置,做为负数据集(该基因组位置跟该RBP不结合,分类标签和回归标签都为0)。为了对网络模型进行测试,将正负数据集分为3份,分别为训练集、测试集和验证集,3份数据集比例约为5:1:1。每份数据集中,一半为正样本集,一半为负样本集,使其保持平衡。各数据集的数据不存在交集。
所述的结合位点(峰值)处的数据原始文件内容包括:染色体、起始位置、终止位置、峰值上游延伸的长度,峰值下游延伸的长度,信号值(0表示负数据集,有值代表信号的高低),峰值以及上下游的序列值,跟这个区域重叠的转录本id等必要数据。从其中提取结合位点(峰值)处的序列值数据和其上下游的序列值数据作为下一层的输入。
本发明的输入层数据除了结合位点(峰值)处的序列数据之外,引入了RNA结构组学测定实验技术所产生的结构组学测定数据,这一类结构数据可以是DMS-seq、PARS、icSHAPE等多种结构组学测定数据。本实施例使用DMS-seq结构数据,其是真实的实验中得到的与每一个结合位点处的序列对应的RNA结构数据,来源于DMS-seq实验技术,包括在体内条件下(in vivo,简称vivo)、体外条件下(in vitro,简称vitro)、对照条件下(control),各测得一套数据。该结构数据在每个碱基处的值,如果为0,则表示没有测到结构数据,或者是该碱基在RNA结构中处于双链配对(double-stranded)状态;如果该结构数据值特别大,则表示该碱基在RNA结构中处于单链(single-stranded)状态。将原始数据经过预处理,得到的数据文件内容包括有:(1)体内条件、体外条件、对照条件三种状态下的上游+峰值区+下游区域,每个碱基的DMS-seq信号值,(2)上游延伸的长度、下游延伸的长度,(3)上游+峰值区+下游区域的完整序列,(4)跟这个区域重叠的转录本id。从其中提取结合点处对应的结构数据作为下一层的输入。
步骤2,如图1中的基序获取模块中所示,根据步骤1得到的数据,提取其中的结合位点处的序列特征映射以及对应的结构特征映射,组合而得到基序特征映射组合,具体包括:
步骤201,如图1中基序获取模块中所示的“扩展及编码”,将根据步骤1得到的结合位点处序列数据以及对应的结构数据分别左右扩展到相同的长度75nt。在扩展时,对于数据单元为空的情况,序列数据使用字母N进行填充,对于结构数据使用0值进行填充。
对填充完成的序列数据进行编码,其中所述的编码方式如公式(1)所示。检测到某一单元(i,j)内元素si,j属于可分辨的碱基(A,C,G,U)集合时编码输出值Mi,j取输出值为1,如果出现N则取输出值为0.25(即假定A,C,G,U出现概率均等),其他情况输出值为0。本步骤输出的数据中,序列数据维度为4×75,结构数据维度为1×75。
Figure BDA0002353105750000081
步骤202,如图1中基序获取模块中所示的“卷积层”,“激活层”,“池化层”,将所述结构数据和经过编码分类的序列数据分别传递到卷积模块中进行卷积计算。卷积层使用16个大小为4×10的卷积核,步长设为1,输出的结构和序列特征映射维度均为16×1×66(即十六个卷积核的计算结果,每一结果为1×66维度)。对上一步卷积计算输出的结构和序列特征映射(特征图),分别使用ReLU激活函数进行激活,得到激活后的输出特征映射,输出的结构特征映射和序列特征映射的维度均为16×1×66。分别将上一步输出的特征映射传递到最大池化层进行特征的采样,步长设为1。输出的序列特征映射和结构特征映射的维度均为16×1×57。
步骤203、对上一步经过池化层之后的序列和结构的每个特征映射对应相加进行融合,如图1基序获取模块中所示的
Figure BDA0002353105750000092
在融合过程中,序列数据和结构数据这两者的每一对应位置数据相加,相加后输出的新数据维度不变,仍然为16×1×57。之后,将融合后的特征映射传递到正则化层进行正则化处理,这里使用了Dropout函数实施正则化。该实施例中Dropout概率设置为0.5,但也可使用(0,1)区间内其他概率值。输出的特征映射的维度为16×1×57。将所述的正则化处理后的特征映射传递到全连接层。输出的特征映射的维度为1×128,再分别使用ReLU激活函数进行激活,得到完整的基序特征映射组合,维度为1×128。
步骤3、采用循环神经网络方法,根据步骤1得到的有效数据提取其中的结合位点及其上下游区域的序列的特征映射,与结构的特征映射组合而得到上下文语义特征映射组合,参照如图1所示的“上下文语义获取模块”,具体包括:
步骤301,从步骤1得到的数据集中提取结合位点及其上下游区域的序列数据,以及对应的结构数据,分别左右扩增到相同的长度375nt,即结合位点处序列占用75nt长度,及上下游各延伸150nt。在扩张时,对于数据单元为空的情况,序列数据使用字母N进行填充,结构数据使用0值进行填充。然后对扩充完的序列数据进行编码,其中所述的编码方式如公式(2)所示,与步骤2相同,即检测到单元(i,j)内元素属于RNA的碱基(A,C,G,U)集合时,编码输出值Mi,j取输出值为1,如果出现N则取输出值为0.25(即假定A,C,G,U出现概率均等),其他情况输出值为0。编码后,本步骤输出的数据中,序列数据维度为4×375,结构数据维度为1×375。
Figure BDA0002353105750000091
步骤302,将所述结构数据和经过编码分类的结合位点及其上下游区域的序列数据分别传递到卷积模块中进行卷积计算,该层卷积模块使用32个大小为4×5的卷积核对数据进行特征提取,步长设为1,输出特征映射维度为32×1×371。然后将所述的提取后的输出特征映射经过激活层,使用ReLU激活函数进行激活,输出的结构特征映射和序列特征映射的维度均为32×1×371。将激活后的输出特征映射传递到池化层,采用最大池化进行特征降维,池化层步长设为5,提取出结构的特征映射和序列结合位点及其上下游区域的特征映射,维度均为32×1×74。
步骤303,将所述的结构的特征映射和序列的特征映射进行对应相加融合,如图1所示的“上下文语义获取模块”中的池化层下方的
Figure BDA0002353105750000101
所示,在融合过程中,序列数据和结构数据这两者的每一对应位置数据相加,相加后输出的新数据维度不变,仍然为32×1×74。将融合的特征映射传递到Bi-LSTM层(循环神经网络层)计算模型中进行序列上下文语义特征的学习,输出上下文语义特征映射;输出的特征映射的维度为64×1×74。
步骤304,将所述的Bi-LSTM层的输入端的融合的特征映射与输出端的上下文语义特征映射相加构建成一个残差模块。该步骤的输入值分两部分,一部分是输入BILSTM之前的数据,维度为32×1×74;另一部分为Bi-LSTM输出后的数据,其原本维度为64×1×74,经映射后得到32×1×74维的数据,然后将两部分输入通过加和进行拼接(如图1“上下文语义获取模块中”的Bi-LSTM层下方的
Figure BDA0002353105750000102
所示),输出完整的上下文语义特征映射组合。残差模块的使用可以防止网络梯度消失,使得网络层加深,有利于模型的训练。拼接后的数据维度为32×1×74。最后残差模块经过Flatten层处理,这是为了将多维的输入一维化,也即将32×1×74的数据维度展开成1×2368(由32x74得到)。
步骤4、将步骤2所得到的基序特征映射组合与步骤3所得到的上下文语义特征映射组合融合为整体特征映射组合,具体包括:
将维度为1×128的基序特征映射组合与维度为1×2368的上下文语义特征映射组合拼接到一起,然后对拼接后的特征映射使用Dropout函数进行正则化,输出整体特征映射组合,其维度为1×(128+2368)=1×2496。该实施例中Dropout概率设置为0.5,但也可使用(0,1)区间内其他概率值。
步骤5、利用所述整体特征映射组合,基于反向传播(back propagation)算法进行模型训练,回归训练采用均方误差损失,分类训练采用Softmax激活函数和交叉熵损失,在训练中调整优化基序模块以及上下文语义模块每一层的参数值。由于提取出的整体特征映射组合包含有训练集,验证集和测试集,所以这里采用训练集进行训练,当模型在验证集上的打分准确度,即分类性能(AUC)或回归的相关系数(Pearson相关系数,PCC),超过预设定的数值时,训练结束。
本实施例的第二过程包括使用上一步所构建的模型对待测试数据,例如所述测试集或者未知的待测RNA序列(其可能是潜在的RNA结合蛋白的结合位点的RNA转录本的序列中特定长度的子序列)进行预测打分,输出蛋白质-RNA结合强度(回归模型,若为分类模型,则预测结合与否)的预测结果。其中,所述的测试集,总量是训练集的1/5,包括了一半的正样本集和一半的负样本集,经过了与训练集相同的特征提取过程,融合成为了所述整体特征映射组合,即最终输入所述模型中的数据。
本发明在计算速度上远远超过了与其计算准确度最接近的iDeepE模型。iDeepE有一个global模型和一个local模型,其各自的参数量分别是1,555,964和279,804,iDeepE最终的模型是两者的整合,也就是说,iDeepE总参数是1,835,768。而本发明的RBPnet只考虑序列数据的情况下,其模型参数为141,906。如果在序列数据基础上加入结构数据(把体内数据(in vivo)、和体外数据(in vitro)两套数据全加),所述模型总参数量为142,642。可以看出RBPnet的参数量远远小于之前表现最好的iDeepE,参数量大约缩小了一个量级,因而本发明的模型计算时间也大约缩短了一个量级,在实际训练中,10000个样本量的本发明的数据集在CPU上大约需要20分钟即可训练完毕,而同样对于这10000个样本量的数据集,iDeepE方法则需要大约3小时完成。
为了对本发明的模型进行验证,本实施例引进了采用Lnc2Cancer数据库中的562个与癌症相关,且存在于GENCODE数据库中的长非编码RNA来构建测试集,并以本领域公知的已经归类的长非编码RNA(Kirk,J.M.,et al.(2018).Functional classification oflong non-coding RNAs by k-mer content.Nature Genetics 50,1474.),作为判定标准来检验回归模型训练结果的有效性。此处需要强调,长非编码RNA的功能研究领域有一个众所周知的难题。由于长非编码RNA的序列相似性特别低,所以即使测出了一个长非编码RNA的功能,并不会给其他长非编码RNA的分类提供太多参考(对于mRNA,如果测得了彼此之间的序列相似性,就可以基本确定一族mRNA,处在一族中的mRNA,功能是相似的,所以预测难度较低)。如果能为长非编码RNA预测有效的结合蛋白,即互作伙伴(interactionpartner),则能对他非编码RNA的功能研究提供非常有价值的信息。但是,长非编码RNA表达量特别低,用实验手段,测得它的互作伙伴,也相对更难,因此,有效的预测RNA-蛋白质的互作,并准确预测其互作强度,是非常重要的。
具体的,对测试集中的每一个长非编码RNA,采用滑动窗口法获得该待测RNA上的潜在结合位点,并依次进行各RNA结合蛋白(RBP)的结合强度预测,挑选具有最大预测值的潜在结合位点作为预测的结合位点,最大的预测值做为该长非编码RNA与该RNA结合蛋白(RBP)的结合预测值。由此构建每个长非编码RNA的RNA结合蛋白(RBP)结构谱特征向量,然后计算长非编码RNA与长非编码RNA之间的结合各RNA结合蛋白的相似性,以此相似性进行一致聚类,将聚类结果与所述本领域公知的已经归类的长非编码RNA相比较,其比较结果如图2所示,图中给出了27个长非编码RNA聚类后的结果。图2的坐标轴从左上角开始表示27个RNA分别按照相同的排列顺序沿着行和列向右或者向下排列,其顺序与名称显示在右侧列;图2的每一个方格表示该方格对应行的RNA与对应列的RNA的相似度数值的灰度表示。图中沿着左上角斜向下的对角线分布着几个较亮的方格状区域,代表了计算后聚类的结果,按照同组RNA相对其他组更高的相似度,将其人为的划分为6组,分组范围以该组RNA不同的灰度为代表显示在右侧纵轴边栏,例如中间的“BACE1-AS”“UCA1”为一组。
对该分组的验证参照数据为公知的负责激活(cis-activating)功能的长非编码RNA,例如PVT1,PCAT6,HOTAIRM1、HOTTIP(黑点标识),在本发明训练的模型预测的聚类结果中均分布于右侧纵轴上方,而负责抑制(cis-repressive)功能的长非编码RNA,例如BDNF-AS、XIST、CDKN2B-AS1、KCNQ10T1等(方框标识),均分布于右侧纵轴下方。两类公知的功能不同的长非编码RNA在本模型的预测中被精确的划分开来,没有出现一例交叉,这一结果证实了本发明的预测准确性非常高。
与以上验证集验证过程同样的,在使用该训练出的模型对未知待测的RNA是否与某一蛋白质结合(分类预测)进行打分时,对该未知的待测RNA原始数据进行本实施例同样的特征提取步骤:包括对原始数据进行提取得到基序特征映射组合,以及提取得到上下文语义特征映射组合,然后将两者融合得到整体特征映射组合;其中,待测RNA原始数据包括待测蛋白质-RNA潜在结合位点及其上下游区域的序列数据与结构数据。
第二个实施例:
在本发明的第二个实施例中,采用与实施例一相同的构建并且训练模型方法,但是在使用该模型对待测试数据进行预测时,待测数据可以只包括序列数据而不包括结构数据(即结构数据为空集)。此时仍然可以使用前述已经训练好的模型对该待测序列数据进行打分,其中该序列数据经过与训练集相同的特征提取过程(即分别经过基序模块和上下文语义模块)而融合成为了整体特征映射组合,输入已经训练好的模型进行打分,预测出结合强度。此实施例对应于实验条件有限而无法得到RNA结构组学测定实验技术所产生的结构数据的情况。
第三个实施例:
在本发明的第三个实施例中,不同于实施例一构造并且训练模型时采用的回归训练模型,本实施例采用了分类训练模型,其他步骤,如特征提取、语义获取、特征融合并正则化与第一个实施例相同,如图3所示。具体为使用Softmax激活函数和交叉熵损失进行分类训练,并采用数据集中的所述正样本集和负样本集进行训练,其中原始数据集信息中存有已知的结合位点序列与蛋白质结合的强度值,可规定强度值大于2的数据被划分为正样本,标签置为1,并根据正样本通过一定规则产生处负样本,标签置为0.进而可进行分类训练,得到的模型可以用于预测待测定RNA是否可能与蛋白质进行结合的判断结果(是或者否)。
在同一套数据集上,为24个已知的RNA结合蛋白(RBP)分别构造一个预测模型,然后使用测试集中任一RNA原始数据,输入到已训练好的模型中,将该数据经过上述特征提取之后的整体特征映射组合进行分类预测,输出该RNA与该蛋白结合的分类结果。表1中给出了,在分类模型上,本发明在相同的计算机平台上与现有技术的算法iDeepE、GraphProt、Deepnet-rbp这三者相比的针对各个RNA结合蛋白(RBP)的预测准确度比较结果,其纵坐标为RNA结合蛋白(RBP)名称,横坐标为不同技术的名称(本发明为RBPnet)。其中在对23个RNA结合蛋白的测试中,本发明RBPnet的分类性能(AUC)都是最高的。对于分类性能(AUC)平均值,具体如表1的最后一行所示,iDeepE平均准确率0.931,GraphProt平均准确率0.887,Deepnet-rbp平均准确率0.903,而本发明RBPnet平均准确率0.961,超过了之前的最好算法iDeepE平均准确率0.931,在其基础上提升了3个百分点。
表1本发明相对于三种现有技术的分类性能对比(针对24种RNA结合蛋白(RBP))
RBP iDeepE GraphP Deepne RBPNe RBP iDeepE GraphP Deepnet RBPNet
ALKBH5 0.758 0.68 0.714 0.793 HNRNPC 0.976 0.952 0.962 0.98
Ago1-4 0.915 0.895 0.881 0.963 IGFBP1-3 0.947 0.889 0.879 0.978
Ago2 0.884 0.765 0.809 0.914 MOV10 0.916 0.863 0.854 0.97
C17ORF85 0.83 0.8 0.82 0.926 PTB 0.944 0.937 0.983 0.959
C22ORF28 0.837 0.751 0.792 0.898 PUM2 0.967 0.954 0.971 0.985
CAPRIN1 0.893 0.855 0.834 0.976 QKI 0.97 0.957 0.983 0.985
ELAVL1A 0.964 0.959 0.966 0.978 SFRS1 0.946 0.898 0.931 0.98
ELAVL1B 0.971 0.9 0.961 0.988 TAF15 0.976 0.97 0.983 0.987
ELAVL1H 0.979 0.955 0.966 0.984 TDP43 0.945 0.874 0.876 0.954
ELAVL1C 0.988 0.991 0.994 0.999 TIA1 0.937 0.861 0.891 0.945
EWSR1 0.969 0.935 0.966 0.988 TIAL1 0.934 0.833 0.87 0.954
FUS 0.985 0.968 0.98 0.995 ZC3H7B 0.907 0.82 0.796 0.974
平均 0.931 0.887 0.903 0.961
根据本发明的另一个实施例,公开一种构建用于预测蛋白质-RNA相互作用结合位点的模型的系统,包括处理器,储存器以及储存在储存器上并可以在处理器上实现上述实施例一或三中所述构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的步骤。
根据本发明的另一个实施例,公开一种计算机可读储存介质,其上储存有计算机程序,所述程序被处理器执行时实现上述实施例中构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的步骤。
根据本发明的另一个实施例,公开一种用于预测蛋白质-RNA相互作用结合位点的系统,包括处理器,储存器以及储存在储存器上并可以在处理器上实现实施例一至三所述的用于预测蛋白质-RNA相互作用结合位点的方法中的步骤。
根据本发明的再一个实施例,公开一种计算机可读储存介质,其上储存有计算机程序,其特征在于,所述程序被处理器执行时实现实施例一至三所述的用于预测蛋白质-RNA相互作用结合位点的方法中的步骤。
对应于本专利说明书所述实施例中所述的模型训练方法,除了在实施例中,还在以下的表2提供了其中各个步骤详细的参数说明,所述参数的设置同样基于python3.6.8-tensorflow1.5.0-keras2.2.4环境实现,但其仅仅是示例性说明:
表2RBPNet模型参数设置
Figure BDA0002353105750000151
Figure BDA0002353105750000161
尽管该框图以功能上分开的方式来描述组件,但这样的描述仅为了说明的目的。图中所示的组件可以任意地进行组合或被分为独立的软件、固件和/或硬件组件。而且,无论这样的组件是如何被组合或划分的,它们都可以在同一计算装置或多个计算装置上执行,其中多个计算装置可以是由一个或多个网络连接。
本说明书中“包括”和“具有”以及类似含义的术语表达,意图在于覆盖不排他的包含,例如包含了一系列步骤或单元的过程、方法、系统、产品或设备并不限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。“一”或“一个”也不排除多个的情况。
虽然本发明已经通过上述实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims (13)

1.一种构建用于预测蛋白质-RNA相互作用结合位点模型的方法,其中包括如下步骤:
步骤1、获得已知的蛋白质-RNA相互作用的结合位点处及其上下游区域的序列数据,以及测定的所述蛋白质-RNA相互作用的结合位点及其上下游区域的结构数据;
步骤2、分别基于卷积神经网络CNN方法提取其中的所述结合位点处的序列数据的特征映射以及所述结构数据的特征映射,得到基序特征映射组合;
步骤3、分别基于循环神经网络RNN方法提取其中的结合位点及其上下游区域的序列数据的特征映射以及对应的结构数据的特征映射,得到上下文语义特征映射组合;
步骤4、将所述基序特征映射组合与所述上下文语义特征映射组合经过拼接和正则化处理进行融合得到整体特征映射组合;
步骤5、利用所述整体特征映射组合,在训练数据集上基于深度学习方法进行模型训练,得到蛋白质-RNA相互作用结合位点预测模型。
2.根据权利要求1所述的方法,其中步骤1所述测定的所述蛋白质-RNA相互作用的结合位点的结构数据是RNA结构组学测定实验技术所产生的结构数据。
3.根据权利要求2所述的方法,其中所述RNA结构组学测定实验技术所产生的结构数据是DMS-seq、PARS或者icSHAPE结构数据。
4.根据权利要求1所述的方法,其中所述步骤2包括:
步骤201,从步骤1得到的数据集中提取结合位点序列数据以及对应的结构数据,将其分别左右扩增到相同的长度,并对所述序列数据进行编码;
步骤202,将所述结构数据和经过编码的序列数据分别传递到卷积模块中进行卷积计算,然后分别使用激活函数对其进行激活,最后将其传递到最大池化层分别进行最大池化,输出结构的特征映射和序列的特征映射;
步骤203,将所述的结构特征映射和序列特征映射对应相加而融合,并且对融合后的特征映射组合进行正则化处理,之后传递到全连接层,最后使用激活函数对其进行激活,输出完整的基序特征映射组合。
5.根据权利要求1所述的方法,其中所述步骤3包括:
步骤301,从步骤1得到的数据集中提取结合位点及其上下游区域的序列数据以及对应的结构数据,分别将其左右扩增到相同的长度,并对所述结合位点及其上下游区域的序列数据进行编码;
步骤302,将所述结合位点及其上下游区域的结构数据和经过编码的序列数据分别传递到卷积模块中进行卷积计算,然后分别使用激活函数进行激活,最后传递到最大池化层分别进行最大池化,提取出结合位点及其上下游区域的序列特征映射和结构特征映射;
步骤303,将所述的结合位点及其上下游区域的序列和结构的特征映射进行对应相加融合,并将融合的特征映射传递到采用了循环神经网络方法的Bi-LSTM层计算模型中进行序列上下文语义特征的学习,输出上下文语义特征映射;
步骤304,将所述的Bi-LSTM层的输入端的融合的特征映射与输出端的上下文语义特征映射相加构建成一个残差模块,输出完整的上下文语义特征映射组合。
6.根据权利要求4或5所述的方法,其中对所述的结合位点及其上下游区域序列进行编码采用如下公式:
Figure FDA0002353105740000021
其中,si,j表示待编码的序列数据,Mi,j表示编码后的输出值。
7.根据权利要求1所述的方法,其特征在于,所述基于深度学习方法包括使用均方误差损失进行回归训练,或使用Softmax激活函数和交叉熵损失进行分类训练。
8.一种构建用于预测蛋白质-RNA相互作用结合位点模型的系统,包括处理器,存储器以及储存在存储器上的计算机程序,所述计算机程序在处理器上执行实现权利要求1至7任一项所述方法。
9.一种计算机可读储存介质,其上储存有计算机程序,其特征在于,所述程序被处理器执行时实现上述权利要求1至7任一项所述方法。
10.一种用于预测蛋白质-RNA相互作用结合位点的方法,包括:
步骤1、将待测的RNA转录本的序列中特定长度的子序列作为潜在的RNA结合蛋白的结合位点,获得潜在的结合位点处及其上下游区域的序列数据,以及所述潜在结合位点及其上下游区域的结构数据,将所述序列数据和结构数据输入通过权利要求1-7之一构建的针对所述RNA结合蛋白的模型;
步骤2、分别基于卷积神经网络CNN方法提取其中的所述结合位点处的序列数据的特征映射以及所述结构数据的特征映射,得到基序特征映射组合;
步骤3、分别基于循环神经网络RNN方法提取其中的结合位点及其上下游区域的序列数据的特征映射以及对应的结构数据的特征映射,得到上下文语义特征映射组合;
步骤4、将所述基序特征映射组合与所述上下文语义特征映射组合经过拼接和正则化处理进行融合得到整体特征映射组合;
步骤5、将所述整体特征映射组合通过分类预测得到所述RNA结合蛋白与所述RNA转录本上的潜在结合位点之间相互结合与否的判断结果;或通过回归预测,获得两者之间结合强度的预测值。
11.根据权利要求10所述的方法,其中所述蛋白质-RNA结合位点及其上下游区域的结构数据可以为空集。
12.一种用于预测蛋白质-RNA相互作用结合位点的系统,包括处理器,存储器以及储存在存储器上的计算机程序,所述计算机程序在处理器上执行实现权利要求10或11的所述方法。
13.一种计算机可读储存介质,其上储存有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求10或11的所述方法。
CN202010000530.1A 2020-01-02 2020-01-02 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统 Active CN111192631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010000530.1A CN111192631B (zh) 2020-01-02 2020-01-02 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010000530.1A CN111192631B (zh) 2020-01-02 2020-01-02 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统

Publications (2)

Publication Number Publication Date
CN111192631A true CN111192631A (zh) 2020-05-22
CN111192631B CN111192631B (zh) 2023-07-21

Family

ID=70709735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010000530.1A Active CN111192631B (zh) 2020-01-02 2020-01-02 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统

Country Status (1)

Country Link
CN (1) CN111192631B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN112420127A (zh) * 2020-10-26 2021-02-26 大连民族大学 基于二级结构和多模型融合的非编码rna与蛋白质相互作用预测方法
CN113178229A (zh) * 2021-05-31 2021-07-27 吉林大学 一种基于深度学习的rna和蛋白质结合位点的识别方法
CN113192559A (zh) * 2021-05-08 2021-07-30 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法
CN113241117A (zh) * 2021-05-21 2021-08-10 北京工业大学 一种基于残差图卷积神经网络rna-蛋白质结合位点判别方法
CN113313167A (zh) * 2021-05-28 2021-08-27 湖南工业大学 一种基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法
CN113362900A (zh) * 2021-06-15 2021-09-07 邵阳学院 一种预测n4-乙酰胞苷的混合模型
CN113593633A (zh) * 2021-08-02 2021-11-02 中国石油大学(华东) 基于卷积神经网络的药物-蛋白相互作用预测模型
CN114023376A (zh) * 2021-11-02 2022-02-08 四川大学 基于自注意力机制的rna-蛋白质结合位点预测方法和系统
CN114507721A (zh) * 2020-11-16 2022-05-17 清华大学 一种全转录组rna结构探测的方法及其应用
WO2022099670A1 (zh) * 2020-11-16 2022-05-19 清华大学 一种全转录组rna结构探测的方法及其应用
DE202022101929U1 (de) 2022-04-09 2022-06-02 Pradipta Bhowmick Intelligentes System zur Vorhersage der Sekundärstruktur von RNA unter Verwendung von faltbaren neuronalen Netzen und künstlicher Intelligenz
CN114842914A (zh) * 2022-04-24 2022-08-02 山东大学 一种基于深度学习的染色质环预测方法及系统
WO2022188785A1 (zh) * 2021-03-08 2022-09-15 中国科学院上海营养与健康研究所 融合深度学习模型的单细胞转录组计算分析方法和系统
WO2023044931A1 (zh) * 2021-09-27 2023-03-30 京东方科技集团股份有限公司 Rna-蛋白质相互作用预测方法、装置、介质及电子设备
WO2023044927A1 (zh) * 2021-09-27 2023-03-30 京东方科技集团股份有限公司 Rna-蛋白质相互作用预测方法、装置、介质及电子设备

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020090631A1 (en) * 2000-11-14 2002-07-11 Gough David A. Method for predicting protein binding from primary structure data
US20030104368A1 (en) * 2001-12-05 2003-06-05 Kemin Zhou Large scale protein nucleic acid interaction profiling
US20050053999A1 (en) * 2000-11-14 2005-03-10 Gough David A. Method for predicting G-protein coupled receptor-ligand interactions
EP1517253A2 (en) * 2003-09-19 2005-03-23 Hitachi Software Engineering Co., Ltd. Method for design support of functional nucleic acids
WO2007001195A1 (en) * 2005-06-27 2007-01-04 Biomatters Limited Methods for the maintenance and analysis of biological data
US20140278128A1 (en) * 2013-03-15 2014-09-18 International Business Machines Corporation Combining RNAi Imaging Data With Genomic Data For Gene Interaction Network Construction
CN105190656A (zh) * 2013-01-17 2015-12-23 佩索纳里斯公司 用于遗传分析的方法和系统
CN105354441A (zh) * 2015-10-23 2016-02-24 上海交通大学 构建植物蛋白质互作网络的方法
CN106029909A (zh) * 2014-02-18 2016-10-12 生物纳米基因公司 测定核酸结构信息的改进方法
CN106529203A (zh) * 2016-12-21 2017-03-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法
CN107220525A (zh) * 2017-05-19 2017-09-29 浙江工业大学 基于rnn的基因调控网络构建与动态差异性分析方法
CN107742061A (zh) * 2017-09-19 2018-02-27 中山大学 一种蛋白质相互作用预测方法、系统和装置
CN108763865A (zh) * 2018-05-21 2018-11-06 成都信息工程大学 一种预测dna蛋白质结合位点的集成学习方法
CN109949859A (zh) * 2019-03-06 2019-06-28 中南大学 一种预测蛋白质-rna相互作用位点的方法
CN110322931A (zh) * 2019-05-29 2019-10-11 南昌大学 一种碱基识别方法、装置、设备及存储介质
CA3100607A1 (en) * 2018-05-23 2019-11-28 Envisagenics, Inc. Systems and methods for analysis of alternative splicing
CN110516788A (zh) * 2019-08-07 2019-11-29 深圳供电局有限公司 一种基于Bi-LSTM算法的非侵入式负荷检测方法及系统

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020090631A1 (en) * 2000-11-14 2002-07-11 Gough David A. Method for predicting protein binding from primary structure data
US20050053999A1 (en) * 2000-11-14 2005-03-10 Gough David A. Method for predicting G-protein coupled receptor-ligand interactions
US20030104368A1 (en) * 2001-12-05 2003-06-05 Kemin Zhou Large scale protein nucleic acid interaction profiling
EP1517253A2 (en) * 2003-09-19 2005-03-23 Hitachi Software Engineering Co., Ltd. Method for design support of functional nucleic acids
WO2007001195A1 (en) * 2005-06-27 2007-01-04 Biomatters Limited Methods for the maintenance and analysis of biological data
CN105190656A (zh) * 2013-01-17 2015-12-23 佩索纳里斯公司 用于遗传分析的方法和系统
US20140278128A1 (en) * 2013-03-15 2014-09-18 International Business Machines Corporation Combining RNAi Imaging Data With Genomic Data For Gene Interaction Network Construction
CN106029909A (zh) * 2014-02-18 2016-10-12 生物纳米基因公司 测定核酸结构信息的改进方法
CN105354441A (zh) * 2015-10-23 2016-02-24 上海交通大学 构建植物蛋白质互作网络的方法
CN106529203A (zh) * 2016-12-21 2017-03-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法
CN107220525A (zh) * 2017-05-19 2017-09-29 浙江工业大学 基于rnn的基因调控网络构建与动态差异性分析方法
CN107742061A (zh) * 2017-09-19 2018-02-27 中山大学 一种蛋白质相互作用预测方法、系统和装置
CN108763865A (zh) * 2018-05-21 2018-11-06 成都信息工程大学 一种预测dna蛋白质结合位点的集成学习方法
CA3100607A1 (en) * 2018-05-23 2019-11-28 Envisagenics, Inc. Systems and methods for analysis of alternative splicing
CN109949859A (zh) * 2019-03-06 2019-06-28 中南大学 一种预测蛋白质-rna相互作用位点的方法
CN110322931A (zh) * 2019-05-29 2019-10-11 南昌大学 一种碱基识别方法、装置、设备及存储介质
CN110516788A (zh) * 2019-08-07 2019-11-29 深圳供电局有限公司 一种基于Bi-LSTM算法的非侵入式负荷检测方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
张凯宇: "基于深度学习的蛋白质-RNA相互作用预测模型构建", 《中国优秀硕士学位论文全文数据库》 *
张凯宇: "基于深度学习的蛋白质-RNA相互作用预测模型构建", 《中国优秀硕士学位论文全文数据库》, 15 February 2018 (2018-02-15) *
张凯宇等: "蛋白质-RNA相互作用预测研究进展", 《军事医学》 *
张凯宇等: "蛋白质-RNA相互作用预测研究进展", 《军事医学》, 31 May 2016 (2016-05-31), pages 437 - 440 *
李俊豪等: "生物信息学在长非编码RNA研究中的应用", 《生理科学进展》 *
李俊豪等: "生物信息学在长非编码RNA研究中的应用", 《生理科学进展》, 30 June 2016 (2016-06-30), pages 168 - 176 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN111798921B (zh) * 2020-06-22 2022-08-05 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN112420127A (zh) * 2020-10-26 2021-02-26 大连民族大学 基于二级结构和多模型融合的非编码rna与蛋白质相互作用预测方法
CN114507721A (zh) * 2020-11-16 2022-05-17 清华大学 一种全转录组rna结构探测的方法及其应用
CN114507721B (zh) * 2020-11-16 2024-04-09 寻鲸生科(北京)智能技术有限公司 一种全转录组rna结构探测的方法及其应用
WO2022099670A1 (zh) * 2020-11-16 2022-05-19 清华大学 一种全转录组rna结构探测的方法及其应用
WO2022188785A1 (zh) * 2021-03-08 2022-09-15 中国科学院上海营养与健康研究所 融合深度学习模型的单细胞转录组计算分析方法和系统
CN113192559B (zh) * 2021-05-08 2023-09-26 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法
CN113192559A (zh) * 2021-05-08 2021-07-30 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法
CN113241117A (zh) * 2021-05-21 2021-08-10 北京工业大学 一种基于残差图卷积神经网络rna-蛋白质结合位点判别方法
CN113313167A (zh) * 2021-05-28 2021-08-27 湖南工业大学 一种基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法
CN113178229A (zh) * 2021-05-31 2021-07-27 吉林大学 一种基于深度学习的rna和蛋白质结合位点的识别方法
CN113178229B (zh) * 2021-05-31 2022-03-08 吉林大学 一种基于深度学习的rna和蛋白质结合位点的识别方法
CN113362900A (zh) * 2021-06-15 2021-09-07 邵阳学院 一种预测n4-乙酰胞苷的混合模型
CN113593633A (zh) * 2021-08-02 2021-11-02 中国石油大学(华东) 基于卷积神经网络的药物-蛋白相互作用预测模型
CN113593633B (zh) * 2021-08-02 2023-07-25 中国石油大学(华东) 基于卷积神经网络的药物-蛋白相互作用预测模型
WO2023044931A1 (zh) * 2021-09-27 2023-03-30 京东方科技集团股份有限公司 Rna-蛋白质相互作用预测方法、装置、介质及电子设备
WO2023044927A1 (zh) * 2021-09-27 2023-03-30 京东方科技集团股份有限公司 Rna-蛋白质相互作用预测方法、装置、介质及电子设备
CN114023376A (zh) * 2021-11-02 2022-02-08 四川大学 基于自注意力机制的rna-蛋白质结合位点预测方法和系统
DE202022101929U1 (de) 2022-04-09 2022-06-02 Pradipta Bhowmick Intelligentes System zur Vorhersage der Sekundärstruktur von RNA unter Verwendung von faltbaren neuronalen Netzen und künstlicher Intelligenz
CN114842914A (zh) * 2022-04-24 2022-08-02 山东大学 一种基于深度学习的染色质环预测方法及系统
CN114842914B (zh) * 2022-04-24 2024-04-05 山东大学 一种基于深度学习的染色质环预测方法及系统

Also Published As

Publication number Publication date
CN111192631B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN111192631A (zh) 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN108595913B (zh) 鉴别mRNA和lncRNA的有监督学习方法
CN106033502B (zh) 鉴定病毒的方法和装置
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
CN112837747B (zh) 基于注意力孪生网络的蛋白质结合位点预测方法
KR102134472B1 (ko) 유전 알고리즘을 활용한 콘볼루션 뉴럴 네트워크의 최적 구조 탐색 방법
Mostavi et al. Deep-2'-O-me: predicting 2'-O-methylation sites by convolutional neural networks
CN111343147B (zh) 一种基于深度学习的网络攻击检测装置及方法
CN113176022B (zh) 一种分段式神经网络压力传感器压力检测方法及系统
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN112270958A (zh) 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法
CN111462820A (zh) 基于特征筛选和集成算法的非编码rna预测方法
CN112489723A (zh) 基于局部进化信息的dna结合蛋白预测方法
CN107480441B (zh) 一种儿童脓毒性休克预后预测的建模方法及系统
CN111708865B (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN113823356A (zh) 一种甲基化位点识别方法及装置
Yang et al. i2OM: Toward a better prediction of 2′-O-methylation in human RNA
CN113257357A (zh) 蛋白质残基接触图预测方法
CN112396118A (zh) 一种基于gm-hmm的驾驶员加速意图建模方法
CN111370055B (zh) 内含子保留预测模型建立方法及其预测方法
CN112669905A (zh) 基于数据增强的rna序列编码潜力预测方法及系统
WO2023183422A1 (en) Identifying genome features in health and disease
CN113260710A (zh) 用于通过多个定制掺合混合物验证微生物组序列处理和差异丰度分析的组合物、系统、设备和方法
CN108595914A (zh) 一种烟草线粒体rna编辑位点高精度预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant