CN113160885A - 基于胶囊网络的rna与蛋白质绑定偏好预测方法和系统 - Google Patents

基于胶囊网络的rna与蛋白质绑定偏好预测方法和系统 Download PDF

Info

Publication number
CN113160885A
CN113160885A CN202110266679.9A CN202110266679A CN113160885A CN 113160885 A CN113160885 A CN 113160885A CN 202110266679 A CN202110266679 A CN 202110266679A CN 113160885 A CN113160885 A CN 113160885A
Authority
CN
China
Prior art keywords
rna
convolution
layer
capsule
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110266679.9A
Other languages
English (en)
Inventor
黄德双
申圳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202110266679.9A priority Critical patent/CN113160885A/zh
Publication of CN113160885A publication Critical patent/CN113160885A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了基于胶囊网络的RNA与蛋白质绑定偏好预测方法和系统,对原始胶囊网络进行修改使其能够同步从RNA序列数据和结构数据中学习特征信息,由于RNA序列数据和结构数据存在差异,因此模型分别使用独立的卷积层和主要胶囊层从二者中提取特征信息,将融合后的信息作为数字胶囊层的输入,本发明提供的技术方案中,步骤简单,实用性强,预测准确率高,为RNA与蛋白质绑定偏好预测提供了技术参考。

Description

基于胶囊网络的RNA与蛋白质绑定偏好预测方法和系统
技术领域
本发明属于RNA与蛋白质绑定预测技术领域,涉及基于胶囊网络的RNA与蛋白质绑定偏好预测方法和系统。
背景技术
根据遗传中心法则,DNA中包含的遗传信息的表达过程主要由转录和翻译两个阶段构成。转录阶段是合成RNA的过程,也是遗传信息从DNA传递给RNA的过程。翻译阶段是以mRNA中的蛋白质编码信息为基础,在tRNA、多种氨基酸、核糖体、酶等的共同作用下合成具有生物活性的蛋白质的过程。研究表明翻译阶段RNA与蛋白质的相互作用在体外翻译抑制、精子合成、蛋白质合成等复杂生命活动过程中发挥着重要作用。RBP能够识别RNA序列中以特殊方式排列且能够与自身绑定的位点,这些位点被称为RNA绑定位点或RNA基元。从基因表达的层次来看,在面对温度、酸碱度等变化时,翻译过程的蛋白质合成、翻译调控等都会受到影响,进而影响基因表达和生命活动的正常进行。因此,RNA序列中能够与RBP绑定的位点的准确预测有助于研究人员深入理解基因表达过程中翻译阶段的复杂调控机制。高通量测序技术的不断发展提供了大量可靠的RNA-蛋白质绑定相关的数据,促使研究人员提出一系列基于传统机器学习方法的RNA基元预测算法。
部分方法在计算时仅使用RNA序列数据中提取的特征,也有一些方法在计算时融合了多种特征(序列特征、结构特征、绑定亲和力特征等)。尽管这些方法取得了较好的预测性能,但是仍存在着时间复杂度高、噪声敏感等缺陷。为了解决这些问题,研究人员使用经过改进的基于深度学习的模型用于RNA基元预测并取得了较好的预测准确度。对于基因组序列分析任务而言,我们可以将卷积神经网络中的卷积核视为一个基元检测器,不同长度的卷积核能够获取对应长度基元的特征。得益于卷积神经网络优异的特征学习能力,DeepBind和DeepSEA等基于卷积神经网络的模型取得了较好的预测性能。基于深度学习方法的基因组序列分析模型的架构可以分为三部分:数据编码、特征学习和分类识别。如何在不损失RNA序列特征信息的情况下将基因组序列转换为神经网络能够处理的形式是深度学习方法在基因组序列分析任务中遇到的一大挑战。由于RNA序列是由A、C、G、U四种碱基组成,因此我们可以使用独热编码、高阶编码等方法编码RNA序列。这些编码方式在编码时仅考虑元素自身,并未考虑RNA序列的生物特性和位点间的关联关系,对于这些关联关系的学习需要由后端的卷积神经网络或者递归神经网络等进行特征学习。从自然语言处理的角度,我们可以将RNA序列视为一种文本数据,因此可以使用词嵌入等方法编码RNA序列。与独热编码相比,这种方法在编码词向量时考虑了不同位点间的关联关系,能够改善模型的预测性能。编码后的RNA序列在计算机中表现形式类似于图像的存储形式,也就是说RNA与蛋白质绑定偏好的预测任务能够被视为计算机视觉领域中的图像二分类任务。DeepBind、DeepSEA、DanQ、iDeepS等模型的优异表现也证明了基于深度学习方法的模型能够有效完成基因组序列分析任务。DNA两条链间碱基的相互配对使得DNA具有复杂的空间结构,RNA是DNA中遗传信息经过转录阶段合成的产物。尽管RNA是一种单链序列,构成RNA序列的四种基本元素A、C、G、U间仍存在碱基间相互配对的情况,碱基间的相互配对会使RNA序列在局部形成茎环、发夹、假结等结构。研究表明RNA序列中基元位点及相邻位点的局部结构的复杂程度能够影响该位点与RBP的绑定,进而影响调控功能的正常发挥。这意味着如果在RNA基元预测模型中综合使用从RNA序列数据和结构数据中提取的特征信息,可能会进一步改善模型的预测性能。基于CNN的模型在计算机视觉、自然语言处理、基因组序列分析等领域表现出较好的性能,但是我们不能忽视CNN存在的缺陷。无论是图像数据还是文本数据,特征间的关联信息对模型能否做出准确判断有一定的影响,而CNN缺乏特征间关联信息的学习能力。以人脸检测为例,CNN能学习到眼睛、鼻子等特征,但是缺乏学习各个部位间的位置关系的能力,因此打乱图像中眼睛、鼻子、嘴巴的位置就可能使模型做出错误的判断。不仅是图像领域,在自然语言处理中关键词汇间的关系学习以及基因组序列分析中基元位点间的关系学习上也存在同样的问题。
发明内容
为解决上述问题,本发明提供了基于胶囊网络的RNA与蛋白质绑定偏好预测方法,包括以下步骤:
S1.基于RNA序列数据和RNA结构数据,分别依据独热编码方法,获得RNA第一转换矩阵和RNA第二转换矩阵;
S2.通过设置初始卷积层,对RNA第一转换矩阵和RNA第二转换矩阵分别进行卷积运算,获得第一卷积特征集合和第二卷积特征集合;
S3.构建主要胶囊层,通过设置主要胶囊层的胶囊数量,依据主要胶囊层的卷积核尺寸和滤波器数目,分别对第一卷积特征集合和第二卷积特征集合进行卷积运算,获得第一输出数据和第二输出数据,基于胶囊数量,分别依据第一输出数据的第一维度和第二输出数据的第二维度,构建第一整合矩阵和第二整合矩阵,合并第一整合矩阵和第二整合矩阵,获得第一输出数据;
S4.基于第一输出数据,通过设置数字胶囊层,依据动态路由算法,获得第二输出数据,基于L2范数,将第二输出数据转化为概率分布,构建绑定偏好预测模型,用于对每个RNA序列中是否存在蛋白质结合位点进行判别。
优选地,RNA第一转换矩阵的元素向量长度为4;
RNA第二转换矩阵的元素向量长度为6。
优选地,初始卷积层包括第一卷积层和第二卷积层;
第一卷积层与所述第二卷积层连接;
第一卷积层包括第一卷积核;
第二卷积层包括第二卷积核;
第二卷积核大于第一卷积核。
优选地,第一卷积特征集合和第二卷积特征集合的卷积特征的计算方式如下:
Figure BDA0002972285340000051
其中,X代表RNA第一转换矩阵或RNA第二转换矩阵,K代表卷积核用于从输入数据中获取局部特征,X[j,j+l]代表的是窗口长度为l的字符数据,b表示的是计算时使用的偏置选项,f代表非线性函数用于解决梯度消失问题,
Figure BDA0002972285340000052
表示矩阵X和卷积核K对应元素相乘。
优选地,S3还包括非线性挤压函数,用于对主要胶囊层的输出数据进行压缩;
输出数据的向量的长度在0和1之间,向量的方向保持不变;
S4包括,通过concatenate连接方式获得第一输出数据。
优选地,S5包括,第二输出数据的转换公式为:
Figure BDA0002972285340000053
其中,pi代表属于两种类别的概率;xi表示的是数字胶囊层的第i个输出;k表示的是数字胶囊层中第i个输出中的元素数量。
基于胶囊网络的RNA与蛋白质绑定偏好预测系统,包括,
编码层模块、初始卷积层模块、主要胶囊层模块、数字胶囊层模块、输出层模块;
编码层模块通过初始卷积层模块与主要胶囊层模块连接;
主要胶囊层模块通过数字胶囊层模块与输出层模块连接;
编码层用于将RNA序列数据和RNA结构数据,分别转化为RNA第一转换矩阵和RNA第二转换矩阵;
初始卷积层模块用于分别对RNA第一转换矩阵和RNA第二转换矩阵进行特征提取,获得第一卷积特征集合和第二卷积特征集合;
主要胶囊层模块用于对第一卷积特征集合和第二卷积特征集合进行整合,发掘特征间存在的关联关系,获得第一输出数据;
数字胶囊层模块用于通过第一输出数据,获得第二输出数据;
输出层模块用于将第二输出数据转化为概率分布,对每个RNA序列中是否存在蛋白质结合位点进行判别。
优选地,编码层模块包括RNA序列数据编码单元和RNA结构数据编码单元;
RNA序列数据编码单元与初始卷积层模块连接;
RNA结构数据编码单元与初始卷积层模块连接。
优选地,初始卷积层模块包括第一卷积层单元和第二卷积层单元;
RNA序列数据编码单元通过第一卷积层单元与第二卷积层单元连接;
RNA结构数据编码单元通过第一卷积层单元与第二卷积层单元连接;
第一卷积层单元包括第一卷积核模块;
第二卷积层单元包括第二卷积核模块;
第二卷积核模块的第二卷积核大于第一卷积核模块的第一卷积核。
优选地,主要胶囊层模块包括胶囊数目指定单元、卷积核单元、滤波器单元、整合矩阵单元、特征合并单元;
胶囊数目指定单元、卷积核单元、滤波器单元与整合矩阵单元连接;
整合矩阵单元与特征合并单元连接;
特征合并单元为concatenate连接单元,用于将整合矩阵单元的结果合并为第一输出数据;
绑定偏好预测系统至少还包括数据存储模块、数据处理模块,数据存储模块用于绑定偏好预测系统产生的数据,数据处理模块用于绑定偏好预测系统的数据处理。
本发明的积极进步效果在于:
本发明提供了基于胶囊网络的RNA与蛋白质绑定偏好预测方法和系统,步骤简单,实用性强,预测准确率高,为RNA与蛋白质绑定偏好预测提供了技术参考。
1.附图说明
图1为本发明实施例所述的系统结构示意图;
图2为本发明实施例所述的iCapsule与三种对比方法在6个数据集上的ROC曲线对比图;
图3为本发明实施例所述的iCapsule与三种对比方法在6个数据集上的Precision-Recall曲线对比图;
图4为本发明实施例所述的iCapsule和三种对比方法在66个数据集上的AUC和AP的对比图,其中,(a)、(b)、(c)分别表示iCapsule与iDeepS、DeepBind、GraphProt三种对比方法在66个数据集上的AUC对比;(d)、(e)、(f)分别表示iCapsule与iDeepS、DeepBind、GraphProt三种对比方法在66个数据集上的AP对比。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1-4所示,本发明提供基于胶囊网络的RNA与蛋白质绑定偏好预测方法,包括以下步骤:
S1.基于RNA序列数据和RNA结构数据,分别依据独热编码方法,获得RNA第一转换矩阵和RNA第二转换矩阵;
S2.通过设置初始卷积层,对RNA第一转换矩阵和RNA第二转换矩阵分别进行卷积运算,获得第一卷积特征集合和第二卷积特征集合;
S3.构建主要胶囊层,通过设置主要胶囊层的胶囊数量,依据主要胶囊层的卷积核尺寸和滤波器数目,分别对第一卷积特征集合和第二卷积特征集合进行卷积运算,获得第一输出数据和第二输出数据,基于胶囊数量,分别依据第一输出数据的第一维度和第二输出数据的第二维度,构建第一整合矩阵和第二整合矩阵,合并第一整合矩阵和第二整合矩阵,获得第一输出数据;
S4.基于第一输出数据,通过设置数字胶囊层,依据动态路由算法,获得第二输出数据,基于L2范数,将第二输出数据转化为概率分布,构建绑定偏好预测模型,用于对每个RNA序列中是否存在蛋白质结合位点进行判别。
RNA第一转换矩阵的元素向量长度为4;RNA第二转换矩阵的元素向量长度为6。
初始卷积层包括第一卷积层和第二卷积层;第一卷积层与所述第二卷积层连接;第一卷积层包括第一卷积核;第二卷积层包括第二卷积核;第二卷积核大于第一卷积核。
第一卷积特征集合和第二卷积特征集合的卷积特征的计算方式如下:
Figure BDA0002972285340000091
其中,X代表RNA第一转换矩阵或RNA第二转换矩阵,K代表卷积核用于从输入数据中获取局部特征,X[j,j+l]代表的是窗口长度为l的字符数据,b表示的是计算时使用的偏置选项,f代表非线性函数用于解决梯度消失问题,
Figure BDA0002972285340000092
表示矩阵X和卷积核K对应元素相乘。
S3还包括非线性挤压函数,用于对主要胶囊层的输出数据进行压缩;输出数据的向量的长度在0和1之间,向量的方向保持不变;S4包括,通过concatenate连接方式获得第一输出数据。
S5包括,第二输出数据的转换公式为:
Figure BDA0002972285340000101
其中,pi代表属于两种类别的概率;xi表示的是数字胶囊层的第i个输出;k表示的是数字胶囊层中第i个输出中的元素数量。
基于胶囊网络的RNA与蛋白质绑定偏好预测系统,包括,
编码层模块、初始卷积层模块、主要胶囊层模块、数字胶囊层模块、输出层模块;编码层模块通过初始卷积层模块与主要胶囊层模块连接;主要胶囊层模块通过数字胶囊层模块与输出层模块连接;编码层用于将RNA序列数据和RNA结构数据,分别转化为RNA第一转换矩阵和RNA第二转换矩阵;初始卷积层模块用于分别对RNA第一转换矩阵和RNA第二转换矩阵进行特征提取,获得第一卷积特征集合和第二卷积特征集合;主要胶囊层模块用于对第一卷积特征集合和第二卷积特征集合进行整合,发掘特征间存在的关联关系,获得第一输出数据;数字胶囊层模块用于通过第一输出数据,获得第二输出数据;输出层模块用于将第二输出数据转化为概率分布,对每个RNA序列中是否存在蛋白质结合位点进行判别。
编码层模块包括RNA序列数据编码单元和RNA结构数据编码单元;RNA序列数据编码单元与初始卷积层模块连接;RNA结构数据编码单元与初始卷积层模块连接。
初始卷积层模块包括第一卷积层单元和第二卷积层单元;RNA序列数据编码单元通过第一卷积层单元与第二卷积层单元连接;RNA结构数据编码单元通过第一卷积层单元与第二卷积层单元连接;第一卷积层单元包括第一卷积核模块;第二卷积层单元包括第二卷积核模块;第二卷积核模块的第二卷积核大于第一卷积核模块的第一卷积核。
主要胶囊层模块包括胶囊数目指定单元、卷积核单元、滤波器单元、整合矩阵单元、特征合并单元;胶囊数目指定单元、卷积核单元、滤波器单元与整合矩阵单元连接;整合矩阵单元与特征合并单元连接;特征合并单元为concatenate连接单元,用于将整合矩阵单元的结果合并为第一输出数据;绑定偏好预测系统至少还包括数据存储模块、数据处理模块,数据存储模块用于绑定偏好预测系统产生的数据,数据处理模块用于绑定偏好预测系统的数据处理。
在本发明中,RNA序列数据和结构数据均以文本序列的形式出现,因此在模型中使用独热编码方法将输入数据转换为神经网络能够处理的形式。此外,本发明还修改了原始胶囊网络使其可以综合处理从RNA序列数据和结构数据提取的特征信息。iCapsule包含以下五部分:编码层、初始卷积层、主要胶囊层、数字胶囊层、输出层。iCapsule模型的架构如图1所示。
由于神经网络无法直接处理文本序列数据,本层使用独热编码方法将文本序列转换为能够用于初始卷积层进行特征提取的数字矩阵。
RNA序列的碱基有A、C、G、U四种,因此与之对应的字母表为Alp_seq={A,C,G,U}。
根据独热编码方法的定义,字母表Alp_seq中每一个元素的表示方式如下:
A=[1,0,0,0],C=[0,1,0,0],G=[0,0,1,0],U=[0,0,0,1]。
给定一个输入长度为l的RNA序列数据,使用独热编码后字母表中每个元素的向量的长度为4,因此转换后成为一个大小为l×4的矩阵。
RNA结构数据的编码过程与RNA序列数据的编码过程类似。构成RNA结构数据的基本元素有H、T、I、S、F、M共六种,对应的字母表为Alp_seq={H,T,I,S,F,M}。字母表中每一个元素的编码方式如下:H=[1,0,0,0,0,0]、T=[0,1,0,0,0,0]、I=[0,0,1,0,0,0]、S=[0,0,0,1,0,0]、F=[0,0,0,0,1,0]、M=[0,0,0,0,0,1]。给定一个输入长度为h的RNA结构数据,使用独热编码后字母表中每个元素的向量的长度为6,因此转换后它变成了一个大小为h×6的矩阵。
初始卷积层,在本层中,我们使用两层卷积运算分别从转换后的RNA序列数据和结构数据中提取局部特征。为了扩大第二层卷积运算的感知域,第二层卷积运算的卷积核尺寸被设置为大于第一层卷积运算的卷积核,卷积特征ci的计算方式如下:
Figure BDA0002972285340000121
其中,X代表RNA第一转换矩阵或RNA第二转换矩阵,K代表卷积核用于从输入数据中获取局部特征,X[j,j+l]代表的是窗口长度为l的字符数据,b表示的是计算时使用的偏置选项,f代表非线性函数用于解决梯度消失问题,
Figure BDA0002972285340000131
表示矩阵X和卷积核K对应元素相乘。
双层卷积运算中每一层的计算过程与上述计算过程类似,初始卷积层的输入数据X作为第一层卷积运算的输入,通过将卷积核K按照指定的移动步长应用于输入数据X中长度为l的数据上,可以得到一个初步的卷积特征集合。该集合作为第二次卷积运算的输入,重复上述卷积计算过程,可以得到最终的分别对应与RNA序列数据和结构数据的卷积特征集合。
主要胶囊层,Hinton等提出胶囊网络的目的是为了克服传统卷积神经网络存在的无法学习特征间相对关系的缺陷,而初始卷积层只能完成初步的特征提取任务,主要胶囊层的作用就是对初始卷积层提取的特征进行整合,发掘特征间可能存在的关联关系。为了完成这项任务,我们首先指定当前层胶囊的数目,然后针对每个胶囊使用特定的卷积核尺寸和滤波器数目执行卷积运算,并将卷积运算的输出重新整合为x×y矩阵,其中x表示先前卷积运算的输出数据的维度,y表示当前层指定胶囊的数量。此外,本层还使用了一种新的非线性挤压函数,该函数的作用是对胶囊输出数据进行压缩,用来确保胶囊输出的向量的长度在0和1之间,同时向量的方向保持不变。由于模型在计算中同时使用RNA序列数据和结构数据,因此在该阶段分别针对前一阶段的RNA序列特征输出和结构特征输出应用上述主要胶囊层的计算过程。然后,在这一层将通过主要胶囊层得出的与RNA序列特征和结构特征相关的结果进行合并,并将其作为此阶段的输出。关于主要胶囊层特征合并的方式有很多种,本发明使用concatenate连接方式来合并主要胶囊层的特征。
数字胶囊层,本层中数字胶囊的数量表示分类的数量。数字胶囊层中每个元素的长度表示输入数据属于该类别的概率。胶囊网络使用动态路由算法来确定前一级的输出中的每个元素与数字胶囊中的元素间的对应关系。最后,通过比较数字胶囊中每个元素的长度来确定输入数据的类别。在本发明中,模型的任务是对每个RNA序列中是否存在蛋白质结合位点进行判别。因此,数字胶囊层在这项任务中包含两个元素。
输出层,输出层的作用是通过L2范数将数字胶囊层的输出转化为一种概率分布,其计算方法如下:
Figure BDA0002972285340000141
其中,pi代表属于两种类别的概率;xi表示的是数字胶囊层的第i个输出;k表示的是数字胶囊层中第i个输出中的元素数量。
本发明将iCapsule与其它三种基元预测基准方法GraphProt,DeepBind,iDeepS进行性能对比,GraphProt是一种基于传统机器学习方法的RNA基元预测方法,该方法从RNA序列数据和结构数据中提取特征信息,使用支持向量机作为分类器。除了DeepBind在计算时仅使用从RNA序列数据中提取的特征进行分类识别之外,iDeepS在计算时均使用RNA序列数据和结构数据,四种方法的不同之处在于DeepBind仅使用卷积神经网络,iDeepS使用的是卷积神经网络和双向长短时记忆网络。
本发明使用的胶囊网络的原始代码由naturomics提供的,可在https://github.com/naturomics/CapsNet-Tensorflow获得。为了使模型能够在计算过程中同时从RNA序列数据和结构数据中提取特征,我们修改了原始代码中的数据输入模块、初始卷积模块、主要胶囊层模块和损失计算模块。初步的实验表明将模型中的迭代次数设置为40时,模型可以在确保预测性能的同时减少计算时间消耗。由于我们在计算时使用的RNA序列数据和结构数据是对应的,因此模型中针对RNA序列数据和结构数据分别设置的初始卷积层和主要胶囊层中卷积运算的参数设置是相同的。为了改善模型特征学习能力,模型在初始卷积层使用两层卷积运算且第二层卷积运算的卷积核尺寸大于第一层卷积运算卷积核的尺寸。具体参数设置如表1所示。此外,本章还使用优化函数Adam来最小化分类交叉熵损失函数,使用L2范数来减少过拟合给模型带来的负面影响。
表1
Figure BDA0002972285340000151
图2和图3分别显示了iCapsule和三种对比方法GraphProt、DeepBind、iDeepS在六个数据集上的ROC曲线和Precision-Recall曲线对比。图4通过散点图的方式显示了iCapsule和三种对比方法在66个数据集上的AUC和AP的对比。从上述数据中可以看出本章提出的方法iCapsule的性能在RNA与蛋白质绑定偏好预测任务中的优于三种对比方法。
表2从数字的角度展示了AUC和AP的均值和中位数的变化。在AUC的均值上,iCapsule比其它三种对比方法分别增加了0.0572、0.0507和0.0105。在AUC的中位数上,iCapsule比其它三种对比方法分别增加了0.0569、0.0333和0.016。在AP的均值上,iCapsule比其它三种对比方法分别增加了0.1272、0.0934和0.0254。在AP的中位数上,iCapsule比其它三种对比方法分别增加了0.113、0.1048和0.03。从数据来看,无论是均值还是中位数,AP的变化幅度都明显高于AUC,这意味着AP更能反映出模型在面对不平衡数据时的性能,而AUC和AP的组合则更能说明模型的综合性能。
表2
Figure BDA0002972285340000161
在iCapsule中,首先使用具有不同卷积核尺寸的两层卷积运算从输入数据中获取初步特征;然后,由主要胶囊层完成不同特征间相关性学习的任务;最终的分类识别由数字胶囊层和输出层共同完成。在66个RNA蛋白质绑定数据集上的实验结果表明,iCapsule在RNA与蛋白质绑定偏好预测任务中的性能优于对比方法GraphProt、DeepBind和iDeepS。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.基于胶囊网络的RNA与蛋白质绑定偏好预测方法,其特征在于,包括以下步骤:
S1.基于RNA序列数据和RNA结构数据,分别依据独热编码方法,获得RNA第一转换矩阵和RNA第二转换矩阵;
S2.通过设置初始卷积层,对所述RNA第一转换矩阵和RNA第二转换矩阵分别进行卷积运算,获得第一卷积特征集合和第二卷积特征集合;
S3.构建主要胶囊层,通过设置所述主要胶囊层的胶囊数量,依据所述主要胶囊层的卷积核尺寸和滤波器数目,分别对所述第一卷积特征集合和第二卷积特征集合进行卷积运算,获得第一输出数据和第二输出数据,基于所述胶囊数量,分别依据所述第一输出数据的第一维度和第二输出数据的第二维度,构建第一整合矩阵和第二整合矩阵,合并所述第一整合矩阵和第二整合矩阵,获得第一输出数据;
S4.基于所述第一输出数据,通过设置数字胶囊层,依据动态路由算法,获得第二输出数据,基于L2范数,将所述第二输出数据转化为概率分布,构建绑定偏好预测模型,用于对每个RNA序列中是否存在蛋白质结合位点进行判别。
2.如权利要求1所述基于胶囊网络的RNA与蛋白质绑定偏好预测方法,其特征在于,
所述RNA第一转换矩阵的元素向量长度为4;
所述RNA第二转换矩阵的元素向量长度为6。
3.如权利要求1所述基于胶囊网络的RNA与蛋白质绑定偏好预测方法,其特征在于,
所述初始卷积层包括第一卷积层和第二卷积层;
所述第一卷积层与所述第二卷积层连接;
所述第一卷积层包括第一卷积核;
所述第二卷积层包括第二卷积核;
所述第二卷积核大于第一卷积核。
4.如权利要求1所述基于胶囊网络的RNA与蛋白质绑定偏好预测方法,其特征在于,
所述第一卷积特征集合和第二卷积特征集合的卷积特征的计算方式如下:
Figure FDA0002972285330000021
其中,X代表所述RNA第一转换矩阵或RNA第二转换矩阵,K代表卷积核用于从输入数据中获取局部特征,X[j,j+l]代表的是窗口长度为l的字符数据,b表示的是计算时使用的偏置选项,f代表非线性函数用于解决梯度消失问题,
Figure FDA0002972285330000022
表示矩阵X和卷积核K对应元素相乘。
5.如权利要求1所述基于胶囊网络的RNA与蛋白质绑定偏好预测方法,其特征在于,
所述S3还包括非线性挤压函数,用于对所述主要胶囊层的输出数据进行压缩;
所述输出数据的向量的长度在0和1之间,所述向量的方向保持不变;
所述S4包括,通过concatenate连接方式获得所述第一输出数据。
6.如权利要求1所述基于胶囊网络的RNA与蛋白质绑定偏好预测方法,其特征在于,
所述S5包括,所述第二输出数据的转换公式为:
Figure FDA0002972285330000031
其中,pi代表属于两种类别的概率;xi表示的是所述数字胶囊层的第i个输出;k表示的是所述数字胶囊层中第i个输出中的元素数量。
7.如权利要求1-6任一权利要求所述的基于胶囊网络的RNA与蛋白质绑定偏好预测系统,其特征在于,包括,
编码层模块、初始卷积层模块、主要胶囊层模块、数字胶囊层模块、输出层模块;
所述编码层模块通过所述初始卷积层模块与所述主要胶囊层模块连接;
所述主要胶囊层模块通过所述数字胶囊层模块与所述输出层模块连接;
所述编码层用于将所述RNA序列数据和RNA结构数据,分别转化为所述RNA第一转换矩阵和RNA第二转换矩阵;
所述初始卷积层模块用于分别对所述RNA第一转换矩阵和RNA第二转换矩阵进行特征提取,获得所述第一卷积特征集合和第二卷积特征集合;
所述主要胶囊层模块用于对所述第一卷积特征集合和第二卷积特征集合进行整合,发掘特征间存在的关联关系,获得所述第一输出数据;
所述数字胶囊层模块用于通过所述第一输出数据,获得所述第二输出数据;
所述输出层模块用于将所述第二输出数据转化为所述概率分布,对每个RNA序列中是否存在蛋白质结合位点进行判别。
8.如权利要求7所述基于胶囊网络的RNA与蛋白质绑定偏好预测系统,其特征在于,
所述编码层模块包括RNA序列数据编码单元和RNA结构数据编码单元;
所述RNA序列数据编码单元与所述初始卷积层模块连接;
所述RNA结构数据编码单元与所述初始卷积层模块连接。
9.如权利要求8所述基于胶囊网络的RNA与蛋白质绑定偏好预测系统,其特征在于,
所述初始卷积层模块包括第一卷积层单元和第二卷积层单元;
所述RNA序列数据编码单元通过所述第一卷积层单元与所述第二卷积层单元连接;
所述RNA结构数据编码单元通过所述第一卷积层单元与所述第二卷积层单元连接;
所述第一卷积层单元包括第一卷积核模块;
所述第二卷积层单元包括第二卷积核模块;
所述第二卷积核模块的所述第二卷积核大于所述第一卷积核模块的所述第一卷积核。
10.如权利要求7所述基于胶囊网络的RNA与蛋白质绑定偏好预测系统,其特征在于,
所述主要胶囊层模块包括胶囊数目指定单元、卷积核单元、滤波器单元、整合矩阵单元、特征合并单元;
所述胶囊数目指定单元、卷积核单元、滤波器单元与所述整合矩阵单元连接;
所述整合矩阵单元与所述特征合并单元连接;
所述特征合并单元为concatenate连接单元,用于将所述整合矩阵单元的结果合并为所述第一输出数据;
所述绑定偏好预测系统至少还包括数据存储模块、数据处理模块,所述数据存储模块用于所述绑定偏好预测系统产生的数据,所述数据处理模块用于所述绑定偏好预测系统的数据处理。
CN202110266679.9A 2021-03-11 2021-03-11 基于胶囊网络的rna与蛋白质绑定偏好预测方法和系统 Pending CN113160885A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110266679.9A CN113160885A (zh) 2021-03-11 2021-03-11 基于胶囊网络的rna与蛋白质绑定偏好预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110266679.9A CN113160885A (zh) 2021-03-11 2021-03-11 基于胶囊网络的rna与蛋白质绑定偏好预测方法和系统

Publications (1)

Publication Number Publication Date
CN113160885A true CN113160885A (zh) 2021-07-23

Family

ID=76886817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110266679.9A Pending CN113160885A (zh) 2021-03-11 2021-03-11 基于胶囊网络的rna与蛋白质绑定偏好预测方法和系统

Country Status (1)

Country Link
CN (1) CN113160885A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053462A (zh) * 2021-03-11 2021-06-29 同济大学 基于双向注意力机制的rna与蛋白质绑定偏好预测方法和系统
CN116805514A (zh) * 2023-08-25 2023-09-26 鲁东大学 一种基于深度学习的dna序列功能预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559781A (zh) * 2018-10-24 2019-04-02 成都信息工程大学 一种预测dna-蛋白质结合的双向lstm和cnn模型
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN112270955A (zh) * 2020-10-23 2021-01-26 大连民族大学 一种注意力机制预测lncRNA的RBP结合位点的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559781A (zh) * 2018-10-24 2019-04-02 成都信息工程大学 一种预测dna-蛋白质结合的双向lstm和cnn模型
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN112270955A (zh) * 2020-10-23 2021-01-26 大连民族大学 一种注意力机制预测lncRNA的RBP结合位点的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHEN SHEN,ET AL: "Capsule Network for Predicting RNA-Protein", 《IEEE》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053462A (zh) * 2021-03-11 2021-06-29 同济大学 基于双向注意力机制的rna与蛋白质绑定偏好预测方法和系统
CN116805514A (zh) * 2023-08-25 2023-09-26 鲁东大学 一种基于深度学习的dna序列功能预测方法
CN116805514B (zh) * 2023-08-25 2023-11-21 鲁东大学 一种基于深度学习的dna序列功能预测方法

Similar Documents

Publication Publication Date Title
CN111160533B (zh) 一种基于跨分辨率知识蒸馏的神经网络加速方法
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN106295245B (zh) 基于Caffe的堆栈降噪自编码基因信息特征提取的方法
CN110992270A (zh) 基于注意力的多尺度残差注意网络图像超分辨率重建方法
CN109273054B (zh) 基于关系图谱的蛋白质亚细胞区间预测方法
CN112733866B (zh) 一种提高可控图像文本描述正确性的网络构建方法
JP5144123B2 (ja) 情報処理方法、情報処理装置
CN113160885A (zh) 基于胶囊网络的rna与蛋白质绑定偏好预测方法和系统
CN112084891B (zh) 基于多模态特征与对抗学习的跨域人体动作识别方法
CN112560831A (zh) 一种基于多尺度空间校正的行人属性识别方法
CN113780249B (zh) 表情识别模型的处理方法、装置、设备、介质和程序产品
CN110599502A (zh) 一种基于深度学习的皮肤病变分割方法
CN111428758A (zh) 一种改进的基于无监督表征学习的遥感图像场景分类方法
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN111651993A (zh) 融合局部-全局字符级关联特征的中文命名实体识别方法
CN111444802B (zh) 一种人脸识别方法、装置及智能终端
CN113920516A (zh) 一种基于孪生神经网络的书法字骨架匹配方法及系统
CN112766283A (zh) 一种基于多尺度卷积网络的两相流流型识别方法
CN115222998A (zh) 一种图像分类方法
CN114241564A (zh) 一种基于类间差异强化网络的人脸表情识别方法
CN114692809A (zh) 基于神经集群的数据处理方法及装置、存储介质、处理器
WO2023115891A1 (zh) 一种脉冲编码方法、系统、电子设备及存储介质
CN116524352A (zh) 一种遥感图像水体提取方法及装置
CN110135253A (zh) 一种基于长期递归卷积神经网络的手指静脉认证方法
CN113688715A (zh) 面部表情识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723