CN112270955A - 一种注意力机制预测lncRNA的RBP结合位点的方法 - Google Patents
一种注意力机制预测lncRNA的RBP结合位点的方法 Download PDFInfo
- Publication number
- CN112270955A CN112270955A CN202011144401.6A CN202011144401A CN112270955A CN 112270955 A CN112270955 A CN 112270955A CN 202011144401 A CN202011144401 A CN 202011144401A CN 112270955 A CN112270955 A CN 112270955A
- Authority
- CN
- China
- Prior art keywords
- capsule
- layer
- sequence
- lncrna
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000027455 binding Effects 0.000 title claims abstract description 31
- 102100024544 SURP and G-patch domain-containing protein 1 Human genes 0.000 title claims abstract description 20
- 230000007246 mechanism Effects 0.000 title claims abstract description 16
- 208000025215 nuclear ribonucleic acid Diseases 0.000 title description 2
- 239000002775 capsule Substances 0.000 claims abstract description 79
- 239000013598 vector Substances 0.000 claims abstract description 34
- 239000011159 matrix material Substances 0.000 claims abstract description 20
- 108020005198 Long Noncoding RNA Proteins 0.000 claims abstract description 8
- 239000002773 nucleotide Substances 0.000 claims description 28
- 125000003729 nucleotide group Chemical group 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 10
- 238000002474 experimental method Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 102000004169 proteins and genes Human genes 0.000 claims description 7
- 108090000623 proteins and genes Proteins 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 21
- 238000012545 processing Methods 0.000 abstract description 5
- 102000044126 RNA-Binding Proteins Human genes 0.000 description 10
- 108700020471 RNA-Binding Proteins Proteins 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000006096 Attention Deficit Disorder with Hyperactivity Diseases 0.000 description 1
- 208000036864 Attention deficit/hyperactivity disease Diseases 0.000 description 1
- 102000014914 Carrier Proteins Human genes 0.000 description 1
- 108020004705 Codon Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 102000007999 Nuclear Proteins Human genes 0.000 description 1
- 108010089610 Nuclear Proteins Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 208000015802 attention deficit-hyperactivity disease Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 108091008324 binding proteins Proteins 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000012976 mRNA stabilization Effects 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000001323 posttranslational effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种注意力机制预测lncRNA的RBP结合位点的方法,其属于生物信息学领域。该方法采用一种基于高阶统计的编码方法,利用序列特征进行高维空间表示作为模型输入。在基准数据集上对Att_Cnn_Caps模型进行评价,取得了比传统分类器更高的分类精度,采用了基于注意机制、卷积神经网络的联合处理层。它能够针对输入矩阵的不同位置捕获不同的注意权重,提取出更高级的特征。由于一个完整的序列包含复杂的信息,使用胶囊网络来提高预测性能。胶囊网络采用矢量表示输入特征,采用动态路由机制更新参数。
Description
技术领域
本发明涉及一种注意力机制预测lncRNA的RBP结合位点的方法,其属于生物信息学领域。
背景技术
RNA结合蛋白(RBP)在不同的翻译后阶段与靶RNA分子相互作用,包括选择性剪接、mRNA稳定、定位、翻译和降解。发现lncrna与蛋白的相互作用,发现RBPs的结合位点,有助于了解转录后的调控机制,探索癌症的发病机制及在其他疾病中的可能作用,并找到潜在的药物靶点。基因组学由于下一代测序技术的广泛应用,使人们可以通过大量的实验获得RBPs数据,但这些技术往往效率低、周期长、成本高。利用计算方法从序列中预测RBPs结合位点是一种重要的手段。RBPs预测的本质是一个分类问题,序列特征表示方法直接影响分类的精度。常见的RNA序列特征表示包括序列信息、结构信息、理化性质及其组合方法。
近年来,具有强大仿真预测能力的数据驱动深度学习方法得到了广泛的应用。例如,DeepBind使用微阵列和输入深卷积神经网络(CNN)的测序数据来预测序列特异性。IDeepS考虑RBP结合序列的结构信息,训练两个独立的CNN提取序列的特征和二级结构的特征,然后将它们合并到一个长-短期记忆网络(LSTM)中,得到改进模型预测性能的高级特征。IDeepE考虑到序列的局部和全局特征之间的差异,将局部和全局特征输入到不同的CNN中,以提高RBP结合位点的预测能力。DeepRiPe提出了一个多任务多模式DNN模型,旨在描述RBP绑定偏好。CircRNA-RBP采用基于密码子的编码方案提取序列特征,并训练卷积神经网络和递归神经网络(RNN)混合深度学习模型来识别CircRNA结合蛋白的结合偏好。DeepMVF-RBP将多视图特征表示与深度信任网络(DBN)方法相结合,用于预测新的候选结合位点和发现潜在的结合模体。MmCNN将序列和结构信息转换为一个热编码和结构表达矩阵,并输入多个多尺度卷积模块来检测RBP结合位点的模体。然而,这些特征表示方法由于维数低、编码规则简单、忽略了RBP结合位点短距离内的核苷酸相关性,可能会丢失大量的关键序列信息。另外,CNN通过卷积运算从输入信息中提取深度特征,忽略了特征之间的相关性。此外,由于合并操作会丢失一些信息,这限制了CNN的性能。
因此,本发明提出了一种预测lncRNA的RBP结合位点的方法,采用一种基于高阶统计的编码方法,将用于高维空间表示的序列特征作为模型输入。在基准数据集上对预测方法进行了评价,取得了比传统分类器更高的分类精度。
发明内容
本发明的目的在于提供了一种新的预测植物lncRNA的RBP结合位点的方法,采用本方法能在不丢失关键序列信息的情况下,准确提高预测效率。
为达到上述效果,本发明的技术方案如下:
一种注意力机制预测植物lncRNA的RBP结合位点的方法,包括以下步骤:
S1:对于分类问题,建立合理的基准数据集是预测高精度分类效果的必要步骤。正、负样本分布、数据集大小和噪声与深度学习的学习质量密切相关。在我们的工作中,所有的数据集都是由Zhang SW等人(Zhang SW,Wang Y,Zhang XX,Wang JQ.Prediction ofthe RBP binding sites on lncRNAs using the high-order nucleotide encodingconvolutional neural network.Anal Biochem.2019;583:113364.doi:10.1016/j.ab.2019.113364)通过实验验证的HOCNNLB中获得。
S2:考虑了核苷酸之间的依赖关系,采用高阶编码提取序列特征可以显著提高预测的准确性。然而,传统的独热编码方法和高阶编码方法都忽略了序列本身的统计信息。因此,这里我们利用核苷酸之间的统计信息来增加序列特征的显著差异,并提出一种基于高阶统计的编码方法。
S3:胶囊神经网络(CapsNet)是Hinton于2017年10月首次提出的一种用于图像识别和自然语言处理的深度学习网络体系结构,它可以解决CNNs的许多固有问题。胶囊层不同于CNN,输入和输出都使用向量,在训练过程中加入动态路由算法来调整胶囊参数。
进一步地,步骤S1中数据集建立的过程具体包括:
S11:HOCNNLB生成的数据集包含31个RBPs结合位点数据集,来自lncRNAs上的12个蛋白质。每个核苷酸都包含一个被认为是结合位点的相互作用位点,在31个实验中,每个实验都从lncRNA上未被识别为相互作用位点的位点构建了一个阴性样本数据集。
S12:为避免正、负样本不平衡影响预测效果,每次实验设置相同数量的正、负样本。每个数据集使用80%的正/负样本作为训练集,其余样本作为独立测试集。
进一步地,步骤S2中高阶编码提取序列特征的具体步骤包括:
S21:给定一个lncRNA序列,用s=s1,s2,…,sn和n个核苷酸表示。基于高阶统计的编码矩阵S的数学表达式如下:
其中:其中s′表示对应的k-mer序列,ki代表第i个k-mer为4的核苷酸字串,矩阵列是转换序列s′中k-mer为j子串的基于的是统计的one-hot编码的第j行向量,其中j∈{1,2…,n+k-1}。s′j是s′的第j个特征,Σs′j表示的是第j个k-mer在s′中出现的次数。
S22:与基于二阶统计的编码方式相同,考虑到lncRNA链相邻核苷酸在较大距离处的相互关系,采用基于三阶统计的编码方式。它包含64个三核苷酸(i.e.,AAA,…,UUU),每一个都编码为64维one-hot载体。对于任何lncRNA序列,考虑到k个相邻核苷酸在短距离内的依赖性,将产生4kk-mer核苷酸,并且每个k-mer核苷酸将被映射到一个4k维的高维空间。
S23:选择合适的k值可以充分表达高维空间中RBPs结合位点附近短距离内隐藏的相邻核苷酸的位置依赖信息,从而提高模型的性能。然而,这将导致运行时间和计算量随着k-mer长度范围的变化而线性增加。考虑到这些情况,为了防止k值过大,避免模型过拟合,本文采用了一些相对k值进行检验。
进一步地,步骤S3中胶囊网络的构建的具体步骤包括:
S31:胶囊层不同于CNN,输入和输出都使用向量,在训练过程中加入动态路由算法来调整胶囊参数,主要分为下胶囊层、动态路由层和上胶囊层层。CapsNet利用路由将低层胶囊的信息动态传输到高层胶囊,克服了CNN中池化层信息的丢失。
S32:CapsNet使用向量运算来提高处理空间位置特征的能力,并使用较少的训练数据进行训练。与卷积池操作不同,CapsNet有相同的变化,对输入的微小变化导致输出的细微变化得以保留。
S33:在CapsNet中,它是以载体的形式运输的,因此胶囊需要朝激活的方向进行处理。挤压激活函数用于将输入向量压缩到(0,1),同时保持向量方向。输出uj的计算公式如下:
其中:vj是胶囊j的矢量输出,sj是总输入量,并且vj和sj在同一方向。公式的第一项是压缩函数。当sj较大时,第一项接近1;当sj很小,第一项则接近0。公式的第二项置换向量是sj,使输出向量vj的长度在(0,1)范围内。CapsNet的第一层是具有ReLU激活函数的卷积层。除第一层胶囊外,所有胶囊的总输入sj是所有预测向量的加权和是下层胶囊的层胶囊的输出与重量矩阵Wij相乘,其公式如下:
其中j∈[1,k],k是类的数量,cij是动态路由过程中的耦合系数,表示每个下层胶囊与其对应的上层胶囊之间的权重。对于胶囊,cij的权重之和是1。cij采用由softmax函数确定的动态路由算法,计算公式如下:
其中bij是胶囊i和胶囊j的对数概率,用于更新cij并将其初始化为0。路线迭代期间,bij不断更新,更新公式如下:
与现有技术相比,本发明所能达到的有益效果是:该方法提出了一种基于高阶统计的编码方法,利用序列特征进行高维空间表示作为模型输入。在基准数据集上对Att_Cnn_Caps模型进行评价,取得了比传统分类器更高的分类精度,采用了基于注意机制、卷积神经网络的联合处理层。它能够针对输入矩阵的不同位置捕获不同的注意权重,提取出更高级的特征。由于一个完整的序列包含复杂的信息,使用胶囊网络来提高预测性能。胶囊网络采用矢量表示输入特征,采用动态路由机制更新参数。
1、我们的模型不同于以往对序列使用单一热表示的方法,不能获得足够的信息。我们设计了一种基于统计的高阶编码方法来表示隐藏在lncRNA序列中的高维信息。
2、联合处理层包括注意机制、卷积神经网络。它能够在输入矩阵的不同位置获取不同的关注权值,提取更高级的特征。
3、由于一个完整的序列包含复杂的信息,胶囊网络代替改进预测性能CNN。胶囊网络采用向量表示输入特征,动态路由机制更新参数。
附图说明
图1为本发明CaspsNet的结构图。
图2为本发明把输入的lncRNA序列使用基于高阶统计量的编码方法。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为例更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的;下面结合附图和实施例对本发明的技术方法做进一步的说明。
实施例1
如图1和图2所示一种预测植物lncRNA的RBP结合位点的方法,包括以下步骤:
S1:对于分类问题,建立合理的基准数据集是预测高精度分类效果的必要步骤。正、负样本分布、数据集大小和噪声与深度学习的学习质量密切相关。在我们的工作中,所有的数据集都是由HOCNNLB产生的。
S2:考虑了核苷酸之间的依赖关系,采用高阶编码提取序列特征可以显著提高预测的准确性。然而,传统的独热编码方法和高阶编码方法都忽略了序列本身的统计信息。因此,这里我们利用核苷酸之间的统计信息来增加序列特征的显著差异,并提出一种基于高阶统计的编码方法。
S3:胶囊神经网络(CapsNet)是Hinton于2017年10月首次提出的一种用于图像识别和自然语言处理的深度学习网络体系结构,它可以解决CNNs的许多固有问题。胶囊层不同于CNN,输入和输出都使用向量,在训练过程中加入动态路由算法来调整胶囊参数。
进一步地,步骤S1中数据集建立的过程具体包括:
S11:HOCNNLB生成的数据集包含31个RBPs结合位点数据集,来自lncRNAs上的12个蛋白质。每个核苷酸都包含一个被认为是结合位点的相互作用位点,在31个实验中,每个实验都从lncRNA上未被识别为相互作用位点的位点构建了一个阴性样本数据集。
S12:为避免正、负样本不平衡影响预测效果,每次实验设置相同数量的正、负样本。每个数据集使用80%的正/负样本作为训练集,其余样本作为独立测试集。
进一步地,步骤S2中高阶编码提取序列特征的具体步骤包括:
S21:给定一个lncRNA序列,用s=s1,s2,…,sn和n个核苷酸表示。基于高阶统计的编码矩阵S的数学表达式如下:
其中:其中s′表示对应的k-mer序列,ki代表第i个k-mer为4的核苷酸字串,矩阵列是转换序列s′中k-mer为j子串的基于的是统计的one-hot编码的第j行向量,其中j∈{1,2…,n+k-1}。s′j是s′的第j个特征,Σs′j表示的是第j个k-mer在s′中出现的次数。
S22:与基于二阶统计的编码方式相同,考虑到lncRNA链相邻核苷酸在较大距离处的相互关系,采用基于三阶统计的编码方式。它包含64个三核苷酸(i.e.,AAA,…,UUU),每一个都编码为64维one-hot载体。对于任何lncRNA序列,考虑到k个相邻核苷酸在短距离内的依赖性,将产生4k个k-mer核苷酸,并且每个k-mer核苷酸将被映射到一个4k维的高维空间。
S23:选择合适的k值可以充分表达高维空间中RBPs结合位点附近短距离内隐藏的相邻核苷酸的位置依赖信息,从而提高模型的性能。然而,这将导致运行时间和计算量随着k-mer长度范围的变化而线性增加。考虑到这些情况,为了防止k值过大,避免模型过拟合,本文采用了一些相对k值进行检验。
进一步地,步骤S3中胶囊网络的构建的具体步骤包括:
S31:胶囊层不同于CNN,输入和输出都使用向量,在训练过程中加入动态路由算法来调整胶囊参数,主要分为下胶囊层、动态路由层和上胶囊层层。CapsNet利用路由将低层胶囊的信息动态传输到高层胶囊,克服了CNN中池化层信息的丢失。
S32:CapsNet使用向量运算来提高处理空间位置特征的能力,并使用较少的训练数据进行训练。与卷积池操作不同,CapsNet有相同的变化,对输入的微小变化导致输出的细微变化得以保留。
S33:在CapsNet中,它是以载体的形式运输的,因此胶囊需要朝激活的方向进行处理。挤压激活函数用于将输入向量压缩到(0,1),同时保持向量方向。输出uj的计算公式如下:
其中:vj是胶囊j的矢量输出,sj是总输入量,并且vj和sj在同一方向。公式的第一项是压缩函数。当sj较大时,第一项接近1;当sj很小,第一项则接近0。公式的第二项置换向量是sj,使输出向量vj的长度在(0,1)范围内。CapsNet的第一层是具有ReLU激活函数的卷积层。除第一层胶囊外,所有胶囊的总输入sj是所有预测向量的加权和是下层胶囊的层胶囊的输出与重量矩阵Wij相乘,其公式如下:
其中j∈[1,k],k是类的数量,cij是动态路由过程中的耦合系数,表示每个下层胶囊与其对应的上层胶囊之间的权重。对于胶囊,cij的权重之和是1。cij采用由softmax函数确定的动态路由算法,计算公式如下:
其中bij是胶囊i和胶囊j的对数概率,用于更新cij并将其初始化为0。路线迭代期间,bij不断更新,更新公式如下:
实施例2
本发明预测植物lncRNA的RBP结合位点的方法的具体步骤:
上述实施例为本发明较佳的实施方式,但本发明并不受上述实施例的限制,其他任何背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
步骤1:数据集的建立,利用HOCNNLB方法建立的数据集对Att_Cnn_Caps模型进行评价,该模型包括12个与lncRNA相关的蛋白质,共31个子数据集。每个子数据集都有一个单独的训练集和测试集。
步骤2:构建联合处理层。此处理层将基于统计的lncRNA序列编码处理成高维空间矩阵,以进一步研究相邻核苷酸的依赖性,并在短距离内定位重要位置。联合处理层利用注意机制获取lncRNA序列的重要位置权重信息,提高RBP结合位点的预测能力。根据方程下面方程计算注意机制,得到权重矩阵:
ti=tanh(whhi+bh)
其中hi是基于高阶统计的编码矩阵的i特征,wh和bh是权重和偏移量。ai是表示特征hi的注意权重向量,根据注意权重向量ai,对原始hi进行加权,得到注意机制的输出p,计算公式如下:
其中代表的是拼接操作,本发明采用注意特征矩阵输出矩阵与原始特征矩阵的拼接运算作为CNN输入,实现了高级特征提取。利用maxpool层降低训练参数,增加模型的稳健性。利用Relu激活函数增加了网络的稀疏性,减少了参数间的相互依赖关系,减少了过拟合的发生。
步骤3:利用注意力机制构建胶囊网络。胶囊网络结构主要分为下胶囊层、动态路由层和上胶囊层层。层CapsNet利用路由将低层胶囊的信息动态传输到高层胶囊,克服了CNN中池层信息的丢失。
表1本预测方法与其他方法的平均准确率对比
Method | Acc | Sn | Sp | MCC | AUC |
Att_Cnn_Caps | 0.925±0.054 | 0.923±0.064 | 0.925±0.057 | 0.849±0.107 | 0.967±0.035 |
HOCNNLB | 0.902±0.066 | 0.924±0.064 | 0.877±0.088 | 0.803±0.130 | 0.953±0.046 |
iDeeps | 0.636±0.071 | 0.683±0.117 | 0.599±0.156 | 0.293±0.136 | 0.706±0.080 |
DeepBind | 0.707±0.066 | 0.706±0.075 | 0.707±0.078 | 0.415±0.135 | 0.778±0.074 |
表1为本发明的lncRNA的RBP结合位点的预测方法在31个数据上的平均准确率与其他方法对比。结果表明,在不同的实验数据集上,胶囊网络具有不同的性能。Ago2-5蛋白最高AUC为0.999,RBM10-2蛋白最低AUC为0.850。31个实验的平均AUC为0.967,29个实验的AUC大于0.90。实验结果表明本Att_Cnn_Caps模型对lncRNA链上RBP结合位点的识别是有效的。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (1)
1.一种注意力机制预测植物lncRNA的RBP结合位点的方法,其特征在于,包括以下步骤:
S1:建立基准数据集,数据集的参数包括正、负样本分布、数据集大小和噪声;基准数据集建立的过程具体包括:
S11:基准数据集由HOCNNLB生成,基准数据集包含31个RBPs结合位点数据集,来自lncRNAs上的12个蛋白质;
S12:实验设置相同数量的正、负样本,每个基准数据集使用80%的正/负样本作为训练集,其余样本作为独立测试集;
S2:构建联合处理层:结合核苷酸之间的依赖关系,采用高阶编码提取序列特征,具体步骤包括:
S21:给定一个lncRNA序列,用s=s1,s2,…,sn和n个核苷酸表示;基于高阶统计的编码矩阵S的数学表达式如下:
其中:其中s′表示对应的k-mer序列,s′j是s′的第j个特征;Σs′j表示的是第j个k-mer在s′中出现的次数;ki代表第i个k-mer为4的核苷酸字串,矩阵列是转换序列s′中k-mer为j子串的基于的是统计的one-hot编码的第j行向量,其中j∈{1,2…,n+k-1};
S22:结合lncRNA序列相邻核苷酸在较大距离处的相互关系,采用基于三阶统计的编码方式;lncRNA序列包含64个三核苷酸,每一个都编码为64维one-hot载体;对于任何lncRNA序列,考虑到k个相邻核苷酸在短距离内的依赖性,将产生4k个k-mer核苷酸,并且每个k-mer核苷酸将被映射到一个4k维的高维空间;
S3:利用注意力机制构胶囊神经网络,具体步骤包括:
S31:胶囊层在训练过程中加入动态路由算法来调整胶囊参数,主要分为下胶囊层、动态路由层和上胶囊层,胶囊神经网络利用路由将低层胶囊的信息动态传输到高层胶囊;
S32:在胶囊神经网络中是以载体的形式运输的,因此胶囊需要朝激活的方向进行处理;挤压激活函数用于将输入向量压缩到(0,1),同时保持向量方向;输出vj的计算公式如下:
其中:vj是胶囊j的矢量输出,sj是总输入量,并且vj和sj在同一方向;
vj是压缩函数,当sj较大时,vj接近1;当sj很小,vj则接近0;sj是置换向量,使输出向量vj的长度在(0,1)范围内;胶囊神经网络的第一层是具有ReLU激活函数的卷积层;除第一层胶囊外,其余所有胶囊的总输入sj是所有预测向量的加权和是下层胶囊的层胶囊的输出与重量矩阵Wij相乘,其公式如下:
其中j∈[1,k],k是类的数量;cij是动态路由过程中的耦合系数,表示每个下层胶囊与其对应的上层胶囊之间的权重;对于胶囊,cij的权重之和是1;cij采用由softmax函数确定的动态路由算法,计算公式如下:
其中bij是胶囊i和胶囊j的对数概率,用于更新cij并将其初始化为0;
路线迭代期间,bij不断采用以上公式更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011144401.6A CN112270955A (zh) | 2020-10-23 | 2020-10-23 | 一种注意力机制预测lncRNA的RBP结合位点的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011144401.6A CN112270955A (zh) | 2020-10-23 | 2020-10-23 | 一种注意力机制预测lncRNA的RBP结合位点的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112270955A true CN112270955A (zh) | 2021-01-26 |
Family
ID=74341531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011144401.6A Pending CN112270955A (zh) | 2020-10-23 | 2020-10-23 | 一种注意力机制预测lncRNA的RBP结合位点的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270955A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053462A (zh) * | 2021-03-11 | 2021-06-29 | 同济大学 | 基于双向注意力机制的rna与蛋白质绑定偏好预测方法和系统 |
CN113096732A (zh) * | 2021-05-11 | 2021-07-09 | 同济大学 | 一种基于深度嵌入卷积神经网络的模体挖掘方法 |
CN113160885A (zh) * | 2021-03-11 | 2021-07-23 | 同济大学 | 基于胶囊网络的rna与蛋白质绑定偏好预测方法和系统 |
CN113178229A (zh) * | 2021-05-31 | 2021-07-27 | 吉林大学 | 一种基于深度学习的rna和蛋白质结合位点的识别方法 |
CN113658643A (zh) * | 2021-07-22 | 2021-11-16 | 西安理工大学 | 一种基于注意力机制对lncRNA和mRNA的预测方法 |
CN114121149A (zh) * | 2021-12-01 | 2022-03-01 | 天津理工大学 | 一种基于双向gru和注意力机制的rna二级结构预测算法 |
WO2023070493A1 (zh) * | 2021-10-29 | 2023-05-04 | 京东方科技集团股份有限公司 | Rna定位预测方法、装置及存储介质 |
-
2020
- 2020-10-23 CN CN202011144401.6A patent/CN112270955A/zh active Pending
Non-Patent Citations (1)
Title |
---|
SONG JINMIAO等: "AC‑Caps: Attention Based Capsule Network for Predicting RBP Binding Sites of LncRNA", INTERDISCIPLINARY SCIENCES: COMPUTATIONAL LIFE SCIENCES (2020), pages 414 - 423 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053462A (zh) * | 2021-03-11 | 2021-06-29 | 同济大学 | 基于双向注意力机制的rna与蛋白质绑定偏好预测方法和系统 |
CN113160885A (zh) * | 2021-03-11 | 2021-07-23 | 同济大学 | 基于胶囊网络的rna与蛋白质绑定偏好预测方法和系统 |
CN113096732A (zh) * | 2021-05-11 | 2021-07-09 | 同济大学 | 一种基于深度嵌入卷积神经网络的模体挖掘方法 |
CN113178229A (zh) * | 2021-05-31 | 2021-07-27 | 吉林大学 | 一种基于深度学习的rna和蛋白质结合位点的识别方法 |
CN113178229B (zh) * | 2021-05-31 | 2022-03-08 | 吉林大学 | 一种基于深度学习的rna和蛋白质结合位点的识别方法 |
CN113658643A (zh) * | 2021-07-22 | 2021-11-16 | 西安理工大学 | 一种基于注意力机制对lncRNA和mRNA的预测方法 |
CN113658643B (zh) * | 2021-07-22 | 2024-02-13 | 西安理工大学 | 一种基于注意力机制对lncRNA和mRNA的预测方法 |
WO2023070493A1 (zh) * | 2021-10-29 | 2023-05-04 | 京东方科技集团股份有限公司 | Rna定位预测方法、装置及存储介质 |
CN114121149A (zh) * | 2021-12-01 | 2022-03-01 | 天津理工大学 | 一种基于双向gru和注意力机制的rna二级结构预测算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270955A (zh) | 一种注意力机制预测lncRNA的RBP结合位点的方法 | |
CN111667884B (zh) | 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型 | |
Kulkarni et al. | Quantization friendly mobilenet (qf-mobilenet) architecture for vision based applications on embedded platforms | |
US11620567B2 (en) | Method, apparatus, device and storage medium for predicting protein binding site | |
CN107622182B (zh) | 蛋白质局部结构特征的预测方法及系统 | |
Panda et al. | Unsupervised regenerative learning of hierarchical features in spiking deep networks for object recognition | |
CN109829420B (zh) | 一种基于改进蚁狮优化算法的高光谱图像的特征选择方法 | |
Maulik et al. | Simulated annealing based automatic fuzzy clustering combined with ANN classification for analyzing microarray data | |
CN114927162A (zh) | 基于超图表征与狄利克雷分布的多组学关联表型预测方法 | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
CN112489723B (zh) | 基于局部进化信息的dna结合蛋白预测方法 | |
Zhao et al. | Identifying N6-methyladenosine sites using extreme gradient boosting system optimized by particle swarm optimizer | |
Kundu et al. | Towards low-latency energy-efficient deep snns via attention-guided compression | |
Wang et al. | A novel conjoint triad auto covariance (CTAC) coding method for predicting protein-protein interaction based on amino acid sequence | |
CN115995293A (zh) | 一种环状rna和疾病关联预测方法 | |
Zhang et al. | RUFP: Reinitializing unimportant filters for soft pruning | |
CN115019878A (zh) | 一种基于图表示和深度学习的药物发现方法 | |
Bhardwaj et al. | Computational biology in the lens of CNN | |
CN113158754B (zh) | 一种番茄病害图像识别方法 | |
Ma et al. | Prediction of long non-coding RNA-protein interaction through kernel soft-neighborhood similarity | |
Iraji et al. | Druggable protein prediction using a multi-canal deep convolutional neural network based on autocovariance method | |
CN116386733A (zh) | 基于多视角多尺度多注意力机制的蛋白质功能预测方法 | |
CN113837293B (zh) | mRNA亚细胞定位模型训练方法、定位方法及可读存储介质 | |
CN113240055B (zh) | 基于宏操作变异神经架构搜索的色素性皮损图像分类方法 | |
Zhang et al. | Multimodal deep representation learning for protein-protein interaction networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210126 |
|
WD01 | Invention patent application deemed withdrawn after publication |