CN114023376A - 基于自注意力机制的rna-蛋白质结合位点预测方法和系统 - Google Patents

基于自注意力机制的rna-蛋白质结合位点预测方法和系统 Download PDF

Info

Publication number
CN114023376A
CN114023376A CN202111297183.4A CN202111297183A CN114023376A CN 114023376 A CN114023376 A CN 114023376A CN 202111297183 A CN202111297183 A CN 202111297183A CN 114023376 A CN114023376 A CN 114023376A
Authority
CN
China
Prior art keywords
sequence
model
rna
mer
binding site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111297183.4A
Other languages
English (en)
Other versions
CN114023376B (zh
Inventor
朱敏
王心翌
张铭洋
姚林
龙春林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202111297183.4A priority Critical patent/CN114023376B/zh
Publication of CN114023376A publication Critical patent/CN114023376A/zh
Application granted granted Critical
Publication of CN114023376B publication Critical patent/CN114023376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种基于自注意力机制的RNA‑蛋白质结合位点预测方法和系统,使用RNA与蛋白质结合位点处及上下游的序列特征来训练深度学习模型,并使用所述模型对RNA‑蛋白质相互作用结合位点进行预测;在序列特征的编码过程中本发明引入k‑mer嵌入的编码方式,编码相邻核苷酸间的上下文关系,为模型提供更多有效的特征;在所述特征的提取过程中本发明使用自注意力机制构建预测模型,从全局的角度聚焦RNA序列特征,并赋予关键子序列更高的权重以使网络充分学习关键特征,进而提高模型预测准确率;最后,在基准数据集上对本发明提出的方法进行评价,在预测精度方面优于现有技术。

Description

基于自注意力机制的RNA-蛋白质结合位点预测方法和系统
技术领域
本发明涉及生物信息技术领域,具体涉及一种基于自注意力机制的RNA-蛋白质结合位点预测方法和系统。
背景技术
RNA结合蛋白(RBPs)在基因调控过程中发挥重要作用。研究表明,除少数RNA能以核酶的形式单独发挥功能外,大部分RNA是通过与蛋白质结合形成RNA-蛋白质复合物参与基因调控。RNA结合蛋白在RNA合成、选择性剪接、修饰、转运和翻译等生命活动的调控中都起到关键作用。例如,异质核糖核蛋白(HNRNPL)不仅直接调控许多RNAs的选择性剪接,还能通过反向剪接调控环状RNAs(circRNA)的形成。
为更好地理解RNA结合蛋白功能,研究者需要可靠的预测模型指导生物实验定位序列上的RNA-蛋白质结合位点。高通量技术(Hi-C)存在耗时长且花费高的问题,但它提供了大量经过生物实验验证的RNA-蛋白质结合位点数据,这促进了用于预测RNA-蛋白质结合位点的生物信息学计算模型的发展。为减少高通量实验的耗时和成本,研究人员越来越依靠RNA-蛋白质结合位点预测模型来指导识别结合位点。
根据预测模型所用技术的类别,可将该领域已有的计算方法分为两类:基于机器学习的预测方法与基于深度学习的预测方法。基于机器学习的预测方法首先被应用于预测RNA-蛋白质结合位点,但该类方法存在难以准确提取有效特征的问题。深度学习通过自学习的方式提取序列特征,是当前计算方法构建模型的首要选择。相较于机器学习,深度学习无需手动构建特征,而是通过自学习的方式获取信息表示,这使得模型可以更有效地学习序列特征。
但现有基于深度学习的RNA-蛋白质结合位点预测方法存在一些不足之处。基于深度学习的预测流程可划分为编码和模型阶段。在编码阶段,当前编码方式常采用独热编码(one-hot encoding),仅编码单个核苷酸却忽略了相邻核苷酸间的上下文关系,而结合位点是由一系列相邻核苷酸组成的子序列,编码相邻核苷酸间的上下文关系帮助模型更准确地预测RNA-蛋白质的结合位点。此外,在模型阶段,现有模型多采用卷积神经网络(CNN)与递归神经网络(RNN)相结合的方式,但相较于自注意力机制(self-attention mechanism),现有模型提取RNA数据特征不充分,因此预测精度仍有待进一步提高。
发明内容
针对上述问题,本发明的目的在于提供一种基于自注意力机制的RNA-蛋白质结合位点预测方法和系统,从全局的角度聚焦RNA序列特征,并赋予关键子序列更高的权重以使网络充分学习关键特征,进而提高模型预测准确率。技术方案如下:
一种基于自注意力机制的RNA-蛋白质结合位点预测方法,包括如下步骤:
S1:数据获取与预处理:获取RNA与蛋白质结合位点处及其上下游序列数据,并将RNA序列统一为固定的长度;
S2:基于k-mer嵌入编码序列数据:对预处理后数据采用滑动窗口法获取序列的k-mer表示,独热向量化k-mer子序列后通过词嵌入降维独热向量;
S3:基于自注意力网络预测结合位点:为k-mer嵌入后的序列添加位置编码,构建基于自注意力机制的神经网络提取序列特征,将所提取特征通过单层全连接网络分类,将自注意力网络的输出矩阵转换为概率分布,预测是否具有结合位点;
S4:模型训练:在训练集上基于反向传播算法进行模型训练,得到RNA-蛋白质结合位点预测模型;
S5:预测结合位点:通过预测模型处理待测RNA序列,判断待测序列是否具有结合位点。
进一步的,所述步骤S1中,RNA与蛋白质结合位点数据来自于参考基因组对应的片段序列读取的峰值片段,该基因组位置与此处的RBP结合;将所有基因有结合位点的正样本序列随机组合,获取得到阴性结合位点数据,做为负数据集,该基因组位置与此处的RBP不结合。
更进一步的,所述步骤S2具体为:
S21:序列的k-mer表示:滑动窗口从序列首端滑至序列尾端,每次截得序列部分即为k-mer子序列,长为l的序列共截得(l-k+1)个k-mer子序列,k为滑动窗口长度;
S22:独热向量化:每个k-mer子序列被编码为长为4k(4代表RNA的四种核苷酸类型)的独热向量,将k-mer子序列的独热向量按序拼接,得到序列的独热矩阵
Figure BDA0003333971090000031
S23:词嵌入:设置嵌入后维度为dmodel,将独热矩阵I与嵌入矩阵
Figure BDA0003333971090000032
相乘,得到k-mer嵌入输出矩阵
Figure BDA0003333971090000039
具体计算公式为:
Figure BDA0003333971090000033
更进一步的,所述步骤S3具体为:
S31:添加位置编码:
位置编码中使用的正弦和余弦函数公式:
Figure BDA0003333971090000034
Figure BDA0003333971090000035
其中,pos∈(0,l-1)表示子序列在整个k-mer词序列中的位置,i∈(0,dmodel/2-1)表示子序列位置编码的各个维度;
将k-mer子序列的位置编码向量按序拼接,得到序列的位置编码矩阵
Figure BDA0003333971090000036
P=[PE0,PE1,...,PEl-1]T
Figure BDA0003333971090000037
由矩阵
Figure BDA0003333971090000038
表示k-mer嵌入输出矩阵O和位置编码矩阵P之和,计算公式如下:
X=P+O
S32:构建基于自注意力机制的神经网络提取序列特征:
所述基于自注意力机制的神经网络由N个相同的层组成,每层包含两个子层:多头自注意力子层和位置前馈网络子层,每个子层的输出通过残差连接与层归一化处理,且每个子层均生成维度为dmodel的输出;归一化处理公式如下:
H(x)=LayerNorm(x+Sublayer(x))
其中,Sublayer(x)表示该子层实现的功能,x表示子层的输入;
S33:预测结合位点:
将自注意力网络的输出矩阵
Figure BDA0003333971090000041
展平为一维数组,再通过sigmoid做为激活函数的一次线性变换来计算概率p,计算公式如下:
p=sigmoid(flatten(A)W+b)
sigmoid(x)=1/(1+e-x)
其中,W∈Rm×1为线性变化矩阵参数,此处m=l×dmodel,表示展平后一维数组的维度。
更进一步的,所述多头自注意力子层包括三个矩阵输入:
Figure BDA0003333971090000042
Figure BDA0003333971090000043
Figure BDA0003333971090000044
这三个矩阵通过如下线性变化得到:
Q=XWQ
K=XWK
V=XWV
其中,
Figure BDA0003333971090000045
Figure BDA0003333971090000046
为三个线性变化矩阵;
多头注意力计算公式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
Figure BDA0003333971090000047
其中,
Figure BDA0003333971090000048
Figure BDA0003333971090000049
Figure BDA00033339710900000410
是线性传播参数;此处dk=dmodel/h,表示每个头经注意力计算后的输出维度;h表示多头注意力的头数;
所述位置前馈网络子层包括两个线性变换,中间通过ReLU激活函数激活:
FFN(x)=max(0,xW1+b1)W2+b2
其中,
Figure BDA0003333971090000051
Figure BDA0003333971090000052
为转换参数;此处dff=dmodel/2,表示第一次线性变换后的维度;b1和b2分别表示两次线性变化中加入的偏置项。
更进一步的,所述步骤S4具体为:
S41:采用随机失活来减少模型的过拟合:
S411:在计算矩阵X后,添加dropout函数处理矩阵X:
dropout(X,pdrop)
S412:在完成子层计算后,添加dropout函数处理输出:
dropout(Sublayer(x),pdrop)
S413:在将输出矩阵
Figure BDA0003333971090000053
展平为一维数组后,添加dropout函数处理输出:
dropout(flatten(A),pdrop)
其中,pdrop为dropout概率;
S42:加速模型收敛:通过adam优化器来加速模型收敛,损失函数采用最小平方差损失函数训练模型;
Figure BDA0003333971090000054
其中,yi
Figure BDA0003333971090000055
分别表示实际标签与预测标签,n表示实际标签总个数。
一种构建用于RNA-蛋白质结合位点预测模型的系统,包括处理器,存储器以及储存在存储器上的计算机程序,所述计算机程序在处理器上执行实现上述方法。
本发明的有益效果是:
1)在编码阶段,本发明引入k-mer嵌入(k-mer embedding)的编码方式,编码相邻核苷酸间的上下文关系,为模型提供更多有效的序列特征;
2)在模型阶段,本发明引入自注意力机制构建预测模型,从全局的角度聚焦RNA序列特征,并赋予关键子序列更高的权重以使网络充分学习关键特征,进而提高模型预测准确率;
3)在相同数据集上与现有模型对比,取得了最优的预测准确率(0.945),相较于之前最好的算法iDeepE(目前已公开的技术方案中,同数据集上预测准确率最高的模型)的平均准确率0.931,提升了1.4个百分点;
4)本发明通过已有实验数据训练神经网络,来预测未被验证的序列是否具有结合位点以指导生物实验,有效地减少了实验时间与财力损耗。
附图说明
图1是本发明种基于自注意力机制RNA-蛋白质结合位点预测方法和系统的模型结构示意图;
图2是本发明基于自注意力机制RNA-蛋白质结合位点预测方法和系统的流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。
本发明提出了一种基于自注意力机制RNA-蛋白质结合位点预测方法和系统。该方法通过k-mer嵌入编码方式编码相邻核苷酸间的上下文关系,并引入自注意力机制构建预测模型,赋予关键子序列更高的权重以使网络充分学习关键特征,进而提高模型的预测准确率。
本实施例提供了一种基于自注意力机制RNA-蛋白质结合位点预测方法,参考图1与图2,其过程是基于python3.8.6-tensorflow2.4.0实现。该方法包括:
S1:数据获取与预处理,获取RNA序列数据并进行数据预处理;
S2:基于k-mer嵌入编码序列数据,对预处理后数据进行k-mer嵌入(k-merembedding)编码;
S3:基于自注意力网络预测结合位点,构建基于自注意力机制(self-attentionmechanism)的神经网络提取数据特征,预测是否具有结合位点;
S4:模型训练,在训练集上基于反向传播算法进行模型训练,得到RNA-蛋白质结合位点预测模型;
S5:预测结合位点,通过预测模型处理待测RNA序列,判断待测序列是否具有结合位点。
具体而言,上述五个步骤的详细过程为:
一、数据获取与预处理
从公开数据库中获取RNA与蛋白质结合位点处及其上下游序列数据,固定序列长度。
1、获取数据。获取的RNA与蛋白质结合位点处及其上下游序列数据来源于经过ENCODE国际项目(DNA元件百科全书)所产生的eCLIP数据,其中结合位点数据来自于参考基因组对应的片段序列读取的峰值片段(该基因组位置与该RBP结合,分类标签为1)。此外,使用bedtools shuffle工具将所有基因有结合位点的正样本序列随机组合,获取得到阴性结合位点数据,做为负数据集(该基因组位置与该RBP不结合,分类标签为0)。
2、固定序列长度。将RNA序列统一为固定的长度l=501表示,确保此长度已包含每条RNA足够的特征与辅助预测信息。
1)长度不足,尾端扩增。若RNA序列长度s不足l,则在序列的尾端填充(l-s)个‘N’,其中‘N’代表填充的占位符;
2)长度超过,尾端截断。若RNA序列长度s超过l,舍去长度为(s-l)的尾端序列。
二、基于k-mer嵌入编码序列数据
采用滑动窗口法获取序列的k-mer表示,独热向量化k-mer子序列后通过词嵌入降维独热向量。
1、序列的k-mer表示。采用滑动窗口法获取序列的k-mer表示,其中滑动窗口长为k=4,步长为1。滑动窗口从序列首端滑至序列尾端,每次截得序列部分即为k-mer子序列,长为l的序列共截得(l-k+1)个k-mer子序列。
2、独热向量化。独热向量化k-mer子序列,其中每个k-mer子序列被编码为长为4k的独热向量,其中,4k中的“4”代表RNA的四种核苷酸类型。将k-mer子序列的独热向量按序拼接,得到序列的独热矩阵
Figure BDA0003333971090000071
3、词嵌入。通过词嵌入降维独热向量,设置嵌入后维度为dmodel=10,将独热矩阵I与嵌入矩阵
Figure BDA0003333971090000081
相乘,得到k-mer嵌入输出矩阵
Figure BDA0003333971090000082
具体计算公式为:
Figure BDA0003333971090000083
其中嵌入矩阵M的参数随机初始化,后续通过模型的反向传播算法优化。计算过程中引入
Figure BDA0003333971090000084
的意义是将嵌入后的值适当扩大,确保其在后续步骤中添加位置编码后效果不会消失。
三、基于自注意力网络预测结合位点
将添加位置编码后的序列数据通过自注意力网络提取序列特征,再经过单层全连接网络分类,以预测结合位点。
1.添加位置编码。为k-mer嵌入后的序列添加位置编码,以确保后续自注意力机制考虑到序列的位置信息。位置编码中使用的正弦和余弦函数公式:
Figure BDA0003333971090000085
Figure BDA0003333971090000086
其中pos∈(0,l-1)表示子序列在整个k-mer词序列中的位置,i∈(0,dmodel/2-1)表示子序列位置编码的各个维度。
将k-mer子序列的位置编码向量按序拼接,得到序列的位置编码矩阵
Figure BDA0003333971090000087
P=[PE0,PE1,...,PEl-1]T
Figure BDA0003333971090000088
由矩阵
Figure BDA0003333971090000089
表示k-mer嵌入输出矩阵O和位置编码矩阵P之和,计算公式如下:
X=P+O
2.序列特征提取。通过自注意力网络完成序列的特征提取。该网络由N个相同的层组成,每层包含两个子层:多头自注意力(Multi-Head Attention)子层和位置前馈网络(Position-wise Feed-Forward Networks)子层。该实施例中层数设置为N=6。每个子层的输出通过残差连接(residual connection)与层归一化(layer normalization)处理,公式如下:
H(x)=LayerNorm(x+Sublayer(x))
其中Sublayer(x)表示该子层实现的功能。为了简化残差连接计算,每个子层都会生成维度为dmodel的输出。
1)多头自注意力子层
多头自注意力子层包括三个矩阵输入:
Figure BDA0003333971090000091
Figure BDA0003333971090000092
这三个矩阵通过如下线性变化得到:
Q=XWQ
K=XWK
V=XWV
其中三个线性变化矩阵
Figure BDA0003333971090000093
Figure BDA0003333971090000094
的参数随机初始化,后续通过模型的反向传播算法优化。
多头注意力允许自注意力网络关注来自不同表示子空间的信息,这有助于模型学习更多的序列特征。多头注意力计算公式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
Figure BDA0003333971090000095
其中
Figure BDA0003333971090000096
Figure BDA0003333971090000097
Figure BDA0003333971090000098
是线性传播参数,这里dk=dmodel/h,表示每个头经注意力计算后的输出维度;h表示多头注意力的头数,本实施例设置h=2。
2)位置前馈网络子层
位置前馈网络子层由两个线性变换组成,中间通过ReLU激活函数激活:
FFN(x)=max(0,xW1+b1)W2+b2
其中
Figure BDA0003333971090000099
Figure BDA00033339710900000910
为转换参数,这里dff=dmodel/2,表示第一次线性变换后的维度;b1和b2分别表示两次线性变化中加入的偏置项。
3.预测结合位点。将所提取特征通过单层全连接网络分类,将自注意力网络的输出矩阵转换为概率分布,预测是否具有结合位点。将输出矩阵
Figure BDA00033339710900000911
展平为一维数组,再通过sigmoid做为激活函数的一次线性变换来计算概率p,计算公式如下:
p=sigmoid(flatten(A)W+b)
sigmoid(x)=1/(1+e-x)
其中线性变化矩阵参数W∈Rm×1随机初始化,后续通过模型的反向传播算法优化,这里m=l×dmodel,表示展平后一维数组的维度。
四、模型训练
在训练集上基于反向传播算法进行模型训练,采用随机失活(dropout)减少过拟合,并通过adam优化器加速模型收敛,得到RNA-蛋白质结合位点预测模型。
1.减少过拟合。使用随机失活来减少模型的过拟合,在模型的三个位置加入dropout函数。该实施例中dropout概率设置为pdrop=0.05。
1)矩阵X计算后:在计算了矩阵X后,添加dropout函数处理矩阵X。
dropout(X,pdrop)
2)子层计算Sublayer(x)后:在完成了子层计算后,添加dropout函数处理输出。
dropout(Sublayer(x),pdrop)
3)输出矩阵A展平操作后:在将输出矩阵
Figure BDA0003333971090000101
展平为一维数组后,添加dropout函数处理输出。
dropout(flatten(A),pdrop)
2.加速模型收敛。通过adam优化器来加速模型收敛,损失函数采用最小平方差(mean square error)损失函数训练模型。
Figure BDA0003333971090000102
其中,yi
Figure BDA0003333971090000103
分别表示实际标签与预测标签,n表示实际标签总个数。
五、预测结合位点
通过预测模型处理待测RNA序列,得到预测概率p。若p>0.5,则预测该待测序列具有结合位点;反之,预测待测序列不具有结合位点。
本发明提供的预测方法,在具体实施时,可采用软件方式实现流程的自动运行。运行流程的装置也应当在本发明的保护范围内。
以下通过对比实验来验证本发明的有益效果。
本实验采用的数据从公开数据库(HITS-CLIP、PAR-CLIP、iCLIP)中提取而得,包括21个RBP的24个CLIP实验数据集。其中,23个数据集来自doRiNA,另一个数据集通过HITS-CLIP测量PTB结合位点。数据集中RNA序列的长度在200-500之间。
我们将本发明提出方法的性能与该领域的五种典型方法进行了比较,它们分别是GraphProt(方法1)、deepnet-rbp(方法2)、iDeepV(方法3)、iDeepE(方法4)和RPI-Net(方法5)。我们通过ROC曲线下面积(AUC)评估模型的性能,在24个数据集上各模型的AUC性能表现如表1所示。
表1对比实验结果
Figure BDA0003333971090000111
Figure BDA0003333971090000121
从表1可见,本发明方法优于上述五种方法。具体而言,我们的方法的平均AUC为0.945,分别超过GraphProt、deepnet RBP、iDeepV、RPI-Net、iDeepE了5.8%、4.2%、3.2%、1.8%、1.4%,表明本发明的方法具有更强的RNA-蛋白质结合位点预测能力。
此外,我们的方法在小样本数据上也有很好的表现。在少于20000个训练样本的10个RBP上,本发明方法在其中7个RBP中具有最佳AUC,表明其在学习小样本序列方面的优势。例如,在最小的数据集ALKBH5上,本方法的AUC为0.788,超过iDeepE 3%;在第二小数据集C17ORF85上,本方法比RPI-Net高5.8%。
由此可得出结论,与已有RNA-蛋白质结合位点预测方法相比,本发明方法拥有更高的预测精度。
综上所述,本发明设计了一种基于自注意力机制RNA-蛋白质结合位点预测方法和系统,能够有效提高预测RNA-蛋白质结合位点的性能。本发明的研究成果可应用于生物医学领域,研究人员可以通过本方法的帮助,指导识别RNA序列的结合位点,进而对RBP进行更深入地研究。此外,由于自注意力机制善于提取序列的关键特征,本发明研究成果不仅能应用于RNA-蛋白质结合位点预测问题中,还能应用于其他序列间发生相互作用的基因元件之间的预测。

Claims (7)

1.一种基于自注意力机制的RNA-蛋白质结合位点预测方法,其特征在于,包括如下步骤:
S1:数据获取与预处理:获取RNA与蛋白质结合位点处及其上下游序列数据,并将RNA序列统一为固定的长度;
S2:基于k-mer嵌入编码序列数据:对预处理后数据采用滑动窗口法获取序列的k-mer表示,独热向量化k-mer子序列后通过词嵌入降维独热向量;
S3:基于自注意力网络预测结合位点:为k-mer嵌入后的序列添加位置编码,构建基于自注意力机制的神经网络提取序列特征,将所提取特征通过单层全连接网络分类,将自注意力网络的输出矩阵转换为概率分布,预测是否具有结合位点;
S4:模型训练:在训练集上基于反向传播算法进行模型训练,得到RNA-蛋白质结合位点预测模型;
S5:预测结合位点:通过预测模型处理待测RNA序列,判断待测序列是否具有结合位点。
2.根据权利要求1所述的基于自注意力机制的RNA-蛋白质结合位点预测方法,其特征在于,所述步骤S1中,RNA与蛋白质结合位点数据来自于参考基因组对应的片段序列读取的峰值片段,该基因组位置与此处的RBP结合;将所有基因有结合位点的正样本序列随机组合,获取得到阴性结合位点数据,做为负数据集,该基因组位置与此处的RBP不结合。
3.根据权利要求1所述的基于自注意力机制的RNA-蛋白质结合位点预测方法,其特征在于,所述步骤S2具体为:
S21:序列的k-mer表示:滑动窗口从序列首端滑至序列尾端,每次截得序列部分即为k-mer子序列,长为l的序列共截得(l-k+1)个k-mer子序列,k为滑动窗口长度;
S22:独热向量化:每个k-mer子序列被编码为长为4k独热向量,将k-mer子序列的独热向量按序拼接,得到序列的独热矩阵
Figure FDA0003333971080000021
S23:词嵌入:设置嵌入后维度为dmodel,将独热矩阵I与嵌入矩阵
Figure FDA0003333971080000022
相乘,得到k-mer嵌入输出矩阵
Figure FDA0003333971080000023
具体计算公式为:
Figure FDA0003333971080000024
4.根据权利要求3所述的基于自注意力机制的RNA-蛋白质结合位点预测方法,其特征在于,所述步骤S3具体为:
S31:添加位置编码:
位置编码中使用的正弦和余弦函数公式:
Figure FDA0003333971080000025
Figure FDA0003333971080000026
其中,pos∈(0,l-1)表示子序列在整个k-mer词序列中的位置,i∈(0,dmodel/2-1)表示子序列位置编码的各个维度;
将k-mer子序列的位置编码向量按序拼接,得到序列的位置编码矩阵
Figure FDA0003333971080000027
P=[PE0,PE1,...,PEl-1]T
Figure FDA0003333971080000028
由矩阵
Figure FDA0003333971080000029
表示k-mer嵌入输出矩阵O和位置编码矩阵P之和,计算公式如下:
X=P+O
S32:构建基于自注意力机制的神经网络提取序列特征:
所述基于自注意力机制的神经网络由N个相同的层组成,每层包含两个子层:多头自注意力子层和位置前馈网络子层,每个子层的输出通过残差连接与层归一化处理,且每个子层均生成维度为dmodel的输出;归一化处理公式如下:
H(x)=LayerNorm(x+Sublayer(x))
其中,Sublayer(x)表示该子层实现的功能,x表示子层的输入;
S33:预测结合位点:
将自注意力网络的输出矩阵
Figure FDA0003333971080000031
展平为一维数组,再通过sigmoid做为激活函数的一次线性变换来计算概率p,计算公式如下:
p=sigmoid(flatten(A)W+b)
sigmoid(x)=1/(1+e-x)
其中,W∈Rm×1为线性变化矩阵参数,此处m=l×dmodel,表示展平后一维数组的维度。
5.根据权利要求3所述的基于自注意力机制的RNA-蛋白质结合位点预测方法,其特征在于,所述多头自注意力子层包括三个矩阵输入:
Figure FDA0003333971080000032
Figure FDA0003333971080000033
Figure FDA0003333971080000034
这三个矩阵通过如下线性变化得到:
Q=XWQ
K=XWK
V=XWV
其中,
Figure FDA0003333971080000035
Figure FDA0003333971080000036
为三个线性变化矩阵;
多头注意力计算公式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
headi=Attention(QEii Q,KWi K,VWi V)
其中,
Figure FDA0003333971080000037
Figure FDA0003333971080000038
Figure FDA0003333971080000039
是线性传播参数;此处dk=dmodel/h,表示每个头经注意力计算后的输出维度;h表示多头注意力的头数;
所述位置前馈网络子层包括两个线性变换,中间通过ReLU激活函数激活:
FFN(x)=max(0,xW1+b1)W2+b2
其中,
Figure FDA0003333971080000041
Figure FDA0003333971080000042
为转换参数;此处dff=dmodel/2,表示第一次线性变换后的维度;b1和b2分别表示两次线性变化中加入的偏置项。
6.根据权利要求4所述的基于自注意力机制的RNA-蛋白质结合位点预测方法,其特征在于,所述步骤S4具体为:
S41:采用随机失活来减少模型的过拟合:
S411:在计算矩阵X后,添加dropout函数处理矩阵X:
dropout(X,pdrop)
S412:在完成子层计算后,添加dropout函数处理输出:
dropout(Sublayer(x),pdrop)
S413:在将输出矩阵
Figure FDA0003333971080000043
展平为一维数组后,添加dropout函数处理输出:
dropout(flatten(A),pdrop)
其中,pdrop为dropout概率;
S42:加速模型收敛:通过adam优化器来加速模型收敛,损失函数采用最小平方差损失函数训练模型;
Figure FDA0003333971080000044
其中,yi
Figure FDA0003333971080000045
分别表示实际标签与预测标签,n表示实际标签总个数。
7.一种基于自注意力机制的RNA-蛋白质结合位点预测系统,其特征在于,包括处理器,存储器以及储存在存储器上的计算机程序,所述计算机程序在处理器上执行实现权利要求1至5任一项所述方法。
CN202111297183.4A 2021-11-02 2021-11-02 基于自注意力机制的rna-蛋白质结合位点预测方法和系统 Active CN114023376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111297183.4A CN114023376B (zh) 2021-11-02 2021-11-02 基于自注意力机制的rna-蛋白质结合位点预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111297183.4A CN114023376B (zh) 2021-11-02 2021-11-02 基于自注意力机制的rna-蛋白质结合位点预测方法和系统

Publications (2)

Publication Number Publication Date
CN114023376A true CN114023376A (zh) 2022-02-08
CN114023376B CN114023376B (zh) 2023-04-18

Family

ID=80060496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111297183.4A Active CN114023376B (zh) 2021-11-02 2021-11-02 基于自注意力机制的rna-蛋白质结合位点预测方法和系统

Country Status (1)

Country Link
CN (1) CN114023376B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053462A (zh) * 2021-03-11 2021-06-29 同济大学 基于双向注意力机制的rna与蛋白质绑定偏好预测方法和系统
CN114420211A (zh) * 2022-03-28 2022-04-29 鲁东大学 一种基于注意力机制的rna-蛋白质结合位点预测方法
CN115662508A (zh) * 2022-10-14 2023-01-31 徐州工业职业技术学院 一种基于多尺度交叉注意力模型的rna修饰位点预测方法
CN116052774A (zh) * 2022-07-04 2023-05-02 湖南中医药大学 基于深度学习的关键miRNA识别方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710364A (zh) * 2009-12-14 2010-05-19 重庆大学 一种蛋白质与rna相互作用位点计算识别方法
CN104077499A (zh) * 2014-05-25 2014-10-01 南京理工大学 基于有监督上采样学习的蛋白质-核苷酸绑定位点预测方法
WO2019041333A1 (zh) * 2017-08-31 2019-03-07 深圳大学 蛋白质结合位点的预测方法、装置、设备及存储介质
CN111192631A (zh) * 2020-01-02 2020-05-22 中国科学院计算技术研究所 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN111341386A (zh) * 2020-02-17 2020-06-26 大连理工大学 引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN112382338A (zh) * 2020-11-16 2021-02-19 南京理工大学 基于自注意力残差网络的dna-蛋白质结合位点预测方法
CN112837747A (zh) * 2021-01-13 2021-05-25 上海交通大学 基于注意力孪生网络的蛋白质结合位点预测方法
CN113053462A (zh) * 2021-03-11 2021-06-29 同济大学 基于双向注意力机制的rna与蛋白质绑定偏好预测方法和系统
CN113178229A (zh) * 2021-05-31 2021-07-27 吉林大学 一种基于深度学习的rna和蛋白质结合位点的识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710364A (zh) * 2009-12-14 2010-05-19 重庆大学 一种蛋白质与rna相互作用位点计算识别方法
CN104077499A (zh) * 2014-05-25 2014-10-01 南京理工大学 基于有监督上采样学习的蛋白质-核苷酸绑定位点预测方法
WO2019041333A1 (zh) * 2017-08-31 2019-03-07 深圳大学 蛋白质结合位点的预测方法、装置、设备及存储介质
CN111192631A (zh) * 2020-01-02 2020-05-22 中国科学院计算技术研究所 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN111341386A (zh) * 2020-02-17 2020-06-26 大连理工大学 引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN112382338A (zh) * 2020-11-16 2021-02-19 南京理工大学 基于自注意力残差网络的dna-蛋白质结合位点预测方法
CN112837747A (zh) * 2021-01-13 2021-05-25 上海交通大学 基于注意力孪生网络的蛋白质结合位点预测方法
CN113053462A (zh) * 2021-03-11 2021-06-29 同济大学 基于双向注意力机制的rna与蛋白质绑定偏好预测方法和系统
CN113178229A (zh) * 2021-05-31 2021-07-27 吉林大学 一种基于深度学习的rna和蛋白质结合位点的识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LONG-CHEN SHEN 等: "SAResNet: self-attention residual network for predicting DNA-protein binding" *
XINYI WANG 等: "Self-Attention based Neural Network for Predicting RNA-Protein Binding Sites" *
李春华 等: "蛋白质-RNA对接中打分函数设计及RNA结合位点识别研究进展" *
汪颖 等: "蛋白质-RNA相互作用预测中的几类分类器" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053462A (zh) * 2021-03-11 2021-06-29 同济大学 基于双向注意力机制的rna与蛋白质绑定偏好预测方法和系统
CN114420211A (zh) * 2022-03-28 2022-04-29 鲁东大学 一种基于注意力机制的rna-蛋白质结合位点预测方法
CN116052774A (zh) * 2022-07-04 2023-05-02 湖南中医药大学 基于深度学习的关键miRNA识别方法及系统
CN116052774B (zh) * 2022-07-04 2023-11-28 湖南中医药大学 基于深度学习的关键miRNA识别方法及系统
CN115662508A (zh) * 2022-10-14 2023-01-31 徐州工业职业技术学院 一种基于多尺度交叉注意力模型的rna修饰位点预测方法
CN115662508B (zh) * 2022-10-14 2024-03-12 徐州工业职业技术学院 一种基于多尺度交叉注意力模型的rna修饰位点预测方法

Also Published As

Publication number Publication date
CN114023376B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN114023376B (zh) 基于自注意力机制的rna-蛋白质结合位点预测方法和系统
US11837324B2 (en) Deep learning-based aberrant splicing detection
Rodríguez et al. Beyond one-hot encoding: Lower dimensional target embedding
US20220237457A1 (en) Variant pathogenicity prediction using neural network
CN110765966B (zh) 一种面向手写文字的一阶段自动识别与翻译方法
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
Ralaivola et al. Graph kernels for chemical informatics
US20230207054A1 (en) Deep learning network for evolutionary conservation
CN114420211A (zh) 一种基于注意力机制的rna-蛋白质结合位点预测方法
CN112732864A (zh) 一种基于稠密伪查询向量表示的文档检索方法
CN111008224A (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
WO2023129955A1 (en) Inter-model prediction score recalibration
EP3739590A1 (en) Sequence variation detection using deep learning
CN113257359A (zh) 一种基于CNN-SVR的CRISPR/Cas9向导RNA编辑效率预测方法
CN113611354A (zh) 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法
CN112863597A (zh) 基于卷积门控递归神经网络的rna基元位点预测方法及系统
US20240087685A1 (en) Systems and methods for evaluation of structure and property of polynucleotides
CN113539358B (zh) 基于Hilbert编码的增强子-启动子相互作用预测方法及装置
CN114582420A (zh) 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统
CN112735604B (zh) 一种基于深度学习算法的新型冠状病毒分类方法
EP4182928A1 (en) Method, system and computer program product for determining presentation likelihoods of neoantigens
Wang et al. Gcmapcrys: integrating graph attention network with predicted contact map for multi-stage protein crystallization propensity prediction
CN114913358B (zh) 一种基于自动编码器的医药高光谱异物检测方法
Pavlov et al. Recognition of DNA secondary structures as nucleosome barriers with deep learning methods
CN115171780A (zh) 基于自注意力机制的长链非编码rna-疾病关联预测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant