CN111341386B

CN111341386B - 引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法

Info

Publication number: CN111341386B
Application number: CN202010097498.3A
Authority: CN
Inventors: 孟军; 石文浩
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2022-09-20
Anticipated expiration: 2040-02-17
Also published as: CN111341386A

Abstract

本发明公开一种引入注意力的多尺度CNN‑BiLSTM非编码RNA互作关系预测方法，属于生物信息学和深度学习领域。包括：(1)提出一种适用于基因序列的编码方式k‑mers；(2)使用多尺度卷积核代替单一尺度卷积核，从而捕获序列间不同长度主题特征，丰富特征多样性，提高模型预测性能；再对每个卷积出来的特征映射使用多个不同尺度的池化窗口进行下采样，避免忽略潜在的有效信息；(3)在CNN基础上融合BiLSTM模型，使其能更好处理序列间长距离信息依赖，从而充分学习特征信息；(4)引入注意力机制，利用其可给文本向量中不同词分配不同权重，来区分信息重要性大小，使其更多地关注关键信息，达到加强学习的目的。

Description

引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法

技术领域

本发明属于生物信息学和深度学习领域，涉及引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法，包括k-mers编码的设计以及深度学习预测模型的构建。

背景技术

自深度学习被提出后，其自动学习特征和学习能力好等优点使之被广泛应用于多领域；例如，卷积神经网络CNN、循环神经网络RNN和双向长短期记忆神经网络BiLSTM等已被用于基因组研究中，解决了基序鉴定、基因表达推断和互作关系预测等问题。微小RNA(miRNA)和长链非编码RNA(lncRNA)具有调节生物生命活动的重要作用，它们在细胞生长、分化和增殖方面起着重要调节作用。因此对其互作关系的研究不仅有助于深入分析基因间生物学功能，也可为动物及人类疾病诊治和植物遗传育种方面提供新思路。目前，对非编码RNA方面的研究大多使用生物鉴定和计算预测方法，但生物实验不仅鉴定代价高耗时长，而且不适合大批量鉴定；传统计算方法则是通过提取特征构造特征向量作为输入数据，再利用机器学习构建分类器实现预测，但特征提取过程涉及过多人工干预且提取过程复杂。因而，提出一个可很好预测非编码RNA互作的深度学习预测模型。

目前，在lncRNA识别、miRNA识别和RNA-Protein结合位点等方面已经有一些深度学习方法，但依然存在着改善之处。1)传统深度学习方法大多使用one-hot编码、label编码和complementary编码，它们都仅考虑单核苷酸，忽略了相邻核苷酸之间的依赖联系。one-hot编码会造成维度灾难且较长的序列会使特征矩阵过大，增大内存与计算量的负担；label编码为方便编码仅根据序列中核苷酸个数来进行数字编码，且仅考虑单核苷酸；complementary编码也仅考虑核苷酸之间的互补特征。但事实上，相邻核苷酸之间可能存在某种依赖联系。2)众所周知，特征多样性对改善模型性能至关重要，而单尺度卷积只能提取某一局部特征，可能会丢失一些潜在的有效信息。3)CNN模型中特征共享权重，无法聚焦重要特征，忽略不重要的特征；而注意力机制可以通过对特征分配注意力机制，聚焦于重要点上，忽略不重要因素。因此，为了克服上述缺陷，新方法进行了以下改进：

为充分考虑相邻核苷酸之间的依赖联系，引入k-mers编码，它可保存相邻核苷酸之间的依赖联系，从而避免信息的损失。论文名：lncRNA-LSTM：Prediction of Plant LongNon-coding RNAs Using Long Short-Term Memory Based on p-nts Encoding，期刊：ICIC2019 International Conference on Intelligent Computing，年份：2019。Meng等人使用k-mers编码代替one-hot编码对lncRNA数据进行编码，并利用BiLSTM模型进行训练学习，得出模型的性能优于传统的one-hot编码，且降低了计算量和运行时间。

利用多尺度卷积核代替单尺度卷积核，并且使用不同尺度的池化窗口代替单尺度池化，从而更充分地提取序列特征信息，丰富特征多样性，有助于捕获潜在信息；论文名：RNA-Protein Binging Sites Prediction via Multi Scale Convolutional GatedRecurrent Unit Network，期刊：IEEE/ACM Transactions on Computational Biologyand Bioinformaticas，年份：2019。Shen等人提出使用多尺度的卷积门控循环神经网络MSCGRU识别RNA-Protein结合位点，它利用多尺度卷积层捕获不同长度的图案特征和双向GRU来提取子序列间的依存关系，从而更好地预测RNA-Protein结合位点。论文名：Extracting Biomedical Events with Parallel Multi-Pooling Convolutional NeuralNetworks，期刊：IEEE/ACM Transactions on Computational Biology andBioinformaticas，年份：2018。Li等人提出使用一个并行多池卷积神经网络模型来捕获句子的组成语义特征。该模型利用多个不同尺度的池化对卷积出的特征映射进行下采样再串联多个池化结果，避免单池化造成的有效信息的遗漏。

利用注意力机制可通过给不同特征分配不同权重，来聚焦关键特征，减少无关特征信息的干扰。从而进一步提高模型的性能。论文：Attention based convolutionalneural network for predicting RNA-protein binding sites，期刊：NIPS MLCBworkshop，年份：2017。Pan等人提出一个基于注意力机制的卷积神经网络，可以从原始序列中预测RNA-Protein蛋白质结合位点。该模型利用注意力机制自动搜索重要位置，从而学习探测出结合位点所在。

发明内容

基于以上所述现有技术的不足，本发明的目的在于提供一种引入注意力的CNN-BiLSTM非编码RNA互作关系预测方法，能够通过对已被验证的互作对的训练学习，来预测未被验证的互作对是否具有互作关系，从而为生物学者提供新材料。

引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法，步骤如下：

(1)对互作对数据进行分词处理，再进行k-mers编码

对于基因序列，传统的深度学习编码方式为one-hot编码、label编码和complementary编码，但这些方式仅仅考虑序列中单个核苷酸，忽略了相邻核苷酸之间的依赖联系。为充分考虑核苷酸之间的依赖联系，本发明借鉴k-mers方法，对序列进行自然语言处理中的分词操作，将每条序列分割为多个子序列，子序列即生物单词，即每k个连续的核苷酸看作一个单词，单词间不重叠。对所有样本数据经分词处理后，统计可得出一个大小为4^k的单词表，根据单词出现频率，从大到小对每个单词进行编码，则可将每条序列嵌入到一个n维向量中，长度不足用0补充。

(2)使用嵌入层将编码序列映射成卷积操作易处理的形式

分布式表示形式(词嵌入)是密集、低维且是实值的，其作用是将一些关键特征放大或笼统特征弱化，通过将输入序列映射成卷积层易处理的矩阵向量形式，便于特征提取过程。本步骤主要工作是将编码序列中每一个数字映射成一个m×1维的向量M，则输入序列即被映射成m×l的矩阵形式，其中m为嵌入向量维度，l为序列长度。例如，一个编码序列SC＝[w₁,w₂,…,w_i-1,w_i]，其中，w_i∈[1,m],i∈[1,l]，则SC经嵌入层作用后输出矩阵X表示为：

其中，

表示m×l矩阵形式的向量。

(3)使用多尺度卷积池化层提取嵌入层输出的向量

研究表明，提取的特征越丰富，模型的性能就越好。单一尺度的卷积核只能提取某一局部特征，很难全面捕捉到不同长度的主题特征，从而忽略某些潜在的有效信息。为克服该缺点，多尺度卷积核和多池化的CNN被引入。本发明使用三个并联的不同尺度的卷积层对嵌入层的输出X分别进行卷积多池化操作。每一尺度的卷积层操作可捕捉序列不同位置的局部特征feature map，然后再使用三个不同尺度的并联池化对feature map进行最大池化采样，接着将三个池化采样结果进行串联作为该层的输出，最后将三个并联卷积层的结果再进行串联作为多卷积池化层的最终输出结果；其具体步骤为：

1)对嵌入层的输出矩阵X进行卷积操作

为契合

其中m表示嵌入维度，l为序列长度。本发明中每种尺度的卷积层都选用卷积核大小为

进行卷积操作，其中m代表卷积核宽度，大小等于嵌入维度，f为卷积核尺度。则卷积操作可表示为：

c_i＝T([x_i:x_i+f-1]*K_i+b_i) (3)

C＝[c₁,c₂,...,c_l-f+1] (4)

其中，c_i为第i个经卷积后的特征映射，C为卷积后特征映射矩阵；[x_i:x_i+f-1]为句子中第i个i+f-1个词组成的矩阵向量；K_i表示第i个卷积核；b_i表示第i个特征映射的偏置向量；*表示卷积操作；T为非线性函数Tanh或修正流线型函数ReLU，用于解决梯度消失。

2)对卷积后特征映射矩阵C进行多池化操作

选用三个不同大小的池化窗口对特征映射矩阵C使用最大池化max-pooling进行下采样，提取局部区域重要的特征信息MP，再将经不同尺度池化的采样结果进行串联。本发明中，令max-pooling的大小为l-p，其中l为序列的长度，p取值为[f-1,f,f+1]，f为卷积核尺度，故尺度为f的卷积层经池化大小为l-p的max-pooling操作后输出

如下：

3)将池化结果进行串联操作，并得出多尺度卷积池化层的终结果

将三个经尺度为f-1、f和f+1的池化操作后的采样结果进行串联后，则尺度为f的卷积层的输出结果为：

MV^f＝(MP^f-1,MP^f,MP^f+1) (6)

故多尺度卷积池化层的最终输出结果V为：

其中，f₁，f₂和f₃即为发明中所设的卷积核尺度。

(4)利用BiLSTM层处理信息长期依赖缺失的问题

众所周知，对于序列数据，CNN只考虑连续序列之间的相关性而忽略非连续序列之间的依存关系。RNN虽具有内部记忆功能，在处理元间既有内部反馈连接又可前馈调节，在保存序列间信息方面效果较好，但其很难处理信息长期依赖且存在梯度消失和爆炸问题。LSTM作为RNN的变体，通过设置输入门、输出门、遗忘门和记忆单元来解决RNN信息长期依赖缺失及梯度消失和爆炸问题。但单向LSTM只能处理序列一个方向上的信息，而无法捕捉序列相反方向的信息。为了能结合上下文信息，充分地学习特征，双向LSTM被提出，它在每个序列的前后各连着一个单向LSTM，并将两者特征信息进行叠加，实现能同时从正反方向捕获序列信息，从而充分地学习特征信息的目的。因此，本发明在多尺度卷积层之后连接一个BiLSTM层。其公式如下：

前向LSTM层的计算公式为：

反向LSTM层的计算公式为：

正反两层结果叠加后输出为：

其中，t表示时间序列；

和

表示时刻t时反向层隐层向量和前向层隐层向量，上标f和r为前向层和反向层的标记；v_t表示时刻t的输入；y_t表示时刻t的输出；W_vh表示输入层-隐层权重矩阵；W_hy表示隐层-输出层权重矩阵；W_hh表示隐层-隐层权重矩阵；b为偏置向量；σ为隐层激活函数。

(5)引入注意力机制，获取关键信息，进一步优化模型

注意力机制可给文本向量中不同词分配不同的注意力权重，来区分文本中信息的重要性大小，使其更多地关注较关键的信息，达到加强学习的目的。本发明中引入注意力机制为BiLSTM网络的输出向量y分配不同权重来突出关键信息，进一步提高预测性能。其公式如下：

其中，A是经注意力机制作用后得到的特征向量；y_i是BiLSTM网络输出的特征向量；α_i是y_i对特征贡献的注意力权重；评分函数f_att(y_i)是衡量y_i对整个文本的重要程度，其中，评分函数f_att(y_i)包括加性注意力机制(式(13)、(14))和点积注意力机制(式(15))：

加性注意力机制的公式为：

点积注意力机制的公式为：

其中，s表示BiLSTM前向和后向扫描的最终隐藏状态连接，表示句子语义信息；v_a,W_a表示为模型中可学习的权重矩阵，

则为v_a的转置；b_a为对应的偏置向量。

(6)再经全连接层作用后，即可得出预测标签

使用Flatten层平铺通过注意力机制获得的文本语义特征，来连接参数为1的Dense层，并利用激活函数sigmoid将特征向量映射到[0,1]之间，从而可以获得预测标签o。其公式如下：

p(o|A)＝sigmoid(W·A+b) (16)

其中，p是模型预测的文本A属于类别o的概率；o是预测标签；W是参数权重矩阵，b是偏移矢量。

此外，模型的损失函数是对数损失函数，而优化器是Adam，通过更新W和b，达到优化模型的目的。

本发明的有益效果：

(1)为保存基因序列中相邻核苷酸的依赖联系，提出k-mer编码方法对基因序列进行编码；

(2)利用多尺度卷积核代替单尺度卷积核，并进行不同尺度池化窗口的多池化操作，从而更充分地提取序列特征信息，丰富特征多样性，有助于捕获潜在信息；

(3)在CNN基础上融合BiLSTM模型，解决长期信息依赖缺失问题，并利用BiLSTM的特点，结合上下文信息，从而更充分的学习序列特征。

(4)利用注意力机制可通过给不同特征分配不同权重，来聚焦关键特征，减少无关特征信息的干扰的特点；引入注意力机制，获取关键特征信息，从而进一步提高模型的预测性能。

(5)本发明能够通过对已知基因数据进行深度学习，来预测未被验证的数据是否具有互作关系，极大减少了人力与物力的损耗，而且算法泛化能力好，适合于大多数物种预测，且鲁棒性较好。

附图说明

图1为本发明引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法的k-mers编码方式图。

图2为本发明引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法的总体流程图。

图3为本发明引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法的组成示意图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

如图2所示，本发明的总体设计思路为：因为传统的编码方式都未考虑相邻核苷酸之间的依赖联系，事实上，相邻核苷酸之间存在某种依赖联系，因此，对基因序列进行k-mers编码方式，保留相邻核苷酸之间的依赖联系，避免潜在有效信息的损失；接着使用嵌入层将编码序列映射成矩阵向量便于卷积操作，并且使用多尺度卷积和多池化操作代替单尺度卷积和单池化操作情况，从而能提取不同主题长度的特征，丰富特征多样性达到模型优化目的；为进一步提高模型的分类预测能力，使用BiLSTM来解决序列间的信息长期依赖缺失的问题，同时，引入注意力机制来为不同特征分配不同权重，从而突出关键特征，进一步优化模型性能。

图3为本发明互作关系预测模型的组成示意图，包括以下步骤：

(1)对基因数据进行分词处理并进行k-mers编码

1)对于基因序列，序列中相邻核苷酸之间存在某种依赖联系，而传统的编码方式，仅仅考虑单核苷酸，在编码时并未保存相邻核苷酸之间的联系；为避免潜在有效信息的损失，对基因数据进行k-mers编码，来充分考虑相邻核苷酸之间的依赖联系；

2)k-mers编码方式的具体过程如下：

(a)首先对数据集中的每条基因序列进行分词处理，即将每条序列分割为多个子序列(生物单词)，每k个连续的核苷酸看作一个单词，单词间不重叠，其中k可取值为{1,2,3,4,5,6}；

(b)对数据集中的所有序列进行分词处理后，根据每个单词出现的频率，从大到小进行编码(从1到4^k)，即可得到一个4^k的字典，每一个单词对应一个数字；本发明经过实验对比得出k＝2时，方法性能最好。

(c)按照字典里的键值对应情况(键为单词名称，值为数字)，对数据集中每条分词的序列进行转换，即可将字母序列映射成一个n维的数字序列S，长度不足用0补充。S即为编码后的序列。

具体编码方式如图1所示。

如图1，将输入序列S＝(ATGACC…TCGAAG)进行2-mers编码后，即每2个连续的核苷酸分割为一个单词，单词间不重叠，并根据词频大小进行编码，则可得出一个大小为4²＝16的单词字典，经程序运行后，即可将S编码为一个固定长度的向量SC＝(5,8,10,…,4,8,7)。

(2)对编码的序列进行嵌入层处理，并进行多尺度卷积池化操作

1)嵌入层的作用是将一些关键特征放大或笼统特征弱化，其通过将输入序列S映射成卷积层易处理的矩阵向量形式

便于卷积层的特征提取操作；m表示嵌入维度，l为编码后序列长度。

2)为丰富特征多样性，来提升模型预测性能，使用多尺度卷积和多池化操作代替单尺度情况，即使用三个不同尺度的卷积核对嵌入层的输出M分别进行卷积多池化操作，每个尺度的卷积多池化操作过程如下：

(a)选用64个尺度为f的卷积核

进行卷积操作，其中，m表示卷积核宽度(大小等于嵌入维度)，f为卷积核长度(卷积尺度)，即可得到卷积后的特征映射矩阵C；

(b)对特征矩阵C进行多池化操作，即选用三个不同池化长度l-p的max-pooling对特征矩阵C进行下采样，提取局部区域重要的特征信息MP，其中，l为序列长度，p取值为[f-1,f,f+1]。最后将三个池化采样的结果进行串联，其表示如下：

MV^f＝Concatenate(axis＝1)([MP^f-1,MP^f,MP^f+1])

(c)按照(a)、(b)方法，对三个尺度的卷积核f₁,f₂和f₃进行卷积多池化操作后，将各尺度的卷积多池化结果进行串联，即可得出多尺度卷积操作的最终结果V，其表示如下：

V＝Concatenate(axis＝1)([MV^f1,MV^f2,MV^f3])

(3)利用BiLSTM来处理特征信息长期依赖缺失问题

对上述经对多尺度卷积池化操作后的特征V进行BiLSTM处理；即在每个特征序列的前后各连接一个单向的LSTM，并将作用后两者的特诊信息进行叠加，实现从正反方向捕获特征信息，从而充分地学习特征信息的目的，其表示如下：

y＝Bidirectional(LSTM(hidden_size＝64,dropout＝0.3,return_sequence＝True))(V)

(4)引入注意力机制，给不同特征分配权重，来区分文本中信息重要性大小，使其更多关注较关键的特征，从而达到加强学习的目的；使用注意力机制为BiLSTM网络的输出向量y分配不同权重来突出关键信息，进一步提高模型预测性能，权重分配公式为表示为：

(5)最后经全连接层Dense作用后，并经sigmoid函数将其映射在[0,1]之间，即可得出预测标签，标签为0，表示无互作关系；标签为1，表示预测有互作关系。

将本发明所述方法MCMPLA分别应用于玉米、马铃薯和小麦数据集，并将本发明方法与现有的预测方法和固定卷积核尺度的模型进行比较。本发明的准确率、精确率、召回率和F1分数明显高于现有方法，且证明本方法提出的合理性与有效性。

表1基于玉米数据集MCMPLA在不同k值下的分类性能表

表2基于玉米数据集MCMPLA在不同编码方式下的分类性能表

表3不同卷积池化模型的分类性能比较表

Notes:M1是单尺度卷积和单池化操作的CNN模型；M2是多尺度卷积和多池化操作的CNN模型；M3是单尺度卷积和多池化操作的CNN模型；M4是多尺度卷积和多池化操作的CNN模型；SD表示标准差

表4不同模型架构的分类性能比较表

Notes:M4是多尺度卷积和多池化操作的CNN模型；M5为M4+BiLSTM模型；M6为M4+Attention模型；MCMPLA为M4+BiLSTM+Attention模型；SD表示标准差

表5 MCMPLA与现有方法的分类性能比较表

Notes:RF为朴素贝叶斯方法；SVM是支持向量机方法；KNN是k近邻方法；RNAhybrid是miRNA靶基因预测工具

总的来说，本发明设计了一种引入注意力的CNN-BiLSTM非编码RNA互作关系预测方法，本发明能够有效提高非编码RNA之间有无互作关系预测性能。因此，本发明能够应用于对植物非编码RNA之间有无互作关系的预测分析，从而不仅有助于深入分析基因间生物学功能，也可为动物及人类疾病诊治和植物遗传育种方面提供新思路，此外也节省了人力物力。

Claims

1.一种引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法，其特征在于，步骤如下：

(1)对互作对数据进行分词处理，再进行k-mers编码

将每条序列分割为多个子序列，子序列即生物单词，即每k个连续的核苷酸看作一个单词，单词间不重叠；对所有样本数据经分词处理后，统计得出一个大小为4^k的单词表，根据单词出现频率，从大到小对每个单词进行编码，则将每条序列嵌入到一个n维向量中；

(2)使用嵌入层将编码序列映射成卷积操作易处理的形式

将编码序列中每一个数字映射成一个m×1维的向量M，则输入序列即被映射成m×l的矩阵形式，其中m为嵌入向量维度，l为序列长度；对于一个编码序列SC＝[w₁,w₂,…,w_i-1,w_i]，其中，w_i∈[1,m],i∈[1,l]，则SC经嵌入层作用后输出矩阵X表示为：

其中，

表示m×l矩阵形式的向量；

(3)使用多尺度卷积池化层提取嵌入层输出的向量

使用三个并联的不同尺度的卷积层对嵌入层的输出X分别进行卷积多池化操作：每一尺度的卷积层操作捕捉序列不同位置的局部特征feature map，然后再使用三个不同尺度的并联池化对feature map进行最大池化采样，接着将三个池化采样结果进行串联作为该层的输出，最后将三个并联卷积层的结果再进行串联作为多卷积池化层的最终输出结果；具体步骤为：

1)对嵌入层的输出矩阵X进行卷积操作

每种尺度的卷积层均选用卷积核大小为

进行卷积操作，其中m代表卷积核宽度，大小等于嵌入维度，f为卷积核尺度；则卷积操作表示为：

c_i＝T([x_i:x_i+f-1]*K_i+b_i) (3)

C＝[c₁,c₂,...,c_l-f+1] (4)

其中，c_i为第i个经卷积后的特征映射，C为卷积后特征映射矩阵；[x_i:x_i+f-1]为句子中第i个i+f-1个词组成的矩阵向量；K_i表示第i个卷积核；b_i表示第i个特征映射的偏置向量；*表示卷积操作；T为非线性函数Tanh或修正流线型函数ReLU，用于解决梯度消失；

2)对卷积后特征映射矩阵C进行多池化操作

选用三个不同大小的池化窗口对特征映射C使用最大池化max-pooling进行下采样，提取局部区域重要的特征信息MP，再将经不同尺度池化的采样结果进行串联；令max-pooling的大小为l-p，其中l为序列的长度，p取值为[f-1,f,f+1]，f为卷积核尺度，尺度为f的卷积层经池化大小为l-p的max-pooling操作后输出MP_i ^p如下：

MP_i ^p＝max(c_i,c_i+1,...,c_i+l-p-1) (5)

3)对池化结果进行串联操作，并得出多尺度卷积池化层的终结果

MV^f＝(MP^f-1,MP^f,MP^f+1) (6)

故多尺度卷积池化层的最终输出结果V为：