CN111341386B - 引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法 - Google Patents
引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法 Download PDFInfo
- Publication number
- CN111341386B CN111341386B CN202010097498.3A CN202010097498A CN111341386B CN 111341386 B CN111341386 B CN 111341386B CN 202010097498 A CN202010097498 A CN 202010097498A CN 111341386 B CN111341386 B CN 111341386B
- Authority
- CN
- China
- Prior art keywords
- layer
- pooling
- convolution
- scale
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000003993 interaction Effects 0.000 title claims abstract description 23
- 108091027963 non-coding RNA Proteins 0.000 title claims abstract description 15
- 102000042567 non-coding RNA Human genes 0.000 title claims abstract description 15
- 238000011176 pooling Methods 0.000 claims abstract description 61
- 239000013598 vector Substances 0.000 claims abstract description 39
- 230000007246 mechanism Effects 0.000 claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims description 32
- 239000002773 nucleotide Substances 0.000 claims description 23
- 125000003729 nucleotide group Chemical group 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000007774 longterm Effects 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 4
- 230000000996 additive effect Effects 0.000 claims description 4
- 230000002441 reversible effect Effects 0.000 claims description 4
- 108091026890 Coding region Proteins 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- 108090000623 proteins and genes Proteins 0.000 abstract description 13
- 238000013135 deep learning Methods 0.000 abstract description 10
- 238000005728 strengthening Methods 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 5
- 241000196324 Embryophyta Species 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 108091070501 miRNA Proteins 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 3
- 240000008042 Zea mays Species 0.000 description 3
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 108020005198 Long Noncoding RNA Proteins 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008827 biological function Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 235000009973 maize Nutrition 0.000 description 2
- 239000002679 microRNA Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 101000990986 Homo sapiens Myosin regulatory light chain 12A Proteins 0.000 description 1
- 102100030329 Myosin regulatory light chain 12A Human genes 0.000 description 1
- 244000061456 Solanum tuberosum Species 0.000 description 1
- 235000002595 Solanum tuberosum Nutrition 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000010261 cell growth Effects 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012214 genetic breeding Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开一种引入注意力的多尺度CNN‑BiLSTM非编码RNA互作关系预测方法,属于生物信息学和深度学习领域。包括:(1)提出一种适用于基因序列的编码方式k‑mers;(2)使用多尺度卷积核代替单一尺度卷积核,从而捕获序列间不同长度主题特征,丰富特征多样性,提高模型预测性能;再对每个卷积出来的特征映射使用多个不同尺度的池化窗口进行下采样,避免忽略潜在的有效信息;(3)在CNN基础上融合BiLSTM模型,使其能更好处理序列间长距离信息依赖,从而充分学习特征信息;(4)引入注意力机制,利用其可给文本向量中不同词分配不同权重,来区分信息重要性大小,使其更多地关注关键信息,达到加强学习的目的。
Description
技术领域
本发明属于生物信息学和深度学习领域,涉及引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法,包括k-mers编码的设计以及深度学习预测模型的构建。
背景技术
自深度学习被提出后,其自动学习特征和学习能力好等优点使之被广泛应用于多领域;例如,卷积神经网络CNN、循环神经网络RNN和双向长短期记忆神经网络BiLSTM等已被用于基因组研究中,解决了基序鉴定、基因表达推断和互作关系预测等问题。微小RNA(miRNA)和长链非编码RNA(lncRNA)具有调节生物生命活动的重要作用,它们在细胞生长、分化和增殖方面起着重要调节作用。因此对其互作关系的研究不仅有助于深入分析基因间生物学功能,也可为动物及人类疾病诊治和植物遗传育种方面提供新思路。目前,对非编码RNA方面的研究大多使用生物鉴定和计算预测方法,但生物实验不仅鉴定代价高耗时长,而且不适合大批量鉴定;传统计算方法则是通过提取特征构造特征向量作为输入数据,再利用机器学习构建分类器实现预测,但特征提取过程涉及过多人工干预且提取过程复杂。因而,提出一个可很好预测非编码RNA互作的深度学习预测模型。
目前,在lncRNA识别、miRNA识别和RNA-Protein结合位点等方面已经有一些深度学习方法,但依然存在着改善之处。1)传统深度学习方法大多使用one-hot编码、label编码和complementary编码,它们都仅考虑单核苷酸,忽略了相邻核苷酸之间的依赖联系。one-hot编码会造成维度灾难且较长的序列会使特征矩阵过大,增大内存与计算量的负担;label编码为方便编码仅根据序列中核苷酸个数来进行数字编码,且仅考虑单核苷酸;complementary编码也仅考虑核苷酸之间的互补特征。但事实上,相邻核苷酸之间可能存在某种依赖联系。2)众所周知,特征多样性对改善模型性能至关重要,而单尺度卷积只能提取某一局部特征,可能会丢失一些潜在的有效信息。3)CNN模型中特征共享权重,无法聚焦重要特征,忽略不重要的特征;而注意力机制可以通过对特征分配注意力机制,聚焦于重要点上,忽略不重要因素。因此,为了克服上述缺陷,新方法进行了以下改进:
为充分考虑相邻核苷酸之间的依赖联系,引入k-mers编码,它可保存相邻核苷酸之间的依赖联系,从而避免信息的损失。论文名:lncRNA-LSTM:Prediction of Plant LongNon-coding RNAs Using Long Short-Term Memory Based on p-nts Encoding,期刊:ICIC2019 International Conference on Intelligent Computing,年份:2019。Meng等人使用k-mers编码代替one-hot编码对lncRNA数据进行编码,并利用BiLSTM模型进行训练学习,得出模型的性能优于传统的one-hot编码,且降低了计算量和运行时间。
利用多尺度卷积核代替单尺度卷积核,并且使用不同尺度的池化窗口代替单尺度池化,从而更充分地提取序列特征信息,丰富特征多样性,有助于捕获潜在信息;论文名:RNA-Protein Binging Sites Prediction via Multi Scale Convolutional GatedRecurrent Unit Network,期刊:IEEE/ACM Transactions on Computational Biologyand Bioinformaticas,年份:2019。Shen等人提出使用多尺度的卷积门控循环神经网络MSCGRU识别RNA-Protein结合位点,它利用多尺度卷积层捕获不同长度的图案特征和双向GRU来提取子序列间的依存关系,从而更好地预测RNA-Protein结合位点。论文名:Extracting Biomedical Events with Parallel Multi-Pooling Convolutional NeuralNetworks,期刊:IEEE/ACM Transactions on Computational Biology andBioinformaticas,年份:2018。Li等人提出使用一个并行多池卷积神经网络模型来捕获句子的组成语义特征。该模型利用多个不同尺度的池化对卷积出的特征映射进行下采样再串联多个池化结果,避免单池化造成的有效信息的遗漏。
利用注意力机制可通过给不同特征分配不同权重,来聚焦关键特征,减少无关特征信息的干扰。从而进一步提高模型的性能。论文:Attention based convolutionalneural network for predicting RNA-protein binding sites,期刊:NIPS MLCBworkshop,年份:2017。Pan等人提出一个基于注意力机制的卷积神经网络,可以从原始序列中预测RNA-Protein蛋白质结合位点。该模型利用注意力机制自动搜索重要位置,从而学习探测出结合位点所在。
发明内容
基于以上所述现有技术的不足,本发明的目的在于提供一种引入注意力的CNN-BiLSTM非编码RNA互作关系预测方法,能够通过对已被验证的互作对的训练学习,来预测未被验证的互作对是否具有互作关系,从而为生物学者提供新材料。
引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法,步骤如下:
(1)对互作对数据进行分词处理,再进行k-mers编码
对于基因序列,传统的深度学习编码方式为one-hot编码、label编码和complementary编码,但这些方式仅仅考虑序列中单个核苷酸,忽略了相邻核苷酸之间的依赖联系。为充分考虑核苷酸之间的依赖联系,本发明借鉴k-mers方法,对序列进行自然语言处理中的分词操作,将每条序列分割为多个子序列,子序列即生物单词,即每k个连续的核苷酸看作一个单词,单词间不重叠。对所有样本数据经分词处理后,统计可得出一个大小为4k的单词表,根据单词出现频率,从大到小对每个单词进行编码,则可将每条序列嵌入到一个n维向量中,长度不足用0补充。
(2)使用嵌入层将编码序列映射成卷积操作易处理的形式
分布式表示形式(词嵌入)是密集、低维且是实值的,其作用是将一些关键特征放大或笼统特征弱化,通过将输入序列映射成卷积层易处理的矩阵向量形式,便于特征提取过程。本步骤主要工作是将编码序列中每一个数字映射成一个m×1维的向量M,则输入序列即被映射成m×l的矩阵形式,其中m为嵌入向量维度,l为序列长度。例如,一个编码序列SC=[w1,w2,…,wi-1,wi],其中,wi∈[1,m],i∈[1,l],则SC经嵌入层作用后输出矩阵X表示为:
(3)使用多尺度卷积池化层提取嵌入层输出的向量
研究表明,提取的特征越丰富,模型的性能就越好。单一尺度的卷积核只能提取某一局部特征,很难全面捕捉到不同长度的主题特征,从而忽略某些潜在的有效信息。为克服该缺点,多尺度卷积核和多池化的CNN被引入。本发明使用三个并联的不同尺度的卷积层对嵌入层的输出X分别进行卷积多池化操作。每一尺度的卷积层操作可捕捉序列不同位置的局部特征feature map,然后再使用三个不同尺度的并联池化对feature map进行最大池化采样,接着将三个池化采样结果进行串联作为该层的输出,最后将三个并联卷积层的结果再进行串联作为多卷积池化层的最终输出结果;其具体步骤为:
1)对嵌入层的输出矩阵X进行卷积操作
ci=T([xi:xi+f-1]*Ki+bi) (3)
C=[c1,c2,...,cl-f+1] (4)
其中,ci为第i个经卷积后的特征映射,C为卷积后特征映射矩阵;[xi:xi+f-1]为句子中第i个i+f-1个词组成的矩阵向量;Ki表示第i个卷积核;bi表示第i个特征映射的偏置向量;*表示卷积操作;T为非线性函数Tanh或修正流线型函数ReLU,用于解决梯度消失。
2)对卷积后特征映射矩阵C进行多池化操作
选用三个不同大小的池化窗口对特征映射矩阵C使用最大池化max-pooling进行下采样,提取局部区域重要的特征信息MP,再将经不同尺度池化的采样结果进行串联。本发明中,令max-pooling的大小为l-p,其中l为序列的长度,p取值为[f-1,f,f+1],f为卷积核尺度,故尺度为f的卷积层经池化大小为l-p的max-pooling操作后输出如下:
3)将池化结果进行串联操作,并得出多尺度卷积池化层的终结果
将三个经尺度为f-1、f和f+1的池化操作后的采样结果进行串联后,则尺度为f的卷积层的输出结果为:
MVf=(MPf-1,MPf,MPf+1) (6)
故多尺度卷积池化层的最终输出结果V为:
其中,f1,f2和f3即为发明中所设的卷积核尺度。
(4)利用BiLSTM层处理信息长期依赖缺失的问题
众所周知,对于序列数据,CNN只考虑连续序列之间的相关性而忽略非连续序列之间的依存关系。RNN虽具有内部记忆功能,在处理元间既有内部反馈连接又可前馈调节,在保存序列间信息方面效果较好,但其很难处理信息长期依赖且存在梯度消失和爆炸问题。LSTM作为RNN的变体,通过设置输入门、输出门、遗忘门和记忆单元来解决RNN信息长期依赖缺失及梯度消失和爆炸问题。但单向LSTM只能处理序列一个方向上的信息,而无法捕捉序列相反方向的信息。为了能结合上下文信息,充分地学习特征,双向LSTM被提出,它在每个序列的前后各连着一个单向LSTM,并将两者特征信息进行叠加,实现能同时从正反方向捕获序列信息,从而充分地学习特征信息的目的。因此,本发明在多尺度卷积层之后连接一个BiLSTM层。其公式如下:
前向LSTM层的计算公式为:
反向LSTM层的计算公式为:
正反两层结果叠加后输出为:
其中,t表示时间序列;和表示时刻t时反向层隐层向量和前向层隐层向量,上标f和r为前向层和反向层的标记;vt表示时刻t的输入;yt表示时刻t的输出;Wvh表示输入层-隐层权重矩阵;Why表示隐层-输出层权重矩阵;Whh表示隐层-隐层权重矩阵;b为偏置向量;σ为隐层激活函数。
(5)引入注意力机制,获取关键信息,进一步优化模型
注意力机制可给文本向量中不同词分配不同的注意力权重,来区分文本中信息的重要性大小,使其更多地关注较关键的信息,达到加强学习的目的。本发明中引入注意力机制为BiLSTM网络的输出向量y分配不同权重来突出关键信息,进一步提高预测性能。其公式如下:
其中,A是经注意力机制作用后得到的特征向量;yi是BiLSTM网络输出的特征向量;αi是yi对特征贡献的注意力权重;评分函数fatt(yi)是衡量yi对整个文本的重要程度,其中,评分函数fatt(yi)包括加性注意力机制(式(13)、(14))和点积注意力机制(式(15)):
加性注意力机制的公式为:
点积注意力机制的公式为:
(6)再经全连接层作用后,即可得出预测标签
使用Flatten层平铺通过注意力机制获得的文本语义特征,来连接参数为1的Dense层,并利用激活函数sigmoid将特征向量映射到[0,1]之间,从而可以获得预测标签o。其公式如下:
p(o|A)=sigmoid(W·A+b) (16)
其中,p是模型预测的文本A属于类别o的概率;o是预测标签;W是参数权重矩阵,b是偏移矢量。
此外,模型的损失函数是对数损失函数,而优化器是Adam,通过更新W和b,达到优化模型的目的。
本发明的有益效果:
(1)为保存基因序列中相邻核苷酸的依赖联系,提出k-mer编码方法对基因序列进行编码;
(2)利用多尺度卷积核代替单尺度卷积核,并进行不同尺度池化窗口的多池化操作,从而更充分地提取序列特征信息,丰富特征多样性,有助于捕获潜在信息;
(3)在CNN基础上融合BiLSTM模型,解决长期信息依赖缺失问题,并利用BiLSTM的特点,结合上下文信息,从而更充分的学习序列特征。
(4)利用注意力机制可通过给不同特征分配不同权重,来聚焦关键特征,减少无关特征信息的干扰的特点;引入注意力机制,获取关键特征信息,从而进一步提高模型的预测性能。
(5)本发明能够通过对已知基因数据进行深度学习,来预测未被验证的数据是否具有互作关系,极大减少了人力与物力的损耗,而且算法泛化能力好,适合于大多数物种预测,且鲁棒性较好。
附图说明
图1为本发明引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法的k-mers编码方式图。
图2为本发明引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法的总体流程图。
图3为本发明引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法的组成示意图。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
如图2所示,本发明的总体设计思路为:因为传统的编码方式都未考虑相邻核苷酸之间的依赖联系,事实上,相邻核苷酸之间存在某种依赖联系,因此,对基因序列进行k-mers编码方式,保留相邻核苷酸之间的依赖联系,避免潜在有效信息的损失;接着使用嵌入层将编码序列映射成矩阵向量便于卷积操作,并且使用多尺度卷积和多池化操作代替单尺度卷积和单池化操作情况,从而能提取不同主题长度的特征,丰富特征多样性达到模型优化目的;为进一步提高模型的分类预测能力,使用BiLSTM来解决序列间的信息长期依赖缺失的问题,同时,引入注意力机制来为不同特征分配不同权重,从而突出关键特征,进一步优化模型性能。
图3为本发明互作关系预测模型的组成示意图,包括以下步骤:
(1)对基因数据进行分词处理并进行k-mers编码
1)对于基因序列,序列中相邻核苷酸之间存在某种依赖联系,而传统的编码方式,仅仅考虑单核苷酸,在编码时并未保存相邻核苷酸之间的联系;为避免潜在有效信息的损失,对基因数据进行k-mers编码,来充分考虑相邻核苷酸之间的依赖联系;
2)k-mers编码方式的具体过程如下:
(a)首先对数据集中的每条基因序列进行分词处理,即将每条序列分割为多个子序列(生物单词),每k个连续的核苷酸看作一个单词,单词间不重叠,其中k可取值为{1,2,3,4,5,6};
(b)对数据集中的所有序列进行分词处理后,根据每个单词出现的频率,从大到小进行编码(从1到4k),即可得到一个4k的字典,每一个单词对应一个数字;本发明经过实验对比得出k=2时,方法性能最好。
(c)按照字典里的键值对应情况(键为单词名称,值为数字),对数据集中每条分词的序列进行转换,即可将字母序列映射成一个n维的数字序列S,长度不足用0补充。S即为编码后的序列。
具体编码方式如图1所示。
如图1,将输入序列S=(ATGACC…TCGAAG)进行2-mers编码后,即每2个连续的核苷酸分割为一个单词,单词间不重叠,并根据词频大小进行编码,则可得出一个大小为42=16的单词字典,经程序运行后,即可将S编码为一个固定长度的向量SC=(5,8,10,…,4,8,7)。
(2)对编码的序列进行嵌入层处理,并进行多尺度卷积池化操作
2)为丰富特征多样性,来提升模型预测性能,使用多尺度卷积和多池化操作代替单尺度情况,即使用三个不同尺度的卷积核对嵌入层的输出M分别进行卷积多池化操作,每个尺度的卷积多池化操作过程如下:
(b)对特征矩阵C进行多池化操作,即选用三个不同池化长度l-p的max-pooling对特征矩阵C进行下采样,提取局部区域重要的特征信息MP,其中,l为序列长度,p取值为[f-1,f,f+1]。最后将三个池化采样的结果进行串联,其表示如下:
MVf=Concatenate(axis=1)([MPf-1,MPf,MPf+1])
(c)按照(a)、(b)方法,对三个尺度的卷积核f1,f2和f3进行卷积多池化操作后,将各尺度的卷积多池化结果进行串联,即可得出多尺度卷积操作的最终结果V,其表示如下:
V=Concatenate(axis=1)([MVf1,MVf2,MVf3])
(3)利用BiLSTM来处理特征信息长期依赖缺失问题
对上述经对多尺度卷积池化操作后的特征V进行BiLSTM处理;即在每个特征序列的前后各连接一个单向的LSTM,并将作用后两者的特诊信息进行叠加,实现从正反方向捕获特征信息,从而充分地学习特征信息的目的,其表示如下:
y=Bidirectional(LSTM(hidden_size=64,dropout=0.3,return_sequence=True))(V)
(4)引入注意力机制,给不同特征分配权重,来区分文本中信息重要性大小,使其更多关注较关键的特征,从而达到加强学习的目的;使用注意力机制为BiLSTM网络的输出向量y分配不同权重来突出关键信息,进一步提高模型预测性能,权重分配公式为表示为:
(5)最后经全连接层Dense作用后,并经sigmoid函数将其映射在[0,1]之间,即可得出预测标签,标签为0,表示无互作关系;标签为1,表示预测有互作关系。
将本发明所述方法MCMPLA分别应用于玉米、马铃薯和小麦数据集,并将本发明方法与现有的预测方法和固定卷积核尺度的模型进行比较。本发明的准确率、精确率、召回率和F1分数明显高于现有方法,且证明本方法提出的合理性与有效性。
表1基于玉米数据集MCMPLA在不同k值下的分类性能表
表2基于玉米数据集MCMPLA在不同编码方式下的分类性能表
表3不同卷积池化模型的分类性能比较表
Notes:M1是单尺度卷积和单池化操作的CNN模型;M2是多尺度卷积和多池化操作的CNN模型;M3是单尺度卷积和多池化操作的CNN模型;M4是多尺度卷积和多池化操作的CNN模型;SD表示标准差
表4不同模型架构的分类性能比较表
Notes:M4是多尺度卷积和多池化操作的CNN模型;M5为M4+BiLSTM模型;M6为M4+Attention模型;MCMPLA为M4+BiLSTM+Attention模型;SD表示标准差
表5 MCMPLA与现有方法的分类性能比较表
Notes:RF为朴素贝叶斯方法;SVM是支持向量机方法;KNN是k近邻方法;RNAhybrid是miRNA靶基因预测工具
总的来说,本发明设计了一种引入注意力的CNN-BiLSTM非编码RNA互作关系预测方法,本发明能够有效提高非编码RNA之间有无互作关系预测性能。因此,本发明能够应用于对植物非编码RNA之间有无互作关系的预测分析,从而不仅有助于深入分析基因间生物学功能,也可为动物及人类疾病诊治和植物遗传育种方面提供新思路,此外也节省了人力物力。
Claims (1)
1.一种引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法,其特征在于,步骤如下:
(1)对互作对数据进行分词处理,再进行k-mers编码
将每条序列分割为多个子序列,子序列即生物单词,即每k个连续的核苷酸看作一个单词,单词间不重叠;对所有样本数据经分词处理后,统计得出一个大小为4k的单词表,根据单词出现频率,从大到小对每个单词进行编码,则将每条序列嵌入到一个n维向量中;
(2)使用嵌入层将编码序列映射成卷积操作易处理的形式
将编码序列中每一个数字映射成一个m×1维的向量M,则输入序列即被映射成m×l的矩阵形式,其中m为嵌入向量维度,l为序列长度;对于一个编码序列SC=[w1,w2,…,wi-1,wi],其中,wi∈[1,m],i∈[1,l],则SC经嵌入层作用后输出矩阵X表示为:
(3)使用多尺度卷积池化层提取嵌入层输出的向量
使用三个并联的不同尺度的卷积层对嵌入层的输出X分别进行卷积多池化操作:每一尺度的卷积层操作捕捉序列不同位置的局部特征feature map,然后再使用三个不同尺度的并联池化对feature map进行最大池化采样,接着将三个池化采样结果进行串联作为该层的输出,最后将三个并联卷积层的结果再进行串联作为多卷积池化层的最终输出结果;具体步骤为:
1)对嵌入层的输出矩阵X进行卷积操作
ci=T([xi:xi+f-1]*Ki+bi) (3)
C=[c1,c2,...,cl-f+1] (4)
其中,ci为第i个经卷积后的特征映射,C为卷积后特征映射矩阵;[xi:xi+f-1]为句子中第i个i+f-1个词组成的矩阵向量;Ki表示第i个卷积核;bi表示第i个特征映射的偏置向量;*表示卷积操作;T为非线性函数Tanh或修正流线型函数ReLU,用于解决梯度消失;
2)对卷积后特征映射矩阵C进行多池化操作
选用三个不同大小的池化窗口对特征映射C使用最大池化max-pooling进行下采样,提取局部区域重要的特征信息MP,再将经不同尺度池化的采样结果进行串联;令max-pooling的大小为l-p,其中l为序列的长度,p取值为[f-1,f,f+1],f为卷积核尺度,尺度为f的卷积层经池化大小为l-p的max-pooling操作后输出MPi p如下:
MPi p=max(ci,ci+1,...,ci+l-p-1) (5)
3)对池化结果进行串联操作,并得出多尺度卷积池化层的终结果
将三个经尺度为f-1、f和f+1的池化操作后的采样结果进行串联后,则尺度为f的卷积层的输出结果为:
MVf=(MPf-1,MPf,MPf+1) (6)
故多尺度卷积池化层的最终输出结果V为:
其中,f1,f2和f3即为所设置的卷积核尺度;
(4)利用BiLSTM层处理信息长期依赖缺失的问题
在多尺度卷积层之后连接一个BiLSTM层,公式如下:
前向LSTM层的计算公式为:
反向LSTM层的计算公式为:
正反两层结果叠加后输出为:
其中,t表示时间序列;和表示时刻t时反向层隐层向量和前向层隐层向量,上标f和r为前向层和反向层的标记;vt表示时刻t的输入;yt表示时刻t的输出;Wvh表示输入层-隐层权重矩阵;Why表示隐层-输出层权重矩阵;Whh表示隐层-隐层权重矩阵;b为偏置向量;σ为隐层激活函数;
(5)引入注意力机制,获取关键信息,进一步优化模型
引入注意力机制为BiLSTM网络的输出向量y分配不同权重来突出关键信息,提高预测性能,其公式如下:
其中,A是经注意力机制作用后得到的特征向量;yi是BiLSTM网络输出的特征向量;αi是yi对特征贡献的注意力权重;评分函数fatt(yi)是衡量yi对整个文本的重要程度,其中,评分函数fatt(yi)包括加性注意力机制和点积注意力机制:加性注意力机制的公式为:
点积注意力机制的公式为:
(6)经全连接层作用后,即可得出预测标签
使用Flatten层平铺通过注意力机制获得的文本语义特征,来连接参数为1的Dense层,并利用激活函数sigmoid将特征向量映射到[0,1]之间,从而获得预测标签o,公式如下:
p(o|A)=sigmoid(W·A+b) (16)
其中,o是预测标签;W是参数权重矩阵,b是偏移矢量;
模型的损失函数是对数损失函数,而优化器是Adam,通过更新W和b,达到优化模型的目的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097498.3A CN111341386B (zh) | 2020-02-17 | 2020-02-17 | 引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097498.3A CN111341386B (zh) | 2020-02-17 | 2020-02-17 | 引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111341386A CN111341386A (zh) | 2020-06-26 |
CN111341386B true CN111341386B (zh) | 2022-09-20 |
Family
ID=71185157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010097498.3A Active CN111341386B (zh) | 2020-02-17 | 2020-02-17 | 引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111341386B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112151119A (zh) * | 2020-09-01 | 2020-12-29 | 阿里云计算有限公司 | 基因向量模型训练方法、分析基因数据的方法及各自装置 |
CN112270958B (zh) * | 2020-10-23 | 2023-06-20 | 大连民族大学 | 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法 |
CN112001923B (zh) * | 2020-11-02 | 2021-01-05 | 中国人民解放军国防科技大学 | 一种视网膜图像分割方法及装置 |
CN112732915A (zh) * | 2020-12-31 | 2021-04-30 | 平安科技(深圳)有限公司 | 情感分类方法、装置、电子设备及存储介质 |
CN112884008B (zh) * | 2021-01-25 | 2022-09-09 | 国电南瑞科技股份有限公司 | 一种电力信息采集系统运行状态的预测评估方法及装置 |
CN113096732A (zh) * | 2021-05-11 | 2021-07-09 | 同济大学 | 一种基于深度嵌入卷积神经网络的模体挖掘方法 |
CN113095302B (zh) * | 2021-05-21 | 2023-06-23 | 中国人民解放军总医院 | 用于心律失常分类的深度模型、利用该模型的方法及装置 |
CN113343566B (zh) * | 2021-05-31 | 2023-09-01 | 北京信息科技大学 | 基于深度学习的镍基合金断裂韧性预测方法及系统 |
CN113470758B (zh) * | 2021-07-06 | 2023-10-13 | 北京科技大学 | 基于因果发现和多结构信息编码的化学反应收率预测方法 |
CN113630384B (zh) * | 2021-07-09 | 2022-10-14 | 中国科学院信息工程研究所 | 一种基于NetFlow数据的特定加密流量识别方法及系统 |
CN113569055B (zh) * | 2021-07-26 | 2023-09-22 | 东北大学 | 基于遗传算法优化神经网络的露天矿知识图谱构建方法 |
US20240265270A1 (en) * | 2021-10-29 | 2024-08-08 | Boe Technology Group Co., Ltd. | Rna location prediction method and apparatus, and storage medium |
CN114023376B (zh) * | 2021-11-02 | 2023-04-18 | 四川大学 | 基于自注意力机制的rna-蛋白质结合位点预测方法和系统 |
CN114358371A (zh) * | 2021-11-26 | 2022-04-15 | 华能大理风力发电有限公司洱源分公司 | 一种基于深度学习的光伏短期功率预测方法及设备 |
CN116529828A (zh) * | 2021-11-30 | 2023-08-01 | 京东方科技集团股份有限公司 | Rna-蛋白质相互作用预测方法、装置、介质及电子设备 |
CN114283888B (zh) * | 2021-12-22 | 2024-07-26 | 山东大学 | 基于分层自注意力机制的差异表达基因预测系统 |
CN114298210A (zh) * | 2021-12-24 | 2022-04-08 | 江苏国科智能电气有限公司 | 一种多视角融合风电齿轮箱轴承剩余寿命预测方法 |
CN114861940B (zh) * | 2022-03-28 | 2024-10-15 | 大连理工大学 | 预测植物lncRNA中sORFs的贝叶斯优化集成学习方法 |
CN114662547A (zh) * | 2022-04-07 | 2022-06-24 | 天津大学 | 基于脑电信号的mscrnn情绪识别方法及装置 |
CN115375665B (zh) * | 2022-08-31 | 2024-04-16 | 河南大学 | 一种基于深度学习策略的早期阿尔兹海默症发展预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492830A (zh) * | 2018-12-17 | 2019-03-19 | 杭州电子科技大学 | 一种基于时空深度学习的移动污染源排放浓度预测方法 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
-
2020
- 2020-02-17 CN CN202010097498.3A patent/CN111341386B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492830A (zh) * | 2018-12-17 | 2019-03-19 | 杭州电子科技大学 | 一种基于时空深度学习的移动污染源排放浓度预测方法 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
Non-Patent Citations (2)
Title |
---|
卷积自注意力编码过滤的强化自动摘要模型;徐如阳等;《小型微型计算机系统》;20200215(第02期);全文 * |
基于词注意力卷积神经网络模型的情感分析研究;王盛玉等;《中文信息学报》;20180915(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111341386A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111341386B (zh) | 引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法 | |
CN108763326B (zh) | 一种基于特征多样化的卷积神经网络的情感分析模型构建方法 | |
CN110048827B (zh) | 一种基于深度学习卷积神经网络的类模板攻击方法 | |
CN109034264B (zh) | 交通事故严重性预测csp-cnn模型及其建模方法 | |
CN111209738B (zh) | 一种联合文本分类的多任务命名实体识别方法 | |
CN107944559B (zh) | 一种实体关系自动识别方法及系统 | |
CN107657008B (zh) | 基于深度判别排序学习的跨媒体训练及检索方法 | |
CN111984791B (zh) | 一种基于注意力机制的长文分类方法 | |
Montalbo et al. | Classification of fish species with augmented data using deep convolutional neural network | |
CN106156805A (zh) | 一种样本标签缺失数据的分类器训练方法 | |
CN114021584A (zh) | 基于图卷积网络和翻译模型的知识表示学习方法 | |
CN115062727B (zh) | 一种基于多阶超图卷积网络的图节点分类方法及系统 | |
CN111581974A (zh) | 一种基于深度学习的生物医学实体识别方法 | |
CN110569355A (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
CN113257359A (zh) | 一种基于CNN-SVR的CRISPR/Cas9向导RNA编辑效率预测方法 | |
CN116312748A (zh) | 基于多头注意力机制的增强子-启动子相互作用预测模型构建方法 | |
Wang et al. | EMDLP: Ensemble multiscale deep learning model for RNA methylation site prediction | |
CN114881172A (zh) | 一种基于加权词向量和神经网络的软件漏洞自动分类方法 | |
CN112668633B (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN117292749A (zh) | 一种基于bert特征编码技术和深度学习组合模型的抗菌肽预测方法 | |
CN117333887A (zh) | 一种基于深度学习的甲骨文字体分类方法 | |
CN114357166B (zh) | 一种基于深度学习的文本分类方法 | |
CN115759095A (zh) | 一种烟草病虫害的命名实体识别方法及其装置 | |
CN108762523A (zh) | 基于capsule网络的输入法输出字符预测方法 | |
CN112541081A (zh) | 一种基于领域自适应的可迁移谣言检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |