CN115424663A - 一种基于attention的双向表示模型的RNA修饰位点预测方法 - Google Patents
一种基于attention的双向表示模型的RNA修饰位点预测方法 Download PDFInfo
- Publication number
- CN115424663A CN115424663A CN202211259709.4A CN202211259709A CN115424663A CN 115424663 A CN115424663 A CN 115424663A CN 202211259709 A CN202211259709 A CN 202211259709A CN 115424663 A CN115424663 A CN 115424663A
- Authority
- CN
- China
- Prior art keywords
- sequence
- attention
- coding
- rna
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000026279 RNA modification Effects 0.000 title claims abstract description 14
- 230000002457 bidirectional effect Effects 0.000 title abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 38
- 230000004048 modification Effects 0.000 claims abstract description 27
- 238000012986 modification Methods 0.000 claims abstract description 27
- MXYRZDAGKTVQIL-IOSLPCCCSA-N (2r,3r,4s,5r)-2-(6-aminopurin-9-yl)-5-(hydroxymethyl)-2-methyloxolane-3,4-diol Chemical compound C1=NC2=C(N)N=CN=C2N1[C@]1(C)O[C@H](CO)[C@@H](O)[C@H]1O MXYRZDAGKTVQIL-IOSLPCCCSA-N 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 78
- 239000000523 sample Substances 0.000 claims description 36
- 230000002441 reversible effect Effects 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 108091026890 Coding region Proteins 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000011987 methylation Effects 0.000 claims description 4
- 238000007069 methylation reaction Methods 0.000 claims description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 3
- 239000013614 RNA sample Substances 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 239000002773 nucleotide Substances 0.000 claims description 3
- 125000003729 nucleotide group Chemical group 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 241000894007 species Species 0.000 claims description 2
- 230000001124 posttranscriptional effect Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000008451 emotion Effects 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 11
- GFYLSDSUCHVORB-IOSLPCCCSA-N 1-methyladenosine Chemical compound C1=NC=2C(=N)N(C)C=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O GFYLSDSUCHVORB-IOSLPCCCSA-N 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Analytical Chemistry (AREA)
- Medical Informatics (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于attention的双向表示模型的RNA修饰位点预测方法,其涉及生物信息学RNA转录后修饰位点预测领域。包括:将包含N1‑甲基腺苷修饰位点的RNA碱基序列为正样本和不包含N1‑甲基腺苷修饰位点的RNA碱基序列为负样本,进行词嵌入编码;将编码后的序列分为两路,在一个序列和另一个反转序列首段添加分类符号并进行位置编码;将编码后的两个序列输入编码模块中采用训练权重共享原则反复训练;将两路训练好的序列分类符号相加后经过全连接神经网络层和二分类器,预测哪个序列里包含N1‑甲基腺苷修饰位点。本发明能够描述复杂方面词的上下文关系,加强文本中重要词汇对情感分析的影响,从而准确预测RNA生物序列中是否包含N1‑甲基腺苷修饰位点。
Description
技术领域
本发明涉及生物信息学RNA转录后修饰位点预测领域,特别涉及一种基于attention的双向表示模型的RNA中N1-甲基腺苷修饰位点预测方法。
背景技术
研究表明,通过转录后RNA修饰的表观转录组调控对于所有种类的RNA都是必不可少的,所以,准确识别RNA修饰对于理解其目的和调控机制至关重要。
传统的RNA修饰位点识别实验方法相对复杂、费时、费力。机器学习方法已经应用于RNA序列特征提取和分类的计算过程中,可以更有效地补充实验方法。近年来,卷积神经网络(Convolutional Neural Networks,CNN)和长时记忆(Long short-term memory,LSTM)由于在表征学习方面的强大功能,在修饰位点预测方面取得了显著的成就。
然而,卷积神经网络(CNN)可以从空间数据中学习局部响应,但不能学习序列相关性;长时记忆(LSTM)专门用于序列建模,可以同时访问上下文表示,但与CNN相比缺乏空间数据提取。由于以上原因,使用自然语言处理(Natural Language Processing,NLP)、其他深度学习(DeepLearn,DL)构建预测框架的动力十分强烈。
现有技术中,在构建预测框架时,使用注意力机制虽然可以关注到句子上下文的重要特征,但是单个注意力矩阵之间缺乏信息交互,难以描述复杂方面词的上下文关系;且没有充分联系上下文,加强文本中重要词汇对情感分析的影响。
发明内容
基于此,有必要针对上述技术问题,提供一种基于attention的双向表示模型的RNA修饰位点预测方法。
本发明实施例提供一种基于attention的双向表示模型的RNA修饰位点预测方法,包括:
将包含N1-甲基腺苷修饰位点的人类物种RNA碱基序列为正样本和不包含N1-甲基腺苷修饰位点的人类物种RNA碱基序列为负样本,进行word2vec词嵌入编码;
将经过word2vec词嵌入编码后的序列分为两路词嵌入编码序列;其中,在一个词嵌入编码序列首段添加分类符号并进行位置编码形成正向序列,对另一个词嵌入编码序列位置反转后并在其首段添加分类符号和进行位置编码形成反向序列;
将正向序列和反向序列均输入编码模块中进行训练,获得正向特征序列和反向特征序列;其中,所述编码模块包括3个依次串接的编码块;所述编码块包括:一个多头自注意力层和一个前向反馈全连接层,且每层之间通过残差连接和标准化层连接;
将正向特征序列的分类符号的值和反向特征序列的分类符号的值相加,后经过全连接神经网络层和二分类器,预测人类物种RNA碱基序列中是否包含N1-甲基腺苷修饰位点。
进一步地,所述对RNA碱基序列进行word2vec词嵌入编码,具体包括:
利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此获得105种不同的子序列和唯一的整数序列组成的字典;
每条样本101个碱基,利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此得到99个由3个碱基组成的子序列,使用word2vec的CBOW模型编码RNA序列,因此,每个子序列被转换成表征语义的词向量,再利用得到的词向量将RNA碱基序列中长度为101bp转换成99*100的矩阵,其中,99为预处理时词的个数,100为词向量维度。
进一步地,所述编码模块包括:3个依次串联编码块。
进一步地,所述多头自注意力层是将多个自注意力的输出拼接融合而形成的;自注意力将序列的查询query与序列的键key之间先做矩阵相乘再做放缩,得到一个注意力得分,使用softmax函数对注意力得分做归一化处理,得到每个键的权重,将权重矩阵相乘序列的值得到交互注意力输出,自注意力对应的数学公式形式如下:
上式中,Q是查询向量、K是键向量、V是值向量,dk为键向量K的维度大小,KT为键向量的转置,即向量为列向量时,取了转置后就是行向量;当输入序列为X时,Q、K、V都是从同样的输入序列X线性变换而来的,通过以下等式表示:
Q=XWQ
K=XWK
V=XWV
上式中,X为n行向量组成,W为权重,WQ代表查询向量Q的权重,WK代表键向量K的权重,WV代表值向量V的权重,三个权重最初随机初始化,最终值由网络自己学习得到;
多头自注意力层,则是将自注意力中的查询、键和值分别h次线性投影到dk、dk和dv维度上,其中dv为值向量V的维度大小;在每个查询、键和值的投影版本上,并行执行自注意力机制,产生dv维度的输出值;将以上h次自注意力的输出值拼接起来,再次投影到线性网络,产生最终值;即所述多头自注意力层对应的数学公式形式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
headi=Attention(QWi Q,KWi K,VWi V)
上式中,Concat为将多个自注意力的输出headi拼接,i取值正整数,代表具体第i头数,WO为多个自注意力拼接的权重,R为代表集合实数集,实数集是包含所有有理数和无理数的集;dk为键向量K的维度大小,此处dk=16;dv为值向量V的维度大小,此处dv=16;dmodel为输出维度,此处dmodel=128;
以上公式,使用h=8个并行注意力层或头,对于其中的每一个,使用dk=dv=dmodel/h=16。
进一步地,所述前向反馈全连接层,包括:
两个线性变换组成,中间有一个Relu激活函数;即所述前向反馈全连接层对应的数学公式形式如下:
FFN(x)=max(0,xW1+b1)W2+b2。
上式中,max()为ReLU激活函数;W1、W2、b1和b2均为前向反馈全连接层的参数。
进一步地,所述编码模块包括:
编码模块的输入和输出的维度dmodel=128,多头数h=8,前向反馈网络维度d_ff=512,均采用4倍的大小关系,dropout=0.1。
进一步地,本发明实施例还包括:构建数据集,其具体包括:
数据集的长度是101bp,数据集包括正负数据集的RNA样本序列以及所对应的类别标签,确定训练集与测试集;
其中,训练集和测试集中含有N1-甲基腺苷修饰位点的RNA作为正样本,没有N1-甲基腺苷修饰位点的RNA作为负样本;
其中,所述数据集的样本序列是以共同基序A为中心,前后取值窗口大小为50bp,即每个m1A正样本/负样本由101bp组成,在以共同基序A为中心前后取值窗口大小为50bp的样本序列中,当以共同基序A为中心前后的碱基序列没有50bp长时,不足的核苷酸使用‘-’字符填充;训练集包括593个正样本以及5930个负样本,测试集包括114个正样本以及1140个负样本。
进一步地,本发明实施例还包括:采用训练集对两个编码模块进行参数共享训练,其具体包括:
输入正向序列的编码模块所训练的参数用于输入反向序列的编码模块训练,并且输入反向序列的编码模块训练出的参数用于输入正向序列的编码模块训练。
进一步地,所述将正向特征序列的分类符号的值和反向特征序列的分类符号的值相加,后经过全连接神经网络层和两分类器,预测人类物种RNA碱基序列中是否包含N1-甲基腺苷修饰位点,包括:
分类符号token随机初始化,并随着训练不断更新,将更新后的两路分类符号token相加以实现分类符号token上的信息汇聚;
将更新后的token相加后,再经过全连接神经网络层和sigmoid两分类器预测是否为甲基化位点。
本发明实施例提供的上述基于attention的双向表示模型的RNA修饰位点预测方法,与现有技术相比,其有益效果如下:
本发明将包含N1-甲基腺苷修饰位点的人类物种RNA碱基序列为正样本和不包含N1-甲基腺苷修饰位点的人类物种RNA碱基序列为负样本,将待预测的序列通过词嵌入编码形成向量后,并将其分为正向序列和反向序列,再在正向序列和反向序列前均添加分类符号和进行序列位置编码,然后将以上处理后的两个序列分别送入3个串联的编码块中,采用训练权重共享的原则,经过反复训练,最终,将两路训练好的序列的分类符号的值相加后经过全连接神经网络层和二分类器,以预测RNA碱基序列中是否包含N1-甲基腺苷修饰位点。其中,考虑到编码模块权重共享的原则,输入正向序列的编码模块所训练的参数用于输入反向序列的编码模块训练,输入反向序列的编码模块训练出的参数用于输入正向序列的编码模块训练,提高模型泛化能力;还有分类符号token随着网络的训练会不断更新,将更新后的两路分类符号token相加以实现分类符号token上的信息汇聚。即本发明通过权重共享的形式训练编码模型以提高模型泛化能力、以及分类符号token随着网络的训练不断更新后再相加以实现分类符号信息聚合,其能够描述复杂方面词的上下文关系,从而能够准确预测甲基化位点。
附图说明
图1为一个实施例中提供的基于注意力机制的双向表示模型示意图;
图2为一个实施例中提供的注意力机制示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明实施例提供了一种基于attention的双向表示模型的RNA修饰位点预测方法,其具体包括:
1)收集正负样本数据集:获得人类物种RNA的N1-甲基腺苷(N1–methyladenosine,m1A)修饰位点数据集,数据集的长度是101bp(base pair),数据集包括正负数据集的RNA样本序列以及所对应的类别标签,确定训练集与测试集。
1-1)训练集和测试集中含有N1-甲基腺苷修饰位点的RNA作为正样本,不含有N1-甲基腺苷修饰位点的RNA作为负样本;
1-2)数据集样本序列是以共同基序A为中心,前后取值窗口大小为50bp,即每个m1A正样本/负样本由101bp(Base Pair,bp)组成,当以共同基序A为中心前后的碱基序列没有50bp长的时候,不足的核苷酸使用‘-’字符填充;训练集包括593个正样本以及5930个负样本,测试集包括114个正样本以及1140个负样本。如表1所示:
表1两个RNA修饰数据集的统计
2)特征编码:利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此会获得105种不同的子序列和唯一的整数序列组成的字典,每条样本101个碱基,利用大小为3个碱基的窗口在每条样本序列上滑动,得到99个由3个碱基组成的子序列,使用word2vec的CBOW模型编码RNA序列,因此,每个子序列会被转换成表征语义的词向量,再利用得到的词向量将数据集中长度为101bp被转换成99*100的矩阵,其中99为预处理时词的个数,100为词向量维度。即特征编码方法为word2vec特征提取方法,word2vec向量维度是100。
具体地,碱基序列先经过word2vec模型进行word2vec词嵌入编码,将样本中3个碱基转变成向量表示,由一维转为多维,例如本设计:每个样本101个碱基,利用大小为3个碱基的窗口在每条样本序列上滑动,会得到99个由3个碱基组成的子序列,即99*1,由于词向量维度是100维,因此,通过word2vec模型之后,99*1的子序列转变成99*100的矩阵,其中99为预处理时词的个数,100为词向量维度。word2vec模型作用是希望在高维空间捕捉词汇间的关系。
3)将经过word2vec词嵌入编码后的序列分为两路词嵌入编码序列;其中,在一个词嵌入编码序列首段添加分类符号token并进行位置编码,即从0开始进行编号,形成正向序列,对另一个词嵌入编码序列位置反转后并在其首段添加分类符号token和进行位置编码形成反向序列;其中,位置编码层在本模型中具有非常重要的作用,如果去掉这层,重新跑一遍生成模型,效果下降很明显,具体表现为容易生成重复的词。
4)正向序列和反向序列分别经过x次编码模块(Encoder)(x=3),编码块(EncoderBlock)包括多头注意力机制层(MultiheadAttention)、前向反馈全连接层(Feed Forward)组成,每层之间通过残差连接(Residual Connection)和标准化层(LayerNormalization),残差连接用于防止网络退化,可以避免梯度消失的问题。标准化层用于对每一层的激活值进行归一化。如图1所示。
具体地,“正向+位置编码”和“反向+位置编码”的向量分别经过编码模块,编码模块包含3个编码块,编码块由一个多头自注意力层和一个前向反馈全连接层组成,以上每层之间通过残差连接(Residual Connection)和标准化层(Layer Normalization),残差连接用于防止网络退化,可以避免梯度消失的问题。标准化层用于对每一层的激活值进行归一化。3个一模一样的Encoder Block串联在一起,共同组成完整的Encoder,因此剖析一个Encoder Block就可以对整个Encoder的内部结构有清晰的认识。
多头自注意力层由多个头的自注意力组成,自注意力将序列的查询(query)与序列的键(key)之间先做矩阵相乘(MatMul)再做放缩(Scale),可以得到一个注意力得分,使用softmax函数对注意力得分做归一化处理,得到每个键的权重,将权重矩阵相乘序列的值得到交互注意力输出,如图2所示,自注意力对应的数学公式形式如下:
公式中Softmax的作用是对向量做归一化,那么就是对相似度的归一化,得到了一个归一化之后的权重矩阵,矩阵中,某个值的权重越大,表示相似度越高。Q是查询向量(query vector)、K是键向量(key vector)、V是值向量(Value Vector),dk为K的维度大小KT为键向量的转置,即向量为列向量时,取了转置后就是行向量;以输入序列X为例,Q、K、V其实都是从同样的输入序列X线性变换而来的,可以理解成以下等式:
Q=XWQ
K=XWK
V=XWV
上式中,X为n行向量组成,W为权重(weight)的首字母,WQ代表查询向量Q的权重,WK代表键向量K的权重,WV代表值向量V的权重,以上三个权重最初随机初始化,最终值由网络自己学习得到。向量X与WQ经过矩阵乘法得到Q,同理的方法得到K,V。
多头自注意力层,则是将以上自注意力中的查询、键和值分别h次线性投影到dk、dk和dv维度上,其中dv为值向量V的维度大小,然后,在每个查询、键和值的投影版本上,并行执行自注意力机制,产生dv维度的输出值。将以上h次自注意力的输出值拼接起来,再次投影到线性网络,产生最终值,所述多头自注意力层对应的数学公式形式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
headi=Attention(QWi Q,KWi K,VWi V)
公式中Concat起到对多个自注意力的输出(headi)拼接的作用,其中i取值正整数,代表具体第i头数,WO为多个自注意力层拼接的权重,其中,R为代表集合实数集。实数集是包含所有有理数和无理数的集合;dk为键向量K的维度大小,本模型dk=16;dv为值向量V的维度大小,本模型dv=16;dmodel为本模型的输出维度,本模型dmodel=128。
以上公式,使用h=8个并行注意力层或头。对于其中的每一个,我们使用dk=dv=dmodel/h=16。
多头self-attention层的作用:实验结果表明,Multi-head可以在更细致的层面上提取不同head的特征,总体计算量和单一head相同的情况下,提取特征的效果更佳。
前向反馈全连接层模块由两个线性变换组成,中间有一个Relu激活函数,对应的数学公式形式如下,其中max即代表了ReLU激活函数。
FFN(x)=max(0,xW1+b1)W2+b2
公式中W1、W2、b1和b2分别为反馈全连接层的参数。
其中,模型输出维度dmodel=128,多头数h=8,前向反馈网络维度d_ff=512,均采用4倍的大小关系。还有dropout=0.1,dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。
需要说明的是,前向反馈全连接层的作用:单纯的多头注意力机制并不足以提取到理想的特征,因此增加全连接层来提升网络的能力。
以上多头自注意力层(MultiheadAttention)和前向反馈全连接层(FeedForward)的每层之间通过残差连接(Residual Connection)和标准化层(LayerNormalization)连接,残差层的作用:用于防止网络退化,可以避免梯度消失的问题。标准化层的作用:用于对每一层的激活值进行归一化。
较佳地,每个样本将经过word2vec词嵌入编码后的序列分为两路词嵌入编码序列;其中,在一个词嵌入编码序列首段添加分类符号并进行位置编码形成正向序列,对另一个词嵌入编码序列位置反转后并在其首段添加分类符号和进行位置编码形成反向序列,将正向序列和反向序列分别放入2个相同结构的模型中训练,两个模型采用权重共享,提高模型泛化能力。具体地,正向序列和反向序列分别放入2个相同结构的编码模型训练过程中,两个模型采用权重共享,即两个编码模型训练的参数完全共享,完全一样,例如:图1中输入正向序列的模型所训练的参数用于输入反向序列的模型训练,其训练出的参数用于输入正向序列的模型训练,这样做可以提高模型泛化能力。
5)将正向特征序列的分类符号token和反向特征序列的分类符号token相加,后经过全连接神经网络层和两分类器,预测人类物种RNA碱基序列中是否包含N1-甲基腺苷修饰位点。
具体地,分类符号token随机初始化,并随着网络的训练不断更新,它能够编码整个数据集的统计特性;该token对所有其他token上的信息做汇聚(分类符号信息聚合),并且由于它本身不基于序列内容,因此可以避免对sequence中某个特定token的偏向性;该token使用固定的位置编码(如图1本设计token的位置编码为0)能够避免输出受到位置编码的干扰。正向序列和反向序列经过编码模块训练后,分类符号token会随着网络的训练不断更新,将正向序列和反向序列各自更新后的token相加,再经过全连接神经网络层和sigmoid两分类器实现是否为甲基化位点的分类。
需要说明的是,编码模块输入=嵌入式编码输入+位置编码。
嵌入式编码输入是通过常规embedding层,将每一个词的向量维度从词向量维度映射到dmodel,由于是相加关系,因此,这里的位置编码也是一个dmodel维度的向量。
位置编码不是单一的一个数值,而是包含句子中特定位置信息的d维向量(非常像词向量),这种编码没有整合进模型,而是用这个向量让每个词具有它在句子中的位置的信息。换句话说,通过注入词的顺序信息来增强模型输入。给定一个长度为m的输入序列,让s表示词在序列中的位置,表示s位置对应的向量,表示s位置向量里的第i个元素,dmodel是编码模块的输入和输出的维度,也是位置编码的维度。是生成位置向量的函数,定义如下:
其中把dmodel维的向量两两一组,每组都是一个sin和一个cos,这两个函数共享同一个频率ωk,一共有dmodel/2组,由于我们从0开始编号,所以最后一组编号是dmodel/2-1。sin和cos函数的波长(由ωi决定)则从2π增长到2π*10000。
本发明实施例中,利用训练集,通过5折的方式验证模型的有效性:
表2训练集5折预测结果
考虑到测试集正负样本是1:10,属于不平衡样本集,因此,通过精确召回曲线下面积(AUPRC)比较性能,通过表2所示,基于attention的双向表示模型(Bi-directionalRepresentations fromAttention,BRA)的精确召回曲线下面积(AUPRC)远远高于通过BiLSTM分类模型(Bi-directional Long Short-Term Memory,BiLSTM)、CNN(Convolutional Neural Network,CNN)、BiLSTM+selfatt(BiLSTM Layer+selfAttentionLayer)、CNN+selfatt(Convolutional Neural Network Layer+selfAttention Layer)。
其他,精确度ACC等关键指标比较,基于attention的双向表示模型(Bi-directional Representations fromAttention,BRA)也高于其他已知的优秀的分类。
本发明实施例中,利用测试集验证模型的有效性:
表3独立数据集评价
考虑到测试集正负样本是1:10,属于不平衡样本集,因此,通过精确召回曲线下面积(AUPRC)比较性能,通过表3所示,基于attention的双向表示模型(Bi-directionalRepresentations from Attention,BRA)的精确召回曲线下面积(AUPRC)远远高于通过BiLSTM分类模型(Bi-directional Long Short-Term Memory,BiLSTM)、CNN(Convolutional Neural Network,CNN)、BiLSTM+selfatt(BiLSTM Layer+selfAttentionLayer)、CNN+selfatt(Convolutional Neural Network Layer+selfAttentionLayer)。
其他,精确度ACC等关键指标比较,基于attention的双向表示模型(Bi-directional Representations from Attention,BRA)也高于其他已知的优秀的分类。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于attention的双向表示模型的RNA修饰位点预测方法,其特征在于,包括:
将包含N1-甲基腺苷修饰位点的人类物种RNA碱基序列为正样本和不包含N1-甲基腺苷修饰位点的人类物种RNA碱基序列为负样本,进行word2vec词嵌入编码;
将经过word2vec词嵌入编码后的序列分为两路词嵌入编码序列;其中,在一个词嵌入编码序列首段添加分类符号并进行位置编码形成正向序列,对另一个词嵌入编码序列位置反转后并在其首段添加分类符号和进行位置编码形成反向序列;
将正向序列和反向序列均输入编码模块中进行训练,获得正向特征序列和反向特征序列;其中,所述编码模块包括多个依次串接的编码块;所述编码块包括:一个多头自注意力层和一个前向反馈全连接层,且每层之间通过残差连接和标准化层连接;
将正向特征序列的分类符号的值和反向特征序列的分类符号的值相加,后经过全连接神经网络层和二分类器,预测人类物种RNA碱基序列中是否包含N1-甲基腺苷修饰位点。
2.如权利要求1所述的基于attention的双向表示模型的RNA修饰位点预测方法,其特征在于,所述对RNA碱基序列进行word2vec词嵌入编码,具体包括:
利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此获得105种不同的子序列和唯一的整数序列组成的字典;
每条样本101个碱基,利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此得到99个由3个碱基组成的子序列,使用word2vec的CBOW模型编码RNA序列,因此,每个子序列被转换成表征语义的词向量,再利用得到的词向量将RNA碱基序列中长度为101bp转换成99*100的矩阵,其中,99为预处理时词的个数,100为词向量维度。
3.如权利要求1所述的基于attention的双向表示模型的RNA修饰位点预测方法,其特征在于,所述编码模块包括:3个依次串联的编码块。
4.如权利要求1所述的基于attention的双向表示模型的RNA修饰位点预测方法,其特征在于,所述多头自注意力层是将多个自注意力的输出拼接融合而形成的;自注意力将序列的查询query与序列的键key之间先做矩阵相乘再做放缩,得到一个注意力得分,使用softmax函数对注意力得分做归一化处理,得到每个键的权重,将权重矩阵相乘序列的值得到交互注意力输出,自注意力对应的数学公式形式如下:
上式中,Q是查询向量、K是键向量、V是值向量,dk为键向量K的维度大小,KT为键向量的转置,即向量为列向量时,取了转置后就是行向量;当输入序列为X时,Q、K、V都是从同样的输入序列X线性变换而来的,通过以下等式表示:
Q=XWQ
K=XWK
V=XWV
上式中,X为n行向量组成,W为权重,WQ代表查询向量Q的权重,WK代表键向量K的权重,WV代表值向量V的权重,三个权重最初随机初始化,最终值由网络自己学习得到;
多头自注意力层,则是将自注意力中的查询、键和值分别h次线性投影到dk、dk和dv维度上,其中dv为值向量V的维度大小;在每个查询、键和值的投影版本上,并行执行自注意力机制,产生dv维度的输出值;将以上h次自注意力的输出值拼接起来,再次投影到线性网络,产生最终值;即所述多头自注意力层对应的数学公式形式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
headi=Attention(QWi Q,KWi K,VWi V)
上式中,Concat为将多个自注意力的输出headi拼接,i取值正整数,代表具体第i头数,WO为多个自注意力拼接的权重,R为代表集合实数集,实数集是包含所有有理数和无理数的集;dk为键向量K的维度大小,此处dk=16;dv为值向量V的维度大小,此处dv=16;dmodel为输出维度,此处dmodel=128;
以上公式,使用h=8个并行注意力层或头,对于其中的每一个,使用dk=dv=dmodel/h=16。
5.如权利要求1所述的基于attention的双向表示模型的RNA修饰位点预测方法,其特征在于,所述前向反馈全连接层,包括:
两个线性变换组成,中间有一个Relu激活函数;即所述前向反馈全连接层对应的数学公式形式如下:
FFN(x)=max(0,xW1+b1)W2+b2
上式中,max()为ReLU激活函数;W1、W2、b1和b2均为前向反馈全连接层的参数。
6.如权利要求1所述的基于attention的双向表示模型的RNA修饰位点预测方法,其特征在于,所述编码模块包括:
编码模块的输入和输出的维度dmodel=128,多头数h=8,前向反馈网络维度d_ff=512,均采用4倍的大小关系,dropout=0.1。
7.如权利要求1所述的基于attention的双向表示模型的RNA修饰位点预测方法,其特征在于,还包括:构建数据集,其具体包括:
数据集的长度是101bp,数据集包括正负数据集的RNA样本序列以及所对应的类别标签,确定训练集与测试集;
其中,训练集和测试集中含有N1-甲基腺苷修饰位点的RNA作为正样本,没有N1-甲基腺苷修饰位点的RNA作为负样本;
其中,所述数据集的样本序列是以共同基序A为中心,前后取值窗口大小为50bp,即每个m1A正样本/负样本由101bp组成,在以共同基序A为中心前后取值窗口大小为50bp的样本序列中,当以共同基序A为中心前后的碱基序列没有50bp长时,不足的核苷酸使用‘-’字符填充;训练集包括593个正样本以及5930个负样本,测试集包括114个正样本以及1140个负样本。
8.如权利要求7所述的基于attention的双向表示模型的RNA修饰位点预测方法,其特征在于,还包括:采用训练集对两个编码模块进行参数共享训练,其具体包括:
输入正向序列的编码模块所训练的参数用于输入反向序列的编码模块训练,并且输入反向序列的编码模块训练出的参数用于输入正向序列的编码模块训练。
9.如权利要求1所述的基于attention的双向表示模型的RNA修饰位点预测方法,其特征在于,所述将正向特征序列的分类符号的值和反向特征序列的分类符号的值相加,后经过全连接神经网络层和两分类器,预测人类物种RNA碱基序列中是否包含N1-甲基腺苷修饰位点,包括:
分类符号的值token随机初始化,并随着训练不断更新,将更新后的两路分类符号的值token相加以实现分类符号的值token上的信息汇聚;
将更新后的token相加后,再经过全连接神经网络层和sigmoid两分类器预测是否为甲基化位点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211259709.4A CN115424663B (zh) | 2022-10-14 | 2022-10-14 | 一种基于attention的双向表示模型的RNA修饰位点预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211259709.4A CN115424663B (zh) | 2022-10-14 | 2022-10-14 | 一种基于attention的双向表示模型的RNA修饰位点预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115424663A true CN115424663A (zh) | 2022-12-02 |
CN115424663B CN115424663B (zh) | 2024-04-12 |
Family
ID=84207555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211259709.4A Active CN115424663B (zh) | 2022-10-14 | 2022-10-14 | 一种基于attention的双向表示模型的RNA修饰位点预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115424663B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116825360A (zh) * | 2023-07-24 | 2023-09-29 | 湖南工商大学 | 基于图神经网络的慢病共病预测方法、装置及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609351A (zh) * | 2017-10-23 | 2018-01-19 | 桂林电子科技大学 | 一种基于卷积神经网络预测假尿苷修饰位点的方法 |
CN111161793A (zh) * | 2020-01-09 | 2020-05-15 | 青岛科技大学 | 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法 |
CN112687332A (zh) * | 2021-03-12 | 2021-04-20 | 北京贝瑞和康生物技术有限公司 | 用于确定致病风险变异位点的方法、设备和存储介质 |
CN113744805A (zh) * | 2021-09-30 | 2021-12-03 | 山东大学 | 基于bert框架的dna甲基化预测方法及系统 |
CN113764031A (zh) * | 2021-09-16 | 2021-12-07 | 桂林电子科技大学 | 一种跨组织/物种rna中n6甲基腺苷位点的预测方法 |
CN113838524A (zh) * | 2021-09-27 | 2021-12-24 | 电子科技大学长三角研究院(衢州) | S-亚硝基化位点预测方法、模型训练方法及存储介质 |
-
2022
- 2022-10-14 CN CN202211259709.4A patent/CN115424663B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609351A (zh) * | 2017-10-23 | 2018-01-19 | 桂林电子科技大学 | 一种基于卷积神经网络预测假尿苷修饰位点的方法 |
CN111161793A (zh) * | 2020-01-09 | 2020-05-15 | 青岛科技大学 | 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法 |
CN112687332A (zh) * | 2021-03-12 | 2021-04-20 | 北京贝瑞和康生物技术有限公司 | 用于确定致病风险变异位点的方法、设备和存储介质 |
CN113764031A (zh) * | 2021-09-16 | 2021-12-07 | 桂林电子科技大学 | 一种跨组织/物种rna中n6甲基腺苷位点的预测方法 |
CN113838524A (zh) * | 2021-09-27 | 2021-12-24 | 电子科技大学长三角研究院(衢州) | S-亚硝基化位点预测方法、模型训练方法及存储介质 |
CN113744805A (zh) * | 2021-09-30 | 2021-12-03 | 山东大学 | 基于bert框架的dna甲基化预测方法及系统 |
Non-Patent Citations (4)
Title |
---|
ASHISH VASWANI等: ""Attention Is All You Need"", 《ARXIV》, pages 1 - 15 * |
HONGLEI WANG等: ""EMDLP: Ensemble multiscale deep learning model for RNA methylation site prediction"", 《BMC BIOINFORMATICS》, pages 1 - 22 * |
YAO-ZHONG ZHANG 等: ""On the application of BERT models for nanopore methylation detection"", 《2021 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》, pages 320 - 327 * |
猛猿: ""https://zhuanlan.zhihu.com/p/454482273"", 《知乎》, pages 1 - 11 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116825360A (zh) * | 2023-07-24 | 2023-09-29 | 湖南工商大学 | 基于图神经网络的慢病共病预测方法、装置及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115424663B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111611377B (zh) | 基于知识蒸馏的多层神经网络语言模型训练方法与装置 | |
CN109241536B (zh) | 一种基于深度学习自注意力机制的句子排序方法 | |
Xiang et al. | A convolutional neural network-based linguistic steganalysis for synonym substitution steganography | |
Gallant et al. | Representing objects, relations, and sequences | |
CN110717334A (zh) | 基于bert模型和双通道注意力的文本情感分析方法 | |
CN108717574B (zh) | 一种基于连词标记和强化学习的自然语言推理方法 | |
CN110413785A (zh) | 一种基于bert和特征融合的文本自动分类方法 | |
CN109670177A (zh) | 一种基于lstm实现医学语义归一化的控制方法及控制装置 | |
CN111414481B (zh) | 基于拼音和bert嵌入的中文语义匹配方法 | |
CN109885756B (zh) | 基于cnn和rnn的序列化推荐方法 | |
CN105938485A (zh) | 一种基于卷积循环混合模型的图像描述方法 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN110232122A (zh) | 一种基于文本纠错与神经网络的中文问句分类方法 | |
CN112926322A (zh) | 融合自注意力机制和深度学习的文本分类方法及系统 | |
CN111353313A (zh) | 基于进化神经网络架构搜索的情感分析模型构建方法 | |
CN111460176A (zh) | 一种基于哈希学习的多文档机器阅读理解方法 | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 | |
CN113704437A (zh) | 一种融合多头注意力机制和相对位置编码的知识库问答方法 | |
CN115424663B (zh) | 一种基于attention的双向表示模型的RNA修饰位点预测方法 | |
CN113806543B (zh) | 一种基于残差跳跃连接的门控循环单元的文本分类方法 | |
CN113392191B (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
CN110955745A (zh) | 一种基于深度学习的文本哈希检索方法 | |
CN116561314B (zh) | 基于自适应阈值选择自注意力的文本分类方法 | |
CN113204640A (zh) | 一种基于注意力机制的文本分类方法 | |
CN116127954A (zh) | 一种基于词典的新工科专业中文知识概念抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |