CN113782096A

CN113782096A - Rna碱基不成对概率的预测方法及装置

Info

Publication number: CN113782096A
Application number: CN202111086407.7A
Authority: CN
Inventors: 叶贤斌; 王俊
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Chuangke Technology Beijing Co ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2021-12-10
Anticipated expiration: 2041-09-16
Also published as: WO2023040148A1; CN113782096B

Abstract

本申请公开了RNA碱基不成对概率的预测方法及装置，涉及数字医疗领域，可以提升RNA碱基不成对概率预测的准确度。其中方法包括：利用所述提取词袋模块对待预测RNA长序列对应的RNA一级结构序列和RNA二级结构序列进行编码，得到RNA整体特征序列；利用所述Transformer模块对所述RNA整体特征序列进行全局碱基特征提取，得到第一特征向量；利用所述门控循环模块对所述第一特征向量进行相邻碱基关系提取，得到第二特征向量；利用所述多层感知模块，根据所述第二特征向量，预测所述待预测RNA长序列中RNA二级结构序列的碱基不成对概率。本申请适用于RNA碱基不成对概率的预测。

Description

RNA碱基不成对概率的预测方法及装置

技术领域

本申请涉及数字医疗领域，尤其是涉及到RNA碱基不成对概率的预测方法及装置。

背景技术

随着生物信息学的发展，核糖核酸RNA作为生物体中一种重要的大分子，其碱基不成对概率作为RNA序列的重要特征，受到研究人员的广泛关注。通常把RNA 2D平面上由碱基配对形成的结构称之为RNA的二级结构，RNA碱基不成对概率作为衡量RNA序列各个碱基能否形成稳定的碱基对的依据，被广泛的应用于医疗、制药等领域。如何预测RNA碱基不成对概率，成为目前亟待解决的技术问题。

目前常用RNA碱基不成对概率预测的方法，主要是基于动力学的方法和基于传统神经网络模型的方法。以动力学的方法为例，如KnotInFrame和ViennaRNA，通过假设稳定的RNA结构是热力学能量低的结构，从而从玻尔兹曼分布中采样多个二级结构，统计得到每个点位不成对比例作为RNA碱基不成对概率的估计，由于该过程极度依赖热力学能量的估计，因此对碱基不成对概率的预测准确度较低。

发明内容

有鉴于此，本申请提供了RNA碱基不成对概率的预测方法及装置，主要目的在于解决现有基于动力学以及传统神经网络模型的方法，过度依赖热力学能量的估计，对RNA碱基不成对概率预测准确度较低的技术问题。

根据本申请的一个方面，提供了一种RNA碱基不成对概率的预测方法，基于预先训练好的预测网络模型对RNA碱基不成对概率进行预测，预先训练好的预测网络模型包括提取词袋模块、Transformer模块、门控循环模块和多层感知模块，该方法包括：

利用所述提取词袋模块对待预测RNA长序列对应的RNA一级结构序列和RNA二级结构序列进行编码，得到RNA整体特征序列；

利用所述Transformer模块对所述RNA整体特征序列进行全局碱基特征提取，得到所述RNA整体特征序列的第一特征向量；

利用所述门控循环模块对所述第一特征向量进行相邻碱基关系提取，得到所述RNA整体特征序列的第二特征向量；

利用所述多层感知模块，根据所述第二特征向量，预测所述待预测RNA长序列中RNA二级结构序列的碱基不成对概率。

根据本申请的另一方面，提供了一种RNA碱基不成对概率的预测装置，预先训练好的预测网络模型包括提取词袋模块、Transformer模块、门控循环模块和多层感知模块，该装置包括：

提取词袋模块，用于利用所述提取词袋模块对待预测RNA长序列对应的RNA一级结构序列和RNA二级结构序列进行编码，得到RNA整体特征序列；

Transformer模块，用于利用所述Transformer模块对所述整体特征序列进行碱基特征提取，得到所述整体特征序列的第一特征向量；

门控循环模块，用于利用所述门控循环模块对所述第一特征向量进行相邻碱基关系提取，得到所述整体特征序列的第二特征向量；

多层感知模块，用于利用所述多层感知模块，根据所述第二特征向量，预测所述待预测RNA长序列中各碱基对应位置上二级结构序列的碱基不成对概率。

依据本申请又一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述RNA碱基不成对概率的预测方法。

依据本申请再一个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述RNA碱基不成对概率的预测方法。

借由上述技术方案，本申请提供的RNA碱基不成对概率的预测方法及装置，与现有基于动力学以及传统神经网络模型的RNA碱基不成对概率预测的技术方案相比，本申请利用所述提取词袋模块对待预测RNA长序列对应的RNA一级结构序列和RNA二级结构序列进行编码，得到RNA整体特征序列，利用所述Transformer模块对所述RNA整体特征序列进行全局碱基特征提取，得到所述RNA整体特征序列的第一特征向量，利用所述门控循环模块对所述第一特征向量进行相邻碱基关系提取，得到所述RNA整体特征序列的第二特征向量，以及利用所述多层感知模块，根据所述第二特征向量，预测所述待预测RNA长序列中RNA二级结构序列的碱基不成对概率。可见，利用训练好的预测网络模型能够有效避免过度依赖热力学能量估计导致的RNA碱基不成对概率预测准确度较低的技术问题，有效提升RNA碱基不成对概率预测的准确度。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种RNA碱基不成对概率的预测方法的流程示意图；

图2示出了本申请实施例提供的另一种RNA碱基不成对概率的预测方法的流程示意图；

图3示出了本申请实施例提供的一种RNA碱基不成对概率的预测装置的结构示意图；

图4示出了本申请实施例提供的另一种RNA碱基不成对概率的预测装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(AI：Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

针对现有基于动力学的方法，过度依赖热力学能量进行RNA碱基不成对概率预测，导致RNA碱基不成对概率的预测准确度较低的技术问题。本实施例提供了一种RNA碱基不成对概率的预测方法，能够利用包括提取词袋模块、Transformer模块、门控循环模块和多层感知模块的预先训练好的预测网络模型，提升RNA碱基不成对概率预测的准确性，如图1所示，以该方法应用于服务器等计算机设备为例进行说明，其中，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN：Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器，如智能医疗系统、数字医疗平台等。上述方法基于预先训练好的预测网络模型对RNA碱基不成对概率进行预测，所述预测网络模型包括提取词袋模块、Transformer模块、门控循环模块和多层感知模块，具体包括以下步骤：

步骤101、利用所述提取词袋模块对待预测RNA长序列对应的RNA一级结构序列和RNA二级结构序列进行编码，得到RNA整体特征序列。

在本实施例中，预先训练好的预测网络模型包括提取词袋模块、Transformer模块、门控循环模块和多层感知模块。提取词袋模块为n-gram，利用字符长度为n的滑动窗口对待预测RNA长序列对应的RNA一级结构序列和RNA二级结构序列按n个字符进行划分，得到长度为n个字符的多个片段序列，以便针对划分得到的多个片段序列进行编码，得到编码后的RNA一级结构特征向量和RNA二级结构特征向量；将编码后的RNA一级结构特征向量和RNA二级结构特征向量进行相加处理，得到融合RNA一级、二级结构特征的RNA整体特征序列。

需要说明的是，由于RNA碱基配对具有较强的局部相关性，为形成稳定的碱基配对需要至少相邻的三个以上的碱基都实现配对，因此，采用3-gram模块对RNA一级结构序列和RNA二级结构序列进行片段划分并编码，能够一定程度上保留RNA碱基配对的稳定性特征，此外，将RNA一级、二级结构特征进行融合，能够得到包含RNA更完整特征信息的RNA整体特征序列。

步骤102、利用所述Transformer模块对所述RNA整体特征序列进行全局碱基特征提取，得到所述RNA整体特征序列的第一特征向量。

在本实施例中，全局碱基特征是指，所述RNA整体特征序列中每个碱基相对RNA整体特征序列中其他碱基的全局特征，将RNA整体特征序列，以及RNA二级结构序列对应的位置嵌入向量相加后作为Transformer模块的输入数据，利用Transformer模块对该RNA整体特征序列进行全局碱基特征提取，得到第一特征向量。其中，RNA二级结构序列对应的位置嵌入向量，即RNA二级结构序列的位置编码positional embedding；以及，Transformer模块为串联的双层结构，每层结构中的自注意力机制self-attention能够针对RNA整体特征序列中的每个碱基提取相对于RNA整体特征序列中其他碱基的特征信息。

需要说明的是，由于RNA二级结构序列在平面空间的位置信息(位置编码)表征RNA长序列中碱基的顺序信息，因此通过RNA整体特征序列和RNA二级结构序列对应的位置嵌入向量相加作为输入数据的方式，保留RNA长序列中碱基顺序信息特征；以及，由于待预测RNA长序列的长度存在超过1000的情况，RNA长序列中各碱基配对概率是由长序列整体决定的，仅利用片段序列无法实现对碱基配对概率的准确预测，因此为更有效地对RNA长序列进行建模，利用Transformer中的提取词袋模块对RNA整体特征序列进行全局碱基特征提取，赋予每个碱基一个全局信息特征，从而提升RNA长序列碱基不配对概率预测的准确性。

步骤103、利用所述门控循环模块对所述第一特征向量进行相邻碱基关系提取，得到所述RNA整体特征序列的第二特征向量。

在本实施例中，门控循环单元GRU是循环神经网络(RNN：Recurrent NeuralNetwork)的一种变体，即在传统循环神经网络RNN上增加门的机制来追踪时间序列中时间步隐藏状态向量的变化，门控循环单元GRU包括重置门和更新门，用于控制时间序列中的时间步信息是如何更新到当前时间步的。相应地，利用门控循环单元GRU进行相邻碱基关系提取，能够强化碱基间的位置依赖，从而保留碱基配对过程中的线性序列特征，得到包含相邻碱基关系的第二特征向量。根据实际应用场景的需要，也可以利用双向门控循环单元(GRU：Gated Recurrent Unit)，或者双向长短期记忆(LSTM：Long Short-Term Memory)对第一特征向量进行相邻碱基关系提取，此处不对相邻碱基关系提取的模块进行具体限定。

步骤104、利用所述多层感知模块，根据所述第二特征向量，预测所述待预测RNA长序列中RNA二级结构序列的碱基不成对概率。

在本实施例中，由于碱基配对过程会产生RNA二级结构的变化，如折叠，成环等，导致相邻碱基存在受其他位置碱基对影响的可能，因此利用串联的两个多层感知器(MLP：Multi-layer Perceptron)获取第二特征向量中碱基对之间的作用力特征，并进一步预测RNA二级结构序列的碱基不成对概率，从而提高碱基不成对概率预测的准确性。

在实际应用场景中，确定碱基不成对概率达到预设范围的碱基位置；获取所述碱基位置信息并作为疫苗序列中降解位置的推荐信息。具体地，由于mRNA疫苗序列的不稳定性，以及碱基不成对概率较高的碱基位置易与其他RNA序列相互作用形成RNA-RNA binding的特性，因此mRNA疫苗序列设计过程需要针对序列中被降解概率大的位置进行设计，其中，序列中各碱基位置被降解概率与各碱基位置碱基不成对概率正相关。基于本实施例，确定RNA长序列中各碱基不成对概率，通过遍历确定满足预设概率范围的一个或多个碱基不成对概率最大的碱基位置，并将得到的一个或多个碱基不成对概率最大的碱基位置作为疫苗序列中降解位置的推荐信息，为疫苗序列的设计提供依据，根据实际应用场景的需要，也能够进一步为RNA药物研发提供依据，此处不对后续应用进行具体限定。

对于本实施例可以按照上述方案，利用所述提取词袋模块对待预测RNA长序列对应的RNA一级结构序列和RNA二级结构序列进行编码，得到RNA整体特征序列，利用所述Transformer模块对所述RNA整体特征序列进行全局碱基特征提取，得到所述RNA整体特征序列的第一特征向量，利用所述门控循环模块对所述第一特征向量进行相邻碱基关系提取，得到所述RNA整体特征序列的第二特征向量，以及利用所述多层感知模块，根据所述第二特征向量，预测所述待预测RNA长序列中RNA二级结构序列的碱基不成对概率。与现有基于动力学以及传统神经网络模型实现RNA碱基不成对概率预测的技术方案相比，本实施例基于RNA一级、二级结构序列的碱基特性构建预测网络模型，能够有效避免过度依赖热力学能量估计导致的RNA碱基不成对概率预测准确度较低的技术问题，从而有效提升RNA碱基不成对概率预测的准确度。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，提供了另一种RNA碱基不成对概率的预测方法，如图2所示，该方法包括：

步骤201、训练初始预测网络模型。

为了说明步骤201的具体实施方式，作为一种优选实施例，步骤201具体可以包括：将训练样本中的RNA一级结构序列和RNA二级结构序列作为初始预测网络模型的输入数据；经由初始预测网络模型中的提取词袋模块、Transformer模块、门控循环模块和多层感知模块输出后，得到RNA二级结构序列的碱基不成对概率；若所述碱基不成对概率与训练样本中的目标碱基不成对概率满足预设条件，则预测网络模型训练结束，得到训练好的预测网络模型。

在本实施例中，针对RNA碱基不成对概率预测，本实施例将其转化成通过给定一个RNA长序列的一级结构序列和二级结构序列，预测RNA长序列中各碱基对应位置上二级结构的碱基不成对概率，并得到一个由范围在0-1之间数字组成的一维序列的预测结果。初始预测网络模型以Transformer为模型主架构，增设双向GRU/LSTM模块和多层感知器MLP，构建一个用于预测RNA长序列中各碱基位置对应的碱基不成对概率的预测模型。

初始预测模型结构为：input＝＝>n-gram_embedding＝＝>Transformer(1～4layer)＝＝>bidirection_GRU＝＝>MLP，采用adam优化器进行优化训练。对构建的初始预测网络模型进行训练的具体步骤包括：

1)将训练数据RNA长序列的一级结构序列和二级结构序列作为输入，利用提取词袋模块3-gram得到RNA一级结构序列和二级结构序列分别对应的特征向量，通过特征向量相加得到RNA整体特征序列X_RNA。具体包括：

将训练数据RNA长序列的RNA一级结构序列x₁和RNA二级结构序列x₂作为双输入，输入3-gram编码模块，以RNA长序列中相邻且连续的3个碱基为一组，分别对RNA一级结构序列(以碱基AUCG的排列组合表示)和RNA二级结构序列(以“.”、“(”、“)”的排列表示)，RNA长序列中未产生碱基互补配对的自由碱基用“.”表示；形成互补碱基对的两个碱基分别用一对“(”和“)”，即本实施例用于预测RNA长序列的二级结构序列中，各碱基为“.”的概率值。

通过统计划分后的片段序列在RNA长序列中出现的频数，得到RNA一级结构序列对应的组频向量3gram(x₁)和RNA二级结构序列对应的组频向量3gram(x₂)；进一步，利用词嵌入矩阵W₁和W₂，得到RNA一级结构序列对应的一级结构特征向量q₁，RNA二级结构序列对应的二级结构特征向量q₂，根据RNA一级结构序列对应的一级结构特征向量q₁和二级结构序列对应的二级结构特征向量q₂进行向量相加，得到RNA整体特征序列

具体公式如下：

q₁＝W₁(3gram(x₁))

q₂＝W₂(3gram(x₂))

其中，

d为RNA长序列的长度，RNA一级结构序列和RNA二级结构序列的3gram组合分别有64种和27种。

2)将RNA整体特征序列X_RNA作为输入，利用Transformer模型输出第一特征向量X_{t_out}，公式如下：

X_{t_out}＝Transformer2(Transformer1(X_RNA))

Transformer模块由Encoder和Decoder两部分组成，Encoder由N个块栈式搭建而成，每个块包括一个self-Attention子层和一个前馈神经网络feed forward子层；Decoder也是由N个块栈式搭建而成，每个块包括一个self-Attention子层、Encoder-DecoderAttention子层(self-Attention子层输出和Encoder层输出作为输入)和一个前馈神经网络feed forward子层。具体地：

①将RNA整体特征序列X_RNA与二级结构序列的位置编码positional embedding相加，经由Transformer模块中编码器Encoder输出编码特征向量，该编码特征向量中每个碱基位置表征每个碱基相对于RNA整体特征序列的初始全局特征；其中，位置编码positionalembedding为二级结构序列对应的特征向量，二级结构序列中碱基在平面空间的位置信息表征RNA长序列中碱基的排列顺序。

②将编码特征向量和二级结构序列对应的特征向量作为Decoder的输入，得到解码特征向量，并经由全连接层得到第一特征向量X_{t_out}，该第一特征向量X_{t_out}中每个碱基位置表征每个碱基相对于RNA整体特征序列强化后的全局特征。其中，根据RNA整体特征序列X_RNA，通过线性变换得到Q，K，V初始向量，公式如下：

Q＝W_qX_RNA

K＝W_kX_RNA

V＝W_vX_RNA

其中，

W_q、W_k、W_v为对应Q，K，V的权值矩阵。

进一步地，由于不同空间变换下的信息特征能够给模型带来增益，采用多头注意力MultiHead Attention机制来丰富每个碱基位置相对于RNA整体特征序列中其它碱基位置的全局特征，能够有效提高模型的泛化能力。因此，Transformer模块采用MultiHeadAttention机制，通过M个参数不同的self-Attention块提取不同子空间下的结构序列特征Attention(Q，K，V)，即通过不同的线性变化(W_q,W_k,W_v)，将输入的RNA整体特征序列映射到不同的子空间，从而输出多维度特征向量，并将输出的多维度特征向量拼接后，经由一个全连接层(将权重矩阵与输入向量相乘后与偏置值相加)降维得到第一特征向量X_{t_out}。

其中，利用Attention(Q，K，V)得到第一特征向量X_{t_out}，该第一特征向量X_{t_out}中的每个碱基位置表征每个碱基相对于RNA整体特征序列的全局特征，即针对每个碱基位置，按照一定权重对RNA长序列中其他碱基位置特征进行加权求和得到包含RNA长序列中其他碱基位置特征的全局特征向量，从而得到第一特征向量X_{t_out}。

具体地，根据Q，K，利用乘法得到RNA整体特征序列第一位置碱基与其他位置碱基之间的匹配度；根据匹配度，通过softmax缩放之后得到RNA整体特征序列中每个位置碱基的自注意力值attentionscore∈[0,1]；根据自注意力值attentionscore对V进行加权求和，得到每个碱基位置相对于RNA长序列中其他碱基位置的全局特征向量。例如，对于RNA整体特征序列AUCGCCCU，通过self-Attention子层，碱基A能够学习并自适应地利用后面结构序列UCGCCCU的特征，使得碱基A的特征信息更具全局性。公式如下：

其中，

进一步地，假定self-attention子层含有M个Attention(Q，K，V)，得到M个维度特征向量X_{RNA_attention1}，X_{RNA_attention2}，X_{RNA_attention3}，…X_{RNA_attentionM}，通过特征向量拼接以及线性变换处理

并经由全连接层得到最终的第一特征向量

公式如下：

X_{RNA_multi}＝concat(X_{RNA_attention1}..X_{RNA_attentionM})W

3)将RNA长序列的第一特征向量X_{t_out}作为输入，利用双向GRU模型模拟RNA长序列中的碱基排列顺序(从碱基5’端到碱基3’端的顺序)，得到用于表征相邻碱基关系的第二特征向量X_{GRU_out}。公式如下：

X_{GRU_out}＝GRU(X_{t_out})

4)将RNA长序列的第二特征向量X_{GRU_out}作为输入，利用双层MLP得到RNA长序列中每个碱基位置的碱基不成对概率。公式如下：

X_out＝MLP(X_{GRU_out})

其中，

X_out∈[0,1]^d×1，X_out表示输入的RNA长序列中每个碱基的碱基不成对概率。

上述预测网络模型训练采用adam优化器进行优化训练，得到训练好的预测网络模型。

综上，为实现RNA碱基不成对概率的准确预测，所构建的预测模型的改进包括：

1)RNA碱基配对具有较强的局部相关性，为形成稳定的碱基配对至少需要相邻三个以上的碱基都配对，因此，为保证RNA长序列中碱基配对结构的稳定性，采用3-gram编码模块增强对RNA碱基配对的局部相关性更为精确的描述；

2)RNA长序列中各碱基配对概率是由长序列整体决定的，仅利用片段序列无法实现对碱基配对概率的准确预测，为保证RNA长序列碱基不配对概率的预测准确性，利用Transformer模块的编码器学习RNA长序列各碱基相对于RNA长序列整体的全局特征信息；

3)RNA长序列的碱基排列具有强线性关系，即各碱基间的顺序一旦发生改变，将直接影响碱基不配对的概率，因此，基于RNA长序列碱基排列的线性序列特征，在Transformer模块的输出端增设双向GRU/LSTM层模拟RNA长序列的碱基排列顺序，能够强化碱基间的序列依赖，从而保留碱基配对过程中的线性序列特征；

4)由于碱基配对过程中会产生RNA二级结构的变化，如折叠，成环等，三个相邻的碱基存在受其他位置碱基对影响的可能，因此，在双向GRU输出端增设双层MLP层，能够基于碱基对间的相互作用，提升RNA碱基不成对概率的预测准确性。

步骤202、利用所述提取词袋模块，分别对待预测RNA长序列对应的RNA一级结构序列和RNA二级结构序列进行编码，得到一级结构特征向量和二级结构特征向量。

实施中，利用n-gram模块接收RNA一级、二级两种结构序列作为数据输入，分别通过词嵌入矩阵来获取对应RNA一级、二级结构序列的特征向量，从而得到融合RNA一级、二级结构序列特征的RNA整体特征序列。为保证碱基配对的稳定性，选用n＝3的n-gram模块，以每3个字符为一个处理单元进行RNA长序列划分得到多个碱基组，并基于碱基配对的局部相关特性，获取相邻且连续的三个碱基的局部相关特征。其中，词嵌入矩阵能够在模型训练过程中自适应地更新自身的参数，以获取最佳的序列特征向量，从而更好地捕获RNA一级结构序列和二级结构序列的特征信息。

步骤203、对所述一级结构特征向量和所述二级结构特征向量进行向量相加，得到所述RNA整体特征序列。

步骤204、利用所述Transformer模块的编码器，根据所述RNA整体特征序列和所述RNA二级结构序列的位置嵌入向量，得到编码特征向量。

为了说明步骤204的具体实施方式，作为一种优选实施例，步骤204具体可以包括：将所述RNA整体特征序列和所述RNA二级结构序列的位置嵌入向量进行向量相加后，输入所述Transformer模块的编码器，得到包含碱基位置信息的编码特征向量。

步骤205、利用所述Transformer模块的解码器，根据所述编码特征向量和所述RNA二级结构序列的位置嵌入向量，得到解码特征向量。

为了说明步骤205的具体实施方式，作为一种优选实施例，步骤205具体可以包括：利用所述解码器中的多头自注意力机制，得到所述编码特征向量对应的多个自注意力向量；以及，对所述多个自注意力向量进行拼接处理后，通过线性变换处理得到包含碱基配对重要程度的自注意力向量；以及，根据包含碱基间配对重要程度的自注意力向量和所述RNA二级结构序列的位置嵌入向量，得到解码特征向量。

步骤206、利用所述Transformer模块的全连接层，根据所述解码特征向量得到所述RNA整体特征序列的第一特征向量。

步骤207、所述多层感知模块为串联的两个多层感知器，利用串联的两个多层感知器，通过获取所述第二特征向量中碱基对之间的作用力特征，预测所述待预测RNA长序列中RNA二级结构序列的碱基不成对概率。

通过应用本实施例的技术方案，利用所述提取词袋模块对待预测RNA长序列对应的RNA一级结构序列和RNA二级结构序列进行编码，得到RNA整体特征序列，利用所述Transformer模块对所述RNA整体特征序列进行全局碱基特征提取，得到所述RNA整体特征序列的第一特征向量，利用所述门控循环模块对所述第一特征向量进行相邻碱基关系提取，得到所述RNA整体特征序列的第二特征向量，以及利用所述多层感知模块，根据所述第二特征向量，预测所述待预测RNA长序列中RNA二级结构序列的碱基不成对概率。与现有基于动力学方法以及传统神经网络模型方法进行RNA碱基不成对概率的预测的技术方案相比，本实施例基于RNA一级、二级结构序列的碱基特性构建预测网络模型，能够有效避免过度依赖热力学能量估计导致的RNA碱基不成对概率预测准确度较低的技术问题，从而有效提升RNA序列碱基不成对概率预测的准确度。

进一步的，作为图1方法的具体实现，本申请实施例提供了一种RNA碱基不成对概率的预测装置，如图3所示，该装置包括预先训练好的预测网络模型，具体包括：提取词袋模块32、Transformer模块33、门控循环模块34、多层感知模块35。

提取词袋模块32，可以用于利用所述提取词袋模块对待预测RNA长序列对应的RNA一级结构序列和RNA二级结构序列进行编码，得到RNA整体特征序列。

Transformer模块33，可以用于利用所述Transformer模块对所述RNA整体特征序列进行全局碱基特征提取，得到所述RNA整体特征序列的第一特征向量；所述全局碱基特征是指，所述RNA整体特征序列中每个碱基相对RNA整体特征序列中其他碱基的全局特征。

门控循环模块34，可以用于利用所述门控循环模块对所述第一特征向量进行相邻碱基关系提取，得到所述RNA整体特征序列的第二特征向量。

多层感知模块35，可以用于利用所述多层感知模块，根据所述第二特征向量，预测所述待预测RNA长序列中RNA二级结构序列的碱基不成对概率。

在具体的应用场景中，如图4所示，还包括模型训练模块31。

在具体的应用场景中，提取词袋模块32包括提取词袋单元321、向量相加单元322。

提取词袋单元321，可以用于利用所述提取词袋模块，分别对待预测RNA长序列对应的RNA一级结构序列和RNA二级结构序列进行编码，得到一级结构特征向量和二级结构特征向量。

向量相加单元322，可以用于对所述一级结构特征向量和所述二级结构特征向量进行向量相加，得到所述RNA整体特征序列。

在具体的应用场景中，Transformer模块33包括编码单元331、解码单元332、全连接单元333。

编码单元331，可以用于利用所述Transformer模块的编码器，根据所述RNA整体特征序列和所述RNA二级结构序列的位置嵌入向量，得到编码特征向量。

解码单元332，可以用于利用所述Transformer模块的解码器，根据所述编码特征向量和所述RNA二级结构序列的位置嵌入向量，得到解码特征向量。

全连接单元333，可以用于利用所述Transformer模块的全连接层，根据所述解码特征向量得到所述RNA整体特征序列的第一特征向量。

在具体的应用场景中，解码单元332具体包括：将所述RNA整体特征序列和所述RNA二级结构序列的位置嵌入向量进行向量相加后，输入所述Transformer模块的编码器，得到包含碱基位置信息的编码特征向量。

在具体的应用场景中，解码单元332具体包括：利用所述解码器中的多头自注意力机制，得到所述编码特征向量对应的多个自注意力向量；对所述多个自注意力向量进行拼接处理后，通过线性变换处理得到包含碱基配对重要程度的自注意力向量；根据包含碱基间配对重要程度的自注意力向量和所述RNA二级结构序列的位置嵌入向量，得到解码特征向量。

在具体的应用场景中，所述多层感知模块为串联的两个多层感知器，多层感知模块35具体包括：利用串联的两个多层感知器，通过获取所述第二特征向量中碱基对之间的作用力特征，预测所述待预测RNA长序列中RNA二级结构序列的碱基不成对概率。

在具体的应用场景中，模型训练模块31，可以用于训练初始预测网络模型。模型训练模块31包括序列输入单元311、概率预测单元312、迭代训练单元313。

序列输入单元311，可以用于将训练样本中的RNA一级结构序列和RNA二级结构序列作为初始预测网络模型的输入数据。

概率预测单元312，可以用于经由初始预测网络模型中的提取词袋模块、Transformer模块、门控循环模块和多层感知模块输出后，得到RNA二级结构序列的碱基不成对概率。

迭代训练单元313，可以用于若所述碱基不成对概率与训练样本中的目标碱基不成对概率满足预设条件，则预测网络模型训练结束，得到训练好的预测网络模型。

需要说明的是，本申请实施例提供的一种RNA碱基不成对概率的预测装置所涉及各功能单元的其他相应描述，可以参考图1和图2中的对应描述，在此不再赘述。

基于上述如图1和图2所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1和图2所示的RNA碱基不成对概率的预测方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1、图2所示的方法，以及图3所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1和图2所示的RNA碱基不成对概率的预测方法。

可选的，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与现有基于动力学以及传统神经网络模型实现RNA碱基不成对概率预测的技术方案相比，本实施例基于RNA一级、二级结构序列的碱基特性构建预测网络模型，能够有效避免过度依赖热力学能量估计导致的RNA碱基不成对概率预测准确度较低的技术问题，从而有效提升RNA序列碱基不成对概率预测的准确度。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种RNA碱基不成对概率的预测方法，其特征在于，基于预先训练好的预测网络模型对RNA碱基不成对概率进行预测，预先训练好的预测网络模型包括提取词袋模块、Transformer模块、门控循环模块和多层感知模块，具体包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述提取词袋模块对待预测RNA长序列对应的RNA一级结构序列和RNA二级结构序列进行编码，得到RNA整体特征序列，具体包括：

利用所述提取词袋模块，分别对待预测RNA长序列对应的RNA一级结构序列和RNA二级结构序列进行编码，得到一级结构特征向量和二级结构特征向量；

对所述一级结构特征向量和所述二级结构特征向量进行向量相加，得到所述RNA整体特征序列。

3.根据权利要求1或2所述的方法，其特征在于，所述全局碱基特征是指，所述RNA整体特征序列中每个碱基相对RNA整体特征序列中其他碱基的全局特征，所述利用所述Transformer模块对所述RNA整体特征序列进行全局碱基特征提取，得到所述RNA整体特征序列的第一特征向量，具体包括：

利用所述Transformer模块的编码器，根据所述RNA整体特征序列和所述RNA二级结构序列的位置嵌入向量，得到编码特征向量；

利用所述Transformer模块的解码器，根据所述编码特征向量和所述RNA二级结构序列的位置嵌入向量，得到解码特征向量；

利用所述Transformer模块的全连接层，根据所述解码特征向量得到所述RNA整体特征序列的第一特征向量。

4.根据权利要求3所述的方法，其特征在于，所述利用所述Transformer模块的编码器，根据所述RNA整体特征序列和所述RNA二级结构序列的位置嵌入向量，得到编码特征向量，具体包括：

将所述RNA整体特征序列和所述RNA二级结构序列的位置嵌入向量进行向量相加后，输入所述Transformer模块的编码器，得到包含碱基位置信息的编码特征向量。

5.根据权利要求3所述的方法，其特征在于，所述利用所述Transformer模块的解码器，根据所述编码特征向量和所述RNA二级结构序列的位置嵌入向量，得到解码特征向量的步骤，具体包括：

利用所述解码器中的多头自注意力机制，得到所述编码特征向量对应的多个自注意力向量；

对所述多个自注意力向量进行拼接处理后，通过线性变换处理得到包含碱基配对重要程度的自注意力向量；

根据包含碱基间配对重要程度的自注意力向量和所述RNA二级结构序列的位置嵌入向量，得到解码特征向量。

6.根据权利要求1所述的方法，其特征在于，所述多层感知模块为串联的两个多层感知器，根据所述第二特征向量，预测所述待预测RNA长序列中RNA二级结构序列的碱基不成对概率，具体包括：

利用串联的两个多层感知器，通过获取所述第二特征向量中碱基对之间的作用力特征，预测所述待预测RNA长序列中RNA二级结构序列的碱基不成对概率。

7.根据权利要求1所述的方法，其特征在于，还包括：

训练初始预测网络模型，具体包括：

将训练样本中的RNA一级结构序列和RNA二级结构序列作为初始预测网络模型的输入数据；

经由初始预测网络模型中的提取词袋模块、Transformer模块、门控循环模块和多层感知模块输出后，得到RNA二级结构序列的碱基不成对概率；

若所述碱基不成对概率与训练样本中的目标碱基不成对概率满足预设条件，则预测网络模型训练结束，得到训练好的预测网络模型。

8.一种RNA碱基不成对概率的预测装置，其特征在于，所述装置中的预先训练好的预测网络模型包括提取词袋模块、Transformer模块、门控循环模块和多层感知模块，具体包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一项所述RNA碱基不成对概率的预测方法。

10.一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的RNA碱基不成对概率的预测方法。