CN111986730A

CN111986730A - 一种预测siRNA沉默效率的方法

Info

Publication number: CN111986730A
Application number: CN202010729971.5A
Authority: CN
Inventors: 徐迪; 张佩珩
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-11-24

Abstract

本发明揭示了一种预测siRNA沉默效率的方法，其特征在于：在输入层设置特征提取模块对数据集进行特征提取和处理，使用多模motif输入结合词向量预训练模型获得序列词向量、循环神经网络提取序列的潜在特征并引入注意力模型，利用逻辑回归模块计算得到siRNA沉默效率的预测结果。应用本发明预测siRNA沉默效率的技术解决方案，通过训练得到神经网络模型能提高对输入序列进行预测的效率，为实验人员提供效率上的参考，减少试验次数，降低时间与金钱成本；有利于实现沉默效率预测的量化，并提升预测准确度，模型预测效果在Husken数据集上PCC值达到0.716。

Description

一种预测siRNA沉默效率的方法

技术领域

本发明涉及一种研究基因沉默的方法，尤其涉及一种预测siRNA沉默效率的方法，属于计算机应用领域。

背景技术

在探索基因的过程中，人们发现了RNA干扰(RNAi)这一现象，发现微量的双链 RNA能够抑制某个基因的表达，能够起到基因沉默的效果。经过多年的研究，RNA干扰技术逐渐成熟，如今RNA干扰技术已经被广泛应用在基因调控筛选、基因功能分析、生物制药、疾病治疗等方面。

RAN干扰主要通过两种媒介实现：一种是小干扰RNA(siRNA)，另一种是微小RNA(miRNA)。它们产生基因抑制效果的主要步骤类似，以siRNA为例，细胞中的dsRNA被 Dicer酶特异性识别后，会被切割为短链siRNA分子，siRNA会与靶mRNA结合，最终实现靶mRNA的降解。

实现RNA干扰的关键是设计高效的siRNA序列，完全依靠生物学实验来设计siRNA序列，将消耗大量的资金和时间。而早期用总结的规则来设计siRNA，同样存在效率低下、准确率低的问题。

siRNA沉默效率预测在早期主要是基于实验经验，总结针对某些特定位置碱基的设计规则。在2002年，Sayda M.Elbashir首先提出了一种siRNA设计规则，但是只考虑到的GC 碱基的含量。后来Timothy A.Vickers和Anastasia Khvorova分别提出siRNA沉默效率会受到mRNA二级结构和热力学稳定性影响。接下来Angela Reynolds、Kumiko Ui-Tei、Mohammed Amarzguioui、Andrew C.Hsieh、Kathy Q.Luo等人分别提出一系列针对siRNA 序列及其沉默效率关系的规则。但这些规则大多存在样本量少、规则不够具体、不同规则间存在矛盾、无法定量预测缺点。

后来人们开始使用机器学习算法，这相对以往的基于规则的算法效率更高，准确性也更高。最早是在2004年，Saetrom使用GP算法进行siRNA的分类，后来分别由Teramoto、Shabalina、Huesken、Vert等人提出SVM模型、人工神经网络模型、线性回归模型等来预测siRNA沉默效率。他们利用不同的算法建立预测模型，相比基于规则的方法更有效。但是普遍存在只能对siRNA进行高效和低效的分类，而无法定量预测，并且不同算法划分高效和低效的阈值不同，不同模型间缺少可比性。

近年来，开始有研究者使用深度学习模型来对siRNA序列进行沉默效率的预测。其中具有代表性的是2017年韩烨等人提出的用CNN网络模型预测siRNA沉默效率的方法，他们在Husken数据集上进行了训练，最后的相关系数达到了0.717，并在2018年优化模型，结合了DNN，使模型效果达到了0.725。韩烨的成功也验证了深度学习方法在RNAi领域内的可行性，基于深度学习的预测方法目前已经成为研究siRNA沉默效率的主要研究方向。

深度学习方法开始于MP模型的提出，它本质上其实是对人类思维的模拟。2006年神经网络开始了爆发式发展，一方面是Geoffrey Hinton在Science上提出了训练深层网络的新思想，解决了梯度消失的问题，另一方面也得益于目前计算机算力的提升和数据规模的迅速增大。

深度学习相比传统机器学习具有从数据中挖掘有效特征的能力，这避免了人为的特征工程。同时使用比较简单的表示来表达复杂的表示，如在图像处理中先提取边再到角、轮廓最后图像整体。

深度神经网络的训练过程分为前向传播和反向传播。前向传播是，在接收输入数据后，数据从输入层向输出层流动，这称为前向传播。而在训练过程中，我们需要不断更新参数来优化模型，这个过程通常是从输出层流向输入层，是反向传播。

在普通的RNN(Recurrent Neural Network)网络中，反向传播阶段更新参数时，容易出现梯度消失的问题，即在距离输出较远的地方，梯度就会变得变得非常小，从而导致无法很好的训练远处的节点参数。

在机器学习及深度学习相关任务中，数据的编码是很重要的一个环节。自然语言处理任务中的文本数据，需要人为的为文本数据编码，一方面要能够表示出词汇的唯一性，另一方面还需要表示其在语句中的含义。早期在这方面主要是使用离散型的编码，最初是ont-hot，后来逐渐出现了词袋编码、Bi-gram、N-gram以及TF-IDF等编码。这些编码主要还是基于 ont-hot的思想以及词频的计数和统计。后来发展出了分布式的表示方法，经典的方法有 2003年提出的NNLM(Neural Network Language model)以及2013年的word2vec。

Ont-hot编码的基本思想是让每个词都表示成互不相同的二进制串，词编码的维度便是词汇的总数，编码中只有1位为1，其余都为0。One-hot的优点是将文字转换成了可使用的数字编码，缺点是编码的结果太稀疏，且无法表示词汇在语句中的重要性、语义、和其他词汇的关系等。

在one-hot的基础上，发展出了Bag of Words即词袋编码。它也只是简单地将文本中所有词汇的编码相加，得到一个整体的编码，同时可以获得每个词汇在文本中的出现次数。后来出现了Bi-gram和N-gram，这两种编码方式基本相同，在Bag of Words的基础上，Bi- gram是对相邻的两个词编码，N-gram则是对相邻的N个词编码，Bi-gram相当于N-gram中 N等于2的情况。此外还有基于频率统计的TF-IDF编码等。

最早是由Bengio在2003年提出了Neural Network Language model(NNLM)，基本思想是用前n-1个词预测第n个词，并且使用长度为n-1的滑动窗口遍历文本中的词汇，使得目标概率之和最大。最后求出的所有词的概率之和应该为1。令w_n为待预测词汇，前 n-1个词分别是w_1..n-1，则目标函数和约束条件可以表示如下：

∑_{w∈vocabulary}P(w|w_t-n+1，...，w_t-1)＝1 (2)

训练过程中要不断地调整神经网络的参数，在训练第i个词时，可以优化前n-1个词的编码，当所有语料训练完毕，可以得到所有词汇的分布式表示，保存在Matrix C中，Matrix C格式如式(3)所示：

其中参数D为词汇的编码维度。使用Matrix C预测候选词时，使用前n-1个词的编码，因此隐藏层存在(n-1)*D个节点，输出层使用Softmax回归，神经元个数与词汇总数相同。

NNLM模型解决了词汇在语义表示上的问题，联系前文的内容表示当前词，但是缺点也很明显，计算量会非常大。

此外，注意力机制最早在视觉图像领域提出来的，用于给予需要重点关注的目标区域 (注意力焦点)更重要的注意力，同时基于周围的图像更低的注意力，然后随着时间的推移调整焦点。

NLP领域的注意力机制最早可以追溯到2015年Bahdanau等提出的《NeuralMachine Translation by Jointly Learning to Align and Translate》，后续陆续提出了各种注意力模型。直观上可以把注意力机制理解成为模型添加一层权重，让模型关注到那些重要的元素，而对不重要的元素较少关注。

发明内容

为解决上述现有技术中存在的问题及已有的技术基础，本发明的目的旨在提出一种预测 siRNA沉默效率的方法。

本发明实现上述目的的技术解决方案是：一种预测siRNA沉默效率的方法，其特征在于：在输入层设置特征提取模块对数据集进行特征提取和处理，使用词向量预训练模型获得序列词向量，并结合循环神经网络提取序列的潜在特征，再利用逻辑回归模块计算得到 siRNA沉默效率的预测结果。

上述预测siRNA沉默效率的方法，进一步地在输入层使用多模motif输入，所述词向量预训练模型至少为word2vec模型、glove模型、ELMo模型、BERT模型中的一种，且循环神经网络中引入有注意力模型。

上述预测siRNA沉默效率的方法，进一步地包括步骤：S1、在输入层将包含AUGCT五种碱基、长度介于19bp至29bp之间且已知的siRNA序列及对应的沉默效率整合构成数据集；S2、将数据集中各个siRNA序列分别提取特征，令一模motif为G、C、A、T或U 的单个碱基，二模motif为双连续碱基，三模motif为三连续碱基，进行多模motif输入； S3、在Embedding层对提取的特征进行编码，并使用数据集训练word2vec模型，将前步训练模型的输入Embedding权重作为后续模型的Embedding编码值；S4、在LSTM Attention 层将编码好的siRNA序列特征输入到LSTM循环神经网络中进行模型训练，通过反向传播在训练阶段调整参数，并通过注意力模型更新每个位置的权重参数，逐一与siRNA序列对应位置原始生成的隐状态相乘后累加，得到处理结果；S5、将处理结果输入逻辑回归模块的多层感知机，得到siRNA序列沉默效率的预测模型。

上述预测siRNA沉默效率的方法，更进一步地，得出siRNA序列沉默效率的预测模型后，还包括S6、通过人机交互模块调用预测模型，将待预测siRNA序列直接输入并返回得到预测结果。

上述预测siRNA沉默效率的方法，再进一步地，所述人机交互模块为Web页面、Android软件、微信小程序或PC端应用程序。

上述预测siRNA沉默效率的方法，更进一步地，步骤S3中对单个碱基、双连续碱基、三连续碱基分别按照固定顺序将序列转换成数字编码。

上述预测siRNA沉默效率的方法，更进一步地，步骤S3中训练word2vec模型可选为sikp-gram模型或cbow模型。

上述预测siRNA沉默效率的方法，更进一步地，所述LSTM循环神经网络为单层LSTM网络或多层LSTM网络，且每层LSTM网络单向或双向。

上述预测siRNA沉默效率的方法，更进一步地，所述注意力模型选为全局注意力，包含General，Dot-Product，Concat-Product三种模型，且全局注意力计算权重分数的公式为：

其中h_t表示LSTM 循环神经网络中最后一个位置的隐状态，用来表示整个序列的信息；h_s表示所有的隐状态，W_a表示一层全连接层的权重，

表示一个独立的vector向量；通过公式计算各个位置之间的权重分数，再对权重分数进行softmax处理得到权重参数。

上述预测siRNA沉默效率的方法，再进一步地，所述全连接层之间还设有至少包括sigmoid，ReLu，Leaky_ReLu，Tanh，ELU，Maxout中的一种激活函数。

应用本发明预测siRNA沉默效率的技术解决方案，具备突出的实质性特点和显著的进步性：该方案通过训练得到神经网络模型能提高对输入序列进行预测的效率，为实验人员提供效率上的参考，减少试验次数，降低时间与金钱成本；有利于实现沉默效率预测的量化，并提升预测准确度，模型预测效果在Husken数据集上PCC值达到0.716。

附图说明

图1是本发明所整合的siRNA沉默效率预测模型结构。

图2是本发明预测方法中所用LSTM节点的内部结构示意图。

具体实施方式

有鉴于现有对RNA干扰技术深入研究在siRNA沉默效率预测方面的新要求，本申请设计人结合多年计算机算法研发的技术经验，在综合分析预测全过程中所用及的各项技术的优选特性，创新提出了一种预测siRNA沉默效率的方法。其技术特征的概述为：着眼于使用深度学习模型的方法探索，在输入层设置特征提取模块对数据集进行特征提取和处理，使用多模motif输入结合词向量预训练模型获得序列词向量、循环神经网络提取序列的潜在特征，再利用逻辑回归模块计算得到siRNA沉默效率的预测结果；最后通过人机交互模块高效率、高准确率地完成对待测siRNA的沉默效率预测。其中词向量预训练模型可选为word2vec、glove、ELMo、BERT等模型中的一种，且循环神经网络中引入有注意力模型。

以下便结合实施例图示对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握，从而对本发明的保护范围做出更为清晰的界定。

该预测siRNA沉默效率的方法，从数据流向上来看包括步骤：S1、在输入层将包含AUGCT五种碱基、长度介于19bp至29bp之间且已知的siRNA序列及对应的沉默效率整合构成数据集；S2、将数据集中各个siRNA序列分别提取特征，令一模motif为G、C、A、T 或U的单个碱基，二模motif为双连续碱基，三模motif为三连续碱基，进行多模motif输入；S3、在Embedding层对提取的特征进行编码，并使用数据集训练word2vec模型，将前步训练模型的输入Embedding权重作为后续模型的Embedding编码值；S4、在深度学习层将编码好的siRNA序列特征输入到LSTM循环神经网络中进行模型训练，通过反向传播在训练阶段调整参数，并通过注意力模型更新每个位置的权重参数，逐一与siRNA序列对应位置原始生成的隐状态相乘后累加，得到处理结果；S5、将处理结果输入逻辑回归模块的多层感知机，得到siRNA序列沉默效率的预测模型。

具体地，(1)、数据集：使用已有的siRNA数据集或者自行收集长度在19bp至29bp之间的siRNA数据集，每条序列要有对应的沉默效率。数据集中符合要求的为长度为21bp的siRNA序列，这是最优选，上位可以划分到19bp至29bp长度。每条序列包含A、U、 G、C、T这五种碱基，如CUAAUAUGUUAAUUGAUUUAT。

(2)、特征提取模块：进行特征提取和处理。令一模motif为G或C或A或T或U这样的单个碱基，二模motif为GC、CA、CC等双连续碱基，三模motif为GGG，GCC， GAC，CAG等三连续碱基。提取各个siRNA序列中的一模、二模、三模碱基作为一条序列的特征，在输入层1进行多模motif输入，优势是能够进一步提高模型预测的准确性。

(3)、特征编码模块：对提取的特征使用word2vec方法对特征进行编码，使用数据集训练word2vec模型，可以使用sikp-gram模型也可以使用cbow模型。word2vec属于稠密型，能够表示更多信息，优势在于能够更加关注到特征之间的语义相关性。

Word2vec模型便是在NNLM的基础上，对模型进行了优化，并且将当前词和上下文词汇联系在一起。

在word2vec的Skip-gram算法中，使用一个滑动窗口对语料进行数据采集，设置窗口中心词作为样本的输入，中心词周围的词汇作为样本的输出。由于使用滑动窗口只能得到相邻词汇，数据集缺少了负样本即不相邻词汇，因此这里使用了负例采样(NegativeSampling)的方法，随机挑选和中心词不相邻的词汇作为对应的负样本。这样在训练时，便将word2vec转换成了二分类问题。

Word2vec简单的使用输入词和输出词编码的点积作为过程的输出，然后使用Sigmoid 激活函数将其约束在0至1之间，作为此输出词是相邻词的概率。然后再使用反向传播算法，对词汇的编码进行优化。最后经过不断的迭代后，输入层的D维向量就是需要的编码结果。

在Embedding层2得到这一条序列对应一模、二模和三模的编码。Embedding层相当于一个查找表，内容便是word2vec训练得到的结果，并将一模motif按照A，G，U，C，T排好顺序，二模motif按照AA，AG，AU，…TU，TC，TT(共计5²个)，三模motif按照 AAA，AAG，AAU…TTU，TTC，TTT(共计5³个)排好顺序，每条序列特征输入时，按照下标查找到对应的编码值，最后将其合并，作为这条序列整体的编码。即对单个碱基、双连续碱基、三连续碱基分别按照固定顺序将序列转换成数字编码。如一模motif的0进来，第0个表示A，就找到第0个位置表示A的编码，1进来就找到第1个位置表示G的编码。

(4)、LSTM模块与Attention模块：对Embedding层2的输出进行处理，通过反向传播在模型训练阶段不断调整参数，从而达到学习的目的。相比其他模型的优势是，LSTM能够继承循环神经网络RNN的优点，即关注到序列上下文的信息，同时能够克服RNN循环神经网络的梯度消失的问题。在LSTM模型的基础上增加注意力机制，为重要的位置增加更大的权重，减少不重要位置的权重，优势在于能更加关注到对序列沉默效率影响大的位置。故形成了图1所示的LSTM Attention层3。其中可以包括单层LSTM网络，也可以包括多层LSTM网络，而每层LSTM可以是单向或是双向的。若序列有n个motif，(1模motif 有5个，二模25个，三模125个)，则会生成n个隐状态，最后一层的最后一个隐状态可以表示整个序列的语义内容。

LSTM设置了一个用于保存长期状态的Cell State，为了控制输入对Cell State、上一个 LSTM单元的Cell State对目前Cell State和当前Cell State对输出的影响，分别设置了Input Gate、Forget Gate和Output Gate。一个Gate相当于一个全连接层，如图2所示。

LSTM网络前向传播中主要是计算每个LSTM节点的Cell State和节点输出，令输入为 z，input gate、forget gate、output gate权重分别为z_i，z_f，z_o，输出为y，cell state为c，当前时刻为t，则计算过程如式(4)(5)所示：

由于每个Gate都有各自的权重参数，因此LSTM的参数非常多，模型也相对比较复杂。

上述注意力模型虽然提出较晚，但发展迅速，短时期内已然形成包括四大分类及各分类中所属的多种模型。本发明注意力模型选为Minh-Thang Luong在论文《EffectiveApproaches to Attention-based Neural Machine Translation》中提出的全局注意力，其包含General，Dot- Product，Concat-Product三种模型。其计算权重分数的公式为：

表示一个独立的vector向量；通过公式计算各个位置之间的权重分数，再对权重分数进行softmax处理得到权重参数。当然其他注意力模型均可引入本预测方案，也实施可行。

(5)、逻辑回归模块：在得到LSTM加上注意力机制的处理结果后，把结果回归到数值，即需要的siRNA的沉默效率。图1所示可见，该模块可以设为三层全连接层4，即MLP多层感知机。在全连接层之间还是用了一些激活函数，包括但不限于sigmoid，ReLu， Leaky_ReLu，Tanh，ELU，Maxout。

(6)、在得出siRNA序列沉默效率的预测模型后，还包括S6、通过人机交互模块5调用预测模型，将待预测siRNA序列直接输入并返回得到预测结果。该人机交互模块至少为Web页面，Android软件，微信小程序，PC端应用程序。可以理解为：人机交互模块是系统的外在表现形式，而系统核心是上述的模型算法。

综上关于本发明预测siRNA沉默效率的系统方案介绍和实施例详述，可见该方案具备突出的实质性特点和显著的进步性。

1、为实验人员提供辅助，使用训练好的神经网络模型能够很快地对输入的序列进行高效率预测，为实验人员提供沉默效率上的参考，从而减少试验次数，降低时间和金钱成本；

2、在预测的准确度上，相比传统的机器学习方法，深度学习方法有较好的效果提升，且能够避免大量的特征工程，减少工作量；

3、突破性地实现了预测沉默效率的量化；

4、在数据编码时使用了word2vec模型，能够训练得到word2ve模型，通过反向传播得到编码的结果，更加具有特征之间的相关性。

5、在同属深度学习方法的模型中，本专利效果和其他模型效果在Husken数据集上的效果PCC(R)对比如下：Biopredsi--0.6600，DSIR--0.6700，韩烨等人CNN-DNN--0.725，本发明模型—0.716。

除上述实施例外，本发明还可以有其它实施方式，凡采用等同替换或等效变换形成的技术方案，均落在本发明所要求保护的范围之内。

Claims

1.一种预测siRNA沉默效率的方法，其特征在于：在输入层设置特征提取模块对数据集进行特征提取和处理，使用词向量预训练模型获得序列词向量，并结合循环神经网络提取序列的潜在特征，再利用逻辑回归模块计算得到siRNA沉默效率的预测结果。

2.根据权利要求1所述预测siRNA沉默效率的方法，其特征在于：在输入层使用多模motif输入，所述词向量预训练模型至少为word2vec模型、glove模型、ELMo模型、BERT模型中的一种，且循环神经网络中引入有注意力模型。

3.根据权利要求1所述预测siRNA沉默效率的方法，其特征在于包括步骤：

S1、在输入层将包含AUGCT五种碱基、长度介于19bp至29bp之间且已知的siRNA序列及对应的沉默效率整合构成数据集；

S2、将数据集中各个siRNA序列分别提取特征，令一模motif为G、C、A、T或U的单个碱基，二模motif为双连续碱基，三模motif为三连续碱基，进行多模motif输入；

S3、在Embedding层对提取的特征进行编码，并使用数据集训练word2vec模型，将前步训练模型的输入Embedding权重作为后续模型的Embedding编码值；

S4、在LSTM Attention层将编码好的siRNA序列特征输入到LSTM循环神经网络中进行模型训练，通过反向传播在训练阶段调整参数，并通过注意力模型更新每个位置的权重参数，逐一与siRNA序列对应位置原始生成的隐状态相乘后累加，得到处理结果；

S5、将处理结果输入逻辑回归模块的多层感知机，得到siRNA序列沉默效率的预测模型。

4.根据权利要求1或2所述预测siRNA沉默效率的方法，其特征在于：得出siRNA序列沉默效率的预测模型后，还包括S6、通过人机交互模块调用预测模型，将待预测siRNA序列直接输入并返回得到预测结果。

5.根据权利要求3所述预测siRNA沉默效率的方法，其特征在于：所述人机交互模块为Web页面、Android软件、微信小程序或PC端应用程序。

6.根据权利要求2所述预测siRNA沉默效率的方法，其特征在于：步骤S3中对单个碱基、双连续碱基、三连续碱基分别按照固定顺序将序列转换成数字编码。

7.根据权利要求2所述预测siRNA沉默效率的方法，其特征在于：步骤S3中训练word2vec模型可选为sikp-gram模型或cbow模型。

8.根据权利要求2所述预测siRNA沉默效率的方法，其特征在于：所述LSTM循环神经网络为单层LSTM网络或多层LSTM网络，且每层LSTM网络单向或双向。

9.根据权利要求2所述预测siRNA沉默效率的方法，其特征在于：所述注意力模型选为全局注意力，包含General，Dot-Product，Concat-Product三种模型，且全局注意力计算权重分数的公式为：

，其中

表示LSTM循环神经网络中最后一个位置的隐状态，用来表示整个序列的信息；

表示所有的隐状态，

表示一层全连接层的权重，

10.根据权利要求9所述预测siRNA沉默效率的方法，其特征在于：所述全连接层之间还设有至少包括sigmoid，ReLu，Leaky_ReLu，Tanh，ELU，Maxout中的一种激活函数。