CN112908409A

CN112908409A - 一种基于并行改进人工蚁群算法的rna二级结构预测方法

Info

Publication number: CN112908409A
Application number: CN202110253566.5A
Authority: CN
Inventors: 黄玉划; 陈志远; 施慧彬
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-06-04

Abstract

本发明提供一种基于并行改进的人工蚁群算法的RNA二级结构预测方法，人工蚁群算法在迭代寻优过程中存在收敛过慢的缺陷，对于人工蚁群算法改进方面，本发明采用多线程优化的方法，将每一只人工蚂蚁分配一个线程进行各自的线程搜索；在RNA二级结构预测方面，改进了子结构区分算法，使得算法更加适用于并行计算，同时是的使用改进并行人工蚁群算法预测RNA二级结构时，能获得更低的自由能，更快运算速度和更少的计算资源。

Description

一种基于并行改进人工蚁群算法的RNA二级结构预测方法

技术领域

本发明涉及路径规划领域，尤其涉及一种基于CUDA改进人工蚁群算法的RNA二级结构预测方法。

背景技术

核酸序列是生物信息学主要研究的对象之一，它分为DNA核酸序列和RNA核酸序列，DNA携带合成RNA和蛋白质所必要的遗传信息，是生物体发育和正常运作必不可少的生物大分子。RNA存在于生物细胞以及部分病毒中，分为编码RNA和非编码RNA(ncRNA)，前者负责编码蛋白也称为信使RNA(mRNA)，后者为功能性RNA负责调控细胞的生长，发育和凋亡，其中比较常见的是核糖体RNA(rRNA)和运转RNA(tRNA)这两种RNA负责细胞的基础代谢，因此在多种组织和器官中均有连续表达；microRNA(miRNA)一般是长度为21-23个碱基对的发夹结构，在肿瘤的发生过程中有调控作用；除此之外还有核仁小分子RNA(snoRNA)，小干扰RNA(siRNA)负责不同的功能。DNA的核酸是脱氧核糖，而RNA的核酸是核糖。与RNA相比，DNA的脱氧核糖缺少一个氧分子。组成DNA的核苷酸(nucleotide)包括A(腺嘌呤，adenine)、G(鸟嘌呤，guanine)、C(胞嘧啶，cytosine)和T(胸腺嘧啶，thymine)，而RNA核苷酸有A，G，C和U(尿嘧啶，uracil)。在真核细胞(eukaryotic cells)中，DNA的结构是双螺旋的，而RNA的结构是各种形式的单链结构，RNA的单链结构允许RNA在必要的时候进行自身折叠，从而形成各种稳定的二级结构。

RNA的二级结构有两个重要的作用，第一，它可以帮助解释与RNA功能，RNA的功能常常与RNA的结构有关，二级结构是RNA所有结构中(一级结构、二级结构和三级结构)中最至关重要的，RNA一旦形成，会经过变化，形成特定的三级结构。三级结构的形成依赖于二级结构中碱基对之间的匹配。第二，对于二级结构的了解，也可以用来探究RNA的新功能。

发明内容

本发明的目的在于解决现有技术中存在的不足，提供一种基于改进人工蚁群算法的路径规划方法，从技术改进层面讲，通过CUDA的多线程技术，提高并行能力和计算效率。从而大幅度提升程序的运行速度。从算法改进层面讲，改进了RNA的子结构的区分算法。在使用自由能公式计算子结构能量之前，还需要对序列的各个子结构进行识别、区分，本文提出一种新的子结构区分算法，相比其它的子结构区分算法执行起来花费更少的时间复杂度和空间复杂度，并且适用于CUDA中的自由能的计算。

附图说明

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明：

附图1为茎区矩阵图

附图2为茎区示例图

附图3为本发明流程图。

具体实施方式

为更加了解本发明的技术内容，特举具体实施方式配合图例进行说明如下。

实现本发明目的的技术方案是：一种基于CUDA改进人工蚁群算法的RNA二级结构预测方法，包括如下步骤：

步骤一：构建RNA二级结构茎区池；

步骤二：基于并行改进的人工蚁群进行计算最小自由能并构建相应的二级结构，避免陷入局部最优以获得全局最优解；

步骤三：对构建好的RNA二级结构进行可视化，生物信息学的工作人员可以更加直观的对RNA序列进行分析；

进一步的，所述步骤一的具体过程如下：

(1.1)根据图1所示，RNA序列S的长度N，构建N*N大小的茎区矩阵，并将序列字幕按次序放在首行的上一行，首列的前一列，然后在下三角矩阵中，根据碱基对匹配的规则，将矩阵中匹配碱基的对应位置设为1，将矩阵中不匹配碱基的对应位置设为0。碱基的种类包括A(腺嘌呤，adenine)、G(鸟嘌呤，guanine)、C(胞嘧啶，cytosine)和U(尿嘧啶，uracil)。根据Watson-Crick和GU摇摆碱基对配对法有六种配对方法：“AU”、“UA”、“CG”、“GC”、“GU”、“UG”。以RNA序列CGCCCAGCGAAAUGCAAAGUC为例，其茎区矩阵如图1所示。

(1.2)茎区矩阵建立好之后，在茎区矩阵中寻找连续的碱基对，其过程如下

a)从矩阵的左上角第i(0≤i≤N)行第j(0≤j≤N)开始，向矩阵右上(i+1，j-1)的方向搜索连续的碱基对，并在首个连续处停下。

b)计算连续碱基的长度是否大于茎区最小长度n，如果连续碱基的长度大于n则将此段连续的碱基保存起来，反之，则不保存。

c)继续向茎区矩阵的右上方寻找连续的碱基对，如果遇到匹配的碱基则执行b)。

d)如个寻找的位置到了矩阵的边缘，判断的条件为i＝N或j＝N，就将i和j重置为原来的位置，并将i设置为i+1。以RNA序列CGCCCAGCGAAAUGCAAAGUC，n＝3为例，其茎区矩阵中连续如图1中所圈出碱基。

(1.3)完成茎区的寻找后，需要将寻找到的茎区作为茎区池保存，并作为下一步的输入。

(2.1)步骤二的过程如附图2所示，设置人工蚁群算法的参数，控制算法的参数包括种群大小colony_size、最大迭代次数steps，信息素蒸发的常数p，信息素初始值initial_pheromone，信息素的权重α，启发函数的权重β，启发函数η(l)，线程数量m。信息素矩阵初始化全部为initial_pheromone。信息素矩阵的大小为与茎区池中茎区数量一致。将每只人工蚂蚁分配到不同的线程上。每只人工蚂蚁内部通过存储一个bitmap结构，判断对应位置的茎区是否被访问，初始化时，将所有的bitmap设为false。当访问过某一个节点后设为true。设置为true之后不再重复访问。

(2.2)判断两个茎区是否存在冲突和假结，对茎区A和茎区B而言冲突的判读如公式1所示

对于假结的判断如公式2所示

i＜i′＜j＜j′(i，i′∈Stem_A and j，j′∈Stem_B) (2)

(2.3)判断茎区i是否与解决方案S冲突的三个条件

1.茎区i与解决方案S中每一个茎区都不冲突。

2.茎区i与解决方案S中每一个茎区都不构成假结(如果有需要)。

3.茎区i没有被蚂蚁k访问过。

(2.4)将所有符合(2.3)要求的茎区构造集合N_k。

(2.5)茎区选择算法的公式如公式3所示：

(2.6)每个节点的信息素更新算法为公式4所示：

其中

表示新的所有人工蚂蚁经过的结点的信息素。Δτ^k表示单个节点新的信息素。

(2.7)每个节点信息素的挥发遵从公式5：

τ(i)＝(1-ρ)·τ(i) (5)

每次信息素都会在原有的基础上按照一定比例挥发。

(2.6)在RNA序列的实际折叠过程中长度更长的序列更容易被选中，启发函数的定义见公式6：

其中i表示某个茎区，i.length表示茎区序列的长度，paired_length表示所有匹配碱基的长度。

(2.7)在公式3为每个茎区生成了不同的概率，再通过轮盘赌算法返回通过概率计算得来的茎区。

(2.8)将计算得来的茎区添加到解决方案S中。

(2.9)计算解决方案S的自由能，自由能的计算如公式7所示：

E＝E_helices+E_hairpin+E_bulge+E_intermal+E_multibranch+E_pknots (7)

RNA二级结构的自由能根据每一个部分不同计算得来。所以首先需要使用区分算法区分不同的结构。

(2.10)如果单链末梢两端碱基与同一个茎区a相邻，则这条单链s与茎区a属于同一个发夹环子结构，s属于发夹环子结构的环状单链，茎区a属于发夹环的茎区。如公式8所示。

s_1-1，s_n+1∈StemA (8)

(2.11)如果单链s的末梢两端所对应的碱基b₁，b₂，都是碱基对，且b₁和b₂所配对的碱基相邻一个单元，那么就认为单链s与b₁b₂所在茎区形成一个凸环子结构。如公式9所示。

b₁₊₁＝b₂(b₁＝pair(s₁)，b₂＝pair(s_n)) (9)

(2.12)对于一条单链s如果s末梢两端的碱基b₁、b₂是有配对，与b₁、b₂配对的碱基分别记做b′₁和b′₂，如果碱基b′₁、b′₂之间不存在其它的碱基对，则称b′₁和b′₂之间单链为s′，内环子结构包含单链s、s′、b₁和b₂所在茎区。如公式10所示

b₁＝pair(b′₁)，b₂＝pair(b′₂)(b₁，b₂∈s，b′₁，b′₂∈s′) (10)

(2.13)从单链角度出发给出多分支环的定义，对于一条单链s₁来说，如果这条单链s₁的末梢两端所对应的碱基b₁，b₂，都是碱基对，并且任意一个碱基对，假设b₁，令b₁的配对碱基为b′₁、b′₁必然与一条新的的单链s₂、s₂的长度length(s₂)≥0，单链s₂的末梢两端的碱基为b′₁和b₃，b₃又有配对碱基b′₃，像这样继续下去，不断出现新的配对碱基和新的单链，直到有新的碱基b_n有配对碱基b′_n，并且b′_n＝b₂

(2.14)对于假结的判断较为复杂，参照(2.2)中的方法。

(2.15)螺旋区自由能的计算方法为公式11：

E_helices＝E_initiation+E_AUpenalty+E_symmetry+E_stack (11)

其中内分子的初始自由能一般为常数E_initiation，每个以AU碱基对作为结尾的惩罚项的自由能为常数E_AUpenalty，螺旋茎区的自对称自由能为常数E_symmetry，堆积的螺旋茎区自由能E_stack。

(2.16)发夹茎区自由能的计算方法为公式12：

E_hairpin＝E_initiation(n)+E_mismatch+E_penalty(C) (12)

其中初始化自由能E_initiation(n)与内环的单链长度有关，而E_mismatch是指螺旋茎区和发夹单链之间第一个不配的碱基的能量，E_penalty(C)是惩罚项

(2.17)凸环自由能的计算方法为公式13、公式14：

E_bulge(n＝1)＝E_initiation(n)+E_penalty(C)-RTln(n) (13)

E_bulge(n≥1)＝E_initiation(n) (14)

计算凸环的能量需要分为两个部分，如果凸环单链长度唯一，则使用公式13，否则使用公式14。E_penalty(C)为惩罚项，RT是固定系数，E_initiation(n)与单链长度有关。

(2.18)内环来说，计算公式为公式15

E_intermal＝E_initiation(n)+E_asym*|n₁-n₂|+E_mismatch(mismatch1)+E_mismatch2(mismatch2) (15)

其中E_asym*|n₁-n₂|为非对称项乘以内环中两条单链的差的绝对值，E_mismatch(mismatch1)与E_mismatch2(mismatch2)分别代表茎区与两条单链临界处第一个不匹配的碱基的能量值。

(2.19)多分支环来说，计算公式为公式16

E_multibranch＝a+b×[averageasymmetry]+c×[numberof branchinghelices] (16)

其中a，b，c为系数，averagea symmetry代表每个螺旋茎区两侧单链碱基数量差值的平均值，number of branchinghelices是指多分支环中所有单链碱基的数量和。

(2.20)对于假结来说，如公式17，公式18，公式19所示

E_pknots＝E_initiation+E_pairedbase+E_unpairedbase (17)

E_pairedbase＝bandpenalty+stacked_energy*paired_penalty (18)

E_unpairedbase＝unpairedpenalty*n (19)

其中paired_pena，band_penalty都是惩罚项，unpairedpenalty为为匹配的惩罚项。

(2.21)使用公式7计算完自由能E之后使用公式20判断解决方案S是否接受这次添加。

S_old＝min_energy(S_old，S_new) (20)

min_energy会返回两个解决方案S中的更小者。

(2.22)如果迭代次数达到steps，则终止算法，输出最小自由能的结果，否则回到(2.3)继续循环循环；

(3.1)将(2.22)求解出最小自由能的解决方案S转换为点括号的形式。匹配的碱基中位于前面的碱基用”(”表示，匹配的碱基中位于后面的碱基用”)”表示。没有被匹配的碱基用”.”表示。

(3.2)将上一步生成的点括号表达式绘制成图形输出。

Claims

1.一种基于并行改进人工蚁群的RNA二级结构预测方法，其特征在于所述方法具体过程按如下步骤进行：

步骤一：构建RNA二级结构茎区池；

步骤二：基于并行人工蚁群进行计算最小自由能并构建相应的二级结构，避免陷入局部最优以获得全局最优解；

步骤三：对构建好的二级结构进行可视化。

2.根据权利要求1所述一种基于并行改进人工蚁群的RNA二级结构预测方法，其特征在于：所诉步骤一中根据RNA序列S和茎区最小长度n，构建茎区最小长度构建茎区池：

1)根据序列S的长度N，构建N*N大小的茎区矩阵，并将序列按次序放在首行的上一行，首列的前一列，然后在下三角矩阵中，根据碱基对匹配的规则，将矩阵中匹配碱基的对应位置设为1，将矩阵中不匹配碱基的对应位置设为0，碱基包括A(腺嘌呤，adenine)、G(鸟嘌呤，guanine)、C(胞嘧啶，cytosine)和U(尿嘧啶，uracil)，根据Watson-Crick和GU摇摆碱基对配对法有六种配对方法：“AU”、“UA”、“CG”、“GC”、“GU”、“UG”，以RNA序列CGCCCAGCGAAAUGCAAAGUC为例。

2)茎区矩阵建立好之后，在茎区矩阵中寻找连续的碱基对，其过程如下：

d)如个寻找的位置到了矩阵的边缘，判断的条件为i＝N或j＝N，就将i和j重置为原来的位置，并将i设置为i+1，以RNA序列CGCCCAGCGAAAUGCAAAGUC，n＝3为例，其茎区矩阵中连续如图1中所圈出碱基。

3)完成茎区的寻找后，需要将寻找到的茎区作为茎区池保存，并作为下一步的输入。

3.根据权利要求1所述一种基于并行改进人工蚁群的RNA二级结构预测方法，其特征在于：所诉步骤二中一种基于并行改进人工蚁群的RNA二级结构预测方法，避免陷入局部最优以获得全局最优解；具体过程为：

1)从设置人工蚁群算法的参数，控制算法的参数包括种群大小colony_size、最大迭代次数steps，信息素蒸发的常数ρ，信息素初始值initial_pheromone，信息素的权重α，启发函数的权重β，启发函数η(i)，线程数量m，信息素矩阵初始化全部为initial_pheromone；信息素矩阵的大小为与茎区池中茎区数量一致，将每只人工蚂蚁分配到不同的线程上，每只人工蚂蚁内部通过存储一个bitmap结构，判断对应位置的茎区是否被访问，初始化时，将所有的bitmap设为false，当访问过某一个节点后设为true，设置为true之后不再重复访问。

2)当判断两个茎区是否存在冲突和假结，对茎区A和茎区B而言冲突的判读如公式1所示

对于假结的判断如公式2所示

i＜i′＜j＜j′(i，i′∈Stem_A and j，j′∈Stem_B) (2)

3)判断茎区i是否与解决方案S冲突的三个条件

1.茎区i与解决方案S中每一个茎区都不冲突。

3.茎区i没有被蚂蚁k访问过。

4)将所有符合(2.3)要求的茎区构造集合N_k。

5)茎区选择算法的公式如公式3所示：

其中p_k(i)表示第k个蚂蚁选择第i个茎区的概率，τ是表示信息素，η表示启发函数。

6)每个节点的信息素更新算法为公式4所示

其中

表示新的所有人工蚂蚁经过的结点的信息素，Δτ^k表示单个节点新的信息素。

7)每个节点信息素的挥发遵从公式5：

τ(i)＝(1-ρ)·τ(i) (5)

每次信息素都会在原有的基础上按照一定比例挥发。

8)在RNA序列的实际折叠过程中长度更长的序列更容易被选中，启发函数的定义见公式6

9)在公式3为每个茎区生成了不同的概率，再通过轮盘赌算法返回通过概率计算得来的茎区。

10)将计算得来的茎区添加到解决方案S中。

11)计算解决方案S的自由能，自由能的计算如公式7所示：

E＝E_helices+E_hairpin+E_bulge+E_intermal+E_multibranch+E_pknots (7)

RNA二级结构的自由能根据每一个部分不同计算得来，所以首先需要使用区分算法区分不同的结构。

12)如果单链末梢两端碱基与同一个茎区a相邻，则这条单链s与茎区a属于同一个发夹环子结构，s属于发夹环子结构的环状单链，茎区a属于发夹环的茎区，如公式8所示：

s_1-1，s_n+1∈StemA (8)

13)如果单链s的末梢两端所对应的碱基b₁，b₂，都是碱基对，且b₁和b₂所配对的碱基相邻一个单元，那么就认为单链s与b₁ b₂所在茎区形成一个凸环子结构，如公式9所示。

b₁₊₁＝b₂(b₁＝pair(s₁)，b₂＝pair(s_n)) (9)

14)对于一条单链s如果s末梢两端的碱基b₁、b₂是有配对，与b₁、b₂配对的碱基分别记做b′₁和b′₂，如果碱基b′₁、b′₂之间不存在其它的碱基对，则称b′₁和b′₂之间单链为s′，内环子结构包含单链s、s′、b₁和b₂所在茎区，如公式10所示。

15)从单链角度出发给出多分支环的定义，对于一条单链s₁来说，如果这条单链s₁的末梢两端所对应的碱基b₁，b₂，都是碱基对，并且任意一个碱基对，假设b₁，令b₁的配对碱基为b′₁、b′₁必然与一条新的的单链s₂、s₂的长度length(s₂)≥0，单链s₂的末梢两端的碱基为b′₁和b₃，b₃又有配对碱基b′₃，像这样继续下去，不断出现新的配对碱基和新的单链，直到有新的碱基b_n有配对碱基b′_n，并且b′_n＝b₂。

16)对于假结的判断较为复杂，参照(2.2)中的方法。

17)螺旋区自由能的计算方法为公式11：

E_helices＝E_initiation+E_AUpenalty+E_symmetry+E_stack (11)

18)发夹茎区自由能的计算方法为公式12：

E_hairpin＝E_initiation(n)+E_mismatch+E_penalty(C) (12)

其中初始化自由能E_initiation(n)与内环的单链长度有关，而E_mismatch是指螺旋茎区和发夹单链之间第一个不配的碱基的能量，E_penalty(C)是惩罚项。

19)凸环自由能的计算方法为公式13、公式14：

E_bulge(n＝1)＝E_initiation(n)+E_penalty(C)-RTln(n) (13)

E_bulge(n≥1)＝E_initiation(n) (14)

计算凸环的能量需要分为两个部分，如果凸环单链长度唯一，则使用公式13，否则使用公式14，E_penalty(C)为惩罚项，RT是固定系数，E_initiation(n)与单链长度有关。

20)如内环来说，计算公式为公式15

E_intermal＝E_initiation(n)+E_asym*|n₁-n₂|

+E_mismatch(mismatch1)+E_mismatch2(mismatch2) (15)

21)多分支环来说，计算公式为公式16

E_multibranch＝a+b×[averageasymmetry]+c×[numberofbranchinghelices](16)

22)对于假结来说，如计算公式17，18，19所示

E_pknots＝E_initiation+E_pairedbase+E_unpairedbase (17)

E_pairedbase＝bandpenalty+stacked_energy*paired_penalty (18)

E_unpairedbase＝unpairedpenalty*n (19)

23)使用公式7计算完自由能E之后使用公式20判断解决方案S是否接受这次添加：

S_old＝min_energy(S_old，S_new) (20)

min_energy会返回两个解决方案S中的更小者。

24)如果迭代次数达到steps，则终止算法，输出最小自由能的结果，否则回到2)继续循环循环。

4.根据权利要求1所述一种基于改进人工蜂群算法的路径规划方法，其特征在于：所诉步骤三中将解决方案S进行可视化；具体过程为：

1)将(2.22)求解出最小自由能的解决方案S转换为点括号的形式，匹配的碱基中位于前面的碱基用”(”表示，匹配的碱基中位于后面的碱基用”)”表示，没有被匹配的碱基用”.”表示。

2)将上一步生成的点括号表达式绘制成图形输出。