CN117059169A

CN117059169A - 基于参数自适应成长优化器的生物多序列比对方法及系统

Info

Publication number: CN117059169A
Application number: CN202311007046.1A
Authority: CN
Inventors: 张庆科; 高昊
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-11-14

Abstract

本公开提供了基于参数自适应成长优化器的生物多序列比对方法及系统，涉及生物多序列比对技术领域，包括初始化隐马尔可夫模型，获取待比对的基因序列文件，确定基因序列长度；根据基因序列长度设定隐马尔可夫模型的参数，然后基于所述隐马尔可夫模型获得比对结果；其中，所述隐马尔可夫模型中，利用四重参数自适应成长优化器算法自适应更新个体，引入詹森香农散度平衡因子来平衡对抗特征中相互对抗的参数的自适应优化过程，使得种群高度自适应进化，然后对个体进行边界约束，将某一维度上的越界分量重新在有效范围内初始化。本公开能够充分利用当前的已知信息，自适应地调整其参数的设置。

Description

基于参数自适应成长优化器的生物多序列比对方法及系统

技术领域

本公开涉及生物多序列比对技术领域，具体涉及基于参数自适应成长优化器的生物多序列比对方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

基于核苷酸或氨基酸的多序列比对(Multiple Sequence Alignment，MSA)问题是一种大规模全局优化问题，它属于多领域交叉的前沿课题，也是生物信息学中最重要、也最具有挑战性的任务之一，也是在配对得分总和(Sum-of-Pairs Score，SPS)条件下的非确定多项式(Non-deterministic Polynomial，NP)完全组合优化问题。MSA用于分析发现生物序列中序列功能、基因结构和生物进化信息。随着一些传染病的流行，MSA在病毒的溯源、分析、检测等关键环节发挥着重要作用。一组对齐的序列代表保守区域，并负责物种及其祖先之间的进化关系。通过对齐不同序列中同一列的字符的方法称为序列比对。将空位放置在待对齐序列中，以使其与导致最大匹配数量的序列匹配。当多条比对序列的同一列被替换成相同字符时，则视为匹配；反之则视为不匹配。如果两个序列参与对齐，则是双序列对齐。当对序列包含两条以上时，对齐操作被称为多序列比对。

渐进式多序列比对算法ClsutalW常常被用于解决MSA问题。但随着MSA的复杂化，传统的渐进式多序列比对算法暴露出很多缺陷，如易陷入局部最优、无法跳出局部最优等。隐马尔可夫模型(Hidden Markov Models，HMM)是解决多序列比对问题的强大工具，主要因为HMM作为随机模型有较好的动态规划算法，在许多情况下允许完全的极大似然估计。用HMM模型从序列比对中提取信息是一种利用全局信息的方法，可以提高序列比对的精度，同时相比于传统的序列比对方法对数据的更加简单。在HMM模型中，常用的训练方法是基于统计和重估的方法，例如期望最大化的Baum-Welch算法。Baum-Welch算法通过递归式的计算方式能够一定程度上解决HMM的参数估计问题。但是由于Baum-Welch算法极其依赖于问题的梯度，在训练的过程中容易受到孤立样本的影响，并且可能随着迭代的进行收敛于不理想的局部最优区域，所以如何利用有限的训练数据建立稳定可靠的HMM非常关键。

目前常用于解决一些序列比对问题的算法有：遗传算法、粒子群优化算法、人工蜂群算法和模拟退火算法等。

发明人发现，上述的几种算法在用于MSA问题的过程中主要存在以下问题：

1)这些算法在一定程度上能够较好地训练HMM。但是随着问题维度的爆发式增长，巨大的探索空间使得这些算法容易被自身参数调整不当的影响，而且使得它们无法利用当前信息进行有效搜索，并且易受错误信息的干扰，从而导致算法收敛缓慢或搜索停滞。

2)当算法找到的最优解质量下降时，导致训练得到的HMM质量不佳，继而导致序列比对结果受到影响。

发明内容

本公开为了解决上述问题，提出了基于参数自适应成长优化器的生物多序列比对方法及系统，基于四重参数自适应成长优化器(Quadruple parameter Adaptation GrowthOptimizer，QAGO)和隐马尔可夫模型，改善传统算法对参数设定的敏感性的问题，解决传统算法在解决多序列问题时遭遇的缺陷。

根据一些实施例，本公开采用如下技术方案：

基于参数自适应成长优化器的生物多序列比对方法，包括：

初始化隐马尔可夫模型，获取待比对的基因序列文件，确定基因序列长度；

根据基因序列长度设定隐马尔可夫模型的参数，然后基于所述隐马尔可夫模型获得比对结果；

其中，所述隐马尔可夫模型中，利用四重参数自适应成长优化器算法自适应更新个体，引入詹森香农散度平衡因子来平衡对抗特征中相互对抗的参数的自适应优化过程，使得种群高度自适应进化，然后对个体进行边界约束，将某一维度上的越界分量重新在有效范围内初始化。

根据一些实施例，本公开采用如下技术方案：

基于参数自适应成长优化器的生物多序列比对系统，包括：

数据获取模块，用于初始化隐马尔可夫模型，获取待比对的基因序列文件，确定基因序列长度；

对比模块，用于根据基因序列长度设定隐马尔可夫模型的参数，然后基于所述隐马尔可夫模型获得比对结果；

根据一些实施例，本公开采用如下技术方案：

一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现所述的基于参数自适应成长优化器的生物多序列比对方法。

根据一些实施例，本公开采用如下技术方案：

一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现所述的基于参数自适应成长优化器的生物多序列比对方法。

与现有技术相比，本公开的有益效果为：

本公开提供了一种基于参数自适应成长优化器的生物多序列比对方法，提出的一种基于四重参数自适应成长优化器算法(Quadruple parameter Adaptation GrowthOptimizer，QAGO)和隐马尔可夫模型的多序列比对方法，QAGO主要基于两个阶段：学习阶段和反思阶段。QAGO通过集成分布、对抗和平衡的特征，改善了传统算法对参数设定的敏感性的问题，从而进一步解决传统算法在解决多序列问题时遭遇的缺陷。QAGO的分布特征通过构建特定的概率分布并从中进行采样来实现自身超参数的自适应过程。通过这一过程，能够缓解固定参数的局限性。对抗特征通过设计两种相互对抗的参数自适应方法，即向量的一维映射法和适应度差异法。向量的一维映射法主要为了降低算法的计算复杂性，提升算法计算效率，而适应度差距法则根据解之间的差异性来自适应其参数，引入了平衡特征，即使用信息论中的詹森香农散度来对两者进行平衡。以上参数自适应方法能够有效提升算法应对不同环境下的自适应搜索的能力。此外，融合蒙特卡洛采样和贪心策略的选择机制更好地帮助种群进化并赋予算法跳出局部最优的能力。因此，QAGO通过不同机制的协同配合，并在自适应机制的调节下，得到更高质量的全局最优解决方案。通过训练出稳定的、高质量的HMM，继而能够更好地解决MSA问题。

本公开的基于四重参数自适应成长优化器算法，能够避免传统多序列比对算法过于依赖问题的梯度并降低算法很快陷入局部最优的风险，也能够充分利用当前的已知信息，自适应地调整其参数的设置，降低不利参数对算法收敛的绝对性影响。此方法及系统满足针对错误信息的抗干扰能力、卓越的全局探索能力、优秀的局部开发能力、跳出局部最优的能力以及降低陷入局部最优风险的能力。它能够较好地训练出稳定、高质量的HMM，从而得到更好的序列对比结果，为生物信息学提供稳定高效的底层算法支撑。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例的基于四重参数自适应成长优化器和隐马尔可夫模型的多序列比对方法及系统的流程图。

图2为本公开实施例的不同算法对齐1ped基因序列的得分情况。

图3为本公开实施例的为不同算法对齐2myr基因序列的得分情况。

图4为本公开实施例的为不同算法对齐3pmg基因序列的得分情况。

图5为本公开实施例的为不同算法对齐4enl基因序列的得分情况。

图6为本公开实施例的QAGO对齐1ped基因序列的部分结果。

图7为本公开实施例的QAGO对齐2myr基因序列的部分结果。

图8为本公开实施例的QAGO对齐3pmg基因序列的部分结果。

图9为本公开实施例的QAGO对齐4enl基因序列的部分结果。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释

多序列比对：对齐多条序列中同一列的字符的方法。

隐马尔可夫模型：一种用于预测的统计模型。

四重参数自适应成长优化器：一种参数自适应的智能优化算法。

向量的一维映射：将两个多维向量映射为一维值

詹森香农散度：一种用于比较两个概率分布之间相似度的度量。

实施例1

本公开的一种实施例中提供了一种基于参数自适应成长优化器的生物多序列比对方法，包括：

步骤一：初始化隐马尔可夫模型，获取待比对的基因序列文件，确定基因序列长度；

步骤二：根据基因序列长度设定隐马尔可夫模型的参数，然后基于所述隐马尔可夫模型获得比对结果；

作为一种实施例，一种基于参数自适应成长优化器的生物多序列比对方法的具体实施过程为：

步骤1：初始化HMM模型；

读取待比对的基因序列文件，计算出基因文件中所包含的序列条数，确定其中最长的序列长度l_max,以及比对后的最大序列长度L＝1.2×l_max。完成序列长度计算后，系统需要计算出构成HMM结构的总参数个数：N＝3×(3×L+1)+4×(2×L+1)。

步骤2：初始化QAGO的参数

设定算法的参数：个体数目(N)、最大评价次数(MaxFEs)。每个个体的总维度数目为HMM中所需参数的个数D。根据参数初始化QAGO的种群，即解决方案的集合。

步骤3：评价个体

利用四重参数自适应成长优化器算法自适应更新个体之前，对每个个体的适应值进行计算，包括：

步骤3.1：将每个个体和待比对的序列的数据传入到HMM中，系统根据HMM中数据的组成，将一个个体中的D个数据分为HMM模型基本要素对应的条件：初始概率、转移概率、释放概率，即λ＝{A,B,π}。

步骤3.2：运用隐马尔可夫模型的计算原理调用Viterbi(维特比)算法求出每个个体在该HMM模型条件下的Viterbi序列。

步骤3.3：从Viterbi算法计算得到Viterbi序列后，相当于得到了一系列插入、删除、匹配状态的隐藏状态序列。根据序列匹配标准，将隐藏状态序列分别按照插入、删除和匹配三个状态分别操作，继而得到比对后的数字序列。

步骤3.4：通过SPS打分函数，计算比对后的序列的质量，每个个体的得分情况即为此个体的适应值：

这里li和l_j是两条待比对的序列，D是两个序列间的距离矩阵。

步骤4：学习阶段自适应更新个体

利用四重参数自适应成长优化器算法自适应更新个体，包括学习阶段自适应更新个体，依赖自适应学习算子，构建运算过程的数学模型，计算五种不同的进化信息，然后根据向量的一维映射法对算法的关键参数进行自适应；然后根据适应度差异法来对算子的另一关键参数进行自适应；

学习阶段依赖于自适应学习算子，算子首先需要计算五种不同的进化信息，通过以下数学模型来描述运算过程：包括：

其中Gapk,(k＝1,2,3,4,5)为不同的进化信息，它们共同决定算法的收敛方向。根据种群划分和适应度排序，Xbest的排名为1，Xbetter的排名范围为[2,P1]，Xnormal的排名为[P1+1,N-P1],Xworse的排名为[N-P1+1,N]，其中超参数P1为一个随机整数，它的满足的均匀分布的范围为[0.05×N,0.2×N]。此外，XL1、XL2、XL3、XL4分别为不同于i且各自互不相同的随机个体。

然后，根据向量的一维映射法来对算子的参数LF进行自适应:

其中DGapk为Gapk内两个向量的内积，它是一个一维映射值，从而达到简化计算的目的。此外，如果个体间存在差异，那么它也是一种增大个体间差异的方法。

进一步，根据适应度差异方法来对算子的另一关键参数SF进行自适应：

其中FGapk内是Gapk内两个向量的适应度差异值或者贡献值。此外，如果个体间存在差异，那么它也是一种削弱个体间差异的方法。

然而，LF和SF从原理上看是矛盾的，其中，学习因子Learning Factor(LF)和自我认知因子Self-perception factor(SF)，两者都是自适应缩放参数，负责控制算子的搜索过程。但是矛盾却可以推动事物的发展。因此，引入詹森香农散度这个平衡因子来对两者进行平衡：

其中dJS为LF和SF之间的距离，DJS为詹森香农散度，KL为库尔贝克-莱布勒散度。因此，学习阶段的核心搜索算子为：

以上就是学习算子的最终数学模型。它集成了五种收敛方向信息，并通过向量的一维映射法得到LF，通过适应度差异法得到SF，并基于詹森香农散度来平衡LF和SF的自适应过程来达到种群的高度自适应进化。然后对个体进行边界约束，这里使用的边界约束方式为将某维度上的越界分量重新在有效范围内初始化。然后立即通过步骤3来继续对个体质量评估，并返回适应值。

步骤5：个体选择机制

自适应进化更新后，设定个体选择机制对个体进行选择以及在反思阶段协同更新个体，获取最优解，得到得分最高的对齐基因序列，包括：

保存更新成功的个体将促进算法的收敛，但仅依靠适应值来保存个体是不明智的，因为当前状态下好的适应值可能是局部最优值。于是，QAGO使用以下选择机制来保存个体：

更新成功的个体将被保存到下一代种群中，而更新失败的个体仍然有P₂的概率强制被保存到下一代种群。在这里P₂符合均值和标准差均为0.0001的高斯分布。这一方面能够避免计算资源的浪费，另一方面，能够使得算法具有跳出局部最优的能力。检查是否满足个体索引i>N，若满足则进入下一个步骤；否则，返回步骤4。

步骤6：反思阶段协同更新个体

其中ub和lb分别为问题空间的上下界，i为个体编号，j为个体的维度编号，AF为从0.01线性递减到0的值，R为前P₁个最好的个体之一，而RM为不同于i和R的随机个体。P₃为满足均值为0.3×rand,标准差为0.01的高斯分布。此外，需要对更新的个体进行边界约束，这里使用的边界约束方式为将某维度上的越界分量的约束为原始值与边界值之和的一半。然后，通过步骤3来继续对个体质量评估，并使用步骤5来选择个体。当更新完毕后，将继续使用步骤5对个体进行选择。此时，检测是否满足i>N的条件，如果不满足，返回步骤6；否则，进入下一步骤。

步骤7：检测是否满足算法的终止标准

如果当前评估次数(FEs)小于最大评估次数(MaxFEs)时，则返回步骤4；否则，退出算法循环，输出最优解。

步骤8：保存最佳结果

当退出算法循环后，将QAGO得到的最优解传入HMM模型中，系统调用Viterbi算法回溯得到得分最高的对齐基因序列。保存的最佳基因序列可以在病毒防治、疾病诊断、基因溯源等领域，以及病毒疫苗或特效药等相关领域拥有较为重要突出的优势。

实验过程

实验选择4条基因序列进行实验，这些序列的信息如下：

在此实验中，选择QAGO算法与获取共享知识算法(Gaining-Sharing Knowledge,GSK)、电磁场优化算法(Electromagnetic Field optimization,EFO)、蜘蛛蜂优化算法(Spider Wasp Optimizer,SWO)和回溯搜索算法(Backtracking Search Algorithm,BSA)进行比较。针对每一个涉及到的算法，比对系统要针对每一条序列重复执行10次。对于每一次独立运行，所有算法都会被用来训练隐马尔可夫模型，并以此来对序列进行插入、删除操作，从而使得序列尽可能多的列被对齐。每个算法运行的终止标准均为MaxFEs＝4000，并且记录每一次评估得到的SPS得分。系统根据得分来输出收敛曲线及最佳序列。

实施例2

本公开的一种实施例中提供了一种基于参数自适应成长优化器的生物多序列比对系统，包括：

实施例3

本公开的一种实施例中提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现所述的基于参数自适应成长优化器的生物多序列比对方法。

实施例4

本公开的一种实施例中提供了一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现所述的基于参数自适应成长优化器的生物多序列比对方法。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于参数自适应成长优化器的生物多序列比对方法，其特征在于，包括：

2.如权利要求1所述的基于参数自适应成长优化器的生物多序列比对方法，其特征在于，初始化隐马尔可夫模型包括：读取待比对的基因序列文件，计算基因文件中所包含的序列条数，确定最长的序列长度以及比对后的最大序列长度，然后计算出构成隐马尔可夫模型的总参数个数。

3.如权利要求1所述的基于参数自适应成长优化器的生物多序列比对方法，其特征在于，设定的参数包括个体数目、最大评价次数以及隐马尔可夫模型中所需参数的个数。

4.如权利要求1所述的基于参数自适应成长优化器的生物多序列比对方法，其特征在于，利用四重参数自适应成长优化器算法自适应更新个体之前，对每个个体的适应值进行计算，包括：

将每个个体和待比对的基因序列的数据传入到隐马尔可夫模型中，根据隐马尔可夫模型中数据的组成，将每个个体中的参数数据分为隐马尔可夫模型基本要素对应的条件：初始概率、转移概率、释放概率；

运用隐马尔可夫模型的计算原理调用维特比算法求出每个个体在隐马尔可夫模型条件下的维特比序列；

获取维特比序列后，根据序列匹配标准，将其中的隐藏状态序列分别按照插入、删除和匹配三个状态分别操作，得到比对后的数字序列；

通过SPS打分函数，计算比对后的数字序列的质量，每个个体的得分情况即个体的适应值。

5.如权利要求1所述的基于参数自适应成长优化器的生物多序列比对方法，其特征在于，利用四重参数自适应成长优化器算法自适应更新个体，包括学习阶段自适应更新个体，依赖自适应学习算子，构建运算过程的数学模型，计算五种不同的进化信息，然后根据向量的一维映射法对算法的关键参数进行自适应；然后根据适应度差异法来对算子的另一关键参数进行自适应。

6.如权利要求5所述的基于参数自适应成长优化器的生物多序列比对方法，其特征在于，引入詹森香农散度平衡因子对向量的一维映射法和适应度差异法中的两个关键参数进行平衡，构建学习阶段的核心搜索算子的数学模型，实现个体的自适应过程，达到种群的高度自适应进化更新。

7.如权利要求6所述的基于参数自适应成长优化器的生物多序列比对方法，其特征在于，自适应进化更新后，设定个体选择机制对个体进行选择以及在反思阶段协同更新个体，获取最优解，得到得分最高的对齐基因序列。

8.基于参数自适应成长优化器的生物多序列比对系统，其特征在于，包括：

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如权利要求1-7任一项所述的基于参数自适应成长优化器的生物多序列比对方法。

10.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如权利要求1-7任一项所述的基于参数自适应成长优化器的生物多序列比对方法。