CN117059169A - 基于参数自适应成长优化器的生物多序列比对方法及系统 - Google Patents
基于参数自适应成长优化器的生物多序列比对方法及系统 Download PDFInfo
- Publication number
- CN117059169A CN117059169A CN202311007046.1A CN202311007046A CN117059169A CN 117059169 A CN117059169 A CN 117059169A CN 202311007046 A CN202311007046 A CN 202311007046A CN 117059169 A CN117059169 A CN 117059169A
- Authority
- CN
- China
- Prior art keywords
- individual
- hidden markov
- optimizer
- markov model
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 69
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000005457 optimization Methods 0.000 claims abstract description 15
- 230000008485 antagonism Effects 0.000 claims abstract description 14
- 230000003044 adaptive effect Effects 0.000 claims description 34
- 238000002864 sequence alignment Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 11
- 230000006978 adaptation Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 238000013178 mathematical model Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 238000009826 distribution Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000002887 multiple sequence alignment Methods 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 241000700605 Viruses Species 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000005672 electromagnetic field Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 101150033839 4 gene Proteins 0.000 description 1
- 241000239290 Araneae Species 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000012614 Monte-Carlo sampling Methods 0.000 description 1
- 241001124612 Pompilidae Species 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Bioethics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
Abstract
本公开提供了基于参数自适应成长优化器的生物多序列比对方法及系统,涉及生物多序列比对技术领域,包括初始化隐马尔可夫模型,获取待比对的基因序列文件,确定基因序列长度;根据基因序列长度设定隐马尔可夫模型的参数,然后基于所述隐马尔可夫模型获得比对结果;其中,所述隐马尔可夫模型中,利用四重参数自适应成长优化器算法自适应更新个体,引入詹森香农散度平衡因子来平衡对抗特征中相互对抗的参数的自适应优化过程,使得种群高度自适应进化,然后对个体进行边界约束,将某一维度上的越界分量重新在有效范围内初始化。本公开能够充分利用当前的已知信息,自适应地调整其参数的设置。
Description
技术领域
本公开涉及生物多序列比对技术领域,具体涉及基于参数自适应成长优化器的生物多序列比对方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
基于核苷酸或氨基酸的多序列比对(Multiple Sequence Alignment,MSA)问题是一种大规模全局优化问题,它属于多领域交叉的前沿课题,也是生物信息学中最重要、也最具有挑战性的任务之一,也是在配对得分总和(Sum-of-Pairs Score,SPS)条件下的非确定多项式(Non-deterministic Polynomial,NP)完全组合优化问题。MSA用于分析发现生物序列中序列功能、基因结构和生物进化信息。随着一些传染病的流行,MSA在病毒的溯源、分析、检测等关键环节发挥着重要作用。一组对齐的序列代表保守区域,并负责物种及其祖先之间的进化关系。通过对齐不同序列中同一列的字符的方法称为序列比对。将空位放置在待对齐序列中,以使其与导致最大匹配数量的序列匹配。当多条比对序列的同一列被替换成相同字符时,则视为匹配;反之则视为不匹配。如果两个序列参与对齐,则是双序列对齐。当对序列包含两条以上时,对齐操作被称为多序列比对。
渐进式多序列比对算法ClsutalW常常被用于解决MSA问题。但随着MSA的复杂化,传统的渐进式多序列比对算法暴露出很多缺陷,如易陷入局部最优、无法跳出局部最优等。隐马尔可夫模型(Hidden Markov Models,HMM)是解决多序列比对问题的强大工具,主要因为HMM作为随机模型有较好的动态规划算法,在许多情况下允许完全的极大似然估计。用HMM模型从序列比对中提取信息是一种利用全局信息的方法,可以提高序列比对的精度,同时相比于传统的序列比对方法对数据的更加简单。在HMM模型中,常用的训练方法是基于统计和重估的方法,例如期望最大化的Baum-Welch算法。Baum-Welch算法通过递归式的计算方式能够一定程度上解决HMM的参数估计问题。但是由于Baum-Welch算法极其依赖于问题的梯度,在训练的过程中容易受到孤立样本的影响,并且可能随着迭代的进行收敛于不理想的局部最优区域,所以如何利用有限的训练数据建立稳定可靠的HMM非常关键。
目前常用于解决一些序列比对问题的算法有:遗传算法、粒子群优化算法、人工蜂群算法和模拟退火算法等。
发明人发现,上述的几种算法在用于MSA问题的过程中主要存在以下问题:
1)这些算法在一定程度上能够较好地训练HMM。但是随着问题维度的爆发式增长,巨大的探索空间使得这些算法容易被自身参数调整不当的影响,而且使得它们无法利用当前信息进行有效搜索,并且易受错误信息的干扰,从而导致算法收敛缓慢或搜索停滞。
2)当算法找到的最优解质量下降时,导致训练得到的HMM质量不佳,继而导致序列比对结果受到影响。
发明内容
本公开为了解决上述问题,提出了基于参数自适应成长优化器的生物多序列比对方法及系统,基于四重参数自适应成长优化器(Quadruple parameter Adaptation GrowthOptimizer,QAGO)和隐马尔可夫模型,改善传统算法对参数设定的敏感性的问题,解决传统算法在解决多序列问题时遭遇的缺陷。
根据一些实施例,本公开采用如下技术方案:
基于参数自适应成长优化器的生物多序列比对方法,包括:
初始化隐马尔可夫模型,获取待比对的基因序列文件,确定基因序列长度;
根据基因序列长度设定隐马尔可夫模型的参数,然后基于所述隐马尔可夫模型获得比对结果;
其中,所述隐马尔可夫模型中,利用四重参数自适应成长优化器算法自适应更新个体,引入詹森香农散度平衡因子来平衡对抗特征中相互对抗的参数的自适应优化过程,使得种群高度自适应进化,然后对个体进行边界约束,将某一维度上的越界分量重新在有效范围内初始化。
根据一些实施例,本公开采用如下技术方案:
基于参数自适应成长优化器的生物多序列比对系统,包括:
数据获取模块,用于初始化隐马尔可夫模型,获取待比对的基因序列文件,确定基因序列长度;
对比模块,用于根据基因序列长度设定隐马尔可夫模型的参数,然后基于所述隐马尔可夫模型获得比对结果;
其中,所述隐马尔可夫模型中,利用四重参数自适应成长优化器算法自适应更新个体,引入詹森香农散度平衡因子来平衡对抗特征中相互对抗的参数的自适应优化过程,使得种群高度自适应进化,然后对个体进行边界约束,将某一维度上的越界分量重新在有效范围内初始化。
根据一些实施例,本公开采用如下技术方案:
一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现所述的基于参数自适应成长优化器的生物多序列比对方法。
根据一些实施例,本公开采用如下技术方案:
一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现所述的基于参数自适应成长优化器的生物多序列比对方法。
与现有技术相比,本公开的有益效果为:
本公开提供了一种基于参数自适应成长优化器的生物多序列比对方法,提出的一种基于四重参数自适应成长优化器算法(Quadruple parameter Adaptation GrowthOptimizer,QAGO)和隐马尔可夫模型的多序列比对方法,QAGO主要基于两个阶段:学习阶段和反思阶段。QAGO通过集成分布、对抗和平衡的特征,改善了传统算法对参数设定的敏感性的问题,从而进一步解决传统算法在解决多序列问题时遭遇的缺陷。QAGO的分布特征通过构建特定的概率分布并从中进行采样来实现自身超参数的自适应过程。通过这一过程,能够缓解固定参数的局限性。对抗特征通过设计两种相互对抗的参数自适应方法,即向量的一维映射法和适应度差异法。向量的一维映射法主要为了降低算法的计算复杂性,提升算法计算效率,而适应度差距法则根据解之间的差异性来自适应其参数,引入了平衡特征,即使用信息论中的詹森香农散度来对两者进行平衡。以上参数自适应方法能够有效提升算法应对不同环境下的自适应搜索的能力。此外,融合蒙特卡洛采样和贪心策略的选择机制更好地帮助种群进化并赋予算法跳出局部最优的能力。因此,QAGO通过不同机制的协同配合,并在自适应机制的调节下,得到更高质量的全局最优解决方案。通过训练出稳定的、高质量的HMM,继而能够更好地解决MSA问题。
本公开的基于四重参数自适应成长优化器算法,能够避免传统多序列比对算法过于依赖问题的梯度并降低算法很快陷入局部最优的风险,也能够充分利用当前的已知信息,自适应地调整其参数的设置,降低不利参数对算法收敛的绝对性影响。此方法及系统满足针对错误信息的抗干扰能力、卓越的全局探索能力、优秀的局部开发能力、跳出局部最优的能力以及降低陷入局部最优风险的能力。它能够较好地训练出稳定、高质量的HMM,从而得到更好的序列对比结果,为生物信息学提供稳定高效的底层算法支撑。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例的基于四重参数自适应成长优化器和隐马尔可夫模型的多序列比对方法及系统的流程图。
图2为本公开实施例的不同算法对齐1ped基因序列的得分情况。
图3为本公开实施例的为不同算法对齐2myr基因序列的得分情况。
图4为本公开实施例的为不同算法对齐3pmg基因序列的得分情况。
图5为本公开实施例的为不同算法对齐4enl基因序列的得分情况。
图6为本公开实施例的QAGO对齐1ped基因序列的部分结果。
图7为本公开实施例的QAGO对齐2myr基因序列的部分结果。
图8为本公开实施例的QAGO对齐3pmg基因序列的部分结果。
图9为本公开实施例的QAGO对齐4enl基因序列的部分结果。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释
多序列比对:对齐多条序列中同一列的字符的方法。
隐马尔可夫模型:一种用于预测的统计模型。
四重参数自适应成长优化器:一种参数自适应的智能优化算法。
向量的一维映射:将两个多维向量映射为一维值
詹森香农散度:一种用于比较两个概率分布之间相似度的度量。
实施例1
本公开的一种实施例中提供了一种基于参数自适应成长优化器的生物多序列比对方法,包括:
步骤一:初始化隐马尔可夫模型,获取待比对的基因序列文件,确定基因序列长度;
步骤二:根据基因序列长度设定隐马尔可夫模型的参数,然后基于所述隐马尔可夫模型获得比对结果;
其中,所述隐马尔可夫模型中,利用四重参数自适应成长优化器算法自适应更新个体,引入詹森香农散度平衡因子来平衡对抗特征中相互对抗的参数的自适应优化过程,使得种群高度自适应进化,然后对个体进行边界约束,将某一维度上的越界分量重新在有效范围内初始化。
作为一种实施例,一种基于参数自适应成长优化器的生物多序列比对方法的具体实施过程为:
步骤1:初始化HMM模型;
读取待比对的基因序列文件,计算出基因文件中所包含的序列条数,确定其中最长的序列长度lmax,以及比对后的最大序列长度L=1.2×lmax。完成序列长度计算后,系统需要计算出构成HMM结构的总参数个数:N=3×(3×L+1)+4×(2×L+1)。
步骤2:初始化QAGO的参数
设定算法的参数:个体数目(N)、最大评价次数(MaxFEs)。每个个体的总维度数目为HMM中所需参数的个数D。根据参数初始化QAGO的种群,即解决方案的集合。
步骤3:评价个体
利用四重参数自适应成长优化器算法自适应更新个体之前,对每个个体的适应值进行计算,包括:
步骤3.1:将每个个体和待比对的序列的数据传入到HMM中,系统根据HMM中数据的组成,将一个个体中的D个数据分为HMM模型基本要素对应的条件:初始概率、转移概率、释放概率,即λ={A,B,π}。
步骤3.2:运用隐马尔可夫模型的计算原理调用Viterbi(维特比)算法求出每个个体在该HMM模型条件下的Viterbi序列。
步骤3.3:从Viterbi算法计算得到Viterbi序列后,相当于得到了一系列插入、删除、匹配状态的隐藏状态序列。根据序列匹配标准,将隐藏状态序列分别按照插入、删除和匹配三个状态分别操作,继而得到比对后的数字序列。
步骤3.4:通过SPS打分函数,计算比对后的序列的质量,每个个体的得分情况即为此个体的适应值:
这里li和lj是两条待比对的序列,D是两个序列间的距离矩阵。
步骤4:学习阶段自适应更新个体
利用四重参数自适应成长优化器算法自适应更新个体,包括学习阶段自适应更新个体,依赖自适应学习算子,构建运算过程的数学模型,计算五种不同的进化信息,然后根据向量的一维映射法对算法的关键参数进行自适应;然后根据适应度差异法来对算子的另一关键参数进行自适应;
学习阶段依赖于自适应学习算子,算子首先需要计算五种不同的进化信息,通过以下数学模型来描述运算过程:包括:
其中Gapk,(k=1,2,3,4,5)为不同的进化信息,它们共同决定算法的收敛方向。根据种群划分和适应度排序,Xbest的排名为1,Xbetter的排名范围为[2,P1],Xnormal的排名为[P1+1,N-P1],Xworse的排名为[N-P1+1,N],其中超参数P1为一个随机整数,它的满足的均匀分布的范围为[0.05×N,0.2×N]。此外,XL1、XL2、XL3、XL4分别为不同于i且各自互不相同的随机个体。
然后,根据向量的一维映射法来对算子的参数LF进行自适应:
其中DGapk为Gapk内两个向量的内积,它是一个一维映射值,从而达到简化计算的目的。此外,如果个体间存在差异,那么它也是一种增大个体间差异的方法。
进一步,根据适应度差异方法来对算子的另一关键参数SF进行自适应:
其中FGapk内是Gapk内两个向量的适应度差异值或者贡献值。此外,如果个体间存在差异,那么它也是一种削弱个体间差异的方法。
然而,LF和SF从原理上看是矛盾的,其中,学习因子Learning Factor(LF)和自我认知因子Self-perception factor(SF),两者都是自适应缩放参数,负责控制算子的搜索过程。但是矛盾却可以推动事物的发展。因此,引入詹森香农散度这个平衡因子来对两者进行平衡:
其中dJS为LF和SF之间的距离,DJS为詹森香农散度,KL为库尔贝克-莱布勒散度。因此,学习阶段的核心搜索算子为:
以上就是学习算子的最终数学模型。它集成了五种收敛方向信息,并通过向量的一维映射法得到LF,通过适应度差异法得到SF,并基于詹森香农散度来平衡LF和SF的自适应过程来达到种群的高度自适应进化。然后对个体进行边界约束,这里使用的边界约束方式为将某维度上的越界分量重新在有效范围内初始化。然后立即通过步骤3来继续对个体质量评估,并返回适应值。
步骤5:个体选择机制
自适应进化更新后,设定个体选择机制对个体进行选择以及在反思阶段协同更新个体,获取最优解,得到得分最高的对齐基因序列,包括:
保存更新成功的个体将促进算法的收敛,但仅依靠适应值来保存个体是不明智的,因为当前状态下好的适应值可能是局部最优值。于是,QAGO使用以下选择机制来保存个体:
更新成功的个体将被保存到下一代种群中,而更新失败的个体仍然有P2的概率强制被保存到下一代种群。在这里P2符合均值和标准差均为0.0001的高斯分布。这一方面能够避免计算资源的浪费,另一方面,能够使得算法具有跳出局部最优的能力。检查是否满足个体索引i>N,若满足则进入下一个步骤;否则,返回步骤4。
步骤6:反思阶段协同更新个体
其中ub和lb分别为问题空间的上下界,i为个体编号,j为个体的维度编号,AF为从0.01线性递减到0的值,R为前P1个最好的个体之一,而RM为不同于i和R的随机个体。P3为满足均值为0.3×rand,标准差为0.01的高斯分布。此外,需要对更新的个体进行边界约束,这里使用的边界约束方式为将某维度上的越界分量的约束为原始值与边界值之和的一半。然后,通过步骤3来继续对个体质量评估,并使用步骤5来选择个体。当更新完毕后,将继续使用步骤5对个体进行选择。此时,检测是否满足i>N的条件,如果不满足,返回步骤6;否则,进入下一步骤。
步骤7:检测是否满足算法的终止标准
如果当前评估次数(FEs)小于最大评估次数(MaxFEs)时,则返回步骤4;否则,退出算法循环,输出最优解。
步骤8:保存最佳结果
当退出算法循环后,将QAGO得到的最优解传入HMM模型中,系统调用Viterbi算法回溯得到得分最高的对齐基因序列。保存的最佳基因序列可以在病毒防治、疾病诊断、基因溯源等领域,以及病毒疫苗或特效药等相关领域拥有较为重要突出的优势。
实验过程
实验选择4条基因序列进行实验,这些序列的信息如下:
在此实验中,选择QAGO算法与获取共享知识算法(Gaining-Sharing Knowledge,GSK)、电磁场优化算法(Electromagnetic Field optimization,EFO)、蜘蛛蜂优化算法(Spider Wasp Optimizer,SWO)和回溯搜索算法(Backtracking Search Algorithm,BSA)进行比较。针对每一个涉及到的算法,比对系统要针对每一条序列重复执行10次。对于每一次独立运行,所有算法都会被用来训练隐马尔可夫模型,并以此来对序列进行插入、删除操作,从而使得序列尽可能多的列被对齐。每个算法运行的终止标准均为MaxFEs=4000,并且记录每一次评估得到的SPS得分。系统根据得分来输出收敛曲线及最佳序列。
实施例2
本公开的一种实施例中提供了一种基于参数自适应成长优化器的生物多序列比对系统,包括:
数据获取模块,用于初始化隐马尔可夫模型,获取待比对的基因序列文件,确定基因序列长度;
对比模块,用于根据基因序列长度设定隐马尔可夫模型的参数,然后基于所述隐马尔可夫模型获得比对结果;
其中,所述隐马尔可夫模型中,利用四重参数自适应成长优化器算法自适应更新个体,引入詹森香农散度平衡因子来平衡对抗特征中相互对抗的参数的自适应优化过程,使得种群高度自适应进化,然后对个体进行边界约束,将某一维度上的越界分量重新在有效范围内初始化。
实施例3
本公开的一种实施例中提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现所述的基于参数自适应成长优化器的生物多序列比对方法。
实施例4
本公开的一种实施例中提供了一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现所述的基于参数自适应成长优化器的生物多序列比对方法。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (10)
1.基于参数自适应成长优化器的生物多序列比对方法,其特征在于,包括:
初始化隐马尔可夫模型,获取待比对的基因序列文件,确定基因序列长度;
根据基因序列长度设定隐马尔可夫模型的参数,然后基于所述隐马尔可夫模型获得比对结果;
其中,所述隐马尔可夫模型中,利用四重参数自适应成长优化器算法自适应更新个体,引入詹森香农散度平衡因子来平衡对抗特征中相互对抗的参数的自适应优化过程,使得种群高度自适应进化,然后对个体进行边界约束,将某一维度上的越界分量重新在有效范围内初始化。
2.如权利要求1所述的基于参数自适应成长优化器的生物多序列比对方法,其特征在于,初始化隐马尔可夫模型包括:读取待比对的基因序列文件,计算基因文件中所包含的序列条数,确定最长的序列长度以及比对后的最大序列长度,然后计算出构成隐马尔可夫模型的总参数个数。
3.如权利要求1所述的基于参数自适应成长优化器的生物多序列比对方法,其特征在于,设定的参数包括个体数目、最大评价次数以及隐马尔可夫模型中所需参数的个数。
4.如权利要求1所述的基于参数自适应成长优化器的生物多序列比对方法,其特征在于,利用四重参数自适应成长优化器算法自适应更新个体之前,对每个个体的适应值进行计算,包括:
将每个个体和待比对的基因序列的数据传入到隐马尔可夫模型中,根据隐马尔可夫模型中数据的组成,将每个个体中的参数数据分为隐马尔可夫模型基本要素对应的条件:初始概率、转移概率、释放概率;
运用隐马尔可夫模型的计算原理调用维特比算法求出每个个体在隐马尔可夫模型条件下的维特比序列;
获取维特比序列后,根据序列匹配标准,将其中的隐藏状态序列分别按照插入、删除和匹配三个状态分别操作,得到比对后的数字序列;
通过SPS打分函数,计算比对后的数字序列的质量,每个个体的得分情况即个体的适应值。
5.如权利要求1所述的基于参数自适应成长优化器的生物多序列比对方法,其特征在于,利用四重参数自适应成长优化器算法自适应更新个体,包括学习阶段自适应更新个体,依赖自适应学习算子,构建运算过程的数学模型,计算五种不同的进化信息,然后根据向量的一维映射法对算法的关键参数进行自适应;然后根据适应度差异法来对算子的另一关键参数进行自适应。
6.如权利要求5所述的基于参数自适应成长优化器的生物多序列比对方法,其特征在于,引入詹森香农散度平衡因子对向量的一维映射法和适应度差异法中的两个关键参数进行平衡,构建学习阶段的核心搜索算子的数学模型,实现个体的自适应过程,达到种群的高度自适应进化更新。
7.如权利要求6所述的基于参数自适应成长优化器的生物多序列比对方法,其特征在于,自适应进化更新后,设定个体选择机制对个体进行选择以及在反思阶段协同更新个体,获取最优解,得到得分最高的对齐基因序列。
8.基于参数自适应成长优化器的生物多序列比对系统,其特征在于,包括:
数据获取模块,用于初始化隐马尔可夫模型,获取待比对的基因序列文件,确定基因序列长度;
对比模块,用于根据基因序列长度设定隐马尔可夫模型的参数,然后基于所述隐马尔可夫模型获得比对结果;
其中,所述隐马尔可夫模型中,利用四重参数自适应成长优化器算法自适应更新个体,引入詹森香农散度平衡因子来平衡对抗特征中相互对抗的参数的自适应优化过程,使得种群高度自适应进化,然后对个体进行边界约束,将某一维度上的越界分量重新在有效范围内初始化。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求1-7任一项所述的基于参数自适应成长优化器的生物多序列比对方法。
10.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如权利要求1-7任一项所述的基于参数自适应成长优化器的生物多序列比对方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311007046.1A CN117059169A (zh) | 2023-08-10 | 2023-08-10 | 基于参数自适应成长优化器的生物多序列比对方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311007046.1A CN117059169A (zh) | 2023-08-10 | 2023-08-10 | 基于参数自适应成长优化器的生物多序列比对方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117059169A true CN117059169A (zh) | 2023-11-14 |
Family
ID=88663854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311007046.1A Pending CN117059169A (zh) | 2023-08-10 | 2023-08-10 | 基于参数自适应成长优化器的生物多序列比对方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117059169A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117477587A (zh) * | 2023-12-28 | 2024-01-30 | 泉州维盾电气有限公司 | 一种10kV配电站智能控制方法、系统及存储介质 |
-
2023
- 2023-08-10 CN CN202311007046.1A patent/CN117059169A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117477587A (zh) * | 2023-12-28 | 2024-01-30 | 泉州维盾电气有限公司 | 一种10kV配电站智能控制方法、系统及存储介质 |
CN117477587B (zh) * | 2023-12-28 | 2024-04-02 | 泉州维盾电气有限公司 | 一种10kV配电站智能控制方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11416268B2 (en) | Aggregate features for machine learning | |
Kuhn | Building predictive models in R using the caret package | |
CN112101530B (zh) | 神经网络训练方法、装置、设备及存储介质 | |
US11380301B2 (en) | Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program | |
CN117059169A (zh) | 基于参数自适应成长优化器的生物多序列比对方法及系统 | |
CN116959613B (zh) | 基于量子力学描述符信息的化合物逆合成方法及装置 | |
US20240185025A1 (en) | Flexible Parameter Sharing for Multi-Task Learning | |
CN110738362A (zh) | 一种基于改进的多元宇宙算法构建预测模型的方法 | |
CN101740029A (zh) | 应用于基于矢量量化的说话人识别的三粒子协同优化方法 | |
CN110555530B (zh) | 一种基于分布式的大规模基因调控网络构建方法 | |
EP3674959A1 (en) | Optimization calculation method and information processing apparatus | |
JP6325762B1 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
Zhang et al. | Reinforcement learning with actor-critic for knowledge graph reasoning | |
CN109074348A (zh) | 用于对输入数据集进行迭代聚类的设备和迭代方法 | |
CN116993548A (zh) | 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统 | |
CN111831955A (zh) | 一种锂离子电池剩余寿命预测方法及系统 | |
CN108427773B (zh) | 一种分布式知识图谱嵌入方法 | |
Wang | Enhanced differential evolution with generalised opposition–based learning and orientation neighbourhood mining | |
CN116127121A (zh) | 一种图像检索模型的训练方法及基于此的图像检索算法 | |
CN116384471A (zh) | 模型剪枝方法、装置、计算机设备、存储介质和程序产品 | |
Hu et al. | Pwsnas: powering weight sharing nas with general search space shrinking framework | |
CN115101130A (zh) | 一种基于网络对抗学习的单细胞数据插补方法及系统 | |
CN111523308B (zh) | 中文分词的方法、装置及计算机设备 | |
CN114254117A (zh) | 一种基于数据增强和自适应负采样技术的知识图谱推理方法 | |
CN114154582A (zh) | 基于环境动态分解模型的深度强化学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |