CN111755065A - 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法 - Google Patents
一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法 Download PDFInfo
- Publication number
- CN111755065A CN111755065A CN202010543967.XA CN202010543967A CN111755065A CN 111755065 A CN111755065 A CN 111755065A CN 202010543967 A CN202010543967 A CN 202010543967A CN 111755065 A CN111755065 A CN 111755065A
- Authority
- CN
- China
- Prior art keywords
- protein conformation
- virtual
- protein
- physical
- amino acid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 102
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013507 mapping Methods 0.000 title claims abstract description 29
- 230000001133 acceleration Effects 0.000 title claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 150000001413 amino acids Chemical class 0.000 claims description 36
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 13
- 230000002209 hydrophobic effect Effects 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 abstract description 27
- 230000002068 genetic effect Effects 0.000 abstract description 12
- 230000008569 process Effects 0.000 abstract description 8
- 238000013178 mathematical model Methods 0.000 abstract description 7
- 230000012846 protein folding Effects 0.000 abstract description 4
- 238000009395 breeding Methods 0.000 abstract 1
- 230000001488 breeding effect Effects 0.000 abstract 1
- 238000010353 genetic engineering Methods 0.000 abstract 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 15
- 230000000844 anti-bacterial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000013078 crystal Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 208000020406 Creutzfeldt Jacob disease Diseases 0.000 description 1
- 208000003407 Creutzfeldt-Jakob Syndrome Diseases 0.000 description 1
- 208000010859 Creutzfeldt-Jakob disease Diseases 0.000 description 1
- 108010069514 Cyclic Peptides Proteins 0.000 description 1
- 102000001189 Cyclic Peptides Human genes 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 208000007223 Gerstmann syndrome Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003197 catalytic effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 206010023497 kuru Diseases 0.000 description 1
- 238000004215 lattice model Methods 0.000 description 1
- 238000000329 molecular dynamics simulation Methods 0.000 description 1
- 238000001225 nuclear magnetic resonance method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000002424 x-ray crystallography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Evolutionary Computation (AREA)
- Chemical & Material Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
Abstract
本发明公开了一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法,包括将蛋白质构象预测问题转化为虚拟网络映射问题,基于上述数学模型构建一种蛋白质构象预测启发式算法,最后采用云并行计算预测蛋白质构象,把利用蛋白质构象预测启发式算法所求得的蛋白质折叠方向编码串作为初始种群中的一部分,并对种群进行子种群划分,每个子种群在各自的处理器上独立完成遗传算法对蛋白质构象的计算过程。子种群之间将具有最小自由能的蛋白质构象进行交换,继续执行遗传操作,直到到达规定的繁衍代数就停止操作。本发明建立蛋白质构象预测的数学模型,利用启发式和并行遗传算法,结合云并行计算加速预测蛋白质结构,能够准确高效地预测出蛋白质构象。
Description
技术领域
本发明涉及通信、计算机和生物工程的学科交叉技术,具体是一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法。
背景技术
蛋白质是生命活动的基础,蛋白质构象预测问题主要是根据氨基酸序列确定它的折叠路径和自然状态下的蛋白质结构,自然状态下的蛋白质结构是最稳定的蛋白质结构。蛋白质的正常功能与其结构有着密不可分的关系,对蛋白质结构的研究有利于进一步地了解蛋白质的功能,通过对蛋白质构象预测问题的研究不仅能够探索生命的基本过程,还能促进医药、农业和生物科技等应用领域的发展。比如,在医药学领域,相继发现了库鲁病、克雅氏综合症、格斯特曼综合症等,这些疾病都是由于蛋白质构象异常引发的。此外,利用蛋白谱可以反映出人体的健康和疾病发生以及发展的动态变化,对疾病进行有效的预防或干预,从而可广泛应用于医药学的一般理论研究和实际应用中。在农业领域中,农作物自身可以产生抗菌蛋白来抵制外界物质的侵入,人类可以通过提取抗菌蛋白的基因预测出该蛋白质的结构,以此来揭开该抗菌蛋白真正的特点与功能,使其可以被运用到更多的场景中去。在工业上,酶的催化效率倍受工业界青睐,但是在实际的高温、高压以及极端pH值等环境下,天然蛋白质的结构和功能容易被破坏,因此对蛋白质结构进行改造,设计出适合工业用途的稳定蛋白质尤为重要。
由于蛋白质的晶体难以培养,确定蛋白质结构的X射线晶体学方法对晶体结构测定的周期较长,而多维核磁共振方法对样品的需要量大、纯度要求高,目前只能测定小分子蛋白质结构。因此,通过生物实验方法确定蛋白质结构面临代价高、实验条件严苛、测定周期长等局限性,现实中的很多蛋白质结构往往只能用蛋白质构象算法预测。而现有的蛋白质构象预测算法存在复杂度高,预测速度慢,耗时长,预测精度低等问题。因此,对于蛋白质构象预测问题,亟需对其进行精准建模,设计相应的预测算法,搭建能够加速预测的计算系统。
利用蛋白质中氨基酸之间的亲疏水作用简化得到的二维HP格点模型是目前应用最广泛的一种数学模型,该模型不仅有效地简化了氨基酸序列,而且把简化得到的氨基酸序列放置到了网格中。根据分子动力学原理,网格中满足蛋白质自由能值最小的折叠构象即为自然状态下的蛋白质结构。自由能的定义为HP格点模型中相邻而不相连的H-H结构个数的相反数。故只要找到一种构象可以使该H-H结构个数最多,或者在网格中实现序列中每个氨基酸和连接它们的肽键的最优放置就可以使得H-H结构个数最多,即可成功解决蛋白质构象预测问题。
预测蛋白质构象的问题实际上就是搜寻具有最小自由能的蛋白质结构的过程,这与通信领域中如何更优的进行虚拟网络映射(即如何在底层物理网络中最优的部署各个虚拟网络节点和虚拟链路)在本质上是相通的。可以将底层物理网络看作二维HP格点模型,每个虚拟网络节点可看作某条氨基酸序列(肽链)上的带有亲(疏)水性的氨基酸,每条虚拟网络链路则可看作链接两个氨基酸的肽键。从而,可将蛋白质构象预测问题转化为虚拟网络映射问题进行建模,目前未见相关报道。利用理论建模的方法预测蛋白质结构的问题已被证明是NP困难的,其求解计算量庞大,而虚拟网络映射启发式算法,可以更加快速求解蛋白质构象预测模型的(近似)最优解(具有全局最小自由能的蛋白质结构),截止目前,未见一种有效的上述启发式算法。
此外,通过数学建模和启发式算法预测蛋白质构象的过程都是串行的,实际效率并不高,对较长氨基酸序列进行预测时,仍存在耗时较大,计算成本较高等问题。随着大数据时代的到来,云计算已成为一种处理海量数据的高效计算方式和技术手段之一。因此,有必要将并行遗传算法与云并行计算系统相结合,加速预测蛋白质构象。
发明内容
为了克服上述现有技术的不足,本发明提供了一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法。
为了实现上述目的,本发明采用的技术方案是,一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法,包括以下步骤:
步骤1,将蛋白质构象按照以下方式转化到虚拟网络映射:某条肽链所含氨基酸集合为V,连接链上每个氨基酸的肽键集合为L,将该条肽链抽象成虚拟节点集合为V,虚拟链路集合为L的有向虚拟网络,S为HP格点集合,即物理网络节点集合,E为连接HP格点的链路集合,即物理网络链路集合;
步骤2,建立虚拟网络映射的蛋白质构象预测模型;
步骤3,把肽链表征的位于虚拟网络首尾两端的虚拟节点随机映射到物理网络中的任意一对物理格点上;
步骤4,根据步骤2所述蛋白质构象预测模型计算最小的自由能值以及该自由能值所对应的路径和折叠方向编码;
步骤5,将步骤4所述折叠方向编码划分为多个子种群,进行云并行计算。
与现有技术相比,本发明的有益效果是:
(1)本发明提出了基于虚拟网络映射的蛋白质构象预测问题数学模型,将蛋白质构象预测问题转化为虚拟网络映射问题,建立了蛋白质折叠问题的纯整数线性规划模型,使问题变为简单的线性表达式而非自定义非线性函数,这将使预测蛋白质构象的问题能够被已有针对ILP问题的程序和方法更方便的求解,模型很容易扩展到三维蛋白质构象,只需给出三维HP格点表征的物理网络拓扑即可不加任何修改的适用于三维蛋白质构象。对于长度较短氨基酸序列,可通过整数线性规划工具(如CPLEX)求解此数学模型。
(2)本发明提出了一种蛋白质构象预测启发式算法,由于算法只对节点和链路这两个元素进行操作,并不用考虑现实中物理网络具体是二维还是三维,所以这个算法也可以不加任何修改的直接用于三维结构的蛋白质构象,极具扩展性。同时,确定了一对源节点和目的节点之后,对最优构象的搜索过程其实完全独立,有着并行计算的优势,对于长度较短氨基酸序列,此方法可更加快速预测蛋白质构象。
(3)本发明提出了一种基于云并行遗传算法和云并行计算平台的蛋白质构象预测加速方法,该平台可以根据需求对算法进行灵活的改进来解决蛋白质折叠问题,又因为遗传算法本身具备并行性,故而结合该平台构造特点改进成适用于该平台执行的并行遗传算法,使得预测蛋白质构象的时间更短,速度更快。对于较长的氨基酸序列,相较启发式算法,求解时间更短,提高算法的执行效率。
附图说明
图1为本发明实施例提供的基于虚拟网络映射的蛋白质构象预测问题示意图;
图2为本发明实施例提供的云并行计算系统的基本结构示意图;
图3为本发明实施例提供的基于云并行遗传算法和云并行计算系统的蛋白质构象加速预测流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本实施例把蛋白质构象预测问题转化成虚拟网络映射问题,某条肽链(氨基酸序列)所含氨基酸集合为V,连接链上每个氨基酸的肽键集合为L,暂不考虑环状肽链结构,则二者数量上满足|L|=|V|-1;权值变量wv表示肽链中编号为v的氨基酸的亲疏水情况,该变量值满足公式(1):
将该条肽链抽象成虚拟节点集合为V,虚拟链路集合为L的有向虚拟网络。H表示具有疏水属性的氨基酸,P表示具有亲水属性的氨基酸。
如图1所示,将该条肽链抽象成虚拟节点集合为V={V1,V2,V3,V4,V5},虚拟链路集合为L={L1,L2,L3,L4}的有向虚拟网络,各节点依次的权重为WV1=1,WV2=1,WV3=0,WV4=1,WV5=1。
S={S1,S2,S3,……,S25}为HP格点集合,即物理网络节点集合,E={E1,E2,E3,……,E40}为连接HP格点的链路集合,即物理网络链路集合,表示某氨基酸表征的虚拟网络节点v映射至物理网络格点s。为保证任意一个氨基酸表征的虚拟节点只能映射到一个物理格点上,则有约束:
为保证每个物理格点至多只能接受一个氨基酸表征的虚拟节点,则有约束:
假设某氨基酸表征的虚拟节点已映射成功,那么与其相邻的虚拟节点在物理网络上要满足链路流守恒约束:
式(5)中,lstart表示虚拟链路l的起点,lend则表示虚拟链路l的终点,l=l1或l2。表示某肽键表征的虚拟链路l1映射到从物理格点d指向物理格点s的链路上;表示某肽键表征的虚拟链路l2映射到从物理格点s指向物理格点d'的链路上。
这个统计值为1时应满足如下约束:
具有最小自由能的蛋白质构象满足公式(8),即相邻而不相连的H-H结构总数的相反数的最小值,代表当前蛋白质构象最稳定。
Minimum()表示一个输出括号内表达式最小值的函数。
基于以上数学模型,本实施例提供的一种蛋白质构象预测启发式算法,包括如下步骤:
步骤1:把肽链表征的位于虚拟网络首尾两端的虚拟节点随机映射到物理网络中的任意一对物理格点上;
步骤2:寻找出被映射到的这一对物理格点之间符合上述公式(2)、(3)、(4)和(5)约束的全部路径;
步骤3:根据上述公式(7)和(8),统计每条路径所具有的自由能值,且得到其中最小的自由能值以及该自由能值所对应的路径和折叠方向编码。折叠方向编码表示序列中每个氨基酸在形成蛋白质构象时的折叠方向,采用绝对方向表示法,首先确定第一个氨基酸的位置,1表示向右折叠,2表示向上折叠,3表示向左折叠,4表示向下折叠。例如某氨基酸序列片段折叠方向编码为234,表示第二个氨基酸在第一个氨基酸上方,第三个氨基酸在第二个氨基酸左方,第四个氨基酸在第三个氨基酸下方。如图1所示,当前映射后的路径最小自由能值为-1,对应的折叠方向编码为1143。
本实施例提供的一种面向蛋白质构象预测加速的云并行计算系统的基本结构示意图如图2所示,包括:平台由八块带有主频为4.0GHz的Intel Core i7-4790K的主板组成,并行计算平台包括一个头结点,称为Matlab任务调度管理器(MJS),以及若干个工作节点(worker),MJS负责将上层的计算任务进行拆分并将这些任务分配给下层的若干个工作节点,workers则负责各个分任务的计算以及结果的返回。
该系统的工作流程图如图3所示,包括一下步骤:
步骤1:初始化种群,初始种群就是氨基酸序列折叠方向编码串,把序列长度也就是序列中氨基酸的总个数记为length,产生一个含有1、2、3、4这四个数字的随机数列,序列在折叠过程中的每个氨基酸的折叠方向是随机的,则折叠方向编码串长度为length-1。该编码串的一部分可由上述蛋白质构象预测启发式算法获取(其他部分从1、2、3、4四个数随机产生,这样可保证初始种群由遗传进化后的新的种群比初始种群的自由能更优),并对种群进行子种群划分。云并行计算平台实际开启的worker的个数即为子种群数。可以根据不同长度的氨基酸序列开启不同个数的worker。
步骤2:把每个子种群放在相应的worker上独立完成遗传算法对蛋白质构象的计算过程。遗传算法对蛋白质构象的计算可以选用本领域技术人员熟知的遗传算法实现。
步骤3:待运行到各worker出现优秀个体,挑选出各worker中的最优个体,即自由能最小的蛋白质构象所对应的折叠方向编码,传到Matlab任务调度管理器(Matlab JobScheduler,MJS)中,进行两两交换。各worker再把自己的最差个体用交换得到的最优个体替换掉,继续执行遗传操作,同时观察进化过程中历代蛋白质构象最小自由能的变化情况,设置合理的繁衍代数,直到规定的繁衍代数停止操作。
预测的时间和对预测结果的准确性是衡量算法优劣的标准。搜集了表1所示12条较为经典的氨基酸序列进行本实施例的性能测试。为了方便书写,例如将HHHHPPP简化为H4P3。表中,最小自由能是这些氨基酸序列目前已发现的最优解。
表1待测试的HP序列表
采用方法1(采用IBM ILOG CPLEX Optimization Studio软件直接求解基于虚拟网络映射的蛋白质折叠的数学模型),方法2(上述的蛋白质构象预测启发式算法)和方法3(本发明的预测加速方法),分别对上述12条待测序列进行计算,所求得的自由能值比较结果记录在表2中。
表2自由能值比较表
从表2可以看出,对于前五条长度的蛋白质序列而言,使用方法1进行求解得到的目标函数解与实际最小自由能的值相同,故而可以验证该模型的准确性。方法2的模拟结果与方法1所得的自由能值相同,都是这些序列目前已发现的最优解。虽然方法3的模拟解与方法1存在一些不同,但也接近于目前已发现的最小自由能值。对于较长的序列(序列6,7,8,9,10,11,12),方法2只能得到次优解或是其它更接近最优解的结果,而方法3求得的自由能值虽然并不是目前已发现的最小自由能值,但也接近于该值。
表3记录了这三种方法预测蛋白质构象所需的执行时间。从表3可以看出,方法2和3的执行时间均低于方法1。由此可知,本发明方法可以加快预测蛋白质构象。虽然对于较短的氨基酸序列而言,方法2的执行时间非常短,但对于较长的氨基酸序列而言,方法3的时间更短。
表3时间比较表
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (5)
1.一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法,其特征在于,包括以下步骤:
步骤1,将蛋白质构象按照以下方式转化到虚拟网络映射:某条肽链所含氨基酸集合为V,连接链上每个氨基酸的肽键集合为L,将该条肽链抽象成虚拟节点集合为V,虚拟链路集合为L的有向虚拟网络,S为HP格点集合,即物理网络节点集合,E为连接HP格点的链路集合,即物理网络链路集合;
步骤2,建立虚拟网络映射的蛋白质构象预测模型;
步骤3,把肽链表征的位于虚拟网络首尾两端的虚拟节点随机映射到物理网络中的任意一对物理格点上;
步骤4,根据步骤2所述蛋白质构象预测模型计算最小的自由能值以及该自由能值所对应的路径和折叠方向编码;
步骤5,将步骤4所述折叠方向编码划分为多个子种群,进行云并行计算。
2.根据权利要求1所述一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法,其特征在于:所述蛋白质构象预测模型具体为:
权值变量wv表示肽链中编号为v的氨基酸的亲疏水情况,该变量值满足公式(1):
H表示具有疏水属性的氨基酸,P表示具有亲水属性的氨基酸。
为保证每个物理格点至多只能接受一个氨基酸表征的虚拟节点,则有约束:
若某氨基酸表征的虚拟节点已映射成功,那么与其相邻的虚拟节点在物理网络上要满足链路流守恒约束:
式中,lstart表示虚拟链路l的起点,lend则表示虚拟链路l的终点,l=l1或l2;表示某肽键表征的虚拟链路l1映射到从物理格点d指向物理格点s的链路上;表示某肽键表征的虚拟链路l2映射到从物理格点s指向物理格点d'的链路上;
这个统计值为1时应满足如下约束:
具有最小自由能的蛋白质构象满足公式(8),即相邻而不相连的H-H结构总数的相反数的最小值,代表当前蛋白质构象最稳定;
3.根据权利要求2所述一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法,其特征在于:所述步骤4的具体计算步骤为:
寻找出被映射到的步骤3所述的这一对物理格点之间符合所述公式(2)、(3)、(4)和(5)约束的全部路径;
再根据公式(7)和(8),统计每条路径所具有的自由能值,且得到其中最小的自由能值以及该自由能值所对应的路径和折叠方向编码。
4.根据权利要求3所述一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法,其特征在于:所述折叠方向编码表示序列中每个氨基酸在形成蛋白质构象时的折叠方向,采用绝对方向表示法,1表示向右折叠,2表示向上折叠,3表示向左折叠,4表示向下折叠。
5.根据权利要求1-4任一项所述一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法,其特征在于:所述云并行计算包括一个头节点和若干工作节点的计算,每个工作节点独立完成相应子种群对蛋白质构象的计算,待运行到各工作节点出现优秀个体,挑选出各工作节点中的最优个体,传到头节点中,进行两两交换,各工作节点再把自己的最差个体用交换得到的最优个体替换掉,继续执行蛋白质构象计算,直到达到预设的繁衍代数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010543967.XA CN111755065B (zh) | 2020-06-15 | 2020-06-15 | 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010543967.XA CN111755065B (zh) | 2020-06-15 | 2020-06-15 | 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111755065A true CN111755065A (zh) | 2020-10-09 |
CN111755065B CN111755065B (zh) | 2024-05-17 |
Family
ID=72675233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010543967.XA Active CN111755065B (zh) | 2020-06-15 | 2020-06-15 | 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111755065B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114697775A (zh) * | 2022-05-10 | 2022-07-01 | 重庆邮电大学 | 异质多芯光纤弹性光网络中串扰规避虚拟光网络映射方法 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000072004A2 (en) * | 1999-05-26 | 2000-11-30 | The Regents Of The University Of California | Method of determining the three-dimensional shape of a macromolecule |
US7167819B1 (en) * | 1999-05-26 | 2007-01-23 | Chiron Corporation | Method of determining the three-dimensional shape of a macromolecule |
CN101082944A (zh) * | 2007-06-01 | 2007-12-05 | 哈尔滨工程大学 | 基于综合算法的蛋白质折叠过程的计算机模拟方法 |
US20110053261A1 (en) * | 2008-02-05 | 2011-03-03 | Zymeworks Inc. | Methods for determining correlated residues in a protein or other biopolymer using molecular dynamics |
US20110153302A1 (en) * | 2009-11-24 | 2011-06-23 | Massachusetts Institute Of Technology | Identification of drug effects on signaling pathways using integer linear programming |
CN102760209A (zh) * | 2012-05-17 | 2012-10-31 | 南京理工大学常熟研究院有限公司 | 一种非参数膜蛋白跨膜螺旋预测方法 |
US8374828B1 (en) * | 2007-12-24 | 2013-02-12 | The University Of North Carolina At Charlotte | Computer implemented system for protein and drug target design utilizing quantified stability and flexibility relationships to control function |
CN103765448A (zh) * | 2011-06-10 | 2014-04-30 | 菲利普莫里斯生产公司 | 用于量化生物扰动的影响的系统和方法 |
CN105760710A (zh) * | 2016-03-11 | 2016-07-13 | 浙江工业大学 | 一种基于两阶段差分进化算法的蛋白质结构预测方法 |
CN107111691A (zh) * | 2014-10-27 | 2017-08-29 | 阿卜杜拉国王科技大学 | 识别配体‑蛋白质结合位点的方法和系统 |
CN108763851A (zh) * | 2018-04-26 | 2018-11-06 | 江苏理工学院 | 一种多分子同时实现对接的方法 |
CN108846255A (zh) * | 2018-06-19 | 2018-11-20 | 江南大学 | 一种分析木聚糖酶热稳定性影响因素的方法 |
CN110431400A (zh) * | 2016-08-22 | 2019-11-08 | 高地创新公司 | 利用基质辅助激光解吸/离子化飞行时间质谱仪进行数据库管理 |
CN110706738A (zh) * | 2019-10-30 | 2020-01-17 | 腾讯科技(深圳)有限公司 | 蛋白质的结构信息预测方法、装置、设备及存储介质 |
CN110832597A (zh) * | 2018-04-12 | 2020-02-21 | 因美纳有限公司 | 基于深度神经网络的变体分类器 |
CN111243668A (zh) * | 2020-04-09 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 分子结合位点检测方法、装置、电子设备及存储介质 |
US20220179026A1 (en) * | 2020-12-04 | 2022-06-09 | Max-Planck-Gesellschaft Zur Foerderung Der Wissenschaften E. V. | Machine learning based processing of magnetic resonance data, including an uncertainty quantification |
-
2020
- 2020-06-15 CN CN202010543967.XA patent/CN111755065B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7167819B1 (en) * | 1999-05-26 | 2007-01-23 | Chiron Corporation | Method of determining the three-dimensional shape of a macromolecule |
WO2000072004A2 (en) * | 1999-05-26 | 2000-11-30 | The Regents Of The University Of California | Method of determining the three-dimensional shape of a macromolecule |
CN101082944A (zh) * | 2007-06-01 | 2007-12-05 | 哈尔滨工程大学 | 基于综合算法的蛋白质折叠过程的计算机模拟方法 |
US8374828B1 (en) * | 2007-12-24 | 2013-02-12 | The University Of North Carolina At Charlotte | Computer implemented system for protein and drug target design utilizing quantified stability and flexibility relationships to control function |
US20110053261A1 (en) * | 2008-02-05 | 2011-03-03 | Zymeworks Inc. | Methods for determining correlated residues in a protein or other biopolymer using molecular dynamics |
US20110153302A1 (en) * | 2009-11-24 | 2011-06-23 | Massachusetts Institute Of Technology | Identification of drug effects on signaling pathways using integer linear programming |
CN103765448A (zh) * | 2011-06-10 | 2014-04-30 | 菲利普莫里斯生产公司 | 用于量化生物扰动的影响的系统和方法 |
CN102760209A (zh) * | 2012-05-17 | 2012-10-31 | 南京理工大学常熟研究院有限公司 | 一种非参数膜蛋白跨膜螺旋预测方法 |
CN107111691A (zh) * | 2014-10-27 | 2017-08-29 | 阿卜杜拉国王科技大学 | 识别配体‑蛋白质结合位点的方法和系统 |
CN105760710A (zh) * | 2016-03-11 | 2016-07-13 | 浙江工业大学 | 一种基于两阶段差分进化算法的蛋白质结构预测方法 |
CN110431400A (zh) * | 2016-08-22 | 2019-11-08 | 高地创新公司 | 利用基质辅助激光解吸/离子化飞行时间质谱仪进行数据库管理 |
CN110832597A (zh) * | 2018-04-12 | 2020-02-21 | 因美纳有限公司 | 基于深度神经网络的变体分类器 |
CN108763851A (zh) * | 2018-04-26 | 2018-11-06 | 江苏理工学院 | 一种多分子同时实现对接的方法 |
CN108846255A (zh) * | 2018-06-19 | 2018-11-20 | 江南大学 | 一种分析木聚糖酶热稳定性影响因素的方法 |
CN110706738A (zh) * | 2019-10-30 | 2020-01-17 | 腾讯科技(深圳)有限公司 | 蛋白质的结构信息预测方法、装置、设备及存储介质 |
CN111243668A (zh) * | 2020-04-09 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 分子结合位点检测方法、装置、电子设备及存储介质 |
US20220179026A1 (en) * | 2020-12-04 | 2022-06-09 | Max-Planck-Gesellschaft Zur Foerderung Der Wissenschaften E. V. | Machine learning based processing of magnetic resonance data, including an uncertainty quantification |
Non-Patent Citations (3)
Title |
---|
CANAN ATILGAN: "Network-Based Models as Tools Hinting at Nonevident Protein Functionality", ANNUAL REVIEW OF BIOPHYSICS, vol. 41, pages 205 - 225 * |
尹欣: "基于OAM超表面的自由空间光数据中心架构设计与性能分析", 优秀硕士论文期刊, no. 6, pages 1 - 73 * |
王勇;詹钟炜;吴凌云;章祥荪;: "改进的自组织映射(SOM)蛋白质折叠算法和计算实现", 系统科学与数学, no. 05, pages 52 - 63 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114697775A (zh) * | 2022-05-10 | 2022-07-01 | 重庆邮电大学 | 异质多芯光纤弹性光网络中串扰规避虚拟光网络映射方法 |
CN114697775B (zh) * | 2022-05-10 | 2024-03-22 | 重庆邮电大学 | 异质多芯光纤弹性光网络中串扰规避虚拟光网络映射方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111755065B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Scrucca | GA: A package for genetic algorithms in R | |
US12067075B1 (en) | Solving optimization problems using a hybrid computer system | |
Folino et al. | A scalable cellular implementation of parallel genetic programming | |
Pandey et al. | A survey of bioinformatics applications on parallel architectures | |
Jenkins et al. | Enabling fast, noncontiguous GPU data movement in hybrid MPI+ GPU environments | |
CN109978171A (zh) | 一种基于云计算的Grover量子仿真算法优化方法 | |
Azad et al. | Distributed-memory algorithms for maximum cardinality matching in bipartite graphs | |
Cuevas et al. | A multimodal optimization algorithm inspired by the states of matter | |
CN111755065A (zh) | 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法 | |
CN109992372A (zh) | 一种基于映射归约的数据处理方法及装置 | |
Ji et al. | Ant colony optimization with multi-agent evolution for detecting functional modules in protein-protein interaction networks | |
Duan et al. | Estimation of minimum viable population for giant panda ecosystems with membrane computing models | |
Spector et al. | Trivial geography in genetic programming | |
Simossis et al. | An overview of multiple sequence alignment | |
CN116303219A (zh) | 一种网格文件的获取方法、装置及电子设备 | |
Sardaraz et al. | Applications and algorithms for inference of huge phylogenetic trees: a review | |
CN106970840A (zh) | 一种结合任务调度的软硬件划分方法 | |
Eckhardt et al. | On-the-fly memory compression for multibody algorithms | |
Araujo et al. | Multiple sequence alignment using hybrid parallel computing | |
Vidal et al. | A parallel discrete firefly algorithm on gpu for permutation combinatorial optimization problems | |
Kerbyson et al. | Is predictive tracing too late for HPC users? | |
Wang et al. | Adaptive artificial immune system for biological network alignment | |
Anusha et al. | DRIIS: MapReduce Parameter Optimization of Hadoop Using Genetic Algorithm | |
Jian et al. | AN IMPROVED VIRUS EVOLUTIONARY GENETIC ALGORITHM FOR WORKFLOW MINING. | |
Bruge et al. | Concurrent molecular dynamics simulation of ST2 water on a transputer array |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |