CN111554346A - 基于多目标优化的蛋白质序列设计实现方法 - Google Patents
基于多目标优化的蛋白质序列设计实现方法 Download PDFInfo
- Publication number
- CN111554346A CN111554346A CN202010353838.4A CN202010353838A CN111554346A CN 111554346 A CN111554346 A CN 111554346A CN 202010353838 A CN202010353838 A CN 202010353838A CN 111554346 A CN111554346 A CN 111554346A
- Authority
- CN
- China
- Prior art keywords
- protein
- protein sequence
- information
- objective
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Peptides Or Proteins (AREA)
Abstract
一种基于多目标优化的蛋白质序列设计实现方法,通过融合目标蛋白的相似结构信息和基于局部结构的统计信息作为先验知识,并将现有离散蛋白质序列空间转换为连续的蛋白质序列空间,然后在其中通过多目标粒子群优化算法进行蛋白序列的迭代搜索并以排序最优的非支配解集实现蛋白质序列的优化。本发明通过集成结构、统计和物理力场三种信息引导蛋白质序列的搜索,得到的蛋白质序列无论是准确性和鲁棒性均由于其他方法,并且它的运行速度更快。本发明同样对设计的序列进行了生物实验验证,多个属于不同折叠类型的蛋白均能够正确表达,并且拥有与目标结构拟合度很高的二级结构比例和稳定的三级结构。
Description
技术领域
本发明涉及的是一种生物工程领域的技术,具体是一种基于多目标优化的蛋白质序列设计实现方法。
背景技术
近年来,人工合成蛋白是一个备受瞩目的生物技术,它对制药、纳米科技、催化化学以及许多产业具有深远的影响。自然界中,蛋白质在生理过程中具有决定性的作用,例如产生能量、细胞和器官组织的结构构成,感知器,催化剂等。尽管氨基酸的种类只有20种,然而其组成的蛋白质分子在自然界中有无尽的复杂结构。鉴于目前的生物技术,一些自然界不存在的蛋白可以被人工合成,因此迅速准确的蛋白质设计方法对于快速发展的蛋白质工程非常重要。蛋白质设计是根据一个目标蛋白质的三级结构,设计出相应的蛋白质序列,该序列可以折叠成该目标的三级结构,它是蛋白质序列预测的逆过程。设计出的全新蛋白具有生物制药和生物工程的应用前景,因此蛋白质设计这一领域引起了广泛的关注。随着大量超级计算设备的发展,蛋白质设计算法取得了突出的进展,然而目前仍然有许多问题亟待解决。
对于当前盛行的方法,蛋白质设计被当作一个优化问题来解决。被优化的能量函数有Rosetta,SEF_V,CHARMM等。这些能量函数由众多不同的能量项线性组成,分别反映了蛋白质序列与结构映射关系的不同方面。这些能量函数大体上可以被分为三类:(1)基于物理力场的能量函数,(2)基于统计模型的函数,(3)基于结构信息的函数。由于蛋白质的长度较长(通常大于100),一个单独的能量函数很难准确的捕捉到复杂结构的信息,这也是当前蛋白质设计方法效果受限的原因之一。当前绝大多数蛋白质设计方法是基于单目标优化的算法,有些多目标优化的算法其实是不同能量函数的线性加权,这种是粒度较粗的描述函数。而有的多目标优化方法仅仅是对不同能量函数划分优先级,这本质上还是一种单目标优化的方式。
尽管有一些蛋白质设计方法采用了部分多目标优化的思想,一个完整的基于多目标优化的蛋白质设计方法还没有被提出过。因而准确地结合不同类型能量函数的特点是解决蛋白质设计问题的关键。物理力场的能量函数通常较为耗时,因而在蛋白质设计问题中过多的迭代次数是非常耗时的。此外一个蛋白质序列长度通常大于100,因而有20100种可能的序列,这是一个超高维的优化问题。这个问题通常不能用枚举的方法来解决,因而一个快速准确的序列搜索算法对解决这个问题来说非常重要。
目前,许多蛋白质设计方法取得了一定的进展:RosettaDesign采用蒙特卡洛随机算法来优化Rosetta能量函数,它曾经成功地设计出一个被称为Top7的自然界不存在的蛋白,并且该蛋白在湿实验中被验证与目标结构完美拟合;ABACUS同样采用蒙特卡洛算法来优化一个基于目标蛋白局部结构统计信息的能量函数;EvoDesign提出了一个基于同源蛋白结构信息的能量函数。
上述的方法都是基于备份交换的蒙特卡洛算法(REMC)来优化一个单独的目标能量函数。这种方法对非解析的能量函数(即黑盒模型)具有一定的适用性,但它仍然有如下缺点:
1)REMC需要很长的迭代次数产生较为理想的解。因为蛋白质序列的组合情况很多,20种残基之间很难建立量化的关系,所以在序列的搜索过程中,它们之间的联系网络很难被建立,意味着新产生的序列无法从之前较理想的序列中捕获有用的信息,所有的序列搜索都是完全随机进行的。所以REMC算法计算量非常大,若将其应用在多目标优化时,搜索的时间将会呈指数级别的增加,因为这种算法通常至少需要10条路径同时搜索。
2)理想的蛋白质序列在原始的蛋白质序列空间中呈现稀疏的分布。这是因为每个残基位置上不同的氨基酸没有明确的量化关系,蛋白质的序列长度很长,所以少数的最优解稀疏地分布在这个庞大的空间中,这会为搜索带来很大的麻烦。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于多目标优化的蛋白质序列设计实现方法,通过集成结构、统计和物理力场三种信息引导蛋白质序列的搜索,得到的蛋白质序列无论是准确性和鲁棒性均由于其他方法,并且它的运行速度更快。本发明同样对设计的序列进行了生物实验验证,多个属于不同折叠类型的蛋白均能够正确表达,并且拥有与目标结构拟合度很高的二级结构比例和稳定的三级结构。
本发明是通过以下技术方案实现的:
本发明涉及一种基于多目标优化的蛋白质序列设计实现方法,通过融合目标蛋白的相似结构信息和基于局部结构的统计信息作为先验知识,并将现有离散蛋白质序列空间转换为连续的蛋白质序列空间,然后在其中通过多目标粒子群优化算法进行蛋白序列的迭代搜索并以排序最优的非支配解集实现蛋白质序列的优化。
所述的目标蛋白的相似结构信息,通过但不限于PDB数据库(Protein Data Bank)获得。
所述的基于局部结构的统计信息,通过但不限于DSSP数据库(Definition ofSecondary Structure of Proteins)获得。
所述的目标蛋白的相似结构信息,满足与目标蛋白结构相似的所有蛋白,相似度应满足TMscore>0.7,然后比对所得到的所有相似蛋白的氨基酸序列得到一个残基-位点的打分矩阵。
所述的基于局部结构的统计信息,满足统计目标蛋白不同残基位置的氨基酸概率分布并得到一个残基-位点打分矩阵。
所述的先验知识,通过将得到的两个残基-位点打分矩阵进行融合得到
所述的连续的蛋白质序列空间,根据融合的信息对目标蛋白的每个残基位置进行不同氨基酸的量化排序,从而实现蛋白质序列的空间变换。
所述的多目标粒子群优化,在变换的空间中使用多目标粒子群优化的算法同时优化两个目标能量函数,具体为:采用基于物理力场的Foldx能量函数和基于局部结构信息的能量函数。经过多轮迭代后从非支配解集中提取出最终的蛋白质序列作为输出。
所述的多目标粒子群优化,优选每一次迭代将结果映射到原来的蛋白质序列空间,以便计算不同能量函数的值。
本发明涉及一种实现上述方法的系统,包括:数据库信息统计模块、统计信息融合模块、空间变换模块、迭代计算模块、序列输出模块,其中:数据库信息统计模块输出信息至统计信息融合模块,融合后的信息被传输至空间变换模块进行量化变换,空间变换模块将信息传输至迭代计算模块进行迭代运算,运算的解集输出至序列输出模块进行最后的筛选。
技术效果
本发明整体解决了如何基于特定蛋白质结构设计生成可以折叠至目标结构的蛋白质序列的技术问题。
与现有技术相比,本发明可以并行优化多个目标函数、在变换后的量化空间中进行计算大大减少了迭代次数、设计的蛋白质序列能够更加精确地拟合为目标蛋白结构。
附图说明
图1为本发明流程图;
图2为空间变换示意图;
图3为实施例相似度结果对比图;
图4为实施例效果对比示意图。
具体实施方式
如图1所示,为本实施例涉及一种基于多目标优化的蛋白质序列设计实现方法,包括以下步骤:
步骤1)建立先验信息,具体包括:
1.1:将输入的蛋白质PDB文件与筛选过后的PDB数据库中的所有文件进行TMalign比对,选出其中TMscore>0.7的所有蛋白,对这些蛋白的氨基酸序列进行多序列比对,得到残基-位点的打分矩阵。
1.2:得到输入PDB文件的DSSP文件,然后在DSSP数据库中统计与每个残基位置局部结构信息相同的氨基酸分布情况,并得到打分矩阵为:
S(r,p)=-lnp(r|structure properties atpositionp),
步骤2)融合先验信息并进行空间变换,具体包括:
2.1)将之前得到的两个打分矩阵进行归一化:
根据归一化后的信息矩阵得到:F(r,p)=λ1M(r,p)'+λ2S(r,p)',其中:M(r,p)'和S(r,p)'分别是结构信息矩阵和统计信息矩阵的元素,λ1和λ2是两个系数来平衡二种信息的权重。
所述的系数会随着迭代的进行而改变,这样可以使得变换后的蛋白质空间发生振荡。因为通常不知道不同残基类型间的正确量化关系,因而这种振荡可以带来更多的探索可能,并且防止搜索陷入局部最优解。
2.2)空间变换为:Rn=R×R…×R={(x1,x2,…,xn)|xk∈R,k=1,2,…,n},其中:n是目标蛋白的长度,转换后的值为T(r,p)=rank(F(r,p)),rank∈{1,2,…,20},将其从小到大排序,因而
所述的空间变换的效果包括:1)最优解的搜索空间被大大减小;2)原来的离散空间优化问题可以被转变为连续优化问题。
步骤3)采用基于物理力场的Foldx能量函数和基于局部结构信息的能量函数实现多目标粒子群优化算法,具体为:
f1=w1Evdw+w2EsolvH+w3EsolvP+Ewb+Ehbond+Eel+EKon+w4ESmc+w5ESsc,
f2=∑w1ΔSS(p)+w2ΔSA(p)+w3(Δφ(p)+Δψ(p)),其中:ΔSS(p)是目标蛋白与设计序列之间的二级结构差异,具体为其中:ΔSA是溶剂可及性的差异,Δφ(p)andΔψ(p)是扭转角的差异。
粒子的初始化包括:
粒子的迭代公式包括:
非支配解包括:
①所有的粒子靠近理想值并且具有好的分散性的情况:(dcv(x)<mean(dcv)and ddv(x)>mean(ddv)),
②粒子靠近理想值,但过于稠密的情况:(dcv(x)<mean(dcv)and ddv(x)<mean(ddv));
③大多数例子远离理想值,然而一部分粒子分布在帕雷特边沿上,可能携带重要的信息的情况:(dcv(x)>mean(dcv)and ddv(x)>mean(ddv));
④粒子远离理想值并且稠密地聚集在一起,因而它们的优先级最低的情况:(dcv(x)>mean(dcv)and ddv(x)<mean(ddv))。
非支配解的空间变换的振荡满足λ1+λ2=1,λ=(λ1,λ2),||λ*-λ||>dthreshold。
步骤5)从非支配解集中选出最优解以及距离最优解最远且满足dcv(x)<mean(dcv)的两个解作为本方法得到的蛋白质优化结构。
经过具体实际实验,本方法在linux系统环境设置下,以matlab软件运行,使用rosetta ab initio prediction工具验证能够得到的实验数据是:200个样本下,设计的序列折叠结构与目标结构属于同种结构的平均比例为40.1%,其中α蛋白可以达到70.5%;200个样本中与目标蛋白最相似的样本其tmscore平均为67.43,其中α蛋白可以达到75。
与现有技术相比,本方法平均迭代次数减少103量级,结果蛋白序列拟合目标蛋白精确度提升,以rosetta ab initio工具验证精确度提升30.1%,同时该方法在生物平台上得到了验证,其中所设计的目标蛋白1ubq序列折叠后的蛋白质结构与原蛋白结构间的rmsd为较当前主流方法精度提升
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (10)
1.一种基于多目标优化的蛋白质序列设计实现方法,其特征在于,通过融合目标蛋白的相似结构信息和基于局部结构的统计信息作为先验知识,并将现有离散蛋白质序列空间转换为连续的蛋白质序列空间,然后在其中通过多目标粒子群优化算法进行蛋白序列的迭代搜索并以排序最优的非支配解集实现蛋白质序列的优化。
2.根据权利要求1所述的基于多目标优化的蛋白质序列设计实现方法,其特征是,所述的目标蛋白的相似结构信息,通过PDB数据库(Protein Data Bank)获得;所述的基于局部结构的统计信息,通过DSSP数据库(Definition of Secondary Structure of Proteins)获得。
3.根据权利要求2所述的基于多目标优化的蛋白质序列设计实现方法,其特征是,所述的目标蛋白的相似结构信息,满足与目标蛋白结构相似的所有蛋白,相似度应满足TMscore>0.7,然后比对所得到的所有相似蛋白的氨基酸序列得到一个残基-位点的打分矩阵;
所述的基于局部结构的统计信息,满足统计目标蛋白不同残基位置的氨基酸概率分布并得到一个残基-位点打分矩阵;
所述的先验知识,通过将得到的两个残基-位点打分矩阵进行融合得到。
4.根据权利要求1所述的基于多目标优化的蛋白质序列设计实现方法,其特征是,所述的连续的蛋白质序列空间,根据融合的信息对目标蛋白的每个残基位置进行不同氨基酸的量化排序,从而实现蛋白质序列的空间变换。
5.根据权利要求1所述的基于多目标优化的蛋白质序列设计实现方法,其特征是,所述的多目标粒子群优化,在变换的空间中使用多目标粒子群优化的算法同时优化两个目标能量函数,具体为:采用基于物理力场的Foldx能量函数和基于局部结构信息的能量函数,经过多轮迭代后从非支配解集中提取出最终的蛋白质序列作为输出。
6.根据权利要求1或5所述的基于多目标优化的蛋白质序列设计实现方法,其特征是,所述的多目标粒子群优化,每一次迭代将结果映射到原来的蛋白质序列空间,以便计算不同能量函数的值。
7.根据权利要求1或5所述的基于多目标优化的蛋白质序列设计实现方法,其特征是,所述的多目标粒子群优化算法,具体为:
f1=w1Evdw+w2EsolvH+w3EsolvP+Ewb+Ehbond+Eel+EKon+w4ESmc+w5ESsc,
f2=∑w1ΔSS(p)+w2ΔSA(p)+w3(Δφ(p)+Δψ(p)),其中:ΔSS(p)是目标蛋白与设计序列之间的二级结构差异,具体为其中:ΔSA是溶剂可及性的差异,Δφ(p)andΔψ(p)是扭转角的差异;
粒子的初始化包括:
粒子的迭代公式包括:
非支配解包括:
①所有的粒子靠近理想值并且具有好的分散性的情况:(dcv(x)<mean(dcv)and ddv(x)>mean(ddv)),
②粒子靠近理想值,但过于稠密的情况:(dcv(x)<mean(dcv)and ddv(x)<mean(ddv));
③大多数例子远离理想值,然而一部分粒子分布在帕雷特边沿上,可能携带重要的信息的情况:(dcv(x)>mean(dcv)and ddv(x)>mean(ddv));
④粒子远离理想值并且稠密地聚集在一起,因而它们的优先级最低的情况:(dcv(x)>mean(dcv)and ddv(x)<mean(ddv));
非支配解的空间变换的振荡满足λ1+λ2=1,λ=(λ1,λ2),||λ*-λ||>dthreshold。
10.一种实现上述权利要求1~9中任一所述方法的系统,其特征在于,包括:数据库信息统计模块、统计信息融合模块、空间变换模块、迭代计算模块、序列输出模块,其中:数据库信息统计模块输出信息至统计信息融合模块,融合后的信息被传输至空间变换模块进行量化变换,空间变换模块将信息传输至迭代计算模块进行迭代运算,运算的解集输出至序列输出模块进行最后的筛选。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010353838.4A CN111554346B (zh) | 2020-04-29 | 2020-04-29 | 基于多目标优化的蛋白质序列设计实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010353838.4A CN111554346B (zh) | 2020-04-29 | 2020-04-29 | 基于多目标优化的蛋白质序列设计实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111554346A true CN111554346A (zh) | 2020-08-18 |
CN111554346B CN111554346B (zh) | 2023-05-23 |
Family
ID=72000438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010353838.4A Active CN111554346B (zh) | 2020-04-29 | 2020-04-29 | 基于多目标优化的蛋白质序列设计实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111554346B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112216345A (zh) * | 2020-09-27 | 2021-01-12 | 浙江工业大学 | 一种基于迭代搜索策略的蛋白质溶剂可及性预测方法 |
CN112382336A (zh) * | 2020-12-01 | 2021-02-19 | 北京晶派科技有限公司 | 一种蛋白骨架设计方法及其应用 |
CN113035268A (zh) * | 2021-04-09 | 2021-06-25 | 上海交通大学 | 基于多目标分解优化策略的蛋白质结构优化方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002044954A1 (fr) * | 2000-12-01 | 2002-06-06 | Mitsubishi Chemical Corporation | Methode de construction de la structure tridimensionnelle d'une proteine |
US20140244228A1 (en) * | 2012-09-19 | 2014-08-28 | Agency For Science, Technology And Research | Codon optimization of a synthetic gene(s) for protein expression |
CN107025383A (zh) * | 2017-04-14 | 2017-08-08 | 上海交通大学 | 基于多目标粒子群优化的蛋白质结构预测方法 |
CN108009403A (zh) * | 2017-11-24 | 2018-05-08 | 中国地质大学(武汉) | 基于多源数据融合及多目标优化的蛋白质复合物识别方法 |
-
2020
- 2020-04-29 CN CN202010353838.4A patent/CN111554346B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002044954A1 (fr) * | 2000-12-01 | 2002-06-06 | Mitsubishi Chemical Corporation | Methode de construction de la structure tridimensionnelle d'une proteine |
US20140244228A1 (en) * | 2012-09-19 | 2014-08-28 | Agency For Science, Technology And Research | Codon optimization of a synthetic gene(s) for protein expression |
CN107025383A (zh) * | 2017-04-14 | 2017-08-08 | 上海交通大学 | 基于多目标粒子群优化的蛋白质结构预测方法 |
CN108009403A (zh) * | 2017-11-24 | 2018-05-08 | 中国地质大学(武汉) | 基于多源数据融合及多目标优化的蛋白质复合物识别方法 |
Non-Patent Citations (2)
Title |
---|
YIQUN XIAO等: "Prediction of MicroRNA Subcellular localization by Using a Sequence-to-Sequence Model" * |
裔东亮等: "PCA技术在二硫键连接模式预测中的应用研究" * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112216345A (zh) * | 2020-09-27 | 2021-01-12 | 浙江工业大学 | 一种基于迭代搜索策略的蛋白质溶剂可及性预测方法 |
CN112216345B (zh) * | 2020-09-27 | 2021-12-17 | 浙江工业大学 | 一种基于迭代搜索策略的蛋白质溶剂可及性预测方法 |
CN112382336A (zh) * | 2020-12-01 | 2021-02-19 | 北京晶派科技有限公司 | 一种蛋白骨架设计方法及其应用 |
CN112382336B (zh) * | 2020-12-01 | 2023-09-01 | 北京晶泰科技有限公司 | 一种小蛋白骨架设计方法及其应用 |
CN113035268A (zh) * | 2021-04-09 | 2021-06-25 | 上海交通大学 | 基于多目标分解优化策略的蛋白质结构优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111554346B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111554346A (zh) | 基于多目标优化的蛋白质序列设计实现方法 | |
Guo et al. | Self-supervised pre-training for protein embeddings using tertiary structures | |
CN113257357B (zh) | 蛋白质残基接触图预测方法 | |
CN117334271B (zh) | 一种基于指定属性生成分子的方法 | |
CN115512785A (zh) | 基于注意力机制的三维蛋白质-配体活性预测方法 | |
CN111461286A (zh) | 基于进化神经网络的Spark参数自动优化系统和方法 | |
Zhou et al. | Hardware-aware graph neural network automated design for edge computing platforms | |
Chen et al. | Full stack parallel online hyperdimensional regression on fpga | |
Wang et al. | UMAP-DBP: an improved DNA-binding proteins prediction method based on uniform manifold approximation and projection | |
Wu et al. | Graph neural networks for molecular and materials representation | |
Zhang et al. | Full-atom protein pocket design via iterative refinement | |
Zhou et al. | TransVAE-DTA: Transformer and variational autoencoder network for drug-target binding affinity prediction | |
WO2022146632A1 (en) | Protein structure prediction | |
Cai et al. | A general convergence analysis method for evolutionary multi-objective optimization algorithm | |
Li et al. | stMCDI: Masked Conditional Diffusion Model with Graph Neural Network for Spatial Transcriptomics Data Imputation | |
Wang et al. | Towards high-accuracy axial springback: Mesh-based simulation of metal tube bending via geometry/process-integrated graph neural networks | |
Zhou et al. | Accurate and definite mutational effect prediction with lightweight equivariant graph neural networks | |
Wang et al. | Self-attention based neural network for predicting RNA-protein binding sites | |
CN116758978A (zh) | 基于蛋白质结构的可控属性全新活性小分子设计方法 | |
US20240006017A1 (en) | Protein Structure Prediction | |
Ma et al. | Drug-target binding affinity prediction method based on a deep graph neural network | |
Cao et al. | An Interpretable Approach to the Solutions of High-Dimensional Partial Differential Equations | |
Liu et al. | GraphCPLMQA: Assessing protein model quality based on deep graph coupled networks using protein language model | |
He et al. | An efficient parallel multi-fidelity multi-objective Bayesian optimization method and application to 3-stage axial compressor with 144 variables | |
Zhou et al. | A multi-fidelity Bayesian optimization approach for constrained multi-objective optimization problems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |