CN117352043B - 基于神经网络的蛋白设计方法及系统 - Google Patents
基于神经网络的蛋白设计方法及系统 Download PDFInfo
- Publication number
- CN117352043B CN117352043B CN202311658441.6A CN202311658441A CN117352043B CN 117352043 B CN117352043 B CN 117352043B CN 202311658441 A CN202311658441 A CN 202311658441A CN 117352043 B CN117352043 B CN 117352043B
- Authority
- CN
- China
- Prior art keywords
- amino acid
- acid sequence
- protein molecule
- protein
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 189
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 189
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000013461 design Methods 0.000 title claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 19
- 150000001413 amino acids Chemical class 0.000 claims abstract description 171
- 125000003275 alpha amino acid group Chemical group 0.000 claims abstract description 162
- 230000003993 interaction Effects 0.000 claims abstract description 45
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 25
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005094 computer simulation Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 230000003631 expected effect Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 230000006641 stabilisation Effects 0.000 abstract 1
- 238000011105 stabilization Methods 0.000 abstract 1
- 238000000329 molecular dynamics simulation Methods 0.000 description 4
- 230000002378 acidificating effect Effects 0.000 description 3
- 125000000539 amino acid group Chemical group 0.000 description 3
- 125000003277 amino group Chemical group 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000012846 protein folding Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000018044 dehydration Effects 0.000 description 1
- 238000006297 dehydration reaction Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012772 sequence design Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Bioethics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Physiology (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明涉及蛋白质数据处理技术领域,提出了基于神经网络的蛋白设计方法及系统,包括:获取蛋白质分子的图数据及氨基酸序列;根据蛋白质分子的图数据及氨基酸序列获取相互作用强度,利用聚类算法获取由相互作用强度组成的样本数据集的聚类结果,根据聚类结果获取热稳定性递增序列;根据热稳定性递增序列获取热稳定连续指数,根据热稳定连续指数获取超高热稳定性聚类簇,根据超高热稳定性聚类簇获取氨基酸合成序列,根据氨基酸合成序列获取目标氨基酸序列;根据目标氨基酸序列获取模拟氨基酸序列,根据模拟氨基酸序列获取模拟生成的蛋白质分子。本发明在保留蛋白质的热稳定功能的基础上设计氨基酸序列,使得设计蛋白质更符合预期效果。
Description
技术领域
本发明涉及蛋白质数据处理技术领域,具体涉及基于神经网络的蛋白设计方法及系统。
背景技术
蛋白质是一种重要的生物大分子,蛋白质承担并执行着身体的各项功能。传统的蛋白质设计工程一般是基于已有的蛋白进行修改,以期望能够达到人们需求的新特性。但是,并非所有蛋白质模板都能够找到,有些蛋白质模板甚至在自然进化中尚未出现,此时蛋白设计技术凸显的尤为重要。蛋白设计的过程需要遵循设计要求,设计过程中包括两个重要的环节,一是确定蛋白支链骨架,二是固定主链的氨基酸序列。
随着神经网络等机器学习方法发展,多数采用深度学习的方法学习蛋白质结构,为蛋白设计的发展提供新的方向。蛋白质的进化一般会产生特定功能的氨基酸序列,而针对氨基酸序列的设计问题在于如何在约束蛋白质可折叠的基础上同时保留其功能,传统的理性设计蛋白质分子需要进行庞大的计算,现有的计算能力几乎无法完成,因此结合机器学习的蛋白设计成为了主流。
发明内容
本发明提供基于神经网络的蛋白设计方法及系统,以解决如何在约束蛋白质可折叠的基础上同时保留其功能的问题,所采用的技术方案具体如下:
第一方面,本发明一个实施例基于神经网络的蛋白设计方法,该方法包括以下步骤:
获取蛋白质分子的图数据及氨基酸序列;
根据每个蛋白质分子的图数据及氨基酸序列获取每个蛋白质分子的氨基酸序列中每个氨基酸的近邻氨基酸集合;根据每个蛋白质分子的氨基酸序列中每个氨基酸的近邻氨基酸集合获取每个蛋白质分子的氨基酸序列中每个氨基酸的相互作用强度;利用聚类算法获取每个蛋白质分子的氨基酸序列中所有氨基酸的相互作用强度的聚类结果,根据所述聚类结果获取每个蛋白质分子的热稳定性递增序列;
根据每个蛋白质分子的热稳定性递增序列获取每个蛋白质分子对应的所有聚类簇中每个聚类簇的热稳定连续指数;根据每个蛋白质分子对应的所有聚类簇的热稳定连续指数获取每个蛋白质分子的超高热稳定性聚类簇;根据所有蛋白质分子的超高热稳定性聚类簇获取氨基酸合成序列,根据氨基酸合成序列获取目标氨基酸序列;
根据目标氨基酸序列获取模拟氨基酸序列,根据模拟氨基酸序列获取模拟生成的蛋白质分子。
优选的,所述根据每个蛋白质分子的图数据及氨基酸序列获取每个蛋白质分子的氨基酸序列中每个氨基酸的近邻氨基酸集合的方法为:
对于每个蛋白质分子的氨基酸序列,将氨基酸序列中每个氨基酸作为每个中心氨基酸,获取每个中心氨基酸在蛋白质分子的图数据中的目标节点位置,将距所述目标节点位置的空间距离最近的第一预设参数个节点所代表的氨基酸组成的集合作为每个中心氨基酸的近邻氨基酸集合。
优选的,所述根据每个蛋白质分子的氨基酸序列中每个氨基酸的近邻氨基酸集合获取每个蛋白质分子的氨基酸序列中每个氨基酸的相互作用强度的方法为:
对于每个蛋白质分子的氨基酸序列,根据氨基酸序列中每个氨基酸的近邻氨基酸集合获取每个氨基酸的结构稳定度;
对于每个蛋白质分子的氨基酸序列中每个氨基酸,将以自然常数为底数,以氨基酸的结构稳定度为指数的负映射结果与第二预设参数的乘积作为第一求和因子,将所述第一求和因子与第三预设参数的和作为氨基酸的相互作用强度。
优选的,所述根据氨基酸序列中每个氨基酸的近邻氨基酸集合获取每个氨基酸的结构稳定度的方法为:
式中,表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的结构稳定度,K表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的近邻氨基酸集合中元素的数目,/>表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的近邻氨基酸集合第i个氨基酸所代表节点的连接边的数目,/>表示欧氏距离函数,/>表示第x个蛋白质分子的氨基酸序列中第y个氨基酸在图数据中的节点位置,/>表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的近邻氨基酸集合第i个氨基酸在图数据中的节点位置。
优选的,所述利用聚类算法获取每个蛋白质分子的氨基酸序列中所有氨基酸的相互作用强度的聚类结果,根据所述聚类结果获取每个蛋白质分子的热稳定性递增序列的方法为:
对于每个蛋白质分子的氨基酸序列,将氨基酸序列中所有的氨基酸的相互作用强度组成的集合作为样本数据集,利用k-means聚类算法获取所述样本数据集的聚类结果;
对于每个蛋白质分子对应的聚类结果中所有聚类簇,计算每个聚类簇内所有氨基酸的相互作用强度均值,将所有聚类簇对应的相互作用强度均值按照数值升序的顺序组成的序列作为蛋白质分子的热稳定性递增序列。
优选的,所述根据每个蛋白质分子的热稳定性递增序列获取每个蛋白质分子对应的所有聚类簇中每个聚类簇的热稳定连续指数的方法为:
式中,表示第x个蛋白质分子对应的热稳定性递增序列中第q个元素所表征聚类簇的热稳定连续指数,/>和/>分别表示第x个蛋白质分子对应的热稳定性递增序列中第q个、第(q+1)个元素值,/>表示以自然常数为底数的指数函数。
优选的,所述根据每个蛋白质分子对应的所有聚类簇的热稳定连续指数获取每个蛋白质分子的超高热稳定性聚类簇的具体方法为:
对于每个蛋白质分子的对应的聚类结果中所有聚类簇的热稳定连续指数,将所述所有聚类簇的热稳定连续指数中最小值对应的聚类簇作为目标聚类簇,将相互作用强度均值高于目标聚类簇的相互作用强度均值的聚类簇作为蛋白质分子的超高热稳定性聚类簇。
优选的,所述根据所有蛋白质分子的超高热稳定性聚类簇获取氨基酸合成序列,根据氨基酸合成序列获取目标氨基酸序列的方法为:
将每个蛋白质分子对应的所有超高热稳定性聚类簇中所有元素对应的氨基酸作为待处理氨基酸,获取每个待处理氨基酸的近邻氨基酸集合,将每个待处理氨基酸与其近邻氨基酸集合中的氨基酸按照原有的氨基酸顺序组成的序列作为一个局部氨基酸序列,将所有蛋白质分子对应的所有局部氨基酸序列组成的序列作为氨基酸合成序列;
将氨基酸合成序列以及氨基酸序列数据库中的氨基酸序列作为KMP匹配算法的输入,将KMP匹配算法的输入作为目标氨基酸序列。
优选的,所述根据目标氨基酸序列获取模拟氨基酸序列,根据模拟氨基酸序列获取模拟生成的蛋白质分子的方法:
将目标氨基酸序列作为GAN生成对抗网络的输入,将GAN生成对抗网络的输出作为模拟氨基酸序列;
从现有的蛋白质主链结构数据库中获取具备热稳定性的目标蛋白质主链结构,根据模拟氨基酸序列以及目标蛋白质主链结构利用计算机模拟平台得到模拟生成的蛋白质分子。
第二方面,本发明实施例还提供了基于神经网络的蛋白设计系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。
本发明的有益效果是:本发明根据每个蛋白质分子的图数据以及对应的氨基酸序列获取每个氨基酸的相互作用强度,利用聚类算法获取由相互作用强度组成样本数据集的聚类结果,通过构建热稳定连续指数筛选超高热稳定性聚类簇,根据超高热稳定性聚类簇获取具备一定氨基酸顺序的局部氨基酸序列,得到超高热稳定性的氨基酸合成序列以及目标氨基酸序列,利用生成对抗网络获取模拟氨基酸序列,从而利用模拟氨基酸序列设计蛋白质分子。其有益效果在于,以氨基酸分子的相互作用强度为基础,进行固定主链的氨基酸序列设计,利用热稳定性较高的局部氨基酸序列得到氨基酸合成序列,进而进行蛋白设计,在保留蛋白质的热稳定功能的基础上设计氨基酸序列,进而使得设计蛋白质更符合预期效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的基于神经网络的蛋白设计方法的流程示意图;
图2为本发明一个实施例所提供的基于神经网络的蛋白设计方法的具体实施流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的基于神经网络的蛋白设计方法流程图,该方法包括以下步骤:
步骤S001,获取蛋白质分子的图数据及氨基酸序列。
首先,从现有蛋白质数据库筛选具备热稳定性较强的蛋白质,然后随机抽取20个具备较强热稳定性的蛋白质分子,获取每个蛋白质分子的氨基酸序列,同时利用图数据转化获取每个蛋白质分子的图数据,图数据转化为公知技术,不做多余赘述。所述每个蛋白质分子的图数据是由氨基酸代表的节点以及氨基酸之间的化学键代表的边构成,蛋白质分子的图数据一定程度上能够反映氨基酸之间的顺序信息,实施人员可以根据设计需求选择合适的蛋白质分子数目。
至此,得到每个蛋白质分子的图数据以及氨基酸序列。
步骤S002,根据蛋白质分子的图数据及氨基酸序列获取相互作用强度,利用聚类算法获取由相互作用强度组成的样本数据集的聚类结果,根据聚类结果获取热稳定性递增序列。
现有的蛋白设计分为两类,一种是基于模板的设计,另一种是不基于模板的设计。本发明采用基于模板的设计方式,旨在设计出一种具有超高热稳定性蛋白质。本发明的具体实施流程图如图2所示。
目前,在现有的利用MD分子动力学模拟研究蛋白质热稳定性的研究中,最后归因于蛋白质分子内部氨基酸之间形成盐桥以及氨基酸氢键的增加,而氨基酸之间的盐桥相互作用作为蛋白质热稳定性的主要原因。一般情况下,氨基酸之间盐桥相互作用的形成是由于酸性氨基酸残基侧链电离后所带的正电荷与碱性氨基酸残基侧链电离后所带的负电荷之间形成的离子键。
对于每个蛋白质分子的图数据,由于蛋白质分子的图数据一定程度上能够体现氨基酸之间的盐桥相互作用,因为氨基酸分子所含碱性氨基和酸性羧基经过“脱水缩合”与其他氨基酸分子相连,从而形成离子键,所以与氨基酸分子相连的氨基酸数目越多,氨基酸之间的盐桥相互作用能力越强。
具体地,对于每个蛋白质分子的氨基酸序列,以每个氨基酸为每个中心氨基酸,获取每个中心氨基酸在对应蛋白质分子的图数据的目标节点位置,将距目标节点位置的空间距离最近的K个节点所代表的氨基酸组成的集合作为每个中心氨基酸的近邻氨基酸集合,K的经验取值为10。
计算每个蛋白质分子的氨基酸序列中每个氨基酸的相互作用强度:
式中,表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的结构稳定度,K表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的近邻氨基酸集合中元素的数目,/>表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的近邻氨基酸集合第i个氨基酸所代表节点的连接边的数目,/>表示欧氏距离函数,/>表示第x个蛋白质分子的氨基酸序列中第y个氨基酸在图数据中的节点位置,/>表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的近邻氨基酸集合第i个氨基酸在图数据中的节点位置,/>表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的相互作用强度,/>表示以自然常数为底数的指数函数。
第x个蛋白质分子的氨基酸序列中第y个氨基酸的近邻氨基酸集合第i个氨基酸所代表节点的连接边的数目越大,说明氨基酸残基的数目越多,即碱性氨基和酸性羧基的数目越多,结构稳定度越大,则氨基酸的相互作用强度越大。同时,第x个蛋白质分子的氨基酸序列中第y个氨基酸在图数据中的节点位置与其近邻氨基酸集合第i个氨基酸在图数据中的节点位置之间的欧氏距离/>越小,说明氨基酸之间越有可能形成较多的化学键,且氨基酸之间越接近,说明局部的氨基酸结构稳定性越好,则氨基酸的相互作用强度越大。
氨基酸的相互作用强度一定程度上反映热稳定性的高低,氨基酸的相互作用强度越大,即局部氨基酸之间形成的氨基酸序列的热稳定性越高;氨基酸的相互作用强度越小,即局部氨基酸之间形成的氨基酸序列的热稳定性越低。因此,为了设计出具备超高热稳定性蛋白质,根据氨基酸的相互作用强度进行进一步的分析。
进一步地,对于每个蛋白质分子的氨基酸序列,将氨基酸序列中所有氨基酸的相互作用强度组成的数据集合作为样本数据集,利用k-means聚类算法,将样本数据集作为k-means聚类算法的输入,预设分类参数k取经验值为20,度量距离采用欧氏距离,将k-means聚类算法的输出作为样本数据集的聚类结果。
基于上述的分析,对于每个蛋白质分子,得到蛋白质分子的氨基酸序列对应的20个聚类簇。由于氨基酸的相互作用强度表征了局部氨基酸序列的热稳定性,不同的聚类簇一定程度上反映了不同的热稳定性水平。为了得到氨基酸序列中热稳定性较强的局部氨基酸序列,在此根据所得聚类簇进行分析。
具体地,对于每个蛋白质分子的氨基酸序列对应的20个聚类簇,计算每个聚类簇中所有氨基酸的相互作用强度均值,将20个聚类簇的相互作用强度均值按照数值升序的顺序组成的序列作为热稳定性递增序列。
至此,得到每个蛋白质分子的热稳定性递增序列。
步骤S003,根据热稳定性递增序列获取热稳定连续指数,根据热稳定连续指数获取超高热稳定性聚类簇,根据超高热稳定性聚类簇获取氨基酸合成序列,根据氨基酸合成序列获取目标氨基酸序列。
进一步地,计算每个蛋白质分子对应的样本数据集的聚类结果中每个聚类簇的热稳定连续指数:
式中,表示第x个蛋白质分子对应的热稳定性递增序列中第q个元素所表征聚类簇的热稳定连续指数,/>和/>分别表示第x个蛋白质分子对应的热稳定性递增序列中第q个、第(q+1)个元素值,/>表示以自然常数为底数的指数函数。
第x个蛋白质分子对应的热稳定性递增序列中第q个、第(q+1)个元素值之间的差异越大,说明热稳定性递增序列中第q个、第(q+1)个元素值所表征的聚类簇之间的热稳定性平均水平差异越大,同时第x个蛋白质分子对应的热稳定性递增序列中第q个元素值/>越小,说明热稳定性递增序列中第q个元素所表征的聚类簇的热稳定性平均水平越低,即说明热稳定性递增序列中第q个与第(q+1)个元素之间的连续性较差,并且热稳定性递增序列中第q个元素所表征的聚类簇的热稳定性平均水平较低,则聚类簇的热稳定连续指数越小。
进一步地,对于第x个蛋白质分子对应的样本数据集的聚类结果中所有的聚类簇的热稳定连续指数,获取热稳定连续指数的最小值,并获取热稳定连续指数的最小值所对应的聚类簇。热稳定连续指数的最小值所对应的聚类簇一定程度上反映了热稳定性平均水平较差,且连续性较差,能够作为热稳定性的衡量标准。
具体地,对于热稳定连续指数的最小值所对应的聚类簇,将所述聚类簇对应的相互作用强度均值在第x个蛋白质分子的热稳定性递增序列中的位置作为目标位置,将热稳定性递增序列中目标位置之后的每个元素所对应的聚类簇作为每个超高热稳定性聚类簇,即将相互作用强度均值高于热稳定连续指数的最小值所对应的聚类簇的相互作用强度均值的所有聚类簇作为蛋白质分子的超高热稳定性聚类簇。
进一步地,将每个蛋白质分子对应的所有超高热稳定性聚类簇中所有元素对应的氨基酸作为待处理氨基酸,获取每个待处理氨基酸的近邻氨基酸集合,将每个待处理氨基酸与其近邻氨基酸集合中的氨基酸按照原有的氨基酸顺序组成的序列作为每个局部氨基酸序列,所述原有的氨基酸顺序是指每个待处理氨基酸与其近邻氨基酸集合中的所有的氨基酸在蛋白质分子的原始氨基酸序列中顺序,将所有蛋白质分子对应的所有局部氨基酸序列组成的序列作为超高热稳定性的氨基酸合成序列。
根据超高热稳定性的氨基酸合成序列,并且获取现有的氨基酸序列数据库,利用KMP匹配算法,将氨基酸合成序列与氨基酸序列数据库中的氨基酸序列作为KMP匹配算法的输入,将KMP匹配算法的输出作为氨基酸序列数据库中与氨基酸合成序列匹配度最高的氨基酸序列,记为目标氨基酸序列,KMP匹配算法为公知技术,不做多余赘述。
步骤S004,根据目标氨基酸序列获取模拟氨基酸序列,根据模拟氨基酸序列获取模拟生成的预测蛋白质分子。
将目标氨基酸序列作为生成对抗网络GAN的输入,生成对抗网络的损失函数包括鉴别器D的损失函数以及生成器G的损失函数,其中,鉴别器的作用在于鉴别输入到鉴别器内的样本是真实样本还是生成器生成的样本,因此将鉴别器的损失函数设置为二元交叉熵函数;而生成器的作用是为了使得生成样本接近真实样本,因此生成器的损失函数采用均方差损失函数。
将上述鉴别器的损失函数与生成器的损失函数之和作为生成对抗网络的损失函数,其次以Adam算法为优化算法,将生成对抗网络的输出作为模拟氨基酸序列,其中GAN网络为监督学习,因此生成对抗网络的输出,即生成器输出的模拟氨基酸序列需要人为标注,具体的可通过专家根据目标氨基酸序列,人为设定相应的模拟氨基酸序列。
由于氨基酸合成序列具备超高热稳定性,目标氨基酸序列与氨基酸合成序列具有较高的匹配度,则目标氨基酸序列有同样的性质,即超高热稳定性。GAN生成对抗网络输出的模拟氨基酸序列与目标氨基酸较为相似,则模拟氨基酸序列具备较强的热稳定性。
从现有的蛋白质主链结构数据库中获取具备热稳定性的目标蛋白质主链结构,根据模拟氨基酸序列以及目标蛋白质主链结构,通过搭建计算机模拟平台,利用MD分子动力学模拟技术对模拟氨基酸序列与目标蛋白质主链结构进行蛋白质分子模拟,生成蛋白质分子,MD分子动力学模拟技术为公知技术,不做多余赘述。
基于与上述方法相同的发明构思,本发明实施例还提供了基于神经网络的蛋白设计系统,得到模拟氨基酸序列以及目标蛋白质主链结构后,将模拟氨基酸序列以及目标蛋白质主链结构传输至蛋白质分子生成模块,通过搭建计算机模拟平台,利用MD分子动力学模拟技术对模拟氨基酸序列与目标蛋白质主链结构进行蛋白质分子模拟,生成蛋白质分子。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.基于神经网络的蛋白设计方法,其特征在于,该方法包括以下步骤:
获取蛋白质分子的图数据及氨基酸序列;
根据每个蛋白质分子的图数据及氨基酸序列获取每个蛋白质分子的氨基酸序列中每个氨基酸的近邻氨基酸集合;根据每个蛋白质分子的氨基酸序列中每个氨基酸的近邻氨基酸集合获取每个蛋白质分子的氨基酸序列中每个氨基酸的相互作用强度;利用聚类算法获取每个蛋白质分子的氨基酸序列中所有氨基酸的相互作用强度的聚类结果,根据所述聚类结果获取每个蛋白质分子的热稳定性递增序列;
根据每个蛋白质分子的热稳定性递增序列获取每个蛋白质分子对应的所有聚类簇中每个聚类簇的热稳定连续指数;根据每个蛋白质分子对应的所有聚类簇的热稳定连续指数获取每个蛋白质分子的超高热稳定性聚类簇;根据所有蛋白质分子的超高热稳定性聚类簇获取氨基酸合成序列,根据氨基酸合成序列获取目标氨基酸序列;
根据目标氨基酸序列获取模拟氨基酸序列,根据模拟氨基酸序列获取模拟生成的蛋白质分子;
所述根据每个蛋白质分子的氨基酸序列中每个氨基酸的近邻氨基酸集合获取每个蛋白质分子的氨基酸序列中每个氨基酸的相互作用强度的方法为:
对于每个蛋白质分子的氨基酸序列,根据氨基酸序列中每个氨基酸的近邻氨基酸集合获取每个氨基酸的结构稳定度;
对于每个蛋白质分子的氨基酸序列中每个氨基酸,将以自然常数为底数,以氨基酸的结构稳定度为指数的负映射结果与第二预设参数的乘积作为第一求和因子,将所述第一求和因子与第三预设参数的和作为氨基酸的相互作用强度;
所述根据氨基酸序列中每个氨基酸的近邻氨基酸集合获取每个氨基酸的结构稳定度的方法为:
式中,表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的结构稳定度,K表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的近邻氨基酸集合中元素的数目,/>表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的近邻氨基酸集合第i个氨基酸所代表节点的连接边的数目,/>表示欧氏距离函数,/>表示第x个蛋白质分子的氨基酸序列中第y个氨基酸在图数据中的节点位置,/>表示第x个蛋白质分子的氨基酸序列中第y个氨基酸的近邻氨基酸集合第i个氨基酸在图数据中的节点位置;
所述根据每个蛋白质分子的热稳定性递增序列获取每个蛋白质分子对应的所有聚类簇中每个聚类簇的热稳定连续指数的方法为:
式中,表示第x个蛋白质分子对应的热稳定性递增序列中第q个元素所表征聚类簇的热稳定连续指数,/>和/>分别表示第x个蛋白质分子对应的热稳定性递增序列中第q个、第(q+1)个元素值,/>表示以自然常数为底数的指数函数。
2.根据权利要求1所述的基于神经网络的蛋白设计方法,其特征在于,所述根据每个蛋白质分子的图数据及氨基酸序列获取每个蛋白质分子的氨基酸序列中每个氨基酸的近邻氨基酸集合的方法为:
对于每个蛋白质分子的氨基酸序列,将氨基酸序列中每个氨基酸作为每个中心氨基酸,获取每个中心氨基酸在蛋白质分子的图数据中的目标节点位置,将距所述目标节点位置的空间距离最近的第一预设参数个节点所代表的氨基酸组成的集合作为每个中心氨基酸的近邻氨基酸集合。
3.根据权利要求1所述的基于神经网络的蛋白设计方法,其特征在于,所述利用聚类算法获取每个蛋白质分子的氨基酸序列中所有氨基酸的相互作用强度的聚类结果,根据所述聚类结果获取每个蛋白质分子的热稳定性递增序列的方法为:
对于每个蛋白质分子的氨基酸序列,将氨基酸序列中所有的氨基酸的相互作用强度组成的集合作为样本数据集,利用k-means聚类算法获取所述样本数据集的聚类结果;
对于每个蛋白质分子对应的聚类结果中所有聚类簇,计算每个聚类簇内所有氨基酸的相互作用强度均值,将所有聚类簇对应的相互作用强度均值按照数值升序的顺序组成的序列作为蛋白质分子的热稳定性递增序列。
4.根据权利要求1所述的基于神经网络的蛋白设计方法,其特征在于,所述根据每个蛋白质分子对应的所有聚类簇的热稳定连续指数获取每个蛋白质分子的超高热稳定性聚类簇的具体方法为:
对于每个蛋白质分子的对应的聚类结果中所有聚类簇的热稳定连续指数,将所述所有聚类簇的热稳定连续指数中最小值对应的聚类簇作为目标聚类簇,将相互作用强度均值高于目标聚类簇的相互作用强度均值的聚类簇作为蛋白质分子的超高热稳定性聚类簇。
5.根据权利要求1所述的基于神经网络的蛋白设计方法,其特征在于,所述根据所有蛋白质分子的超高热稳定性聚类簇获取氨基酸合成序列,根据氨基酸合成序列获取目标氨基酸序列的方法为:
将每个蛋白质分子对应的所有超高热稳定性聚类簇中所有元素对应的氨基酸作为待处理氨基酸,获取每个待处理氨基酸的近邻氨基酸集合,将每个待处理氨基酸与其近邻氨基酸集合中的氨基酸按照原有的氨基酸顺序组成的序列作为一个局部氨基酸序列,将所有蛋白质分子对应的所有局部氨基酸序列组成的序列作为氨基酸合成序列;
将氨基酸合成序列以及氨基酸序列数据库中的氨基酸序列作为KMP匹配算法的输入,将KMP匹配算法的输入作为目标氨基酸序列。
6.根据权利要求1所述的基于神经网络的蛋白设计方法,其特征在于,所述根据目标氨基酸序列获取模拟氨基酸序列,根据模拟氨基酸序列获取模拟生成的蛋白质分子的方法:
将目标氨基酸序列作为GAN生成对抗网络的输入,将GAN生成对抗网络的输出作为模拟氨基酸序列;
从现有的蛋白质主链结构数据库中获取具备热稳定性的目标蛋白质主链结构,根据模拟氨基酸序列以及目标蛋白质主链结构利用计算机模拟平台得到模拟生成的蛋白质分子。
7.基于神经网络的蛋白设计系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6任意一项方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311658441.6A CN117352043B (zh) | 2023-12-06 | 2023-12-06 | 基于神经网络的蛋白设计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311658441.6A CN117352043B (zh) | 2023-12-06 | 2023-12-06 | 基于神经网络的蛋白设计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117352043A CN117352043A (zh) | 2024-01-05 |
CN117352043B true CN117352043B (zh) | 2024-03-05 |
Family
ID=89356141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311658441.6A Active CN117352043B (zh) | 2023-12-06 | 2023-12-06 | 基于神经网络的蛋白设计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117352043B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002054063A1 (en) * | 2001-01-04 | 2002-07-11 | Yeda Research And Development Co. Ltd. | Database system and method useful for predicting the effect of amino acid substitutions on protein structure and stability |
JP2006304633A (ja) * | 2005-04-26 | 2006-11-09 | Apro Life Science Institute Inc | イムノグロブリン結合タンパク質 |
CN101778940A (zh) * | 2007-06-06 | 2010-07-14 | 丹尼斯科美国公司 | 改进多种蛋白质性质的方法 |
CN111081311A (zh) * | 2019-12-26 | 2020-04-28 | 青岛科技大学 | 基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法 |
CN113412519A (zh) * | 2019-02-11 | 2021-09-17 | 旗舰开拓创新六世公司 | 机器学习引导的多肽分析 |
CN117095754A (zh) * | 2023-10-19 | 2023-11-21 | 江苏正大天创生物工程有限公司 | 一种利用机器学习进行蛋白质分类的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7693664B2 (en) * | 2004-02-23 | 2010-04-06 | Japan Agency For Marine-Earth Science And Technology | Method and computer program product for determining whether or not a test protein has thermostability |
-
2023
- 2023-12-06 CN CN202311658441.6A patent/CN117352043B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002054063A1 (en) * | 2001-01-04 | 2002-07-11 | Yeda Research And Development Co. Ltd. | Database system and method useful for predicting the effect of amino acid substitutions on protein structure and stability |
JP2006304633A (ja) * | 2005-04-26 | 2006-11-09 | Apro Life Science Institute Inc | イムノグロブリン結合タンパク質 |
CN101778940A (zh) * | 2007-06-06 | 2010-07-14 | 丹尼斯科美国公司 | 改进多种蛋白质性质的方法 |
CN113412519A (zh) * | 2019-02-11 | 2021-09-17 | 旗舰开拓创新六世公司 | 机器学习引导的多肽分析 |
CN111081311A (zh) * | 2019-12-26 | 2020-04-28 | 青岛科技大学 | 基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法 |
CN117095754A (zh) * | 2023-10-19 | 2023-11-21 | 江苏正大天创生物工程有限公司 | 一种利用机器学习进行蛋白质分类的方法 |
Non-Patent Citations (1)
Title |
---|
人工智能蛋白质结构设计算法研究进展;陈志航 等;《合成生物学》;第04卷(第03期);第464-482页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117352043A (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102413029B (zh) | 基于分解的局部搜索多目标复杂动态网络社区划分方法 | |
CN111210871A (zh) | 基于深度森林的蛋白质-蛋白质相互作用预测方法 | |
CN111429977B (zh) | 一种新的基于图结构注意力的分子相似性搜索算法 | |
Chatterjee et al. | Hybrid non-dominated sorting genetic algorithm: II-neural network approach | |
CN110598902A (zh) | 一种基于支持向量机与knn相结合的水质预测方法 | |
CN102680646A (zh) | 一种不饱和聚酯树脂反应釜中反应物浓度软测量方法 | |
CN114416707A (zh) | 工业时序数据的自动化特征工程方法和装置 | |
CN117352043B (zh) | 基于神经网络的蛋白设计方法及系统 | |
CN117668622A (zh) | 设备故障诊断模型的训练方法、故障诊断方法及装置 | |
CN115860056B (zh) | 一种用于混合气体浓度预测的传感器阵列神经网络方法 | |
Guo | The microscopic visual forms in architectural art design following deep learning | |
CN111310974A (zh) | 一种基于ga-elm的短期需水预测方法 | |
CN116054144A (zh) | 分布式光伏接入的配电网重构方法、系统及存储介质 | |
CN115620046A (zh) | 一种基于半监督性能预测器的多目标神经架构搜索方法 | |
CN112488343B (zh) | 一种基于超启发式算法的智慧城市智能感知终端选址方法 | |
CN115271221A (zh) | 一种城市扩展预测方法、装置、介质及设备 | |
KR102166070B1 (ko) | 유전자 가위 효과를 분석하는 방법 및 장치 | |
CN114972913A (zh) | 结合深度学习与xrf的岩屑识别方法、系统、介质及设备 | |
Hu et al. | A classification surrogate model based evolutionary algorithm for neural network structure learning | |
CN111353707A (zh) | 基于数据包络分析和bp神经网络的科技投入绩效评价方法 | |
CN112465253A (zh) | 一种城市路网中的链路预测方法及装置 | |
Wang | A new variable selection method for soft sensor based on deep learning | |
CN113034062B (zh) | 灾害评估方法及系统 | |
Chen | Brain Tumor Prediction with LSTM Method | |
Li et al. | Self-Supervised Graph Information Bottleneck for Multi-View Molecular Embedding Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |