CN116978450A - 蛋白质数据的处理方法、装置、电子设备及存储介质 - Google Patents
蛋白质数据的处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116978450A CN116978450A CN202310548749.9A CN202310548749A CN116978450A CN 116978450 A CN116978450 A CN 116978450A CN 202310548749 A CN202310548749 A CN 202310548749A CN 116978450 A CN116978450 A CN 116978450A
- Authority
- CN
- China
- Prior art keywords
- protein
- amino acid
- feature
- node
- rotation matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 513
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 513
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000003672 processing method Methods 0.000 title description 10
- 238000000034 method Methods 0.000 claims abstract description 103
- 238000003032 molecular docking Methods 0.000 claims abstract description 100
- 238000012545 processing Methods 0.000 claims abstract description 46
- 150000001413 amino acids Chemical class 0.000 claims description 205
- 239000013598 vector Substances 0.000 claims description 167
- 239000011159 matrix material Substances 0.000 claims description 129
- 238000013519 translation Methods 0.000 claims description 122
- 125000000539 amino acid group Chemical group 0.000 claims description 62
- 238000013528 artificial neural network Methods 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 51
- 238000009826 distribution Methods 0.000 claims description 39
- 230000003993 interaction Effects 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 11
- 238000012546 transfer Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 230000000379 polymerizing effect Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 230000003094 perturbing effect Effects 0.000 claims description 4
- 230000014616 translation Effects 0.000 description 97
- 125000004429 atom Chemical group 0.000 description 93
- 239000003446 ligand Substances 0.000 description 56
- 230000009467 reduction Effects 0.000 description 54
- 102000005962 receptors Human genes 0.000 description 43
- 108020003175 receptors Proteins 0.000 description 43
- 238000009792 diffusion process Methods 0.000 description 41
- 238000005516 engineering process Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 18
- 210000001503 joint Anatomy 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 9
- 150000003384 small molecules Chemical class 0.000 description 7
- 238000012512 characterization method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000006916 protein interaction Effects 0.000 description 5
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 4
- 102100029212 Putative tetratricopeptide repeat protein 41 Human genes 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000004091 panning Methods 0.000 description 4
- 238000011946 reduction process Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 125000003277 amino group Chemical group 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 229910052799 carbon Inorganic materials 0.000 description 3
- 125000004432 carbon atom Chemical group C* 0.000 description 3
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 3
- 125000004433 nitrogen atom Chemical group N* 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 108010042653 IgA receptor Proteins 0.000 description 2
- 102100034014 Prolyl 3-hydroxylase 3 Human genes 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- 230000002209 hydrophobic effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000178 monomer Substances 0.000 description 2
- 229910052757 nitrogen Inorganic materials 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- LJROKJGQSPMTKB-UHFFFAOYSA-N 4-[(4-hydroxyphenyl)-pyridin-2-ylmethyl]phenol Chemical compound C1=CC(O)=CC=C1C(C=1N=CC=CC=1)C1=CC=C(O)C=C1 LJROKJGQSPMTKB-UHFFFAOYSA-N 0.000 description 1
- 101710192597 Protein map Proteins 0.000 description 1
- 230000002378 acidificating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000007877 drug screening Methods 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- QJGQUHMNIGDVPM-UHFFFAOYSA-N nitrogen group Chemical group [N] QJGQUHMNIGDVPM-UHFFFAOYSA-N 0.000 description 1
- 150000002894 organic compounds Chemical class 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Crystallography & Structural Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种蛋白质数据的处理方法、装置、电子设备及存储介质;方法包括:获取第一蛋白质的第一图数据和第二蛋白质的第二图数据;对第一图数据和第二图数据分别进行特征提取,得到第一蛋白质的第一结构特征和第二蛋白质的第二结构特征;基于第一结构特征与第二结构特征,预测第一蛋白质与第二蛋白质组合形成的初始化的蛋白质复合体;对初始化的蛋白质复合体中的第二蛋白质的第三图数据进行迭代扰动,得到第四图数据;基于第四图数据调整初始化的蛋白质复合体中的第二蛋白质的位置,得到蛋白质对接结果。通过本申请,能够提升蛋白质对接结果的准确性。
Description
技术领域
本申请涉及人工智能技术,尤其涉及一种蛋白质数据的处理方法、装置、电子设备及存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
相关技术通过打分的方式评价预测得到的蛋白质对接结果,需要对配体和受体之间的相对位置关系进行大量采样并打分,计算开销大。相关技术中,蛋白质对接结果的预测效果的好坏,依赖于是否可以提供额外的约束条件(例如配体和受体上哪些氨基酸残基是结合位点,或者配体和受体之间的部分距离约束),影响了蛋白质对接的准确性、计算开销。
相关技术中,暂无较好的方式提升蛋白质对接结果的准确性。
发明内容
本申请实施例提供一种蛋白质数据的处理方法、装置、电子设备及计算机可读存储介质、计算机程序产品,能够提升蛋白质对接结果的准确性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种蛋白质数据的处理方法,所述方法包括:
获取第一蛋白质的第一图数据和第二蛋白质的第二图数据;
对所述第一图数据和所述第二图数据分别进行特征提取,得到所述第一蛋白质的第一结构特征和所述第二蛋白质的第二结构特征;
基于所述第一结构特征与所述第二结构特征,预测所述第一蛋白质与所述第二蛋白质组合形成的初始化的蛋白质复合体;
对所述初始化的蛋白质复合体中的第二蛋白质的第三图数据进行迭代扰动,得到第四图数据;
基于所述第四图数据调整所述初始化的蛋白质复合体中的所述第二蛋白质的位置,得到蛋白质对接结果。
本申请实施例提供一种蛋白质数据的处理装置,包括:
数据获取模块,配置为获取第一蛋白质的第一图数据和第二蛋白质的第二图数据;
所述数据获取模块,配置为对所述第一图数据和所述第二图数据分别进行特征提取,得到所述第一蛋白质的第一结构特征和所述第二蛋白质的第二结构特征;
界面预测模块,配置为基于所述第一结构特征与所述第二结构特征,预测所述第一蛋白质与所述第二蛋白质组合形成的初始化的蛋白质复合体;
扰动模块,配置为对所述初始化的蛋白质复合体中的第二蛋白质的第三图数据进行迭代扰动,得到第四图数据;
所述扰动模块,配置为基于所述第四图数据,调整所述初始化的蛋白质复合体中的所述第二蛋白质的位置,得到蛋白质对接结果。
本申请实施例提供一种电子设备,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的蛋白质数据的处理方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于被处理器执行时,实现本申请实施例提供的蛋白质数据的处理方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,述计算机程序或计算机可执行指令被处理器执行时,实现本申请实施例提供的蛋白质数据的处理方法。
本申请实施例具有以下有益效果:
基于蛋白质的结构特征预测结合面上的氨基酸残基,构建初始化的蛋白质复合体,并基于初始化的蛋白质复合体进行迭代扰动,对初始化的蛋白质复合体进行调整,提升了获取蛋白质对接结果的准确性。相较于相关技术的通过打分确定蛋白质复合体结构的方案,将蛋白质对接由分类问题转换为生成问题,避免了对蛋白质复合体复杂的三维结构中的结合位点进行打分,节约了获取蛋白质对接结果所需的计算资源。本申请实施例通过对初始化的蛋白质复合体进行迭代扰动,通过优化蛋白质复合体的结构的方式生成蛋白质对接结果,相较于相关技术蛋白质对接方法,在保证预测精度相当的同时,无需执行分类,节约了计算开销,并提升了获取蛋白质对接结果的求解速度。
附图说明
图1是本申请实施例提供的蛋白质数据的处理方法的应用模式示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3A至图3E是本申请实施例提供的蛋白质数据的处理方法的流程示意图;
图4A是本申请实施例提供的降噪扩散概率模型的原理示意图;
图4B是本申请实施例提供的蛋白质分子迭代的示意图;
图5是本申请实施例提供的降噪扩散概率模型的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
需要指出,本申请书中相关数据(例如:蛋白质的图数据)收集处理在实例应用时应该严格根据相关国家法律法规的要求,获取个人信息主体的知情同意或单独同意,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)卷积神经网络(Convolutional Neural Networks,CNN):是一类包含卷积计算且具有深度结构的前馈神经网络(Feed forward Neural Networks,FNN),是深度学习(Deep Learning)的代表算法之一。卷积神经网络具有表征学习(RepresentationLearning)能力,能够按其阶层结构对输入图像进行平移不变分类(Shift-invariantClassification)。
2)图神经网络(Graph Neural Network,GNN):一种基于图的神经网络,以下简称GNN,它旨在学习复杂网络结构中的特征,并用于解决图分析任务。GNN的主要思想是通过将存储在图中的信息和特征映射到神经网络来构建模型。GNN可以用于图中的节点分类、边分类以及图分类等任务。
3)蛋白质:一种生物大分子,蛋白质的基本组成单元是20种氨基酸,每个氨基酸具有相同的主链结构(N-CA-C-O)和不同的侧链结构(R基团),对应于不同的氨基酸类型。
4)蛋白质相互作用界面:即蛋白质之间存在相互作用的表面区域。蛋白质相互作用是指蛋白质在特定条件下形成的相互作用,相互作用的类型包括:疏水相互作用、氢键相互作用、电荷相互作用和范德华力相互作用等。蛋白质相互作用界面可以通过蛋白质之间存在相互作用的氨基酸对表征。例如:蛋白质A和蛋白质B之间存在相互作用界面,通过蛋白质A与蛋白质B之间存在相互作用的氨基酸对的位置所在的区域表征相互作用界面对应的区域。
5)氨基酸残基:指不完整的氨基酸,它是一个分子的一部分,而不是一个分子。一个完整的氨基酸包括一个羧基(—COOH),一个氨基(—NH2),一个H,一个R基,完整的氨基酸缺少任何一个部分则成为氨基酸残基。
6)蛋白质对接:在给定两个蛋白质三维结构(分别称为配体ligand和受体receptor)的情况下,预测其结合后的蛋白质复合体三维结构的问题。
7)降噪扩散概率模型(Denoising Diffusion Probabilistic Model,DDPM):一种启发于物理中的扩散过程(Diffusion Process)的生成式模型,在模型训练过程中,对原始数据叠加随机噪声,让模型去预测此处加入的随机噪声(或者去除噪声后的原始数据);在模型推理过程中,从先验数据分布中随机采样,再通过一定轮次的迭代操作,基于模型预测对数据进行修正,最终达到生成新数据(且服从原始数据分布)的目的。
8)消息传递神经网络(Message Passing Neural Network,MPNN):对图数据中节点的数据相互传递的神经网络框架,能够应用于化学预测任务的模型可以直接从分子图中学习到分子的特征,并且不受到图同构的影响。
9)光波长度和分子直径的常用计量单位。
相关技术的蛋白质对接方法,计算开销大(需要对配体和受体之间的相对位置关系进行大量采样并打分),同时其预测效果好坏,依赖于是否可以提供额外的约束条件(例如配体和受体上哪些氨基酸残基是结合位点,或者配体和受体之间的部分距离约束)。基于深度图神经网络模型的蛋白质对接方法,其预测速度相比于传统方法有2-3个数量级的提升,但是预测精度还达不到传统方法的水平。
本申请实施例提供一种蛋白质数据的处理方法、蛋白质数据的处理装置、电子设备和计算机可读存储介质及计算机程序产品,能够提升蛋白质对接结果的准确性。
下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)、车载终端、虚拟现实(Virtual Reality,VR)设备、增强现实(Augmented Reality,AR)设备等各种类型的用户终端),也可以实施为服务器。下面,将说明设备实施为终端设备或服务器时示例性应用。
参考图1,图1是本申请实施例提供的蛋白质数据的处理方法的应用模式示意图;示例的,图1中涉及服务器200、网络300及终端设备400、数据库500。终端设备400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
在一些实施例中,终端设备400可以是用户所使用的终端设备,用户可以是技术人员,数据库500可以是存储了大量的蛋白质的相关信息的数据库。
示例的,技术人员通过终端设备400发送对接指令,对接指令携带待对接的蛋白质的标识,服务器200基于蛋白质的标识从数据库500中提取到的蛋白质的图数据,并调用本申请实施例提供的蛋白质数据的处理方法生成蛋白质的对接结果的相关数据,并将蛋白质的对接结果发送至终端设备400,以使技术人员获取到的蛋白质的对接结果。
在一些实施例中,本申请实施例的蛋白质数据的处理方法还可以应用在以下应用场景中:药物研发、新蛋白质生成。技术人员可以调用本申请实施例提供的蛋白质数据的处理方法,获取蛋白质对接产生的蛋白质复合体进行评估,以研发新的药物或者新的蛋白质。
本申请实施例可以通过区块链技术实现,可以将本申请实施例的蛋白质对接结果上传到区块链中存储,通过共识算法保证蛋白质对接结果的可靠性。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
本申请实施例可以通过数据库技术实现,数据库(Database),简而言之可视为电子化的文件柜存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
数据库管理系统(Database Management System,DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible Markup Language,即可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如结构化查询语言(SQL,Structured Query Language)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
本申请实施例,还可以通过云技术实现,云技术(Cloud Technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,将来每个物品都有可能存在自己的哈希编码识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,服务器200可以实施为多个服务器,例如:训练服务器、蛋白质对接服务器,训练服务器、蛋白质对接服务器可以集成为一个独立的物理服务器。
在一些实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。电子设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
参见图2,图2是本申请实施例提供的电子设备的结构示意图,图2所示的电子设备可以是图1的服务器200,服务器200包括:至少一个处理器410、存储器450、至少一个网络接口420。服务器200的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器450中的蛋白质数据的处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:数据获取模块4551、界面预测模块4552、扰动模块4553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
将结合本申请实施例提供的电子设备的示例性应用和实施,说明本申请实施例提供的蛋白质数据的处理方法。
下面,说明本申请实施例提供的蛋白质数据的处理方法,如前,实现本申请实施例的蛋白质数据的处理方法的电子设备可以是终端设备、服务器,又或者是二者的结合。因此下文中不再重复说明各个步骤的执行主体。
需要说明的是,下文中的图像处理的示例中,是以对象为脸部为例说明的,本领域技术人员根据对下文的理解,可以将本申请实施例提供的蛋白质数据的处理方法应用于包括其他类型对象的图像集合的处理。
参见图3A,图3A是本申请实施例提供的蛋白质数据的处理方法的流程示意图,将结合图3A示出的步骤进行说明。
在步骤301中,获取第一蛋白质的第一图数据和第二蛋白质的第二图数据。
这里,第二蛋白质是配体蛋白质,第一蛋白质是受体蛋白质。
示例的,将蛋白质中的每个原子和氨基酸均作为节点,连接节点可以构成蛋白质的结构图,蛋白质的结构图可以通过相应的模拟软件生成,蛋白质的结构图的数据也即蛋白质的图数据,图数据包括蛋白质中每个节点的类型、位置、节点与节点之间的边以及节点之间的相对距离。
在步骤302中,对第一图数据和第二图数据分别进行特征提取,得到第一蛋白质的第一结构特征和第二蛋白质的第二结构特征。
示例的,结构特征包括蛋白质的原子特征和氨基酸特征。
在一些实施例中,第一蛋白质包括多个第一原子和多个第一氨基酸,第二蛋白质包括多个第二原子和多个第二氨基酸;步骤302可以通过以下方式实现:分别对第一图数据中的每个第一原子和每个第一氨基酸进行特征提取,得到每个第一原子的第一原子特征、以及每个第一氨基酸的第一氨基酸特征,并将第一原子特征和第一氨基酸特征组合为第一结构特征;分别对第二图数据中的每个第二原子和每个第二氨基酸进行特征提取,得到每个第二原子的第二原子特征、以及每个第二氨基酸的第二氨基酸特征,并将第二原子特征和第二氨基酸特征组合为第二结构特征。
示例的,针对图数据的特征提取可以通过图神经网络实现,原子特征包括:原子类型和原子的三维坐标。其中,原子类型是静态特征,原子的三维坐标是与结构相关的动态特征。氨基酸特征包括:氨基酸类型和氨基酸的三维坐标。氨基酸类型是静态特征,氨基酸的三维坐标是与结构相关的动态特征,例如:氨基酸残基的氮基碳原子坐标。
在步骤303中,基于第一结构特征与第二结构特征,预测第一蛋白质与第二蛋白质组合形成的初始化的蛋白质复合体。
示例的,第一蛋白质与第二蛋白质通过表面的氨基酸残基发生相互作用而形成蛋白质复合体,预测蛋白质复合体可以通过以下方式实现:预测第一蛋白质与第二蛋白质之间的结合面上的每个氨基酸残基,基于结合面上的每个氨基酸残基,将第一蛋白质、第二蛋白质组合为初始化的蛋白质复合体。
在一些实施例中,参考图3B,图3B是本申请实施例提供的蛋白质数据的处理方法的流程示意图;图3A中的步骤303可以通过图3B中的步骤3031和步骤3032实现,以下具体说明。
在步骤3031中,基于第一结构特征与第二结构特征,预测第一蛋白质与第二蛋白质之间的结合面上的每个氨基酸残基对。
这里,氨基酸残基对包括:第一蛋白质的第一氨基酸残基和第二蛋白质的第二氨基酸残基。
示例的,结合面也即蛋白质之间的相互作用界面,相互作用界面是蛋白质之间存在相互作用的表面区域,结合面上的每个氨基酸残基对均包括分别来自不同蛋白质的两个氨基酸残基,氨基酸残基对中的两个氨基酸残基发生相互作用。相互作用的类型包括:疏水相互作用、氢键相互作用、电荷相互作用和范德华力相互作用等。
在一些实施例中,参考图3C,图3C是本申请实施例提供的蛋白质数据的处理方法的流程示意图;图3B中的步骤3031可以通过图3C中的步骤30311和步骤30313实现,以下具体说明。
在步骤30311中,将第一蛋白质中的每个第一氨基酸、以及每个第一原子分别作为节点,将第二蛋白质中的每个第二氨基酸、以及每个第二原子分别作为节点,将第一氨基酸特征、第二氨基酸特征、第一原子特征以及第二原子特征作为节点特征。
这里,第一氨基酸包括第一氨基酸残基,第二氨基酸包括第二氨基酸残基。
示例的,本申请实施例中的第一氨基酸、第二氨基酸均为氨基酸,第一原子和第二原子均为原子,命名为“第一”、“第二”是为了区别来自不同的蛋白质的氨基酸、原子。
在步骤30312中,针对第一蛋白质和第二蛋白质中的每个节点的节点特征进行特征更新,得到更新后的节点特征。
示例的,特征更新的类型包括:原子之间、氨基酸之间、原子与氨基酸之间。特征更新的方向包括:基于原子的原子特征对其他原子的原子特征进行更新,基于原子的原子特征对氨基酸的氨基酸特征进行更新,基于氨基酸特征对其他氨基酸的氨基酸特征进行更新,基于氨基酸特征对原子的原子特征进行更新。
为便于理解,以下对节点特征之间的特征更新进行解释说明。
示例的,节点的类型包括:原子和氨基酸,参考图3E,图3E是本申请实施例提供的蛋白质数据的处理方法的流程示意图;步骤30312中针对每个节点的特征更新可以通过图3E中的步骤3121至步骤3123实现,以下具体说明。
在步骤3121中,将节点的节点特征分别与节点的邻居特征进行聚合,得到节点和每个其他节点之间的子特征更新向量。
这里,邻居特征包括:节点和其他节点之间的边特征以及每个其他节点的节点特征。
作为聚合的示例,获取节点的节点特征分别与节点的邻居特征的总和,将每个总和作为子特征更新向量;或者,对节点的节点特征分别与节点的邻居特征分别进行加权求和,将每个加权求和的结果作为子特征更新向量。
示例的,将当前被更新特征的节点作为当前节点,其他节点是蛋白质复合体中除了当前节点之外的节点,每个其他节点的类型是相同的。例如:当前节点是原子,其他节点可以是与该原子存在连接关系的任意一个原子。或者,其他节点可以是与该原子存在连接关系的任意一个氨基酸。
在步骤3122中,将每个子特征更新向量的平均值作为节点的特征更新向量。
示例的,步骤3121和步骤3122可以表征为以下公式(12.1):
假设,针对节点特征进行了多个层次的特征更新,每次特征更新的输出是下次特征更新的输入,在第l层次的特征更新,输入的任意一个节点的节点特征表征为 是第i个节点在第l层输入的未更新的节点特征,Ni是节点i对应的相邻节点的数量,节点j是与节点i相邻的任意一个节点,gi,j是连接节点i和节点j的边特征,邻居特征包括边特征gi,j和节点j的节点特征,消息传递函数Message是聚合节点的节点特征/>与节点连接的其他邻居节点/>以及相应的边特征gi,j生成消息向量(特征更新向量)的函数。
消息传递函数将节点的节点特征与节点连接的其他邻居节点/>以及相应的边特征gi,j聚合的方式包括:获取节点特征/>与节点连接的其他邻居节点/>以及相应的边特征gi,j的总和(sum),将总和作为子特征更新向量;或者对节点特征/>与节点连接的其他邻居节点/>以及相应的边特征gi,j进行加权求和,得到子特征更新向量。
在步骤3123中,将特征更新向量和节点的节点特征的三维坐标融合,并以融合得到的新三维坐标替换节点特征中的三维坐标,将经过替换的节点特征作为更新后的节点特征。
示例的,将特征更新向量和节点的节点特征的三维坐标融合可以通过以下方式实现:将节点特征中的三维坐标与特征更新向量相加,得到更新后的三维坐标,以更新后的三维坐标替换原始的节点特征中的三维坐标,得到更新后的节点特征。或者,将节点特征中的三维坐标与特征更新向量加权求和,得到更新后的三维坐标,以更新后的三维坐标替换原始的节点特征中的三维坐标,将经过替换的节点特征作为更新后的节点特征。
步骤3123可以表征为以下公式(12.2):
其中,是第i个节点在第l层输出的特征表达,也即更新后的节点特征,消息传递函数Message可以用于对特征信息进行聚合,更新函数Update是基于当前节点特征/>和特征更新向量/>对节点特征进行更新的函数,更新方式可以是加权求和。
在一些实施例中,可以通过以下顺序对节点特征进行更新:对每个原子特征进行特征更新,得到更新后的原子特征;基于每个更新后的原子特征,对每个原子所属的氨基酸的氨基酸特征进行特征更新,得到更新后的氨基酸特征;对每个更新后的氨基酸特征之间进行特征更新,得到二次更新后的氨基酸特征;基于每个二次更新后的氨基酸特征,对每个氨基酸所包括的原子的更新后原子特征进行特征更新,得到二次更新后的原子特征。上文中的公式(12.1)和公式(12.2)适用于任意类型的节点特征的更新。
在一些实施例中,基于每个更新后的原子特征,对每个原子所属的氨基酸的氨基酸特征进行特征更新,得到更新后的氨基酸特征,可以通过以下方式实现:针对每个原子所属的氨基酸执行以下处理:将氨基酸的氨基酸特征分别与氨基酸所包括的每个原子的更新后的原子特征进行聚合,得到氨基酸和氨基酸所包括的每个原子之间的子特征更新向量;将每个子特征更新向量的平均值作为氨基酸的特征更新向量;将特征更新向量和氨基酸的氨基酸特征的三维坐标融合,并以融合得到的新三维坐标替换氨基酸特征中的三维坐标,将经过替换的氨基酸特征作为氨基酸的更新后的氨基酸特征。
假设当前被执行特征更新的氨基酸为氨基酸i,氨基酸i包括N个原子,则将氨基酸i分别与N个原子对应的更新后的原子特征进行加权求和,得到氨基酸i与所包括的N个原子中每个原子之间的子特征更新向量,每个子特征更新向量的平均值作为氨基酸i的特征更新向量,并将氨基酸i的氨基酸特征中的三维坐标与特征更新向量进行相加(或者进行加权求和),将融合得到的三维坐标替换氨基酸i的氨基酸特征中的原始三维坐标,将经过替换的氨基酸特征作为更新后的氨基酸特征。
在一些实施例中,基于每个二次更新后的氨基酸特征,对每个氨基酸所包括的原子的更新后原子特征进行特征更新,得到二次更新后的原子特征,可以通过以下方式实现:针对每个氨基酸所包括的每个原子的执行以下处理:将原子的更新后原子特征与原子所属的氨基酸的二次更新后的氨基酸特征进行聚合,得到原子与原子所属的氨基酸之间的特征更新向量;将特征更新向量和原子的更新后原子特征的三维坐标融合,并以融合得到的新三维坐标替换更新后原子特征中的三维坐标,将经过替换的更新后原子特征作为原子的二次更新后的原子特征。
假设当前被执行特征更新的原子为原子i,氨基酸j与氨基酸k之间通过原子i连接,则原子i属于氨基酸j和氨基酸k,将原子i的更新后原子特征与氨基酸j的二次更新后的原子特征加权求和,得到子特征更新向量j,将原子i的更新后原子特征与氨基酸k的二次更新后的原子特征加权求和,得到子特征更新向量k,将两个子特征更新向量的平均值作为原子i的特征更新向量;将特征更新向量和原子i的更新后原子特征的三维坐标融合,以融合得到的新三维坐标替换更新后原子特征中的原始三维坐标,并将替换后的更新后原子特征作为原子i的二次更新后的原子特征。
再例如:原子i仅被氨基酸m所包含,将原子i的更新后原子特征与氨基酸m的二次更新后的原子特征加权求和,得到特征更新向量,将特征更新向量和原子i的更新后原子特征的三维坐标融合,以融合得到的新三维坐标替换更新后原子特征中的原始三维坐标,并将替换后的更新后原子特征作为原子i的二次更新后的原子特征。
继续参考图3C,在步骤30313中,将更新后的节点特征满足相互作用条件的第一氨基酸和第二氨基酸,作为第一蛋白质与第二蛋白质之间的结合面上的氨基酸残基对。
示例的,节点特征包括节点位置,相互作用条件包括:第一氨基酸和第二氨基酸之间的相对距离小于距离阈值。距离阈值可以根据实际需求进行设置,例如:
在一些实施例中,基于第一氨基酸和第二氨基酸分别对应的节点特征,确定氨基酸之间的复合物可及表面积、单体可及表面积,响应于任意一个氨基酸的单体可及表面积与复合物可及表面积之间的差值大于面积阈值,确定第一氨基酸和第二氨基酸之间的关系为存在相互作用。面积阈值可以根据实际需求进行设置,例如:
继续参考图3B,在步骤3032中,以结合面上的每个氨基酸残基对为结合位点,将第一蛋白质和第二蛋白质组合为初始化的蛋白质复合体。
示例的,维持第一蛋白质与第二蛋白质的三维结构,将第一蛋白质与第二蛋白质的结合面上的每个氨基酸残基分别结合,得到初始化的蛋白质复合体。
本申请实施例中,通过对残基原子层次图结构进行多个层次的特征更新,预测每个蛋白质中哪些氨基酸残基是位于配体受体蛋白质复合体的结合面,将蛋白质对接问题建模为一个生成式问题,进而基于初始化的蛋白质复合体进行蛋白质对接,能够提升蛋白质对接的准确性。
继续参考图3A,在步骤304中,对初始化的蛋白质复合体中的第二蛋白质的第三图数据进行迭代扰动,得到第四图数据。
示例的,上文中步骤303预测蛋白质复合体的过程中对蛋白质的节点特征进行了更新,从蛋白质复合体的图数据中提取第二蛋白质的第三图数据,迭代扰动可以是多次随机的扰动,并得到扰动后的第四图数据。
此处“第三图数据”、“第四图数据”以及上文的“第二图数据”用于区分不同的处理阶段的图数据。第二图数据是未执行对接时的第二蛋白质的图数据,第三图数据是初始化的蛋白质复合体中的第二蛋白质的图数据,也即,将第二蛋白质和第一蛋白质结合为复合体后,第二蛋白质的第二图数据转换为第三图数据,第三图数据经过扰动,得到第四图数据。
为便于理解,以下对本申请实施例中迭代扰动所应用的降噪扩散概率原理进行解释说明,参考图4A,图4A是本申请实施例提供的降噪扩散概率模型的原理示意图;以图像数据为例进行说明,假设已有数据X0服从某个未知的概率分布q(X0)。在降噪扩散概率模型中,对于已有数据X0,基于一个预设的噪声方案(noise schedule),在不同时间跨度上加入不同强度的随机噪声中,从而保证在t=T即时间跨度最大时,加入随机噪声后的数据与从先验分布q(XT)(高斯噪声分布,本申请实施例中是任意初始化配体蛋白质相对于受体蛋白质的位置关系)中采样得到的数据不存在分布上的差异,通过对初始化的位置关系进行迭代得到调整后的配体受体位置关系,得到对接结果,迭代前后蛋白质分子对应的特征不存在分布上的差异。其中,降噪扩散概率模型的处理包括:扩散过程(前向过程)和降噪过程(逆向过程),图4A中Xt至Xt-1是降噪过程,Xt-1至Xt是扩散过程,图像0至图像t-1、图像T逐渐模糊。
示例的,在时刻t,加入随机噪声后的数据定义如下公式(1):
其中,X0是原始数据,Xt是加入了随机噪声后的数据,ε是服从于标准高斯分布的随机噪声,是基于预测的噪声方案βt计算得到的用于平衡真实信号X0和噪声信号ε的加权系数,其具体定义为以下公式(2):
β1:T=LinSpace(0.0001,0.0200,T),αt=1-βt,
其中,LinSpace表示在0.0001到0.0200范围内进行插值。加权系数是以下参数的乘积:α1至αt,也即,1与每个预测的噪声方案βt之间的差值。
在得到加入噪声后的数据Xt后,基于降噪扩散概率模型降噪扩散概率模型原理将初始化的消息传递神经网络训练为了一个降噪模型,用于对数据Xt中的随机噪声进行估计,也即,将加入噪声后的数据Xt输入降噪模型,降噪模型输出无噪声数据X0、随机噪声ε。
模型训练时的损失函数为公式(3):
公式(3)的含义也即,最小化模型所估计的随机噪声 与真实使用的随机噪声ε之间的差异。此处的损失函数期望是关于时间t、无噪声数据X0和随机噪声ε的,即对于每个无噪声数据X0,需要从所有的可能的时刻(从t=1到t=T)上随机选取一个,再叠加一个随机生成的噪声信号ε,作为输入数据提供给降噪模型。
基于上述的损失函数,对降噪模型进行训练之后,就可以基于该模型来生成新数据,基于降噪模型生成新数据的流程表征为以下内容:
1:XT~N(0,I)
2:for t=T,…,1do
3:z~N(0,I)if t>1,else z=0
4:
5:end for
6:return X0
其中,第1步中,从先验分布(此处为标准高斯分布)中采样得到一个初始数据Xt,第2步执行进行T轮迭代,第3至6步对应迭代过程,在第3步中,每轮迭代中,引入一个额外的随机信号z,使得生成过程具有一定的随机性;第4步中,使用降噪模型对Xt进行一次更新,得到Xt-1,具体可以表征为以下公式(4):
/>
在第5和6步中,当t=1时,表征数据更新完毕,得到最终的X0并输出。
示例的,基于上述降噪扩散概率模型的原理,可以将蛋白质对接问题转换为生成式问题,参考图3D,图3D是本申请实施例提供的蛋白质数据的处理方法的流程示意图;图3A中的步骤304可以通过图3D中的步骤3041至步骤3043实现,以下具体说明。
在步骤3041中,迭代执行以下处理:从针对旋转矩阵预配置的第一噪声随机分布中采用无放回采样方式提取第一噪声参数,并基于第一噪声参数更新当前旋转矩阵,得到当前迭代后的旋转矩阵;从针对平移向量预配置的第二噪声随机分布中采用无放回采样方式提取第二噪声参数,并基于第二噪声参数更新当前平移向量,得到当前迭代后的平移向量;
这里,在第一次迭代中,当前旋转矩阵为初始旋转矩阵,初始旋转矩阵是从初始化的蛋白质复合体中的第二蛋白质的第三图数据中提取的,当前平移向量为初始平移向量,初始平移向量是从初始化的蛋白质复合体中的第二蛋白质的第三图数据中提取的。
示例的,可以将第二蛋白质(配体蛋白质)的第三图数据表示为三元组的形式,参考以下公式(5):
其中,XL (0)为原始的第二蛋白质的三维结构(L表示ligand即配体,0表示t=0,即未加入随机扰动)的位置,为第二蛋白质中各个原子以第二蛋白质的质心为参考的相对位置,RL (0)为初始旋转矩阵,zL (0)为初始平移向量。
其中,旋转矩阵和平移向量的具体定义如下公式(6):
其中,CoM表示根据所有原子的三维坐标计算蛋白质的质心三维坐标的操作。将初始旋转矩阵RL (0)作为当前旋转矩阵,初始平移向量zL (0)作为当前平移向量。
这里,在第二次迭代以及后续迭代中,当前旋转矩阵是前一次的迭代得到的当前迭代后的旋转矩阵,当前平移向量是前一次的迭代得到的当前迭代后的平移向量。
在一些实施例中,基于第一噪声参数更新当前旋转矩阵,得到当前迭代后的旋转矩阵可以通过以下方式实现:将第一噪声参数作为当前旋转矩阵的权重值,对将当前旋转矩阵与预配置的噪声旋转矩阵进行加权求和,得到当前迭代后的旋转矩阵。
示例的,第一噪声随机分布是针对旋转矩阵配置的噪声参数的取值范围,第一噪声参数是用于当前旋转矩阵和噪声旋转矩阵的加权系数,噪声旋转矩阵可以从预配置的噪声集合中获取。在迭代过程中从第一噪声随机分布中多次提取第一噪声参数,当前迭代的次数是当前已提取的第一噪声参数的总数,每次迭代从第一噪声随机分布中提取一个第一噪声参数,每次提取的第一噪声参数不同。
假设当前迭代是第i次迭代,则从第一噪声随机分布中提取到的第一噪声参数的总数也是i,且第i次迭代提取到的第一噪声参数与之前i-1次的第一噪声参数不同。
示例的,基于上文中公式(1)的原理,从预配置的噪声集合中提取噪声旋转矩阵,将1和第一噪声参数之间的差值作为预配置的噪声旋转矩阵的权重值,将权重值与预配置的噪声旋转矩阵相乘得到第一乘积,将第一噪声参数作为当前旋转矩阵的权重值,当前旋转矩阵与第一噪声参数相乘得到第二乘积,将第一乘积与第二乘积的加和作为当前迭代后的旋转矩阵。
在一些实施例中,基于第二噪声参数更新当前平移向量,得到当前迭代后的平移向量,可以通过以下方式实现:将第二噪声参数作为当前平移向量的权重值,对将当前平移向量与预配置的噪声平移向量进行加权求和,得到当前迭代后的平移向量。
示例的,第二噪声随机分布是针对平移向量配置的噪声参数的取值范围,第二噪声参数是用于当前平移向量和噪声平移向量的加权系数,噪声平移向量可以从预配置的噪声集合中获取。当前迭代的次数是当前已提取的第二噪声参数的总数,每次迭代从第二噪声随机分布中提取一个第二噪声参数,每次提取的第二噪声参数不同。
假设当前迭代是第i次迭代,则从第二噪声随机分布中提取到的第二噪声参数的总数也是i,且第i次迭代提取到的第二噪声参数与之前i-1次的第二噪声参数不同。
示例的,基于上文中公式(1)的原理,从预配置的噪声集合中提取噪声平移向量,将与1和第二噪声参数之间的差值作为噪声平移向量的权重值,将权重值与噪声平移向量相乘得到第三乘积,将第二噪声参数作为当前平移向量的权重值,将当前平移向量与第二噪声参数相乘得到第四乘积,将第三乘积与第四乘积的加和作为当前迭代后的平移向量。
在步骤3042中,响应于当前迭代的次数小于预配置次数,将当前迭代后的旋转矩阵作为新的当前旋转矩阵,将当前迭代后的平移向量作为新的当前平移向量。
示例的,迭代后的旋转矩阵RL (t)、迭代后的平移向量zL (t)可以表征为以下公式(8):
其中,IGSO(3)是为旋转矩阵定义的随机概率分布,也即第一噪声随机分布,N是针对平移向量定义的随机概率分布,也即第二噪声随机分布。
示例的,将当前迭代后的旋转矩阵作为新的当前旋转矩阵,也即,以当前迭代后的旋转矩阵替换旧的当前旋转矩阵。若迭代次数小于预配置的迭代次数,则继续执行。
在步骤3043中,响应于当前迭代的次数达到预配置次数,将第二蛋白质的第三图数据中的三维结构信息、当前迭代后的旋转矩阵、以及当前迭代后的平移向量组合为第四图数据。
示例的,若迭代次数达到了预配置的迭代次数,则将得到的三维结构信息、扰动后的旋转矩阵、以及扰动后的平移向量拼接为第四图数据。本申请实施例
中将第二蛋白质作为刚体进行处理,因此第二蛋白质内部的三维结构信息在扰动处理中维持不变。
在一些实施例中,步骤304可以通过第二消息传递神经网络实现,噪声集合可以在训练第二消息传递神经网络时生成,第二消息传递神经网络的训练方式与应用在后文中进行解释说明。
本申请实施例中,通过对初始化的蛋白质复合体进行扰动,将蛋白质对接问题建模为一个生成式任务,通过多轮迭代的方式来逐步优化蛋白质对接结果。相较于相关技术的蛋白质对接方法通过对结合位点进行打分获取蛋白质复合体的方案,在保证预测精度相当的同时,也可以有效提升蛋白质对接问题的求解速度。
继续参考图3A,在步骤305中,基于所述第四图数据调整所述初始化的蛋白质复合体中的所述第二蛋白质的位置,得到蛋白质对接结果。
由上文可知,第四图数据包括:第二蛋白质的三维结构信息、迭代后的旋转矩阵、以及迭代后的平移向量。从迭代扰动得到的第四图数据中提取第二蛋白质的旋转矩阵以及平移向量。以旋转矩阵以及平移向量配置蛋白质复合体中的第二蛋白质的参数,可以得到蛋白质对接结果。
在一些实施例中,步骤305可以通过以下方式实现:对所述第四图数据进行特征提取,得到平移向量以及旋转矩阵;维持初始化的蛋白质复合体中的第一蛋白质的当前位置;将第二蛋白质作为刚体,基于第四图数据中的旋转矩阵对第二蛋白质进行旋转操作,以及基于第四图数据中的平移向量对第二蛋白质进行平移操作,得到位置调整后的第二蛋白质;将位置调整后的第二蛋白质与第一蛋白质组成的蛋白质复合体作为蛋白质对接结果。
示例的,可以通过软件模拟对应的蛋白质复合体,调整初始化的蛋白质复合体中的第二蛋白质的位置,也即,基于第四图数据中提取到的旋转矩阵以及平移向量配置初始化的蛋白质复合体中的第二蛋白质的参数,以使模拟软件形成蛋白质对接结果。
示例的,第一蛋白质与第二蛋白质的结构图可以在相应的分子对接应用程序中呈现为模拟图,将第二蛋白质作为刚体也即维持第二蛋白质的三维结构保持不变,旋转操作可以通过以下方式实现:根据旋转矩阵旋转第二蛋白质的质心,并在旋转过程中维持第二蛋白质整体的三维结构;平移操作可以通过以下方式实现:根据平移向量对第二蛋白质的质心进行平移,并在平移过程中维持第二蛋白质整体的三维结构。
本申请实施例中,相较于相关技术的通过打分确定蛋白质复合体结构的方案,将蛋白质对接由分类问题转换为生成问题,节约了获取蛋白质对接结果的计算资源。相较于传统蛋白质对接方法,在保证预测精度相当的同时,也可以有效提升蛋白质对接问题的求解速度。
在一些实施例中,通过第一消息传递神经网络实现上文中的步骤3031,在步骤3031之前,通过以下方式训练第一消息传递神经网络:获取第一训练样本集合,其中,第一训练样本集合包括:样本蛋白质对的样本结构特征,以及样本蛋白质对的结合面上的每个氨基酸残基对的样本节点特征;基于样本结构特征调用初始化的第一消息传递神经网络进行特征更新,得到更新后的氨基酸的预测节点特征;基于预测节点特征与样本节点特征之间的差异,确定第一损失函数;基于第一损失函数对初始化的第一消息传递神经网络进行参数更新,得到训练后的第一消息传递神经网络。
示例的,第一损失函数是用于表征预测节点特征与样本节点特征之间的差异的函数,第一损失函数可以是交叉熵函数、相对熵损失函数、欧式距离损失函数中任意一种类型的损失函数。对初始化的第一消息传递神经网络进行参数更新,也即通过反向传播的方式逐层更新消息传递神经网络中每个层次的参数。
在一些实施例中,迭代扰动是通过第二消息传递神经网络实现的,第二消息传递神经网络是与上文中的第一消息传递神经网络结构相同,功能不同的消息传递神经网络;在步骤304之前,可以通过以下方式训练第二消息传递神经网络,获取第二训练样本集合,其中,第二训练样本集合包括:样本蛋白质复合体中的第二蛋白质的样本图数据和第二蛋白质的实际旋转矩阵和实际平移向量;基于样本图数据调用初始化的第二消息传递神经网络进行扰动,得到扰动后的扰动旋转矩阵和扰动平移向量;基于扰动旋转矩阵与实际旋转矩阵之间的差异、扰动平移向量与实际平移向量之间的差异,确定第二损失函数;基于第二损失函数对初始化的第二消息传递神经网络进行参数更新,得到训练后的第二消息传递神经网络。
示例的,第二损失函数用于将扰动平移向量与实际平移向量之间的差异、扰动旋转矩阵与实际旋转矩阵之间的差异量化。
在一些实施例中,通过以下方式确定第二损失函数,获取扰动旋转矩阵与实际旋转矩阵之间乘积与单位矩阵之间的差值,并获取差值的第一范数;获取实际平移向量与扰动平移向量之间差值的第二范数;对第一范数与第二范数进行加权求和,得到第二损失函数。
示例的,第二损失函数L(θ)可以表征为以下公式(10):
其中,第二消息传递神经网络扰动得到旋转矩阵和平移向量/> 表征t,XL (0),XR (0),RL (t),zL (t)五个参数的期望E,期望也即实际值,/>是获取扰动旋转矩阵/>与实际旋转矩阵RL (t)之间乘积与单位矩阵之间的差值的第一范数,/>是实际平移向量zL (t)与扰动平移向量/>之间差值的第二范数,λ是第二范数的权重值,第一范数的权重值为1。
示例的,参考图5,图5是本申请实施例提供的降噪扩散概率模型的结构示意图。本申请实施例提供的蛋白质数据的处理方法可以通过降噪扩散概率模型501实现,降噪扩散概率模型501包括:第一消息传递神经网络502和第二消息传递神经网络503。将第一蛋白质的第一图数据和第二蛋白质的第二图数据输入第一消息传递神经网络502,得到初始化的蛋白质复合体的图数据,包括第二蛋白质的第三图数据,将第二蛋白质的第三图数据输入第二消息传递神经网络503,得到第二蛋白质的旋转矩阵、平移向量,基于旋转矩阵、平移向量配置第二蛋白质的位置,则得到第一蛋白质和第二蛋白质之间的蛋白质对接结果。
本申请实施例基于蛋白质的结构特征预测结合面上的氨基酸残基,构建初始化的蛋白质复合体,并基于初始化的蛋白质复合体进行迭代扰动,对初始化的蛋白质复合体进行调整,提升了获取蛋白质对接结果的准确性。相较于相关技术的通过打分确定蛋白质复合体结构的方案,将蛋白质对接由分类问题转换为生成问题,避免了对蛋白质复合体复杂的三维结构中的结合位点进行打分,节约了获取蛋白质对接结果所需的计算资源。本申请实施例通过对初始化的蛋白质复合体进行迭代扰动,通过优化蛋白质复合体的结构的方式生成蛋白质对接结果,相较于相关技术蛋白质对接方法,在保证预测精度相当的同时,无需执行分类,节约了计算开销,并提升了获取蛋白质对接结果的求解速度。
下面,将说明本申请实施例蛋白质数据的处理方法在一个实际的应用场景中的示例性应用。
相关技术的蛋白质对接方法主要包括三阶段的计算流程:阶段一(sampling),对配体与受体之间所有可能的相对位置关系进行遍历(或者采样);阶段二(scoring),对不同相对位置关系下的蛋白质复合体结构进行打分,并排序得到排名靠前的候选蛋白质复合体结构;阶段三(refinement),基于细粒度的能量函数,对候选蛋白质复合体结构中的原子坐标进行微调,以得到最终的蛋白质对接结果。
此外,也有基于深度图神经网络模型的蛋白质对接方法,其主要计算流程是将配体和受体的蛋白质三维结构表征为具有图结构的数据,输入到模型中,预测配体与受体之间的相对位置关系(通常以旋转矩阵和平移向量来表示),然后基于预测的旋转矩阵和平移向量,对配体(或者受体)进行相应地变换操作,从而得到最终的蛋白质对接结果。
此外,针对蛋白质与小分子的对接问题,相关技术提出可以引入降噪扩散概率模型,同时对小分子相对于蛋白质的位置关系,以及小分子自身的柔性形变进行建模。
蛋白质对接问题中的传统方法,其主要问题在于其计算开销大(需要对配体和受体之间的相对位置关系进行大量采样并打分),同时其预测效果好坏,依赖于是否可以提供额外的约束条件(例如配体和受体上哪些氨基酸残基是结合位点,或者配体和受体之间的部分距离约束)。基于深度图神经网络模型的蛋白质对接方法,其预测速度相比于传统方法有2-3个数量级的提升,但是预测精度还达不到传统方法的水平。相关技术针对蛋白质与小分子的对接问题,仅考虑到蛋白质对接中的结合区域远大于蛋白质-小分子对接,同时蛋白质三维结构的复杂程度也显著高于小分子,因此不能将蛋白质与小分子的对接直接推广至蛋白质对接问题。本申请实施例提出了一种基于降噪扩散概率模型的蛋白质对接方法,通过将蛋白质对接问题建模为一个蛋白质复合体的生成问题,使得可以使用生成式模型(而非现有技术采用的预测式模型)对该问题进行处理,并且引入了降噪扩散概率模型作为这里的生成式模型,从而可以通过多轮迭代的方式来逐步优化蛋白质对接结果;相比于传统蛋白质对接方法,在保证预测精度相当的同时,也可以有效提升蛋白质对接问题的求解速度。
本申请实施例提出了一种基于降噪扩散概率模型的蛋白质对接方法,通过将蛋白质对接问题建模为一个蛋白质复合体的生成问题,并引入降噪扩散概率模型,通过多轮迭代的方式来逐步优化蛋白质对接结果。在模型架构方面,本申请实施例构建了包含氨基酸残基和原子这两个层级的层次图结构,在不同表征粒度上对蛋白质三维结构进行刻画,并通过两阶段的预测流程,更准确地对配体与受体之间的相互作用进行建模。为便于理解本申请实施例提供的蛋白质数据的处理方法,对本申请实施例中所用到的降噪扩散概率模型的原理进行解释说明。
示例的,降噪扩散概率模型从数据分布q(x)中进行采样以生成新数据的过程转换为一个基于降噪模型进行迭代更新的计算流程,降噪模型的训练数据来源于对原始数据加入随机噪声后的数据。
参考图4A,图4A是本申请实施例提供的降噪扩散概率模型的原理示意图;以图像数据为例进行说明,假设已有数据X0服从某个未知的概率分布q(X0)。在降噪扩散概率模型中,对于已有数据X0,基于一个预设的噪声方案(noise schedule),在不同时间跨度上加入不同强度的随机噪声中,从而保证在t=T即时间跨度最大时,加入随机噪声后的数据与从先验分布q(XT)(高斯噪声分布,本申请实施例中是任意初始化配体蛋白质相对于受体蛋白质的位置关系)中采样得到的数据不存在分布上的差异,通过对初始化的位置关系进行迭代得到调整后的配体受体位置关系,得到对接结果,迭代前后蛋白质分子对应的特征不存在分布上的差异。其中,降噪扩散概率模型的处理包括:扩散过程(前向过程)和降噪过程(逆向过程),图4A中Xt至Xt-1是降噪过程,Xt-1至Xt是扩散过程。图像0至图像t-1、图像T逐渐模糊。
示例的,在时刻t,加入随机噪声后的数据定义如下公式(1):
其中,X0是原始数据,Xt是加入了随机噪声后的数据,ε是服从于标准高斯分布的随机噪声,是基于预测的噪声方案βt计算得到的用于平衡真实信号X0和噪声信号ε的加权系数,其具体定义为以下公式(2):
其中,LinSpace表示在0.0001到0.0200范围内进行插值。加权系数是以下参数的乘积:α1至αt,也即,1与每个预测的噪声方案βt之间的差值。
在得到加入噪声后的数据Xt后,基于降噪扩散概率模型降噪扩散概率模型原理将初始化的消息传递神经网络训练为了一个降噪模型,用于对数据Xt中的随机噪声进行估计,也即,将加入噪声后的数据Xt输入降噪模型,降噪模型输出无噪声数据X0、随机噪声ε。
模型训练时的损失函数为公式(3):
公式(3)的含义也即,最小化模型所估计的随机噪声 与真实使用的随机噪声ε之间的差异。此处的损失函数期望是关于
时间t、无噪声数据X0和随机噪声ε的,即对于每个无噪声数据X0,需要从所有的可能的时刻(从t=1到t=T)上随机选取一个,再叠加一个随机生成的噪声信号ε,作为输入数据提供给降噪模型。
基于上述的损失函数,对降噪模型进行训练之后,就可以基于该模型来生成新数据,基于降噪模型生成新数据的流程表征为以下内容:
1:XT~N(0,I)
2:for t=T,…,1do
3:z~N(0,I)if t>1,else z=0
5:end for
6:returnX0
其中,第1步中,从先验分布(此处为标准高斯分布)中采样得到一个初始数据Xt,第2步执行进行T轮迭代,第3至6步对应迭代过程,在第3步中,每轮迭代中,引入一个额外的随机信号z,使得生成过程具有一定的随机性;第4步中,使用降噪模型对Xt进行一次更新,得到Xt-1,具体可以表征为以下公式(4):
在第5和6步中,直至t=1更新完毕,得到最终的X0作为生成数据进行输出。
以上,本申请实施例介绍了降噪扩散概率模型的基本概念。基于降噪扩散概率模型的原理,本申请实施例将解释说明如何将蛋白质对接问题建模为一个可以使用降噪扩散概率模型进行刻画的生成问题。
考虑到在蛋白质对接问题中仅需考虑配体与受体之间的相对位置,因此本申请实施例将配体-受体复合体结构中的受体质心放置在原点,同时在扩散过程中,不对受体蛋白质进行随机扰动,而是仅仅对配体蛋白质进行旋转和平移变化(将配体作为刚体,不考虑配体内部的结构形变)。参考图4B,图4B是本申请实施例提供的蛋白质分子迭代的示意图;每张蛋白质复合体的结构图是不同的迭代次数得到的蛋白质复合体的结构图。次数包括:0次、25次、100次、500次以及1000次,具体实施中迭代次数根据应用场景的实际需求确定。
本申请实施例将配体蛋白质表示为三元组的形式,参考以下公式(5):
其中,XL (0)为原始的配体蛋白质的三维结构(L表示ligand即配体,0表示t=0,即未加入随机扰动)的位置,为配体蛋白质中各个原子以配体蛋白质的质心为参考的相对位置,RL (0)为旋转矩阵,zL (0)为平移向量,旋转矩阵和平移向量的具体定义如下公式(6):
其中,CoM表示根据所有原子的三维坐标,计算蛋白质的质心三维坐标的操作,针对蛋白质对接问题设计相应的扩散过程,即对配体蛋白质的三维结构XL (0),在不同时刻t进行随机扰动的操作,得到扰动后三维结构的XL (t),具体定义如下公式(7):
其中,三元组中的保持不变,也即不考虑配体蛋白质内部的形变,采用刚性对接方式,旋转矩阵RL (t)和平移向量zL (t)定义如下公式(8):
其中,IGSO(3)是为旋转矩阵定义的随机概率分布。随着时刻t的增大,旋转矩阵和平移向量中的原始信号被逐步抹去,从而保证在t=T时的配体蛋白质三维结构,与从先验分布(任意初始化配体蛋白质相对于受体蛋白质的位置关系)采样得到的结果不存在分布上的差异。
在一些实施例中,关于降噪扩散概率模型中的降噪模型,本申请实施例设计了一个对残基-原子层次图结构进行建模的消息传递神经网络,其输入为加入了随机扰动后的配体-受体蛋白质复合体结构以及当前时刻t,其输出为模型预测的对应于随机扰动的旋转矩阵和平移向量/>参考以下公式(9):
模型训练的损失函数定义如下公式(10):
即分别计算模型所预测的旋转矩阵和平移向量/>与真实值之间的差异。损失函数的含义是,分别获取t,XL (0),XR (0),RL (t),zL (t)五个参数的期望E,将五个参数分别对应的期望E代入公式/> 得到损失函数L(θ)的取值。
需要注意的是,由于旋转矩阵具有正交性,因此如果模型所预测的旋转矩阵与随机扰动中实际采用的旋转矩阵是一致的,那么这两个矩阵在进行转置操作后再矩阵相乘的结果应当是单位矩阵I。损失函数中的λ是加权系数,用于指定旋转矩阵的损失函数与平移向量的损失函数之间的占比。
当降噪模型训练完毕后,对于任意配体蛋白质与受体蛋白质之间的蛋白质对接问题,可以基于降噪扩散概率模型的采样过程进行求解。
具体地,对于给定的配体蛋白质和受体蛋白质,本申请实施例从旋转矩阵和平移向量的先验分布中,随机选取一组旋转和平移变换操作对应的旋转矩阵RL (t)和平移向量zL (t),将配体蛋白质和受体蛋白质放置到同一个三维空间中,参考以下公式(11):
之后,从t=T开始,将当前的配体蛋白质和受体蛋白质的复合体结构输入到降噪模型中,得到模型预测的旋转矩阵和平移向量,然后对配体蛋白质进行相应的变换操作,作为下一时刻的配体蛋白质和受体蛋白质的复合体结构。当t=1的变换操作完成后,即得到了模型预测的配体蛋白质和受体蛋白质的复合体结构,作为蛋白质对接的最终结果进行输出。
降噪模型需要基于输入的配体蛋白质和受体蛋白质的复合体结构,预测相应的旋转矩阵和平移向量,因此本申请实施例构建了一个可以高效处理蛋白质三维结构的深度图神经网络模型,通过将消息传递神经网络训练为预测蛋白质复合体结构的网络模型实现。
相关技术中,关于蛋白质三维结构,通常有两个不同粒度的表征方式,分别是氨基酸残基级别(记录每个氨基酸残基的类型与其中CA原子(氮基碳原子,氨基酸,是含有碱性氨基和酸性羧基的有机化合物。羧酸碳原子上的氢原子被氨基取代后形成的化合物)的三维坐标)和原子级别(记录每个原子的类型及其三维坐标)。对于蛋白质对接问题,由于蛋白质中的原子数量远大于氨基酸残基数量(通常为7-10倍),因此直接构建基于原子级别的k近邻图结构会导致计算复杂度过高,但如果仅基于氨基酸残基级别的信息来构建k近邻图,则会在丢失蛋白质的侧链结构信息,导致对于蛋白质对接的结合面的刻画不够准确。
针对这一问题,本申请实施例基于消息传递神经网络的基础模型架构,提出了对残基-原子层次图结构进行建模的消息传递神经网络,交替更新氨基酸残基和原子的特征表示,并在氨基酸残基和原子两个层级之间进行消息传递,在保证对于蛋白质三维结构的表征粒度足够精细的同时,提升模型的计算效率。具体地,消息传递神经网络通过如下操作对节点特征进行更新,参考以下公式(12):
其中,是第i个节点在第l层输出的特征表达,i是正整数,gi,j是连接节点i和节点j的边特征,Message是聚合两个节点的节点特征/>以及相应的边特征gi,j生成消息向量的函数,Update是基于当前节点特征/>和消息向量/>对节点特征进行更新的函数。
在本申请实施例提出的对残基-原子层次图结构进行建模的消息传递神经网络,包含两类节点(残基和原子)和四种类型的边(残基到残基、原子到原子、残基到原子以及原子到残基)。对于每一个类型的边,本申请实施例都可以采用上文提供的节点特征进行更新的公式(12)表征相应的消息传递操作,以更新相应的节点特征。
此处的节点特征包含两类信息,分别是与结构无关的静态特征(例如氨基酸类型和原子类型等)以及与结构相关的坐标特征(例如氨基酸残基的氮基碳原子坐标等),节点特征更新是针对与结构相关的坐标特征进行更新,氨基酸类型和原子类型无变化。
对于配体蛋白质与受体蛋白质之间的边连接关系,由于随机噪声的存在,直接基于两者在三维空间中的k近邻来构建边,不能准确刻画真正参与蛋白质对接的那部分氨基酸残基之间的相互作用。
本申请实施例提出了两阶段的预测流程,基于配体蛋白质和受体蛋白质各自的特征,经过一个对残基-原子层次图结构进行建模的消息传递神经网络(RA-MPNN),预测每个蛋白质中哪些氨基酸残基是位于配体-受体蛋白质复合体的结合面(相互作用界面预测)上的;然后,对于预测位于配体-受体蛋白质复合体的结合面(相互作用界面)上的氨基酸残基,构建从配体到受体(以及反向的)的边连接;之后,基于更新后的图结构,再次输入到另一个具有降噪模型功能的消息传递神经网络RA-MPNN模型中,对旋转矩阵和平移向量进行预测,优化蛋白质对接结果,得到最终的蛋白质对接结构。
本申请实施例采用了消息传递神经网络作为降噪扩散概率模型中的底层降噪模型的模型架构,但在实施过程中,可以替换为其他类型的深度图神经网络,例如SE(3)-Transformer(专门针对3D点云和图数据的自注意力机制)以及分子通用方向图神经网络(Gemnet),并不影响该模型在本申请实施例中的作用。
本申请实施例采用两阶段的预测流程来估计旋转矩阵和平移向量,即首先估计配体和受体中位于蛋白质对接的结合面上的氨基酸残基,并构建连接配体和受体的边,然后再对旋转矩阵和平移向量进行预测,但在实施过程中,可以替换为单阶段的预测流程,即直接预测旋转矩阵和平移向量,并不影响该预测流程在本申请实施例中的作用。
本申请实施例提供的蛋白质对接方法,旨在根据蛋白质配体和受体各自的三维结构,判断两者结合后的蛋白质复合体三维结构,从而预测配体和受体结合的稳定程度,以及两者结合后的蛋白质复合体可以发挥什么样的生物学功能(对于蛋白质而言,结构决定功能),在新型药物靶点发现以及大分子药物研发等领域应用广泛。
通过本申请实施例所提出的基于降噪扩散概率模型的蛋白质对接方法,可以在保持蛋白质对接预测精度的同时,大幅提升蛋白质对接问题的求解速度,从而为基于计算方法的高通量大分子药物筛选等任务提供技术支持。同时,由于本申请实施例所采用的降噪扩散概率模型,可以配合引入了随机性的生成过程,从而可以对于相同的配体和受体输入,输出多组可能的蛋白质对接结果,这也为解决蛋白质对接任务中的替换构象(alternativeconformations)问题提供了帮助。
本申请实施例通过将蛋白质对接问题建模为一个蛋白质复合体的生成问题,并基于降噪扩散概率模型,通过多轮迭代的方式来逐步优化蛋白质对接结果;相比于传统蛋白质对接方法,在保证预测精度相当的同时,也可以有效提升蛋白质对接问题的求解速度。以下结合实验数据说明本申请实施例的有益效果:
在抗体重链与抗体轻链的对接任务上,对比了本申请实施例的蛋白质数据的处理方法与传统蛋白质对接方法HDOCK的预测精度,结果如表(1)所示:
对接方法/评价指标 | DockQ | Fnat | LRMS | iRMS |
HDOCK | 0.9068 | 0.9527 | 1.1586 | 0.8869 |
本申请实施例 | 0.9679 | 0.9760 | 0.8944 | 0.3471 |
表(1)
从结果上看,本申请实施例所提出的方法,相比于HDOCK方法,在DockQ指标(以及具体细分的各项指标)上,均有明显提升,说明本申请实施例所提出的方法可以更好地解决抗体重链与抗体轻链的对接任务。
下面继续说明本申请实施例提供的蛋白质数据的处理装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的蛋白质数据的处理装置455中的软件模块可以包括:数据获取模块4551,配置为获取第一蛋白质的第一图数据和第二蛋白质的第二图数据;数据获取模块4551,配置为对第一图数据和第二图数据分别进行特征提取,得到第一蛋白质的第一结构特征和第二蛋白质的第二结构特征;界面预测模块4552,配置为基于第一结构特征与第二结构特征,预测第一蛋白质与第二蛋白质组合形成的初始化的蛋白质复合体;扰动模块4553,配置为对初始化的蛋白质复合体中的第二蛋白质的第三图数据进行迭代扰动,得到第四图数据;扰动模块4553,配置为基于第四图数据,调整初始化的蛋白质复合体中的第二蛋白质的位置,得到蛋白质对接结果。
在一些实施例中,数据获取模块4551,配置为分别对第一图数据中的每个第一原子和每个第一氨基酸进行特征提取,得到每个第一原子的第一原子特征、以及每个第一氨基酸的第一氨基酸特征,并将第一原子特征和第一氨基酸特征组合为第一结构特征;分别对第二图数据中的每个第二原子和每个第二氨基酸进行特征提取,得到每个第二原子的第二原子特征、以及每个第二氨基酸的第二氨基酸特征,并将第二原子特征和第二氨基酸特征组合为第二结构特征。
在一些实施例中,界面预测模块4552,配置为基于第一结构特征与第二结构特征,预测第一蛋白质与第二蛋白质之间的结合面上的每个氨基酸残基对,其中,氨基酸残基对包括:第一蛋白质的第一氨基酸残基和第二蛋白质的第二氨基酸残基;以结合面上的每个氨基酸残基对为结合位点,将第一蛋白质和第二蛋白质组合为初始化的蛋白质复合体。
在一些实施例中,界面预测模块4552,配置为将第一蛋白质中的每个第一氨基酸、以及每个第一原子分别作为节点,将第二蛋白质中的每个第二氨基酸、以及每个第二原子分别作为节点,将第一氨基酸特征、第二氨基酸特征、第一原子特征以及第二原子特征作为节点特征,其中,第一氨基酸包括第一氨基酸残基,第二氨基酸包括第二氨基酸残基;针对第一蛋白质和第二蛋白质中的每个节点的节点特征进行特征更新,得到更新后的节点特征,其中,特征更新的类型包括:原子之间、氨基酸之间、原子与氨基酸之间;将更新后的节点特征满足相互作用条件的第一氨基酸和第二氨基酸,作为第一蛋白质与第二蛋白质之间的结合面上的氨基酸残基对,其中,节点特征包括节点位置,相互作用条件包括:第一氨基酸和第二氨基酸之间的相对距离小于距离阈值。
在一些实施例中,界面预测模块4552,配置为对每个原子特征进行特征更新,得到更新后的原子特征;基于每个更新后的原子特征,对每个原子所属的氨基酸的氨基酸特征进行特征更新,得到更新后的氨基酸特征;对每个更新后的氨基酸特征之间进行特征更新,得到二次更新后的氨基酸特征;基于每个二次更新后的氨基酸特征,对每个氨基酸所包括的原子的更新后原子特征进行特征更新,得到二次更新后的原子特征。
在一些实施例中,节点的类型包括:原子、氨基酸,界面预测模块4552,配置为针对每个节点的特征更新:将节点的节点特征分别与节点的邻居特征进行聚合,得到节点和每个其他节点之间的子特征更新向量,其中,邻居特征包括:节点和其他节点之间的边特征以及每个其他节点的节点特征;将每个子特征更新向量的平均值作为节点的特征更新向量;将特征更新向量和节点的节点特征的三维坐标融合,并以融合得到的新三维坐标替换节点特征中的三维坐标,将经过替换的节点特征作为更新后的节点特征。
在一些实施例中,界面预测模块4552,配置为针对每个原子所属的氨基酸执行以下处理:将氨基酸的氨基酸特征分别与氨基酸所包括的每个原子的更新后的原子特征进行聚合,得到氨基酸和氨基酸所包括的每个原子之间的子特征更新向量;将每个子特征更新向量的平均值作为氨基酸的特征更新向量;将特征更新向量和氨基酸的氨基酸特征的三维坐标融合,并以融合得到的新三维坐标替换氨基酸特征中的三维坐标,将经过替换的氨基酸特征作为氨基酸的更新后的氨基酸特征。
在一些实施例中,界面预测模块4552,配置为针对每个氨基酸所包括的每个原子的执行以下处理:将原子的更新后原子特征与原子所属的氨基酸的二次更新后的氨基酸特征进行聚合,得到原子与原子所属的氨基酸之间的特征更新向量;将特征更新向量和原子的更新后原子特征的三维坐标融合,并以融合得到的新三维坐标替换更新后原子特征中的三维坐标,将经过替换的更新后原子特征作为原子的二次更新后的原子特征。
在一些实施例中,基于第一结构特征与第二结构特征,预测第一蛋白质与第二蛋白质之间的结合面上的每个氨基酸残基对通过第一消息传递神经网络实现;界面预测模块4552,配置为在基于第一结构特征与第二结构特征,预测第一蛋白质与第二蛋白质之间的结合面上的每个氨基酸残基对之前,获取第一训练样本集合,其中,第一训练样本集合包括:样本蛋白质对的样本结构特征,以及样本蛋白质对的结合面上的每个氨基酸残基对的样本节点特征;基于样本结构特征调用初始化的第一消息传递神经网络进行特征更新,得到更新后的氨基酸的预测节点特征;基于预测节点特征与样本节点特征之间的差异,确定第一损失函数;基于第一损失函数对初始化的第一消息传递神经网络进行参数更新,得到训练后的第一消息传递神经网络。
在一些实施例中,扰动模块4553,配置为迭代执行以下处理:从针对旋转矩阵预配置的第一噪声随机分布中采用无放回采样方式提取第一噪声参数,并基于第一噪声参数更新当前旋转矩阵,得到当前迭代后的旋转矩阵;从针对平移向量预配置的第二噪声随机分布中采用无放回采样方式提取第二噪声参数,并基于第二噪声参数更新当前平移向量,得到当前迭代后的平移向量;响应于当前迭代的次数小于预配置次数,将当前迭代后的旋转矩阵作为新的当前旋转矩阵,将当前迭代后的平移向量作为新的当前平移向量;响应于当前迭代的次数达到预配置次数,将第二蛋白质的第三图数据中的三维结构信息、当前迭代后的旋转矩阵、以及当前迭代后的平移向量组合为第四图数据。
在一些实施例中,在第一次迭代中,当前旋转矩阵为初始旋转矩阵,初始旋转矩阵是从初始化的蛋白质复合体中的第二蛋白质的第三图数据中提取的,当前平移向量为初始平移向量,初始平移向量是从初始化的蛋白质复合体中的第二蛋白质的第三图数据中提取的;在第二次迭代以及后续迭代中,当前旋转矩阵是前一次的迭代得到的当前迭代后的旋转矩阵,当前平移向量是前一次的迭代得到的当前迭代后的平移向量。
在一些实施例中,扰动模块4553,配置为将第一噪声参数作为当前旋转矩阵的权重值,对将当前旋转矩阵与预配置的噪声旋转矩阵进行加权求和,得到当前迭代后的旋转矩阵;将第二噪声参数作为当前平移向量的权重值,对将当前平移向量与预配置的噪声平移向量进行加权求和,得到当前迭代后的平移向量。
在一些实施例中,迭代扰动是通过第二消息传递神经网络实现的;扰动模块4553,配置为在对初始化的蛋白质复合体中的第二蛋白质的第三图数据进行迭代扰动,得到第四图数据之前,获取第二训练样本集合,其中,第二训练样本集合包括:样本蛋白质复合体中的第二蛋白质的样本图数据和第二蛋白质的实际旋转矩阵和实际平移向量;基于样本图数据调用初始化的第二消息传递神经网络进行扰动,得到扰动后的扰动旋转矩阵和扰动平移向量;基于扰动旋转矩阵与实际旋转矩阵之间的差异、扰动平移向量与实际平移向量之间的差异,确定第二损失函数;基于第二损失函数对初始化的第二消息传递神经网络进行参数更新,得到训练后的第二消息传递神经网络。
在一些实施例中,扰动模块4553,配置为获取扰动旋转矩阵与实际旋转矩阵之间乘积与单位矩阵之间的差值,并获取差值的第一范数;获取实际平移向量与扰动平移向量之间差值的第二范数;对第一范数与第二范数进行加权求和,得到第二损失函数。
在一些实施例中,扰动模块4553,配置为对所述第四图数据进行特征提取,得到平移向量以及旋转矩阵;维持初始化的蛋白质复合体中的第一蛋白质的当前位置;将第二蛋白质作为刚体,基于第四图数据中的旋转矩阵对第二蛋白质进行旋转操作,以及基于第四图数据中的平移向量对第二蛋白质进行平移操作,得到位置调整后的第二蛋白质;将位置调整后的第二蛋白质与第一蛋白质组成的蛋白质复合体作为蛋白质对接结果。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的蛋白质数据的处理方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令或者计算机程序,当计算机可执行指令或者计算机程序被处理器执行时,将引起处理器执行本申请实施例提供的蛋白质数据的处理方法,例如,如图3A示出的蛋白质数据的处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,通过本申请实施例基于蛋白质的结构特征预测结合面上的氨基酸残基,构建初始化的蛋白质复合体,并基于初始化的蛋白质复合体进行迭代扰动,对初始化的蛋白质复合体进行调整,提升了获取蛋白质对接结果的准确性。相较于相关技术的通过打分确定蛋白质复合体结构的方案,将蛋白质对接由分类问题转换为生成问题,避免了对蛋白质复合体复杂的三维结构中的结合位点进行打分,节约了获取蛋白质对接结果所需的计算资源。本申请实施例通过对初始化的蛋白质复合体进行迭代扰动,通过优化蛋白质复合体的结构的方式生成蛋白质对接结果,相较于相关技术蛋白质对接方法,在保证预测精度相当的同时,无需执行分类,节约了计算开销,并提升了获取蛋白质对接结果的求解速度。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (19)
1.一种蛋白质数据的处理方法,其特征在于,所述方法包括:
获取第一蛋白质的第一图数据和第二蛋白质的第二图数据;
对所述第一图数据和所述第二图数据分别进行特征提取,得到所述第一蛋白质的第一结构特征和所述第二蛋白质的第二结构特征;
基于所述第一结构特征与所述第二结构特征,预测所述第一蛋白质与所述第二蛋白质组合形成的初始化的蛋白质复合体;
对所述初始化的蛋白质复合体中的第二蛋白质的第三图数据进行迭代扰动,得到第四图数据;
基于所述第四图数据调整所述初始化的蛋白质复合体中的所述第二蛋白质的位置,得到蛋白质对接结果。
2.根据权利要求1所述的方法,其特征在于,所述第一蛋白质包括多个第一原子和多个第一氨基酸,所述第二蛋白质包括多个第二原子和多个第二氨基酸;
所述对所述第一图数据和所述第二图数据分别进行特征提取,得到所述第一蛋白质的第一结构特征和所述第二蛋白质的第二结构特征,包括:
分别对所述第一图数据中的每个所述第一原子和每个所述第一氨基酸进行特征提取,得到每个所述第一原子的第一原子特征、以及每个所述第一氨基酸的第一氨基酸特征,并将所述第一原子特征和所述第一氨基酸特征组合为所述第一结构特征;
分别对所述第二图数据中的每个所述第二原子和每个所述第二氨基酸进行特征提取,得到每个所述第二原子的第二原子特征、以及每个所述第二氨基酸的第二氨基酸特征,并将所述第二原子特征和所述第二氨基酸特征组合为所述第二结构特征。
3.根据权利要求1至2任一项所述的方法,其特征在于,所述基于所述第一结构特征与所述第二结构特征,预测所述第一蛋白质与所述第二蛋白质组合形成的初始化的蛋白质复合体,包括:
基于所述第一结构特征与所述第二结构特征,预测所述第一蛋白质与所述第二蛋白质之间的结合面上的每个氨基酸残基对,其中,所述氨基酸残基对包括:所述第一蛋白质的第一氨基酸残基和所述第二蛋白质的第二氨基酸残基;
以所述结合面上的每个所述氨基酸残基对为结合位点,将所述第一蛋白质和所述第二蛋白质组合为初始化的蛋白质复合体。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一结构特征与所述第二结构特征,预测所述第一蛋白质与所述第二蛋白质之间的结合面上的每个氨基酸残基对,包括:
将所述第一蛋白质中的每个第一氨基酸、以及每个第一原子分别作为节点,将所述第二蛋白质中的每个第二氨基酸、以及每个第二原子分别作为节点,将所述第一氨基酸特征、所述第二氨基酸特征、所述第一原子特征以及所述第二原子特征作为节点特征,其中,所述第一氨基酸包括所述第一氨基酸残基,所述第二氨基酸包括所述第二氨基酸残基;
针对所述第一蛋白质和所述第二蛋白质中的每个节点的节点特征进行特征更新,得到更新后的节点特征,其中,所述特征更新的类型包括:原子之间、氨基酸之间、原子与氨基酸之间;
将更新后的节点特征满足相互作用条件的第一氨基酸和第二氨基酸,作为所述第一蛋白质与所述第二蛋白质之间的结合面上的氨基酸残基对,其中,所述节点特征包括节点位置,所述相互作用条件包括:所述第一氨基酸和所述第二氨基酸之间的相对距离小于距离阈值。
5.根据权利要求4所述的方法,其特征在于,所述针对所述第一蛋白质和所述第二蛋白质中的每个节点的节点特征进行特征更新,得到更新后的节点特征,包括:
对每个所述原子特征进行特征更新,得到更新后的原子特征;
基于每个所述更新后的原子特征,对每个所述原子所属的氨基酸的氨基酸特征进行特征更新,得到更新后的氨基酸特征;
对每个所述更新后的氨基酸特征之间进行特征更新,得到二次更新后的氨基酸特征;
基于每个所述二次更新后的氨基酸特征,对每个氨基酸所包括的原子的更新后原子特征进行特征更新,得到二次更新后的原子特征。
6.根据权利要求5所述的方法,其特征在于,所述节点的类型包括:原子和氨基酸,针对每个所述节点的特征更新,包括:
将所述节点的节点特征分别与所述节点的邻居特征进行聚合,得到所述节点和每个所述其他节点之间的子特征更新向量,其中,所述邻居特征包括:所述节点和其他节点之间的边特征以及每个所述其他节点的节点特征;
将每个所述子特征更新向量的平均值作为所述节点的特征更新向量;
将所述特征更新向量和所述节点的节点特征的三维坐标融合,并以融合得到的新三维坐标替换所述节点特征中的三维坐标,将经过替换的节点特征作为更新后的节点特征。
7.根据权利要求5或6所述的方法,其特征在于,所述基于每个所述更新后的原子特征,对每个所述原子所属的氨基酸的氨基酸特征进行特征更新,得到更新后的氨基酸特征,包括:
针对每个所述原子所属的氨基酸执行以下处理:
将所述氨基酸的氨基酸特征分别与所述氨基酸所包括的每个所述原子的更新后的原子特征进行聚合,得到所述氨基酸和所述氨基酸所包括的每个所述原子之间的子特征更新向量;
将每个所述子特征更新向量的平均值作为所述氨基酸的特征更新向量;
将所述特征更新向量和所述氨基酸的氨基酸特征的三维坐标融合,并以融合得到的新三维坐标替换所述氨基酸特征中的三维坐标,将经过替换的氨基酸特征作为所述氨基酸的更新后的氨基酸特征。
8.根据权利要求5或6所述的方法,其特征在于,所述基于每个所述二次更新后的氨基酸特征,对每个氨基酸所包括的原子的更新后原子特征进行特征更新,得到二次更新后的原子特征,包括:
针对每个所述氨基酸所包括的每个所述原子的执行以下处理:
将所述原子的更新后原子特征与所述原子所属的氨基酸的二次更新后的氨基酸特征进行聚合,得到所述原子与所述原子所属的氨基酸之间的特征更新向量;
将所述特征更新向量和所述原子的更新后原子特征的三维坐标融合,并以融合得到的新三维坐标替换所述更新后原子特征中的三维坐标,将经过替换的更新后原子特征作为所述原子的二次更新后的原子特征。
9.根据权利要求3所述的方法,其特征在于,所述基于所述第一结构特征与所述第二结构特征,预测所述第一蛋白质与所述第二蛋白质之间的结合面上的每个氨基酸残基对的步骤通过第一消息传递神经网络实现;
在所述基于所述第一结构特征与所述第二结构特征,预测所述第一蛋白质与所述第二蛋白质之间的结合面上的每个氨基酸残基对之前,所述方法还包括:
获取第一训练样本集合,其中,所述第一训练样本集合包括:样本蛋白质对的样本结构特征,以及所述样本蛋白质对的结合面上的每个氨基酸残基对的样本节点特征;
基于所述样本结构特征调用初始化的第一消息传递神经网络进行特征更新,得到更新后的氨基酸的预测节点特征;
基于预测节点特征与样本节点特征之间的差异,确定第一损失函数;
基于所述第一损失函数对所述初始化的第一消息传递神经网络进行参数更新,得到训练后的第一消息传递神经网络。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述对所述初始化的蛋白质复合体中的第二蛋白质的第三图数据进行迭代扰动,得到第四图数据,包括:
迭代执行以下处理:从针对旋转矩阵预配置的第一噪声随机分布中采用无放回采样方式提取第一噪声参数,并基于所述第一噪声参数更新当前旋转矩阵,得到当前迭代后的旋转矩阵;从针对平移向量预配置的第二噪声随机分布中采用无放回采样方式提取第二噪声参数,并基于所述第二噪声参数更新当前平移向量,得到当前迭代后的平移向量;
响应于当前迭代的次数小于预配置次数,将所述当前迭代后的旋转矩阵作为新的当前旋转矩阵,将所述当前迭代后的平移向量作为新的当前平移向量;
响应于当前迭代的次数达到预配置次数,将所述第二蛋白质的第三图数据中的三维结构信息、所述当前迭代后的旋转矩阵、以及所述当前迭代后的平移向量组合为所述第四图数据。
11.根据权利要求10所述的方法,其特征在于,
在第一次迭代中,所述当前旋转矩阵为初始旋转矩阵,所述初始旋转矩阵是从所述初始化的蛋白质复合体中的所述第二蛋白质的第三图数据中提取的,所述当前平移向量为初始平移向量,所述初始平移向量是从所述初始化的蛋白质复合体中的所述第二蛋白质的第三图数据中提取的;
在第二次迭代以及后续迭代中,所述当前旋转矩阵是前一次的迭代得到的当前迭代后的旋转矩阵,所述当前平移向量是前一次的迭代得到的当前迭代后的平移向量。
12.根据权利要求10所述的方法,其特征在于,所述基于所述第一噪声参数更新当前旋转矩阵,得到当前迭代后的旋转矩阵,包括:
将所述第一噪声参数作为所述当前旋转矩阵的权重值,对将所述当前旋转矩阵与预配置的噪声旋转矩阵进行加权求和,得到当前迭代后的旋转矩阵;
所述基于所述第二噪声参数更新当前平移向量,得到当前迭代后的平移向量,包括:
将所述第二噪声参数作为所述当前平移向量的权重值,对将所述当前平移向量与预配置的噪声平移向量进行加权求和,得到当前迭代后的平移向量。
13.根据权利要求10所述的方法,其特征在于,所述迭代扰动是通过第二消息传递神经网络实现的;
在所述对所述初始化的蛋白质复合体中的第二蛋白质的第三图数据进行迭代扰动,得到第四图数据之前,所述方法还包括:
获取第二训练样本集合,其中,所述第二训练样本集合包括:样本蛋白质复合体中的第二蛋白质的样本图数据和第二蛋白质的实际旋转矩阵和实际平移向量;
基于所述样本图数据调用初始化的第二消息传递神经网络进行扰动,得到扰动后的扰动旋转矩阵和扰动平移向量;
基于所述扰动旋转矩阵与所述实际旋转矩阵之间的差异、所述扰动平移向量与所述实际平移向量之间的差异,确定第二损失函数;
基于所述第二损失函数对所述初始化的第二消息传递神经网络进行参数更新,得到训练后的第二消息传递神经网络。
14.根据权利要求13所述的方法,其特征在于,所述基于所述扰动旋转矩阵与所述实际旋转矩阵之间的差异、所述扰动平移向量与所述实际平移向量之间的差异,确定第二损失函数,包括:
获取所述扰动旋转矩阵与所述实际旋转矩阵之间乘积与单位矩阵之间的差值,并获取所述差值的第一范数;
获取所述实际平移向量与所述扰动平移向量之间差值的第二范数;
对所述第一范数与所述第二范数进行加权求和,得到第二损失函数。
15.根据权利要求13所述的方法,其特征在于,所述基于所述第四图数据,调整所述初始化的蛋白质复合体中的所述第二蛋白质的位置,得到蛋白质对接结果,包括:
对所述第四图数据进行特征提取,得到平移向量以及旋转矩阵;
维持所述初始化的蛋白质复合体中的所述第一蛋白质的当前位置;
将所述第二蛋白质作为刚体,基于所述旋转矩阵对所述第二蛋白质进行旋转操作,以及基于所述平移向量对所述第二蛋白质进行平移操作,得到位置调整后的所述第二蛋白质;
将位置调整后的所述第二蛋白质与所述第一蛋白质组成的蛋白质复合体作为蛋白质对接结果。
16.一种蛋白质数据的处理装置,其特征在于,所述装置包括:
数据获取模块,配置为获取第一蛋白质的第一图数据和第二蛋白质的第二图数据;
所述数据获取模块,配置为对所述第一图数据和所述第二图数据分别进行特征提取,得到所述第一蛋白质的第一结构特征和所述第二蛋白质的第二结构特征;
界面预测模块,配置为基于所述第一结构特征与所述第二结构特征,预测所述第一蛋白质与所述第二蛋白质组合形成的初始化的蛋白质复合体;
扰动模块,配置为对所述初始化的蛋白质复合体中的第二蛋白质的第三图数据进行迭代扰动,得到第四图数据;
所述扰动模块,配置为基于所述第四图数据调整所述初始化的蛋白质复合体中的所述第二蛋白质的位置,得到蛋白质对接结果。
17.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令或者计算机程序时,实现权利要求1至15任一项所述的蛋白质数据的处理方法。
18.一种计算机可读存储介质,存储有计算机可执行指令或者计算机程序,其特征在于,所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至15任一项所述的蛋白质数据的处理方法。
19.一种计算机程序产品,包括计算机可执行指令或计算机程序,其特征在于,所述计算机可执行指令或计算机程序被处理器执行时实现权利要求1至15任一项所述的蛋白质数据的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310548749.9A CN116978450A (zh) | 2023-05-16 | 2023-05-16 | 蛋白质数据的处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310548749.9A CN116978450A (zh) | 2023-05-16 | 2023-05-16 | 蛋白质数据的处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116978450A true CN116978450A (zh) | 2023-10-31 |
Family
ID=88471995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310548749.9A Pending CN116978450A (zh) | 2023-05-16 | 2023-05-16 | 蛋白质数据的处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116978450A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117809749A (zh) * | 2024-02-28 | 2024-04-02 | 普瑞基准科技(北京)有限公司 | 功能多肽序列的生成方法、装置、存储器和电子设备 |
-
2023
- 2023-05-16 CN CN202310548749.9A patent/CN116978450A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117809749A (zh) * | 2024-02-28 | 2024-04-02 | 普瑞基准科技(北京)有限公司 | 功能多肽序列的生成方法、装置、存储器和电子设备 |
CN117809749B (zh) * | 2024-02-28 | 2024-05-28 | 普瑞基准科技(北京)有限公司 | 功能多肽序列的生成方法、装置、存储器和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112733933B (zh) | 基于统一优化目标框架图神经网络的数据分类方法及装置 | |
Liu et al. | Research of animals image semantic segmentation based on deep learning | |
CN116978450A (zh) | 蛋白质数据的处理方法、装置、电子设备及存储介质 | |
Le et al. | Equivariant graph attention networks for molecular property prediction | |
Liu et al. | Wtfm layer: An effective map extractor for unsupervised shape correspondence | |
Zhang et al. | Efficient history matching with dimensionality reduction methods for reservoir simulations | |
Du et al. | Structure tuning method on deep convolutional generative adversarial network with nondominated sorting genetic algorithm II | |
CN110717116A (zh) | 关系网络的链接预测方法及系统、设备、存储介质 | |
CN116978449A (zh) | 相互作用界面的预测方法、装置、电子设备及存储介质 | |
CN114329099B (zh) | 重叠社区识别方法、装置、设备、存储介质及程序产品 | |
Yuan et al. | Sign prediction on unlabeled social networks using branch and bound optimized transfer learning | |
Yu et al. | Redundant same sequence point cloud registration | |
Zhang et al. | A new sequential prediction framework with spatial-temporal embedding | |
CN117033997A (zh) | 数据切分方法、装置、电子设备和介质 | |
CN114461619A (zh) | 能源互联网多源数据融合方法、装置、终端及存储介质 | |
Zhang et al. | A Multi-perspective Model for Protein–Ligand-Binding Affinity Prediction | |
Sato et al. | Artificial bee colony for affine and perspective template matching | |
Yao et al. | An enhanced collaborative optimization approach with design structure matrix algorithms to group and decouple multidisciplines | |
Yang et al. | Instance interactive association graph convolutional network for domain adaptive person re-identification | |
Miao et al. | A Renovated CNN‐Based Model Enhances KGC Task Performance | |
Xu et al. | View-relation constrained global representation learning for multi-view-based 3D object recognition | |
Hmaidi et al. | Anime Link Prediction Using Improved Graph Convolutional Networks | |
CN117540828B (zh) | 作训科目推荐模型训练方法、装置、电子设备和存储介质 | |
Chen et al. | A multi-view convolutional neural network based on cross-connection and residual-wider | |
Xiao et al. | [Retracted] A Big Data Analysis Algorithm Designed for the Interactive Platform of the Intelligent Sensor Information System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |