CN116665807B - 基于扩散模型的分子智能生成方法、装置、设备和介质 - Google Patents
基于扩散模型的分子智能生成方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN116665807B CN116665807B CN202310644522.4A CN202310644522A CN116665807B CN 116665807 B CN116665807 B CN 116665807B CN 202310644522 A CN202310644522 A CN 202310644522A CN 116665807 B CN116665807 B CN 116665807B
- Authority
- CN
- China
- Prior art keywords
- molecules
- protein
- noise
- ligand
- atomic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000009792 diffusion process Methods 0.000 title claims abstract description 47
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 43
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 43
- 239000003814 drug Substances 0.000 claims abstract description 20
- 229940079593 drug Drugs 0.000 claims abstract description 12
- 238000013461 design Methods 0.000 claims abstract description 7
- 239000003446 ligand Substances 0.000 claims description 56
- 230000008569 process Effects 0.000 claims description 46
- 125000004429 atom Chemical group 0.000 claims description 33
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 150000001413 amino acids Chemical class 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 150000003384 small molecules Chemical class 0.000 claims description 5
- 125000000539 amino acid group Chemical group 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 238000009509 drug development Methods 0.000 abstract description 4
- 238000003041 virtual screening Methods 0.000 abstract description 2
- 210000001503 joint Anatomy 0.000 abstract 1
- 238000013473 artificial intelligence Methods 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 4
- 239000002547 new drug Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000009510 drug design Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 229910052796 boron Inorganic materials 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 229940000406 drug candidate Drugs 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 150000002611 lead compounds Chemical class 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biotechnology (AREA)
- Computing Systems (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明涉及一种基于扩散模型的分子智能生成方法,属于药物化学与计算机技术领域,所述方法包括以下步骤:1)构建分子设计数据库;2)将所有分子表示为图形;3)基于等变扩散模型进行分子生成;4)对特定蛋白质口袋进行分子生成。本发明方法在借助靶点信息的基础上,生成具有高活性的分子。通过扩散模型对分子以及靶点结构建模,引入靶点结构的位置信息,使分子能够在对接口袋中进行生成,提高了生成的类药分子的活性,减少药物研发前期虚拟筛选中的时间与成本的消耗。
Description
技术领域
本发明涉及药物化学与计算机技术领域,具体涉及一种基于扩散模型的分子智能生成方法、装置、设备和介质。
背景技术
在新药研发过程中,分子设计是一个初始步骤,同时也是最重要的步骤之一,合理设计具有高亲和力分子仍是一个长期的挑战。设计类药分子需要考虑与靶点的结合性特征,如果类药分子与靶点的结合性好,那么该分子在后期的湿实验部分就有较大的概率能够发挥作用,进而能够治疗某种疾病。尽管目前存在大量的化合物数据库,可以利用Autodock Vina或者Gromacs等分子筛选软件实现对化合物数据库的初筛,以期摒除那些不适合成为药物的分子,但是,药物筛选往往存在着筛选速度慢,成本高的问题。因此,新药研发需要设计与靶点更好结合的类药分子,进而加速找到对治疗疾病有促进作用的化合物。
近年来,人工智能技术广泛应用于药物研发的各个阶段,逐渐成为新药研发的突破口。人工智能技术能够在较低成本的情况下,对更多的化合物、靶点进行处理,加快医药研发的进程,药物发现、临床前研究的时间可以缩短接近40%。人工智能技术可以用于靶点选择、虚拟筛选产生先导化合物、优化过程中针对药物性能预测,包括活性、选择性、药代及毒性等。目前已经存在借助人工智能的中的生成方法来设计类药分子,但大都采用序列生成方法,而生成过程一般没有排序,序列生成方法的主要前提在实际情况下可能不成立,所生成配体的全局上下文可能会丢失。序列生成方法具有较高的计算复杂性,推理效率亟需提高。同时存在使用强化学习的方式进行类药分子设计,该方法涉及一个生成器和一个判别器,模型往往无法同时满足生成器和判别器的要求,因此模型大多难以训练并且生成的分子没有考虑靶点特征。另外,一些人工智能方法通过将分子表示为原子密度图,并利用变分自动编码器生成与新分子对应的新原子密度图,通过后续的原子拟合过程,把分子表示为具有原子坐标和类型的3D图,但将原子密度图映射回分子常常出现分子有效性低的问题。
发明内容
本发明提供了一种基于等变扩散模型和蛋白质三维结构以生成分子的方法,采用一次性生成策略对所有原子的坐标和类型进行一次性采样,通过等变扩散模型进行基于结构的药物设计,以生成具有成药潜力的新分子。本方法采用等变扩散模型,结合特定的蛋白质靶点来生成分子和结合构象,考虑了原子间的相互作用,将蛋白质和配体点云表示为由等变图神经网络可以进一步处理的全连接图。
本发明是通过以下技术方案实现的:
一种基于扩散模型的分子智能生成方法,所述方法具体包括如下步骤:
步骤1.构建药物分子设计数据库:对药物数据集中的分子按序列同一性进行拆分,去除与非标准氨基酸的结合袋以及含有不相关原子的小分子,保留有效且适度的类药物配体分子,得到高质量蛋白质-配体对;
步骤2.以步骤1获得的蛋白质-配体对作为输入,将所有分子表示为图结构编码以及原子属性的独热编码;使用RDKit软件识别步骤1数据库中的蛋白质-配体对;模拟蛋白质-配体结构中的氨基酸残基,只考虑残基的α-碳原子;蛋白质的原子特征设置为氨基酸类型的一个独热编码,完整的原子模型对配体和蛋白质原子使用相同原子类型的独热编码。
步骤3.通过扩散概率模型识别步骤2中的独热编码以及小分子的图结构编码,并结合特定的蛋白质靶标来生成分子和结合构象;扩散概率模型由前向和后向马尔可夫链组成,经过有限步数的噪声扰动之后,使用等变图神经网络生成与原始数据分布一致的分子;所述扩散概率模型包括前向加噪过程和反向去噪过程,在前向加噪过程中前向马尔可夫链的作用是扰动数据,它根据预先设计的噪声进度向数据逐渐加入高斯噪声,直到数据的分布趋于先验分布,即标准高斯分布;反向去噪过程中反向马尔科夫链从给定的先验分布开始,通过等变图神经网络学习这一过程的反向过程,逐步恢复原数据分布,从高斯噪声中重建分子;通过等变图神经网络处理蛋白质和配体点云,预测原子类型以及分子坐标,进而生成高质量的分子。
进一步,所述步骤3中的前向加噪过程中的数据样本为步骤1所述的蛋白质-配体对;固定噪声生成过程表示如公式1所示,t为步数,t∈[0…1000],其中x0为初始的分子特征,将噪声添加到数据中产生t=0……T的潜在噪声zt,可控制扩散过程中的信噪比,表示从0到t步噪声的累乘;
进一步,所述步骤3中的反向去噪过程的整体描述如公式2所示,原子三维几何坐标x,原子类型特征h,数据样本记为原子点云zdata=[x,h]:
进一步,所述步骤3中原子信息包括原子类型特征h和原子几何坐标x,原子i在l层的特征h更新通过公式3和公式4进行:
其中,φe、φatt、φh、φx为可学习多层感知机,dij和aij分别为原子i和j之间的相对距离和边特征。
步骤4.使用条件生成方式,根据特定蛋白质口袋进行分子生成。
进一步,所述步骤4在条件生成过程中,反向去噪过程的每个步骤提供固定的三维环境,并使用L表示的配体原子点云,P表示的蛋白质口袋作为补充,且在整个反向去噪过程中保持不变。使用等变图神经网络对噪声预测器进行参数化,在使用单个图神经网络处理配体和口袋节点时,将原子类型和残基类型先通过单独的可学习多层感知机插入到联合节点嵌入空间中,采用公式5更新原子i在l层的坐标x:
本发明还提供一种基于扩散模型的分子智能生成的装置,所述装置运行所述的一种基于扩散模型的分子智能生成方法。
本发明还提供一种计算机设备,所述设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述一种基于扩散模型的分子智能生成方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适用于由处理器加载并执行所述的一种基于扩散模型的分子智能生成方法。
本发明与现有技术相比的有益效果:本发明基于等变扩散概率模型,用于生成新的分子。该模型通过将配体与蛋白质口袋的结构结合,生成具有所需的性质的成药性分子。本发明在最终生成效果上表现出色,具有非常高的分子有效性和靶点结合率。
(1)本发明基于扩散模型,将马尔可夫链和等变图神经网络结合,相对于以往的生成模型具有更好的效果。通过在正向扩散过程中添加随机噪声来系统地扰动数据中的分布,并采用带有参数的神经网络学习反向扩散过程恢复数据的分布,具有高度灵活且易于计算的特点。
(2)本发明与以往的深度学习模型的不同之处在于,它专注于如何结合特定的蛋白质靶标来生成分子和结合构象,从而提高生成分子的有效性和独特性。通过结合“配体-口袋”三维构象信息,在保证构象等变性的同时,生成具有成药潜力的分子。
附图说明
图1为扩散模型示意图;
图2为部分二维分子图。
具体实施方式
下面通过实施例结合附图来对本发明的技术方案做进一步解释,但本发明的保护范围不受实施例任何形式上的限制。
实施例1:本实施例的主要目标是:通过采用一次性生成策略对所有原子的坐标和类型进行一次性采样后,使用等变扩散模型,结合所提供的特定蛋白质口袋作为固定背景信息生成分子和结合构象,再进一步分析原子间相互作用,由等变图神经网络将蛋白质和配体点云处理后,生成新颖、多样、可与蛋白质口袋结合且具有高结合能的类药物配体。
一种基于扩散模型的类药分子智能生成方法,其具体包括步骤如下:
步骤1.构建药物分子设计数据库:对药物数据集中的分子按序列同一性进行拆分,去除与非标准氨基酸的结合袋以及含有不相关原子的小分子,保留有效且适度的类药物配体分子,得到高质量蛋白质-配体对。
本实施例的数据是由来自(1)CrossDocked数据集和(2)
BindingMOAD蛋白质-配体复合物数据库。
(1)CrossDocked2020数据集:在本实施例中,使用的CrossDocked2020数据集是以生成基于口袋结构与目标蛋白质口袋结合的配体分子,CrossDocked2020是一个利用Pocketome数据库和smina对接程序对PDBbind进行扩增得到的数据集。Pocketome根据其配体结合位点的相似性将PDB中的结构分组,所有识别的受体和配体形成一个“口袋”。在本实施例中,使用MMseqs2按30%的序列同一性进行拆分,得到可用的训练集有100000个高质量的蛋白质-配体对。
(2)BindingMOAD数据集:在本实施例中,使用Binding-MOAD由实验确定的蛋白质配体复合物的数据集,保留了有效且适度的“类药物”以及QED评分为>0.3的配体,并进一步丢弃了包含原子类型不属于{C,N,O,S,B,Br,Cl,P,I,F}的小分子,以及与非标准氨基酸的结合袋(定义为任何配体原子8埃范围内的任何原子的残基集)。得到可用的训练集有40354个高质量的蛋白质-配体对,测试集有130对。
Binding MOAD收集到的由实验确定的结合复合物数据,为合成CrossDocked数据集提供了一个真实的结合场景。
步骤2.以步骤1获得的数据库中的数据作为输入,将所有分子表示为图结构编码以及原子属性的独热编码:使用RDKit软件识别步骤1数据库中的蛋白质-配体对;模拟蛋白质-配体结构中的氨基酸残基,只考虑残基的α-碳原子;蛋白质的节点特征设置为氨基酸类型的一个独热编码,完整的原子模型对配体和蛋白质节点使用相同的原子类型的独热编码;
本实施例在进行结构基药物设计之前需先使用RDKit软件识别步骤1数据库中的蛋白质-配体对,转化为图结构编码形式。通过Cα模型模拟蛋白质-配体对结构中的氨基酸残基,只考虑残基的α-碳原子,而忽略其他原子,有效地减少计算量。蛋白质的节点特征在Cα模型中设置为氨基酸类型的一个独热编码,完整的原子模型对配体和蛋白质节点使用相同的原子类型独热编码。在这一过程中,不再添加用于区分蛋白质和配体原子的分类特征,而是继续使用两个单独的全连接层来嵌入原子特征,并将原子类型特征h按相对于坐标x的0.25倍进行缩放以提高模型性能;该步骤将分子的文本形式的特征转化为独热编码,能够被步骤3中的模型识别;
步骤3.通过扩散概率模型识别步骤2中的独热编码以及小分子的图结构编码并结合特定的蛋白质靶标来生成分子和结合构象;扩散概率模型由前向和后向马尔可夫链组成,经过有限步数的噪声扰动之后,使用等变图神经网络生成与原始数据分布一致的分子;
所述扩散概率模型包括前向加噪过程和反向去噪过程,在前向加噪过程中前向马尔可夫链的作用是扰动数据,它根据预先设计的噪声进度向数据逐渐加入高斯噪声,直到数据的分布趋于先验分布,即标准高斯分布;前向加噪过程中固定噪声生成过程表示如公式1所示,t为步数,t∈[0…1000],其中x0为初始的分子特征,将噪声添加到数据中产生t=0至T的潜在噪声zt,可控制扩散过程中的信噪比,表示从0到t步噪声的累乘:
反向去噪过程中反向马尔科夫链从给定的先验分布开始,通过等变图神经网络学习这一过程的反向过程,逐步恢复原数据分布,从高斯噪声中重建分子。反向去噪过程的整体描述如公式2所示,原子三维几何坐标x,原子类型特征h,数据样本记为原子点云zdata=[x,h]。
如附图1所示,此过程先模拟前向加噪过程q,以获得T时间步内逐步噪声样本的轨迹,训练模型pθ来反转或去噪这个过程。经过训练后,从N(0,I)的高斯分布中对新的候选药物进行采样,原子特征和坐标在整个过程中都是扩散的。配体(z(L))在前向加噪过程中表示为全连通图,并在生成结束时将共价键添加到所生成的点云中。蛋白质(z(P))用图表示,为清晰起见采用曲面表示。模型内还考虑到了平移、旋转、反射和置换等变性。
通过等变图神经网络处理蛋白质和配体点云,预测原子类型以及分子坐标,进而生成高质量的分子:等变图神经网络在中间层中无需进行计算昂贵的高阶表示,且容易扩展到三维空间以上维度的等价性计算。其中,原子信息包括原子类型特征h和原子几何坐标x,原子i在l层的特征h更新通过公式3和公式4进行。
其中φe、φatt、φh、φx为可学习多层感知机,dij和aij分别为原子i和j之间的相对距离和边特征。
步骤4使用条件生成方式,根据特定蛋白质口袋进行分子生成:在条件生成过程中,反向去噪过程的每个步骤提供固定的三维环境,并使用L表示的配体原子点云,P表示的蛋白质口袋作为补充,且在整个反向去噪过程中保持不变。使用等变图神经网络对噪声预测器进行参数化,在使用单个图神经网络处理配体和口袋节点时,将原子类型和残基类型先通过单独的可学习多层感知机插入到联合节点嵌入空间中,并采用公式5更新原子i在l层的坐标x:
本实施例使用条件生成方式进行分子生成的结果如附图2所示,以目前基于传统的基于结构设计的药物分子为参考进行评分和相似度比较。
实施例2:本实施例的主要目标是:通过采用一次性生成策略对所有原子的坐标和类型进行一次性采样后,使用等变扩散模型,本实施例不给出固定的背景信息,在对新的配体进行采样过程中逐步注入背景信息生成分子和结合构象,再进一步分析原子间相互作用,由等变图神经网络将蛋白质和配体点云处理后,生成新颖、多样、可与蛋白质口袋结合且具有高结合能的类药物配体。
一种基于扩散模型的类药分子智能生成方法,其具体包括步骤如下:
实施例2与实施例1在步骤1和步骤2具体实施过程上相同,步骤3采用配体修补方式进行分子生成。
步骤3.采用配体修补方式进行分子生成:本实施例先通过训练一个无条件的去噪扩散概率模型来近似配体和口袋节点的联合分布,可以在没有额外上下文的情况下对新的“配体-口袋对”进行采样。通过修改概率转换步骤将上下文注入采样过程对目标蛋白质袋进行条件处理,在扩散步骤t-1中,蛋白质口袋和配体相组合的潜在表示,是从口袋的前向噪声版本组装而成的,该版本是与去噪扩散概率模型根据步骤t的上一个潜在表示预测的配体节点相结合。通过反向遍历马尔可夫链,在每一步中用其前向噪声对应物替换预测的口袋节点,并在给定的蛋白质口袋上对生成过程进行限制。由于噪声过程的方差在t=0时减少到几乎为零,最终样本保证包含蛋白质口袋未受干扰的表示。通过扩展模型与靶点结构生成的小分子进行100轮测试,分子的有效性以及对接结果如表1所示。此方法生成的部分类药物配体,不仅新颖、多样且可以与蛋白质口袋结合,还具有较高结合能。
表1原始分子与生成分子对比表
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。
Claims (8)
1.一种基于扩散模型的分子智能生成方法,其特征在于,所述方法具体包括如下步骤:
步骤1.构建药物分子设计数据库:对药物数据集中的分子按序列同一性进行拆分,去除与非标准氨基酸的结合袋以及含有不相关原子的小分子,保留有效且适度的类药物配体分子,得到高质量蛋白质-配体对;
步骤2.以步骤1获得的蛋白质-配体对作为输入,将所有分子表示为图结构编码以及原子属性的独热编码;使用RDKit软件识别步骤1数据库中的蛋白质-配体对;模拟蛋白质-配体结构中的氨基酸残基,只考虑残基的α-碳原子;蛋白质的原子特征设置为氨基酸类型的一个独热编码,完整的原子模型对配体和蛋白质原子使用相同原子类型的独热编码;
步骤3.通过扩散概率模型识别步骤2中的独热编码以及小分子的图结构编码,并结合特定的蛋白质靶标来生成分子和结合构象;扩散概率模型由前向和后向马尔可夫链组成,经过有限步数的噪声扰动之后,使用等变图神经网络生成与原始数据分布一致的分子;所述扩散概率模型包括前向加噪过程和反向去噪过程,在前向加噪过程中前向马尔可夫链的作用是扰动数据,它根据预先设计的噪声进度向数据逐渐加入高斯噪声,直到数据的分布趋于先验分布,即标准高斯分布;反向去噪过程中反向马尔科夫链从给定的先验分布开始,通过等变图神经网络学习这一过程的反向过程,逐步恢复原数据分布,从高斯噪声中重建分子;通过等变图神经网络处理蛋白质和配体点云,预测原子类型以及分子坐标,进而生成高质量的分子;
步骤4.使用条件生成方式,根据特定蛋白质口袋进行分子生成。
2.根据权利要求1所述的一种基于扩散模型的分子智能生成方法,其特征在于,所述步骤3中的前向加噪过程中的数据样本为步骤1所述的蛋白质-配体对;固定噪声生成过程表示如公式1所示,t为步数,t∈[0…1000],其中x0为初始的分子特征,将噪声添加到数据中产生t=0……T的潜在噪声zt,可控制扩散过程中的信噪比,表示从0到t步噪声的累乘;
3.根据权利要求1所述的一种基于扩散模型的分子智能生成方法,其特征在于所述步骤3中的反向去噪过程的整体描述如公式2所示,原子三维几何坐标x,原子类型特征h,数据样本记为原子点云zdata=[x,h]:
4.根据权利要求1所述的一种基于扩散模型的分子智能生成方法,其特征在于,所述步骤3中原子信息包括原子类型特征h和原子几何坐标x,原子i在l层的特征h更新通过公式3和公式4进行:
其中,φe、φatt、φh、φx为可学习多层感知机,dij和aij分别为原子i和j之间的相对距离和边特征。
5.根据权利要求1所述的一种基于扩散模型的分子智能生成方法,其特征在于,所述步骤4在条件生成过程中,反向去噪过程的每个步骤提供固定的三维环境,并使用L表示的配体原子点云,P表示的蛋白质口袋作为补充,且在整个反向去噪过程中保持不变;使用等变图神经网络对噪声预测器进行参数化,在使用单个图神经网络处理配体和口袋节点时,将原子类型和残基类型先通过单独的可学习多层感知机插入到联合节点嵌入空间中,采用公式5更新原子i在l层的坐标x:
6.一种基于扩散模型的分子智能生成的装置,其特征在于,所述装置运行权利要求1-5任何一项所述的一种基于扩散模型的分子智能生成方法。
7.一种计算机设备,其特征在于,所述设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-5任何一项所述一种基于扩散模型的分子智能生成方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适用于由处理器加载并执行权利要求1-5任何一项所述的一种基于扩散模型的分子智能生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310644522.4A CN116665807B (zh) | 2023-06-02 | 2023-06-02 | 基于扩散模型的分子智能生成方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310644522.4A CN116665807B (zh) | 2023-06-02 | 2023-06-02 | 基于扩散模型的分子智能生成方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116665807A CN116665807A (zh) | 2023-08-29 |
CN116665807B true CN116665807B (zh) | 2023-11-03 |
Family
ID=87714860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310644522.4A Active CN116665807B (zh) | 2023-06-02 | 2023-06-02 | 基于扩散模型的分子智能生成方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665807B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115206457A (zh) * | 2022-07-22 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 三维分子结构生成方法、装置、设备及存储介质 |
CN115512785A (zh) * | 2022-09-01 | 2022-12-23 | 中国海洋大学 | 基于注意力机制的三维蛋白质-配体活性预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140067342A1 (en) * | 2012-08-28 | 2014-03-06 | Numerica Corporation | Particle tracking in biological systems |
EP3365272A4 (en) * | 2015-10-19 | 2019-06-26 | University of North Texas | REVERSE DYNAMIC GAS CELL MODEL FOR PORTABLE CHEMICAL DETECTION DEVICES FOR LOCATING THE THREAT AND ORIGIN POINT OF EFFLUENT FLOWS |
-
2023
- 2023-06-02 CN CN202310644522.4A patent/CN116665807B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115206457A (zh) * | 2022-07-22 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 三维分子结构生成方法、装置、设备及存储介质 |
CN115512785A (zh) * | 2022-09-01 | 2022-12-23 | 中国海洋大学 | 基于注意力机制的三维蛋白质-配体活性预测方法 |
Non-Patent Citations (3)
Title |
---|
MiDi:Mixed Graph and 3D Denoising Diffusion for Molecule Generation;Clement Vignac 等;《Machine Learning》;第1-22页 * |
海藻酸钠和壳聚糖聚电解质微胶囊及其生物医学应用;刘袖洞;于炜婷;王为;雄鹰;马小军;袁权;;化学进展(第01期);全文 * |
红外弱小运动目标实时检测的规整化滤波方法;张必银;张天序;桑农;张坤;;红外与毫米波学报(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116665807A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Preservational learning improves self-supervised medical image models by reconstructing diverse contexts | |
CN113707235B (zh) | 基于自监督学习的药物小分子性质预测方法、装置及设备 | |
US20240144092A1 (en) | Generative machine learning systems for drug design | |
Kamerlin et al. | Coarse-grained (multiscale) simulations in studies of biophysical and chemical systems | |
CN112836618B (zh) | 一种三维人体姿态估计方法及计算机可读存储介质 | |
Cortés et al. | A path planning approach for computing large-amplitude motions of flexible molecules | |
Cortés et al. | Geometric algorithms for the conformational analysis of long protein loops | |
WO2023134063A1 (zh) | 基于对比学习的药物分子性质预测方法、装置及设备 | |
Liu et al. | Optimization-based key frame extraction for motion capture animation | |
CN112289369B (zh) | 一种基于深度学习的抗体库构建方法及装置 | |
CN102508867B (zh) | 一种人体运动的运动图检索方法 | |
Wang et al. | 3D human motion editing and synthesis: A survey | |
CN111104964B (zh) | 音乐与动作的匹配方法、设备及计算机存储介质 | |
Guo et al. | Diffusion models in bioinformatics: A new wave of deep learning revolution in action | |
CN116912299A (zh) | 运动分解模型的医学图像配准方法、装置、设备及介质 | |
CN116665807B (zh) | 基于扩散模型的分子智能生成方法、装置、设备和介质 | |
CN116504302B (zh) | 基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法 | |
CN118298906A (zh) | 蛋白质和小分子对接方法、装置、电子设备和存储介质 | |
Dhakal et al. | Predicting protein-ligand binding structure using E (n) Equivariant graph neural networks | |
WO2023240720A1 (zh) | 药物筛选模型构建方法及装置、筛选方法、设备和介质 | |
Fischer et al. | 3-d docking of protein molecules | |
US20230402125A1 (en) | Drug screening model construction method, a drug screening model construction device, a drug screening method, apparatus and a medium | |
US20220415453A1 (en) | Determining a distribution of atom coordinates of a macromolecule from images using auto-encoders | |
CN115691704A (zh) | 分子生成方法、装置、分子设计方法、装置和电子设备 | |
Duan et al. | Wide area registration on camera phones for mobile augmented reality applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |