CN116825236A - 蛋白靶点的药物分子生成方法、装置、设备及介质 - Google Patents

蛋白靶点的药物分子生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN116825236A
CN116825236A CN202310799751.3A CN202310799751A CN116825236A CN 116825236 A CN116825236 A CN 116825236A CN 202310799751 A CN202310799751 A CN 202310799751A CN 116825236 A CN116825236 A CN 116825236A
Authority
CN
China
Prior art keywords
drug molecules
protein target
drug
graph
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310799751.3A
Other languages
English (en)
Inventor
王俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310799751.3A priority Critical patent/CN116825236A/zh
Publication of CN116825236A publication Critical patent/CN116825236A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medical Informatics (AREA)
  • Medicinal Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请涉及人工智能药物和医疗健康技术领域,提出了一种蛋白靶点的药物分子生成方法、装置、设备及介质,其中,方法包括:获取蛋白靶点和目标药物分子在多个模态下的图表示信息;使用多模态图神经网络模型对所述蛋白靶点和药物分子的图表示信息进行特征提取,以得到对应的特征向量;根据所述蛋白靶点和目标药物分子对应的特征向量,使用生成对抗网络模型生成潜在药物分子;使用强化学习模型对所述潜在药物分子进行优化,得到优化后的药物分子;对所述优化后的药物分子进行排序和筛选,并输出最优候选药物分子。通过该技术方案,能够产生越来越逼真且有效的药物分子。

Description

蛋白靶点的药物分子生成方法、装置、设备及介质
【技术领域】
本申请涉及人工智能药物和医疗健康技术领域,尤其涉及一种蛋白靶点的药物分子生成方法、装置、设备及介质。
【背景技术】
蛋白靶点是指能够与药物分子结合并发挥药效的蛋白质,是药物设计的重要依据。药物分子是指能够与蛋白靶点结合并改变其功能的化合物,是药物设计的重要成分。蛋白靶点和药物分子之间的相互作用(Drug Target Interaction,DTI)是影响药效和副作用的关键因素,是药物设计的核心问题。
DTI预测是指利用计算方法预测给定的蛋白靶点和药物分子之间是否存在结合关系,以及结合的强度和模式,是药物设计中常用的筛选和优化手段。
现有的DTI预测方法主要分为基于配体的方法和基于结构的方法。基于配体的方法利用已知的药物分子和蛋白靶点之间的相互作用数据,构建机器学习或深度学习模型,来预测新的药物分子和蛋白靶点之间的相互作用。基于结构的方法利用蛋白靶点和药物分子的三维(3D)结构信息,进行对接模拟或分子动力学模拟,来评估它们之间的结合能量和构象。
现有技术存在以下缺陷:
(1)基于配体的方法依赖于大量且高质量的实验数据,而这些数据往往难以获取或不完整。此外,这些方法忽略了蛋白靶点和药物分子之间的结构信息,无法直接指导药物分子的设计和优化。
(2)基于结构的方法需要准确且完整的蛋白靶点和药物分子的3D结构信息,而这些信息往往难以获取或不稳定。此外,这些方法通常需要大量的计算资源和时间,无法快速地进行大规模的筛选和优化。
【发明内容】
本申请实施例提供了一种蛋白靶点的药物分子生成方法、装置、设备及介质,旨在解决相关技术中无法直接指导药物分子的设计和优化,无法快速地进行大规模的筛选和优化等技术问题。
第一方面,本申请实施例提供了一种蛋白靶点的药物分子生成方法,包括:
获取蛋白靶点和目标药物分子在多个模态下的图表示信息;
使用多模态图神经网络模型对所述蛋白靶点和药物分子的图表示信息进行特征提取,以得到对应的特征向量;
根据所述蛋白靶点和目标药物分子对应的特征向量,使用生成对抗网络模型生成潜在药物分子;
使用强化学习模型对所述潜在药物分子进行优化,得到优化后的药物分子;
对所述优化后的药物分子进行排序和筛选,并输出最优候选药物分子。
第二方面,本申请实施例提供了一种蛋白靶点的药物分子生成装置,包括:
获取模块,用于获取蛋白靶点和目标药物分子在多个模态下的图表示信息;
提取模块,用于使用多模态图神经网络模型对所述蛋白靶点和药物分子的图表示信息进行特征提取,以得到对应的特征向量;
生成模块,用于根据所述蛋白靶点和目标药物分子对应的特征向量,使用生成对抗网络模型生成潜在药物分子;
优化模块,用于使用强化学习模型对所述潜在药物分子进行优化,得到优化后的药物分子;
输出模块,用于对所述优化后的药物分子进行排序和筛选,并输出最优候选药物分子。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述蛋白靶点的药物分子生成方法的步骤。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述蛋白靶点的药物分子生成方法的步骤。
以上蛋白靶点的药物分子生成方法、装置、设备及介质所实现的方案中,获取蛋白靶点和目标药物分子在多个模态下的图表示信息;使用多模态图神经网络模型对所述蛋白靶点和药物分子的图表示信息进行特征提取,以得到对应的特征向量;根据蛋白靶点和目标药物分子对应的特征向量,使用生成对抗网络模型生成潜在药物分子;使用强化学习模型对所述潜在药物分子进行优化,得到优化后的药物分子;对优化后的药物分子进行排序和筛选,并输出最优候选药物分子。在本发明中,通过多模态图神经网络,可以将蛋白靶点和药物分子在不同模态下表示为图,并通过跨模态注意力机制实现不同模态之间的信息融合和互补,从而学习到更丰富、更准确、更鲁棒的特征表示。通过生成对抗网络模型,可以在给定蛋白靶点的情况下,生成具有高预测亲和力的药物分子,通过对抗训练,能够产生越来越逼真且有效的药物分子。通过强化学习模型,可以在给定蛋白靶点的情况下,对生成的药物分子进行优化和改进,从而能够学习到最优的编辑策略,从而产生更优质的药物分子。
【附图说明】
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了根据本申请的一个实施例的蛋白靶点的药物分子生成方法的示意流程图。
图2示出了根据本申请的一个实施例的蛋白靶点的药物分子生成方法中步骤S102的示意流程图。
图3示出了根据本申请的一个实施例的蛋白靶点的药物分子生成装置的框图。
图4示出了根据本申请的一个实施例的计算机设备的一结构示意图。
图5示出了根据本申请的一个实施例的计算机设备的另一结构示意图。
【具体实施方式】
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
为了解决相关技术中无法直接指导药物分子的设计和优化,无法快速地进行大规模的筛选和优化等技术问题,本申请提出了一种蛋白靶点的药物分子生成方法、装置、设备及介质。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
请参阅图1,图1示出了根据本申请的一个实施例的蛋白靶点的药物分子生成方法的示意流程图。该蛋白靶点的药物分子生成方法用于解决相关技术中人工对深蹲跳动作进行计数,耗时费力,容易出错,且计数标准与测量人员的主观判断相关,容易造成标准的不一致性,无法对用户起到运动监督和激励作用等技术问题。
如图1所示,根据本申请的一个实施例的蛋白靶点的药物分子生成方法的流程包括:
步骤S101,获取蛋白靶点和目标药物分子在多个模态下的图表示信息;
在一个实施例中,可选的,步骤S101包括:
获取蛋白靶点和目标药物分子在多个模态下的数据信息;
将每个所述数据信息转换为对应的图表示,其中,所述图表示包括一维序列图、二维拓扑图和三维坐标图;
将蛋白靶点和药物分子在不同模态下的信息转换为图表示,包括一维序列图、二维拓扑图、三维坐标图等。
一维序列图:将蛋白靶点和药物分子的一维序列(如氨基酸序列或SMILES字符串)表示为一个有向图,其中,每个节点对应一个氨基酸或原子,每条边对应一个肽键或化学键,节点和边的特征由嵌入矩阵或字典提供。
二维拓扑图:将药物分子的二维拓扑结构表示为一个无向图,其中每个节点对应一个原子,每条边对应一个化学键,节点和边的特征由嵌入矩阵或字典提供。
三维坐标图:将蛋白靶点和药物分子的三维坐标结构表示为一个无向图,其中每个节点对应一个原子,每条边对应一个距离阈值内的原子对,节点和边的特征由嵌入矩阵或字典提供。
对图表示进行预处理,以得到所述图表示信息,其中,预处理包括以下至少一项:数据清洗、数据筛选和数据增强。
数据清洗:去除重复、错误、缺失或低质量的数据,保证数据的完整性和准确性。
数据筛选:根据一定的标准(如亲和力、化学有效性、类药性等),筛选出符合要求的数据,保证数据的相关性和可用性。
数据增强:通过一定的方法(如旋转、平移、扰动、变异等),增加数据的数量和多样性,保证数据的充分性和鲁棒性。
步骤S102,使用多模态图神经网络模型对所述蛋白靶点和药物分子的图表示信息进行特征提取,以得到对应的特征向量;
如图2所示,在一个实施例中,可选的,步骤S102包括:
步骤S201,使用所述多模态图神经网络模型从所述蛋白靶点和目标药物分子的每个模态下的图表示信息中提取局部特征向量和全局特征向量;
步骤S202,将所述每个模态下的局部特征向量和全局特征向量拼接成总特征向量;
步骤S203,通过跨模态注意力机制计算不同模态的总特征向量之间的相关性,并根据所述相关性确定每个模态对应的权重;
步骤S204,根据每个模态的总特征向量和权重进行加权求和,以得到最终特征向量;
步骤S205,将所述最终特征向量确定为所述蛋白靶点和目标药物分子对应的特征向量。
在该实施例中,利用多模态图神经网络模型MMGNN对蛋白靶点和药物分子的图表示进行特征提取,多模态图神经网络模型由多个模态特定的图神经网络(GNN)和一个跨模态注意力机制组成:模态特定的GNN负责从每个模态下的图表示中提取局部和全局的特征向量,并将它们拼接成一个模态特定的特征向量。跨模态注意力机制负责计算不同模态之间的相关性,并根据相关性加权求和不同模态的特征向量,得到最终的特征向量。
对于每个模态m∈{1,2,3},使用一个模态特定的GNN来提取图表示Gm=(Vm,Em)的特征,其中Vm和Em分别表示节点集合和边集合。每个节点vi∈Vm和边eij∈Em都有一个初始的特征向量和/>
模态特定的GNN由L层图卷积层和一个图池化层组成。每个图卷积层使用以下公式更新节点和边的特征:
其中,和/>分别表示第l层的节点隐向量和节点特征向量,/>表示第l层的边特征向量,N(i)表示节点vi的邻居节点集合,σ表示激活函数,Wm,l和Um,l表示可学习的权重矩阵。
图池化层使用以下公式将图中所有节点的特征向量聚合成一个图特征向量:
其中,αi表示一个注意力系数,由以下公式计算:
其中,f表示一个多层感知器(MLP)。
使用一个跨模态注意力机制来融合不同模态下的图特征向量,得到最终的特征向量。具体来说,使用以下公式计算不同模态之间的相关性矩阵S:
其中,Z=[z1,z2,z3]表示不同模态下的图特征向量拼接成的矩阵,d表示图特征向量的维度。
然后,使用以下公式计算每个模态下的注意力权重,并根据权重加权求和不同模态下的图特征向量,得到最终的特征向量:
步骤S103,根据所述蛋白靶点和目标药物分子对应的特征向量,使用生成对抗网络模型生成潜在药物分子;
在一个实施例中,可选的,所述生成对抗网络模型包括生成器和判别器,所述生成器包括噪声编码器和分子解码器,所述判别器包括分子编码器和分类器;
通过所述噪声编码器获取随机噪声向量,并将所述随机噪声向量和蛋白靶点对应的特征向量进行拼接,并通过全连接层得到对应的隐向量;
在该实施例中,使用一个MLP将随机噪声向量和蛋白靶点的特征向量拼接起来,并通过全连接层得到一个隐向量/>即:hg=MLP([s,zp])。
通过所述分子解码器将所述隐向量解码成备用药物分子特征向量,并通过反向映射得到备用药物分子图表示;
在该实施例中,使用一个基于图的自回归模型将隐向量hg解码为药物分子特征向量并通过反向映射得到药物分子图表示Gm=(Vm,Em),即:
zm=GraphAR(hg)Gm=InverseMap(zm)
其中,GraphAR表示一个图自回归模型,如GraphRNN或GraphAF等,InverseMap表示一个反向映射函数,如Junction Tree Decoder或Graph2SMILES等。
通过所述分子编码器将所述备用药物分子图表示编码为备用药物分子特征向量,并与所述蛋白靶点对应的特征向量进行拼接,得到拼接后的特征向量;
使用一个多模态图神经网络模型MMGNN将药物分子图表示Gm=(Vm,Em)和蛋白靶点特征向量拼接起来,并通过跨模态注意力机制得到一个拼接后的特征向量即:
hd=MMGNN([Gm,zp])
通过所述分类器对所述拼接后的特征向量进行分类,以确定所述备用药物分子是否是潜在药物分子。
使用一个MLP将拼接后的特征向量hd作为输入,并通过全连接层和Sigmoid函数得到一个二分类概率pd∈[0,1],即:pd=σ(MLP(hd))其中,σ表示Sigmoid函数。
步骤S104,使用强化学习模型对所述潜在药物分子进行优化,得到优化后的药物分子;
在一个实施例中,可选的,所述强化学习模块包括智能体和环境,所述智能体包括状态编码器和策略网络,所述环境包括奖励函数和终止条件;
通过所述状态编码器将所述潜在药物分子的图表示和所述蛋白靶点的特征向量进行拼接,并通过所述多模态图神经网络模型得到对应的状态向量;
使用一个多模态图神经网络模型MMGNN将药物分子图表示Gm=(Vm,Em)和蛋白靶点特征向量拼接起来,并通过跨模态注意力机制得到一个状态向量/>即:st=MMGNN([Gm,zp])。
通过所述策略网络,根据所述状态向量输出对应的编辑操作,并执行所述编辑操作,得到新的药物分子图表示;
在一个实施例中,可选的,所述策略网络包括指针网络,通过所述指针网络的图编辑模型将状态向量作为输入,并输出对应的编辑操作,得到新的药物分子图表示。
使用一个基于指针网络(pointer network)的图编辑模型将状态向量st作为输入,并输出一个编辑操作at,并执行该操作,得到新的药物分子图表示Gm′=(Vm′,Em′),即:
at=GraphEdit(st)
Gm′=Gm+at
其中,GraphEdit表示一个图编辑模型,如MolEdit或GraphGT等。
此处,指针网络是一种基于序列到序列(seq2seq)模型和注意力机制(attentionmechanism)的变种,它可以解决输出序列的词汇表会随着输入序列长度的改变而改变的问题,如寻找凸包、排序等。它不是把一个序列转换成另一个序列,而是产生一系列指向输入序列元素的指针。每当解码器生成一个元素的时候,都会找到输入序列中权重最大的那个元素,而由于输出序列完全来自输入序列,它可以适应输入序列的长度变化。指针网络可以用于直接复制输入序列中的某些元素给输出序列,或者用于生成对输入序列元素有依赖关系的输出序列。
通过所述奖励函数,根据所述新的药物分子图表示计算出对应的奖励信号,并反馈至智能体;
使用一个加权求和的方式将多个奖励信号ri(如亲和力、化学有效性、类药性、多样性、可合成性等)组合成一个总奖励信号rt,并反馈给智能体,即:
其中,wi表示第i个奖励信号的权重,ri(m′)表示根据药物分子图表示Gm′计算出的第i个奖励信号。
通过终止条件确定是否结束当前的编辑操作。
在该实施例中,可以使用一个布尔函数判断是否达到最大编辑步数T或其他停止标准c,如果是,则结束当前的编辑过程。
步骤S105,对所述优化后的药物分子进行排序和筛选,并输出最优候选药物分子。
在一个实施例中,可选的,步骤S105包括:
利用预设评价指标,对所述优化后的药物分子进行筛选和排序,以得到最优候选药物分子,其中,所述预设评价指标包括以下至少一项:亲和力、化学有效性、类药性和多样性。
利用各种评价指标(如亲和力、化学有效性、类药性、多样性等),对生成和优化后的潜在作用分子进行评估和筛选,得到最终的候选作用分子。
亲和力:使用smina软件对生成和优化后的潜在作用分子与蛋白靶点进行对接模拟,计算它们之间的结合能量,并根据结合能量的大小进行排序,选择结合能量最低的分子作为候选作用分子。
化学有效性:使用RDKit软件对生成和优化后的潜在作用分子进行化学有效性检验,判断它们是否符合基本的化学规则,如原子类型、键类型、价电子数等,并过滤掉不符合规则的分子。
类药性:使用RDKit软件对生成和优化后的潜在作用分子进行类药性评估,计算它们的分子量、LogP、极性表面积等性质,并根据Lipinski规则判断它们是否具有良好的类药性,并过滤掉不符合规则的分子。
多样性:使用RDKit软件对生成和优化后的潜在作用分子进行多样性评估,计算它们之间的Tanimoto相似度,并根据相似度的大小进行聚类,选择每个聚类中最具代表性的分子作为候选作用分子。
以上蛋白靶点的药物分子生成方法所实现的方案中,获取蛋白靶点和目标药物分子在多个模态下的图表示信息;使用多模态图神经网络模型对所述蛋白靶点和药物分子的图表示信息进行特征提取,以得到对应的特征向量;根据蛋白靶点和目标药物分子对应的特征向量,使用生成对抗网络模型生成潜在药物分子;使用强化学习模型对所述潜在药物分子进行优化,得到优化后的药物分子;对优化后的药物分子进行排序和筛选,并输出最优候选药物分子。在本发明中,通过多模态图神经网络,可以将蛋白靶点和药物分子在不同模态下表示为图,并通过跨模态注意力机制实现不同模态之间的信息融合和互补,从而学习到更丰富、更准确、更鲁棒的特征表示。通过生成对抗网络模型,可以在给定蛋白靶点的情况下,生成具有高预测亲和力的药物分子,通过对抗训练,能够产生越来越逼真且有效的药物分子。通过强化学习模型,可以在给定蛋白靶点的情况下,对生成的药物分子进行优化和改进,从而能够学习到最优的编辑策略,从而产生更优质的药物分子。
图3示出了根据本申请的一个实施例的蛋白靶点的药物分子生成装置的框图。
如图3所示,第二方面,本申请实施例提供了一种蛋白靶点的药物分子生成装置30,包括:
获取模块31,用于获取蛋白靶点和目标药物分子在多个模态下的图表示信息;
提取模块32,用于使用多模态图神经网络模型对所述蛋白靶点和药物分子的图表示信息进行特征提取,以得到对应的特征向量;
生成模块33,用于根据所述蛋白靶点和目标药物分子对应的特征向量,使用生成对抗网络模型生成潜在药物分子;
优化模块34,用于使用强化学习模型对所述潜在药物分子进行优化,得到优化后的药物分子;
输出模块35,用于对所述优化后的药物分子进行排序和筛选,并输出最优候选药物分子。
在一个实施例中,可选的,获取模块包括:
数据获取单元,用于获取蛋白靶点和目标药物分子在多个模态下的数据信息;
转换单元,用于将每个所述数据信息转换为对应的图表示,其中,所述图表示包括一维序列图、二维拓扑图和三维坐标图;
预处理单元,用于对所述图表示进行预处理,以得到所述图表示信息,其中,所述预处理包括以下至少一项:数据清洗、数据筛选和数据增强。
在一个实施例中,可选的,提取模块包括:
向量提取单元,用于使用所述多模态图神经网络模型从所述蛋白靶点和目标药物分子的每个模态下的图表示信息中提取局部特征向量和全局特征向量;
拼接单元,用于将所述每个模态下的局部特征向量和全局特征向量拼接成总特征向量;
第一确定单元,用于通过跨模态注意力机制计算不同模态的总特征向量之间的相关性,并根据所述相关性确定每个模态对应的权重;
计算单元,用于根据每个模态的总特征向量和权重进行加权求和,以得到最终特征向量;
第二确定单元,用于将所述最终特征向量确定为所述蛋白靶点和目标药物分子对应的特征向量。
在一个实施例中,可选的,所述生成对抗网络模型包括生成器和判别器,所述生成器包括噪声编码器和分子解码器,所述判别器包括分子编码器和分类器;
通过所述噪声编码器获取随机噪声向量,并将所述随机噪声向量和蛋白靶点对应的特征向量进行拼接,并通过全连接层得到对应的隐向量;
通过所述分子解码器将所述隐向量解码成备用药物分子特征向量,并通过反向映射得到备用药物分子图表示;
通过所述分子编码器将所述备用药物分子图表示编码为备用药物分子特征向量,并与所述蛋白靶点对应的特征向量进行拼接,得到拼接后的特征向量;
通过所述分类器对所述拼接后的特征向量进行分类,以确定所述备用药物分子是否是潜在药物分子。
在一个实施例中,可选的,所述强化学习模块包括智能体和环境,所述智能体包括状态编码器和策略网络,所述环境包括奖励函数和终止条件;
通过所述状态编码器将所述潜在药物分子的图表示和所述蛋白靶点的特征向量进行拼接,并通过所述多模态图神经网络模型得到对应的状态向量;
通过所述策略网络,根据所述状态向量输出对应的编辑操作,并执行所述编辑操作,得到新的药物分子图表示;
通过所述奖励函数,根据所述新的药物分子图表示计算出对应的奖励信号,并反馈至智能体;
通过终止条件确定是否结束当前的编辑操作。
在一个实施例中,可选的,所述策略网络包括指针网络,通过所述指针网络的图编辑模型将状态向量作为输入,并输出对应的编辑操作,得到新的药物分子图表示。
在一个实施例中,可选的,输出模块用于:
利用预设评价指标,对所述优化后的药物分子进行筛选和排序,以得到最优候选药物分子,其中,所述预设评价指标包括以下至少一项:亲和力、化学有效性、类药性和多样性。
关于蛋白靶点的药物分子生成装置的具体限定可以参见上文中对于蛋白靶点的药物分子生成方法的限定,在此不再赘述。上述蛋白靶点的药物分子生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种蛋白靶点的药物分子生成方法服务端侧的功能或步骤。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种蛋白靶点的药物分子生成方法客户端侧的功能或步骤。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例的计算机设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取蛋白靶点和目标药物分子在多个模态下的图表示信息;
使用多模态图神经网络模型对所述蛋白靶点和药物分子的图表示信息进行特征提取,以得到对应的特征向量;
根据所述蛋白靶点和目标药物分子对应的特征向量,使用生成对抗网络模型生成潜在药物分子;
使用强化学习模型对所述潜在药物分子进行优化,得到优化后的药物分子;
对所述优化后的药物分子进行排序和筛选,并输出最优候选药物分子。
在一个实施例中,可选的,获取蛋白靶点和目标药物分子在多个模态下的图表示信息,包括:
获取蛋白靶点和目标药物分子在多个模态下的数据信息;
将每个所述数据信息转换为对应的图表示,其中,所述图表示包括一维序列图、二维拓扑图和三维坐标图;
对所述图表示进行预处理,以得到所述图表示信息,其中,所述预处理包括以下至少一项:数据清洗、数据筛选和数据增强。
在一个实施例中,可选的,使用多模态图神经网络模型对所述蛋白靶点和目标药物分子的图表示信息进行特征提取,以得到对应的特征向量,包括:
使用所述多模态图神经网络模型从所述蛋白靶点和目标药物分子的每个模态下的图表示信息中提取局部特征向量和全局特征向量;
将所述每个模态下的局部特征向量和全局特征向量拼接成总特征向量;
通过跨模态注意力机制计算不同模态的总特征向量之间的相关性,并根据所述相关性确定每个模态对应的权重;
根据每个模态的总特征向量和权重进行加权求和,以得到最终特征向量;
将所述最终特征向量确定为所述蛋白靶点和目标药物分子对应的特征向量。
在一个实施例中,可选的,所述生成对抗网络模型包括生成器和判别器,所述生成器包括噪声编码器和分子解码器,所述判别器包括分子编码器和分类器;
通过所述噪声编码器获取随机噪声向量,并将所述随机噪声向量和蛋白靶点对应的特征向量进行拼接,并通过全连接层得到对应的隐向量;
通过所述分子解码器将所述隐向量解码成备用药物分子特征向量,并通过反向映射得到备用药物分子图表示;
通过所述分子编码器将所述备用药物分子图表示编码为备用药物分子特征向量,并与所述蛋白靶点对应的特征向量进行拼接,得到拼接后的特征向量;
通过所述分类器对所述拼接后的特征向量进行分类,以确定所述备用药物分子是否是潜在药物分子。
在一个实施例中,可选的,所述强化学习模块包括智能体和环境,所述智能体包括状态编码器和策略网络,所述环境包括奖励函数和终止条件;
通过所述状态编码器将所述潜在药物分子的图表示和所述蛋白靶点的特征向量进行拼接,并通过所述多模态图神经网络模型得到对应的状态向量;
通过所述策略网络,根据所述状态向量输出对应的编辑操作,并执行所述编辑操作,得到新的药物分子图表示;
通过所述奖励函数,根据所述新的药物分子图表示计算出对应的奖励信号,并反馈至智能体;
通过终止条件确定是否结束当前的编辑操作。
在一个实施例中,可选的,所述策略网络包括指针网络,通过所述指针网络的图编辑模型将状态向量作为输入,并输出对应的编辑操作,得到新的药物分子图表示。
在一个实施例中,可选的,对所述优化后的药物分子进行排序和筛选,并输出最优候选药物分子,包括:
利用预设评价指标,对所述优化后的药物分子进行筛选和排序,以得到最优候选药物分子,其中,所述预设评价指标包括以下至少一项:亲和力、化学有效性、类药性和多样性。
需要说明的是,上述关于计算机可读存储介质或电子设备所能实现的功能或步骤,可对应参阅前述方法实施例中的相关描述,为避免重复,这里不再一一描述。
以上结合附图详细说明了本申请的技术方案,通过多模态图神经网络,可以将蛋白靶点和药物分子在不同模态下表示为图,并通过跨模态注意力机制实现不同模态之间的信息融合和互补,从而学习到更丰富、更准确、更鲁棒的特征表示。通过生成对抗网络模型,可以在给定蛋白靶点的情况下,生成具有高预测亲和力的药物分子,通过对抗训练,能够产生越来越逼真且有效的药物分子。通过强化学习模型,可以在给定蛋白靶点的情况下,对生成的药物分子进行优化和改进,从而能够学习到最优的编辑策略,从而产生更优质的药物分子。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本申请实施例中可能采用术语第一、第二等来描述设置单元,但这些设置单元不应限于这些术语。这些术语仅用来将设置单元彼此区分开。例如,在不脱离本申请实施例范围的情况下,第一设置单元也可以被称为第二设置单元,类似地,第二设置单元也可以被称为第一设置单元。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种蛋白靶点的药物分子生成方法,其特征在于,包括:
获取蛋白靶点和目标药物分子在多个模态下的图表示信息;
使用多模态图神经网络模型对所述蛋白靶点和药物分子的图表示信息进行特征提取,以得到对应的特征向量;
根据所述蛋白靶点和目标药物分子对应的特征向量,使用生成对抗网络模型生成潜在药物分子;
使用强化学习模型对所述潜在药物分子进行优化,得到优化后的药物分子;
对所述优化后的药物分子进行排序和筛选,并输出最优候选药物分子。
2.根据权利要求1所述的蛋白靶点的药物分子生成方法,其特征在于,获取蛋白靶点和目标药物分子在多个模态下的图表示信息,包括:
获取蛋白靶点和目标药物分子在多个模态下的数据信息;
将每个所述数据信息转换为对应的图表示,其中,所述图表示包括一维序列图、二维拓扑图和三维坐标图;
对所述图表示进行预处理,以得到所述图表示信息,其中,所述预处理包括以下至少一项:数据清洗、数据筛选和数据增强。
3.根据权利要求1所述的蛋白靶点的药物分子生成方法,其特征在于,使用多模态图神经网络模型对所述蛋白靶点和目标药物分子的图表示信息进行特征提取,以得到对应的特征向量,包括:
使用所述多模态图神经网络模型从所述蛋白靶点和目标药物分子的每个模态下的图表示信息中提取局部特征向量和全局特征向量;
将所述每个模态下的局部特征向量和全局特征向量拼接成总特征向量;
通过跨模态注意力机制计算不同模态的总特征向量之间的相关性,并根据所述相关性确定每个模态对应的权重;
根据每个模态的总特征向量和权重进行加权求和,以得到最终特征向量;
将所述最终特征向量确定为所述蛋白靶点和目标药物分子对应的特征向量。
4.根据权利要求1所述的蛋白靶点的药物分子生成方法,其特征在于,所述生成对抗网络模型包括生成器和判别器,所述生成器包括噪声编码器和分子解码器,所述判别器包括分子编码器和分类器;
通过所述噪声编码器获取随机噪声向量,并将所述随机噪声向量和蛋白靶点对应的特征向量进行拼接,并通过全连接层得到对应的隐向量;
通过所述分子解码器将所述隐向量解码成备用药物分子特征向量,并通过反向映射得到备用药物分子图表示;
通过所述分子编码器将所述备用药物分子图表示编码为备用药物分子特征向量,并与所述蛋白靶点对应的特征向量进行拼接,得到拼接后的特征向量;
通过所述分类器对所述拼接后的特征向量进行分类,以确定所述备用药物分子是否是潜在药物分子。
5.根据权利要求1所述的蛋白靶点的药物分子生成方法,其特征在于,所述强化学习模块包括智能体和环境,所述智能体包括状态编码器和策略网络,所述环境包括奖励函数和终止条件;
通过所述状态编码器将所述潜在药物分子的图表示和所述蛋白靶点的特征向量进行拼接,并通过所述多模态图神经网络模型得到对应的状态向量;
通过所述策略网络,根据所述状态向量输出对应的编辑操作,并执行所述编辑操作,得到新的药物分子图表示;
通过所述奖励函数,根据所述新的药物分子图表示计算出对应的奖励信号,并反馈至智能体;
通过终止条件确定是否结束当前的编辑操作。
6.根据权利要求5所述的蛋白靶点的药物分子生成方法,其特征在于,所述策略网络包括指针网络,通过所述指针网络的图编辑模型将状态向量作为输入,并输出对应的编辑操作,得到新的药物分子图表示。
7.根据权利要求5所述的蛋白靶点的药物分子生成方法,其特征在于,对所述优化后的药物分子进行排序和筛选,并输出最优候选药物分子,包括:
利用预设评价指标,对所述优化后的药物分子进行筛选和排序,以得到最优候选药物分子,其中,所述预设评价指标包括以下至少一项:亲和力、化学有效性、类药性和多样性。
8.一种蛋白靶点的药物分子生成装置,其特征在于,包括:
获取模块,用于获取蛋白靶点和目标药物分子在多个模态下的图表示信息;
提取模块,用于使用多模态图神经网络模型对所述蛋白靶点和药物分子的图表示信息进行特征提取,以得到对应的特征向量;
生成模块,用于根据所述蛋白靶点和目标药物分子对应的特征向量,使用生成对抗网络模型生成潜在药物分子;
优化模块,用于使用强化学习模型对所述潜在药物分子进行优化,得到优化后的药物分子;
输出模块,用于对所述优化后的药物分子进行排序和筛选,并输出最优候选药物分子。
9.一种计算机设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至7中任一项所述的方法。
CN202310799751.3A 2023-06-30 2023-06-30 蛋白靶点的药物分子生成方法、装置、设备及介质 Pending CN116825236A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310799751.3A CN116825236A (zh) 2023-06-30 2023-06-30 蛋白靶点的药物分子生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310799751.3A CN116825236A (zh) 2023-06-30 2023-06-30 蛋白靶点的药物分子生成方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116825236A true CN116825236A (zh) 2023-09-29

Family

ID=88112401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310799751.3A Pending CN116825236A (zh) 2023-06-30 2023-06-30 蛋白靶点的药物分子生成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116825236A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116384A (zh) * 2023-10-20 2023-11-24 聊城高新生物技术有限公司 一种靶向诱导的医药分子结构生成方法
CN117524298A (zh) * 2023-11-03 2024-02-06 和合数据科技(深圳)有限公司 主动寻找、分析、比对、预警药物作用靶点的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116384A (zh) * 2023-10-20 2023-11-24 聊城高新生物技术有限公司 一种靶向诱导的医药分子结构生成方法
CN117116384B (zh) * 2023-10-20 2024-01-09 聊城高新生物技术有限公司 一种靶向诱导的医药分子结构生成方法
CN117524298A (zh) * 2023-11-03 2024-02-06 和合数据科技(深圳)有限公司 主动寻找、分析、比对、预警药物作用靶点的方法和装置

Similar Documents

Publication Publication Date Title
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
JP2023082017A (ja) コンピュータシステム
US20180365579A1 (en) Method and apparatus for evaluating a matching degree of multi-domain information based on artificial intelligence, device and medium
CN116825236A (zh) 蛋白靶点的药物分子生成方法、装置、设备及介质
WO2021203865A1 (zh) 分子结合位点检测方法、装置、电子设备及存储介质
KR20190056940A (ko) 멀티모달 데이터 학습 방법 및 장치
CN113656660B (zh) 跨模态数据的匹配方法、装置、设备及介质
CN111027576A (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN111160049B (zh) 文本翻译方法、装置、机器翻译系统和存储介质
CN115457492A (zh) 目标检测方法、装置、计算机设备及存储介质
CN113239702A (zh) 意图识别方法、装置、电子设备
CN113569607A (zh) 动作识别方法、装置、设备以及存储介质
CN113326383B (zh) 一种短文本实体链接方法、装置、计算设备与存储介质
CN114581702A (zh) 图像分类方法、装置、计算机设备及计算机可读存储介质
CN113761124A (zh) 文本编码模型的训练方法、信息检索方法及设备
CN112699907B (zh) 数据融合的方法、装置和设备
CN116662538A (zh) 基于多任务学习的文本摘要生成方法、装置、设备及介质
CN116109449A (zh) 一种数据处理方法及相关设备
CN114357203B (zh) 多媒体检索方法、装置及计算机设备
CN114298961A (zh) 图像处理方法、装置、设备及存储介质
Shi et al. Dual-graph hierarchical interaction network for referring image segmentation
WO2023226783A1 (zh) 一种数据处理方法及装置
CN115759096A (zh) 探测实体链接中空实体的方法、装置和电子设备
CN117011569A (zh) 一种图像处理方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination