CN114913938A - 一种基于药效团模型的小分子生成方法、设备及介质 - Google Patents

一种基于药效团模型的小分子生成方法、设备及介质 Download PDF

Info

Publication number
CN114913938A
CN114913938A CN202210584466.5A CN202210584466A CN114913938A CN 114913938 A CN114913938 A CN 114913938A CN 202210584466 A CN202210584466 A CN 202210584466A CN 114913938 A CN114913938 A CN 114913938A
Authority
CN
China
Prior art keywords
pharmacophore model
molecules
encoder
model
pharmacophore
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210584466.5A
Other languages
English (en)
Other versions
CN114913938B (zh
Inventor
李敏
周韧易
朱慧敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202210584466.5A priority Critical patent/CN114913938B/zh
Publication of CN114913938A publication Critical patent/CN114913938A/zh
Priority to PCT/CN2022/136051 priority patent/WO2023226351A1/zh
Application granted granted Critical
Publication of CN114913938B publication Critical patent/CN114913938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Medicinal Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于药效团模型的小分子生成方法、设备及介质,方法:使用全连接图表示药效团模型;使用基于图神经网络的特征提取模型,从药效团模型的全连接图中提取药效团模型的特征向量;从指定的潜变量分布中随机采样获得潜变量;将潜变量和药效团模型的特征向量输入到预先训练好的解码器中,生成得到与药效团模型匹配的分子;其中训练好的解码器,是通过使用训练样本对变分自编码器训练得到的解码器。本发明能够应用于基于配体的药物设计、基于受体的药物设计、先导化合物优化、为耐药寻找替代物以及用于构建虚拟筛选的分子数据库而替代大规模联合数据库的分子筛选,减少盲目的试验工作,节省药物研发的时间和成本,缓解药物研发的压力。

Description

一种基于药效团模型的小分子生成方法、设备及介质
技术领域
本发明属于药物研发技术领域,具体涉及一种基于药效团模型的小分子生成方法、设备及介质。
背景技术
新药的研发是一项时间周期长、耗资巨大、风险高且成功率低的工程。药物发现历经相关靶点确定、先导化合物的发现、先导化合物性质的优化、候选药物确定四个过程。其中确定有潜在成药活性的先导化合物是药物研发的关键步骤。先导化合物是指具有某种生物活性和化学结构的化合物,将先导化合物进行结构改造和修饰优化其理化性质进一步获得候选药物。因此,先导化合物是现代新药研究的出发点。传统先导化合物的发现主要从化学库筛选、天然分离材料筛选(如植物、细菌和真菌)或计算机模拟过程中,发现第一个对给定生物目标具有活性的化合物。通过药物化学家的经验初步判断该分子的成药潜力,使用实验手段测试分子的结合活性。巨大的化学空间以及实验的成本决定了传统药物研发效率低、成本高、成功率低的劣势。因此,如何快速、准确的获得先导化合物是药物研发的重要步骤。
生成模型作为一种强大的、数据驱动逆向设计方法最近获得了关注。生成模型通过深度学习强大的特征提取能力与拟合能力学习分子空间的分布,再从学习到的分布中采样获得新的分子。通过对分布的适当限制,它们可以获得具有理想特征的候选分子,从而生成符合预期性质的分子。目前已有许多相关的工作,很大一部分生成模型关注于生成分子的物理化学性质如脂溶性、分子量和合成难易程度等,针对分子活性为生成目标的方法很少。这是因为靶标活性分子的可用数据有限,模型难以学习结构和活性的联合概率分布。对于一个新的靶标家族,可用的活性数据的匮乏甚至更加明显。因此,将深度生成模型与生物化学领域的知识相结合,有效地利用稀缺的活性分子数据来设计生物活性分子是一项关键的任务。少量的以活性分子为设计目标的方法如基于片段的药物设计、基于靶标结构的三维分子结构设计方法也受限于结合位点未知或蛋白质结构未知的药物设计场景。
将生物化学家的先验知识与分子生成模型相结合,有利于更有效地设计药物。药效团模型是药物与靶点结合时的结合位点的一组电子特征与空间信息的集合。基于药效团模型的药物设计有很多成功的案例。一个药效团模型包含两个主要部分。第一部分是由原子或基团体现的药效特征元素。它包括氢键供体、氢键受体、芳香环、疏水中心、正电荷中心和负电荷中心。第二部分是每个药效特征元素的空间信息。在药物设计中利用药效团模型有诸多优点:1)药效团模型为目标分子提供了一个强大的人工先验。它可以有效地利用生物化学家的知识生成与药效团模型相匹配的有生物学意义的分子。2)药效团模型是分子活性部位的概括性表述,基于此设计分子有利于生成结构多样的类药分子。目前结合药效团模型相关特征的生成模型只用到药效团模型的部分信息如将部分药效特征元素信息作为限制加到模型。这些方法无法仅依据药效团模型生成分子,它们需要额外信息如活性片段,因此使用场景受限。
发明内容
本发明提供一种基于药效团模型的小分子生成方法、设备及介质,能够综合利用药效团模型包含的信息,为生物分子少的靶点或新的靶点家族生成活性分子。
为实现上述技术目的,本发明采用如下技术方案:
一种基于药效团模型的小分子生成方法,包括:
步骤1,使用全连接图表示药效团模型;
步骤2,使用基于图神经网络的特征提取模型,从药效团模型的全连接图中提取药效团模型的特征向量;
步骤3,从指定的潜变量先验分布中随机采样,获得一个潜变量;
步骤4,将潜变量和药效团模型的特征向量输入到预先训练好的解码器中,生成得到与药效团模型匹配的分子;
所述训练好的解码器,通过使用训练样本对变分自编码器训练得到的解码器;变分自编码器表示为:
P(x|c)=∫z~P(x|c)P(x|c,z)P(z|c)dz;
其中,P(x|c)表示变分自编码器,P(z|c,x)和P(x|c,z)分别表示构成变分自编码器的编码器和解码器;x表示分子,其可唯一地编码为药效团模型的特征向量c与潜变量z的组合;潜变量z表示由药效团模型到分子的映射关系,即药效团模型中的化学组分是如何表达并组合成分子。
进一步地,所述变分自编码器包括编码器、解码器、潜变量先验分布和损失函数;训练变分自编码器的训练样本包括药效团模型的特征向量和与药效团模型匹配的分子;在使用训练样本对变分自编码器进行训练时:
将药效团模型的特征向量和与药效团模型匹配的分子,输入编码器,得到分子关于药效团模型的潜变量分布;
从编码器输出潜变量分布中采样得到潜变量,将药效团模型的特征向量和采样的潜变量输入到解码器,迭代循环生成分子;
所述潜变量先验分布,在训练过程中对编码器得到的潜变量分布与给定的先验分布之间的差距进行最小优化;
所述损失函数,在训练过程中量化解码器生成的分子与训练样本中的分子之间的差距。进一步地,所述损失函数包括但不限于两部分,第一部分的表达式为-KL(Pφ(z|x,c)||Pθ(z|c)),其中φ代表解码器参数,θ代表编码器参数,z是潜变量,x是分子,c是药效团模型,KL代表Kullback-Leibler散度;第二部分的表达式为logPθ(x|z,c)。
进一步地,所述编码器和解码器基于Transformer架构。
进一步地,所述使用全连接图表示药效团模型,具体为:将药效团模型包括的各药效特征元素作为节点,且节点特征包括但不限于药效特征元素的类别和形状,各药效特征元素之间的关联信息作为边,构成药效团模型的全连接图。
进一步地,使用药效特征元素之间最短路径的长度表示药效特征元素之间的关联关系。
进一步地,所述给定的先验分布具体为标准正态分布。
进一步地,训练样本中的分子,以及步骤4生成的分子,采用简化分子线性输入规范对原始的分子进行处理后得到的表示形式。
一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述任一项技术方案所述的小分子生成方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现小分子生成方法。
有益效果
与现有技术相比,本发明具有如下有益效果:本发明利用药效团模型引导分子的生成,结合化学生物学家们专业知识高效利用数据,解决特定靶标实验数据稀缺时的活性分子生成问题;生成模型利用了自变分编码器框架,提高了生成分子的结构多样性;模型灵活,仅需要训练一次就可以应用于不同场景的药物设计任务。本发明能够应用于基于配体的药物设计、基于受体的药物设计、先导化合物优化、为耐药寻找替代物以及用于构建虚拟筛选的分子数据库而替代大规模联合数据库的分子筛选,减少盲目的试验工作,节省药物研发的时间和成本,缓解药物研发的压力。
附图说明
图1是本申请实施例中的药效团模型编码图;
图2是本申请实施例中分子生成模型的训练示意图;
图3是本申请实施例中的分子结构展示图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
为使本发明的方法、特征和优点和应用能够更加明显易懂,下面结合附图以及实例进一步描述本发明。以下描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解本申请实施例的技术过程,下面对本申请实施例所涉及的一些名词进行解释:
药效团模型是对分子特征的抽象描述,包含特定靶标发生生物反应所必需的空间信息和电子特征,一般分为两种类型。一类是具有相同药理作用的类似物,它们具有某种基本结构,即相同的化学结构部分;另一类是一组化学结构的分子,但它们以相同的机理与同一受体键合,产生同样的药理作用。
生物活性分子,是指具有药理、呈现治疗潜力的分子。
简化分子线性输入规范(Simplified Molecular Input Line EntrySpecification,SMILES),是一种用ASCII字符串来表示分子的化学结构的规范。
下面对本发明提出的基于药效团模型的小分子生成方法以及应用场景进行介绍。
步骤1,使用全连接图表示给定的药效团模型。
即是将给定的药效图模型按以下规则转换为全连接图:G={V,E}。如图1所示,其中V是节点集合,V中的每个节点对应药效团模型中的一个药效特征元素,节点属性是对应药效特征元素的类别和形状;E是边的集合,两两节点间都连接了一条边,每条边的属性是两端节点所示药效特征元素之间的距离。
本实施例中,计算药效特征元素之间的距离,主要考虑药效特征元素中心之间的路径和化学键的类型。一个分子由单个或多个不同的原子组成,原子之间使用化学键连接。本方法使用不同类型的化学键键长表示两原子间距离。化学键的类型(类型影响键长)和数目对药效特征元素之间距离影响较大,因此本实施例使用连接两个药效特征元素的化学键键长之和来衡量药效特征元素之间的距离。在本实施例中,路径是指药效团特征元素之间的连接方式,考虑到两个药效特征元素之间可能有多种连接方式,在这里我们选择连接两个特征元素的最短路径。计算两个药效特征元素之间所经历的所有化学键长度为候选距离,选择其中最短的距离作为两两药效特征元素之间的距离。
步骤2,使用基于图神经网络的特征提取模型,从药效团模型的全连接图中提取药效团模型的特征向量。
本实施例中,使用门控图卷积网络(GatedGraph ConvolutionNetwork,GatedGCN)进行药效团模型特征的提取,从而将边的信息编码到节点特征中去,得到的药效团模型的特征向量即为药效特征元素的特征向量的可重复集合。
步骤3,从指定的潜变量先验分布中随机采样,获得一个潜变量;其中的潜变量将在步骤4中的具体解释中一起介绍。
步骤4,将潜变量和药效团模型的特征向量输入到预先训练好的解码器中,生成得到与药效团模型匹配的分子。
1、用于生成分子的算法模型:
由于药效团模型和分子之间的关系是多对多的,因此本发明引入潜变量z,将分子m唯一地编码为两部分的组合:(cp,z)。cp代表了给定的药效团模型,z表示了药效团模型中的化学组分是如何表达并组合成一个分子的,从而建立如下概率模型:
Figure BDA0003665330850000051
本发明使用变分自编码器来表达这个概率模型,其中P(z|cp,m)通过训练编码器进行拟合,P(m|cp,z)通过训练对应的解码器来进行拟合,并且指定潜变量z的先验分布。在一些使用例中,这个先验分布可以是标准正态分布。
所述变分自编码器包括编码器、解码器、潜变量先验分布和损失函数,其中的编码器和解码器使用Transformer架构搭建。其中变分自编码器进行训练时的输入输出关系,如图2所示,为:
将药效团模型的特征向量和与药效团模型匹配的分子,输入编码器,得到分子关于药效团模型的潜变量分布;
从编码器输出潜变量分布中采样得到潜变量,将药效团模型的特征向量和采样的潜变量输入到解码器,迭代循环生成分子;
所述潜变量先验分布,在训练过程中对编码器得到的潜变量分布与给定的先验分布之间的差距进行最小优化;
所述损失函数,在训练过程中量化解码器生成的分子与训练样本中的分子之间的差距。
2、模型训练样本:
变分自编码器的训练样本包括药效团模型的特征向量和与药效团模型匹配的分子,本实施例中的训练样本构建方法为:
(1)获取活性分子数据。
可选地,本实施例使用ChEMBL24数据集125万个分子来训练模型,根据分子的分子量是否大于150且小于500对数据进行过滤。最终数据集包含13种类型的原子(H、B、C、N、O、F、Si、P、S、Cl、Se、Br和I)和五种类型的化学键(无键、单键、双键、三键或芳烃键)。
本实施例中,使用SMILES来对分子进行表示,将各分子表示为SMILES字符串,并进行分词。
具体地,使用正则表达式\[[^\]]+\]|B[r]?|C[l]?|N|O|P|S|F|I|[bcnops]|@@|@|%\d{2}|.进行分词,每个符合该表达式的连续字符串会被作为一个词,然后得到了一个词汇序列。例如C(C[NH2-])OC(=O)Cl会被转换为C(C[NH2-])O C(=O)Cl。之后在词汇序列的开头添加一个标记开始的特殊词汇[SOS],并在结尾添加一个标记结尾的特殊词汇[EOS]。令每个词汇对应一个可学习得低维的稠密向量,由此可以将一个分子转换为了一个向量序列。由于本例中使用的Transformer架构无法直接识别顺序信息,使分子序列每个位置的向量为原本词汇对应向量和位置向量之和。下文提到向量序列的地方均作添加位置向量处理。
(2)获取药效团模型。
1)获得给定分子其所有的药效特征元素。可选地,我们使用RDKIT2019进行这一步。Basefeatues.ef包含一系列定义的分子子结构及其相应的药效特征元素,本发明使用rdkit中的Basefeatues.ef来获取一个分子的所有药效特征元素。常见的药效特征元素包括:芳香环中心、疏水中心、正电荷中心、氢键受体、氢键供体。负电荷中心和ZnBinder较为罕见,因此本发明将它们设置为未知标签。
2)根据经验,一个药效团模型一般由3-7个药效特征元素组成,因此本实施例从1)获得的所有药效特征元素中随机抽取3-7个药效特征元素作为每个分子的药效团模型;
3)按照上述步骤2相同的方法,使用基于图神经网络的特征提取模型,从药效团模型的全连接图中提取药效团模型的特征向量,实际为药效特征元素的特征向量的可重复集合。
3、训练变分自编码器:
1)得到上述训练样本后,将分子转换得到的向量序列和药效特征元素对应的特征向量的可重复集合,输入到编码器中,计算得到潜变量向量的分布,并从中采样得到潜变量向量。
2)将潜变量向量和药效特征元素特征向量的可重复集合输入到解码器中,得到第一个词的概率分布。
3)将潜变量向量和药效特征元素的特征向量的可重复集合以及前N个输入分子的词汇的特征向量序列输入到解码器中,得到第N+1个词的估计概率分布,取其中概率最大者作为生成的词汇。重复这一过程直到N等于输入分子序列长度。
4)依据步骤3)的词汇概率分布和输入的字符串上每个位置的词,以及步骤1)计算得到的潜变量分布与标准正态分布,计算模型的损失函数并使用梯度下降法更新模型参数。
经过多轮训练后,即可得到一个训练好的变分自编码器,其中的解码器即可以用于步骤4依据药效团模型的特征向量进行活性小分子生成。
4、使用训练好的解码器进行小分子生成:
1)针对具有生物活性分子的蛋白靶标,通过活性分子构象叠合获得药效团模型;针对已知靶标结构,根据靶标三维结构分析蛋白与配体结合位点并构建药效团模型;
2)按上述步骤1将获取的药效团模型并将其转化为图G={V,E};
3)按上述步骤2将基于药效团模型构建的图输入到门控图卷积网络中,将边的信息编码到节点特征中去,得到一个节点特征向量的可重复集合,记为药效团模型的特征向量;
4)从训练得到的潜变量分布中采样得到潜变量;
5)将潜变量向量和药效团模型的特征向量输入到解码器中,得到第一个词的概率分布;
6)将潜变量向量和药效团模型的特征向量以及前N个输入分子的词汇的特征向量序列输入到解码器中,得到第N+1个词的估计概率分布,取其中概率最大者作为生成的词汇。重复这一过程直到N等于输入分子序列长度,得到给定药效团模型生成的分子。
5、生成结果的验证与应用:
1)生成新分子检测,包括:生成分子的新颖性、独特性以及有效性
首先,通过新颖性、独特性以及有效性过滤生成分子数据集。具体地,新颖分子指本发明生成全新的训练集中不存在的分子;独特分子指本发明生成的不重复分子;有效分子指本发明生成分子不违反化学价键规则,生成化学有效的分子。对于满足要求的分子,将移交至下一步检验生成的分子是否匹配药效团模型。
2)检测生成分子是否匹配药效团模型
一个分子可能有许多化学特征,其中的一个子集可以被看作是一个药效团模型。本实施例把一个分子的所有化学特征转换成一个完全连接的图。计算一个给定的分子和一个给定的药效团模型之间的匹配度的问题可以看作是在一个大图中找到一个小图的最佳匹配。由于生成的分子通常含有少量的重原子,本实验检测使用暴力来计算匹配度。计算步骤如下:
a)使用RDKIT提取生成分子中所有的药效特征元素集合T;
b)根据参考药效团模型的药效特征元素类别对输入药效特征元素集合T进行分类得到[t1,t2,…,tn],其中t1表示第1类药效特征元素集合;
c)每次从分类后的药效特征元素集合[t1,t2,…,tn]的不同类别分别抽取一个药效特征元素,组成一个药效团模型G′。根据步骤2所述计算两两药效特征元素之间的距离Dq,并与对应参考药效特征元素之间的距离Dr作比较。若|Dr-Dq|<1.2则认为Dq距离满足参考药效团模型对应药效特征元素间的距离。
d)计算G′中所有边与参考药效特征元素之间边的距离,记录满足参考药效特征元素距离的边的数目matchnum
e)对于c)中每一个G′,都有
Figure BDA0003665330850000081
其中matchall表示G′中所有边的数目。
f)重复c)-e)步骤,输出最大match score为生成分子与参考药效团模型的匹配度。
3)为下阶段实体试验输出候选结果
输出匹配度大于0.8的分子即作为基于给定药效团模型获得的候选分子。本发明实施例的定位是针对具有生物活性分子的蛋白靶标,通过活性分子构象叠合获得药效团模型设计新的活性分子;或者针对已知靶标结构,根据靶标三维结构分析蛋白与配体结合位点。根据结合位点构建的药效团模型生成新的具有生物活性的分子。同时,由于本发明能够根据一个给定的药效团模型生成数千个匹配度大于0.8且分子结构各异的分子,本发明也可以用于构建虚拟筛选配体分子库,以此来提高虚拟筛选效率。本发明旨在提供一种快速设计活性分子的方法,提高先导化合物发现的效率,并不能取代新药研发生化试验、动物试验以及临床试验等,新药研发机构需要完成后续试验,以得到最终的新药分子。
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。

Claims (10)

1.一种基于药效团模型的小分子生成方法,其特征在于,包括:
步骤1,使用全连接图表示药效团模型;
步骤2,使用基于图神经网络的特征提取模型,从药效团模型的全连接图中提取药效团模型的特征向量;
步骤3,从指定的潜变量先验分布中随机采样,获得一个潜变量;
步骤4,将潜变量和药效团模型的特征向量输入到预先训练好的解码器中,生成得到与药效团模型匹配的分子;
所述训练好的解码器,通过使用训练样本对变分自编码器训练得到的解码器;变分自编码器表示为:
P(x|c)=∫z~P(x|c)P(x|c,z)P(z|c)dz;
其中,P(x|c)表示变分自编码器,P(z|c,x)和P(x|c,z)分别表示构成变分自编码器的编码器和解码器;x表示分子,其可唯一地编码为药效团模型的特征向量c与潜变量z的组合;潜变量z表示由药效团模型到分子的映射关系,即药效团模型中的化学组分是如何表达并组合成分子。
2.根据权利要求1所述的基于药效团模型的小分子生成方法,其特征在于,所述变分自编码器包括编码器、解码器、潜变量先验分布和损失函数;训练变分自编码器的训练样本包括药效团模型的特征向量和与药效团模型匹配的分子;在使用训练样本对变分自编码器进行训练时:
将药效团模型的特征向量和与药效团模型匹配的分子,输入编码器,得到分子关于药效团模型的潜变量分布;
从编码器输出潜变量分布中采样得到潜变量,将药效团模型的特征向量和采样的潜变量输入到解码器,迭代循环生成分子;
所述潜变量先验分布,在训练过程中对编码器得到的潜变量分布与给定的先验分布之间的差距进行最小优化;
所述损失函数,在训练过程中量化解码器生成的分子与训练样本中的分子之间的差距。
3.根据权利要求2所述的基于药效团模型的小分子生成方法,其特征在于,所述损失函数包括但不限于两部分,第一部分的表达式为-KL(Pφ(z|x,c)||Pθ(z|c)),其中φ代表解码器参数,θ代表编码器参数,z是潜变量,x是分子,c是药效团模型,KL代表Kullback-Leibler散度;第二部分的表达式为logPθ(x|z,c)。
4.根据权利要求2所述的基于药效团模型的小分子生成方法,其特征在于,所述编码器和解码器基于Transformer架构。
5.根据权利要求2所述的基于药效团模型的小分子生成方法,其特征在于,所述使用全连接图表示药效团模型,具体为:将药效团模型包括的各药效特征元素作为节点,且节点特征包括但不限于药效特征元素的类别和形状,各药效特征元素之间的关联信息作为边,构成药效团模型的全连接图。
6.根据权利要求5所述的基于药效团模型的小分子生成方法,其特征在于,使用药效特征元素之间最短路径的长度表示药效特征元素之间的关联关系。
7.根据权利要求2所述的基于药效团模型的小分子生成方法,其特征在于,所述给定的先验分布具体为标准正态分布。
8.根据权利要求2所述的基于药效团模型的小分子生成方法,其特征在于,训练样本中的分子,以及步骤4生成的分子,采用简化分子线性输入规范对原始的分子进行处理后得到的表示形式。
9.一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器实现如权利要求1~8中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~8中任一项所述的方法。
CN202210584466.5A 2022-05-27 2022-05-27 一种基于药效团模型的小分子生成方法、设备及介质 Active CN114913938B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210584466.5A CN114913938B (zh) 2022-05-27 2022-05-27 一种基于药效团模型的小分子生成方法、设备及介质
PCT/CN2022/136051 WO2023226351A1 (zh) 2022-05-27 2022-12-02 一种基于药效团模型的小分子生成方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210584466.5A CN114913938B (zh) 2022-05-27 2022-05-27 一种基于药效团模型的小分子生成方法、设备及介质

Publications (2)

Publication Number Publication Date
CN114913938A true CN114913938A (zh) 2022-08-16
CN114913938B CN114913938B (zh) 2023-04-07

Family

ID=82767946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210584466.5A Active CN114913938B (zh) 2022-05-27 2022-05-27 一种基于药效团模型的小分子生成方法、设备及介质

Country Status (2)

Country Link
CN (1) CN114913938B (zh)
WO (1) WO2023226351A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312855A (zh) * 2023-02-28 2023-06-23 杭州生奥信息技术有限公司 先导化合物活性优化方法
WO2023226351A1 (zh) * 2022-05-27 2023-11-30 中南大学 一种基于药效团模型的小分子生成方法、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN110970099A (zh) * 2019-12-10 2020-04-07 北京大学 一种基于正则化变分自动编码器的药物分子生成方法
CN112071373A (zh) * 2020-09-02 2020-12-11 深圳晶泰科技有限公司 药物分子筛选方法及系统
CN112270951A (zh) * 2020-11-10 2021-01-26 四川大学 基于多任务胶囊自编码器神经网络的全新分子生成方法
CN113039559A (zh) * 2018-09-18 2021-06-25 英科智能有限公司 使用具有可学习张量列诱导的先验的变分自动编码器的子集条件化
CN113327651A (zh) * 2021-05-31 2021-08-31 东南大学 一种基于变分自编码器和消息传递神经网络的分子图生成方法
CN114450750A (zh) * 2019-05-17 2022-05-06 英科智能有限公司 人类生物性衰老的深度蛋白质组标志物和确定生物性衰老时钟的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB202013419D0 (en) * 2020-08-27 2020-10-14 Kuano Ltd Transition state 2020
CN113436686B (zh) * 2021-06-23 2024-02-27 腾讯科技(深圳)有限公司 基于人工智能的化合物库构建方法、装置、设备及存储介质
CN114913938B (zh) * 2022-05-27 2023-04-07 中南大学 一种基于药效团模型的小分子生成方法、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113039559A (zh) * 2018-09-18 2021-06-25 英科智能有限公司 使用具有可学习张量列诱导的先验的变分自动编码器的子集条件化
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN114450750A (zh) * 2019-05-17 2022-05-06 英科智能有限公司 人类生物性衰老的深度蛋白质组标志物和确定生物性衰老时钟的方法
CN110970099A (zh) * 2019-12-10 2020-04-07 北京大学 一种基于正则化变分自动编码器的药物分子生成方法
CN112071373A (zh) * 2020-09-02 2020-12-11 深圳晶泰科技有限公司 药物分子筛选方法及系统
CN112270951A (zh) * 2020-11-10 2021-01-26 四川大学 基于多任务胶囊自编码器神经网络的全新分子生成方法
CN113327651A (zh) * 2021-05-31 2021-08-31 东南大学 一种基于变分自编码器和消息传递神经网络的分子图生成方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BORIS SATTAROV等: "De Novo Molecular Design by Combining Deep Autoencoder Recurrent Neural Networks with Generative Topographic Mapping", 《HAL》 *
DAVID DUVENAUD等: "Convolutional Networks on Graphs for Learning Molecular Fingerprints", 《ARXIV:1509.09292V2 [CS.LG]》 *
KAILI WANG等: "DeepDTAF: a deep learning method to predict protein-ligand binding affinity", 《BRIEFINGS IN BIOINFORMATICS》 *
MARTIN SIMONOVSKY等: "GraphVAE: Towards Generation of Small Graphs Using Variational Autoencoders", 《ARXIV:1802.03480V1 [CS.LG] 》 *
RENYI ZHOU等: "NEDD: a network embedding based method for predicting drug-disease associations", 《BMC BIOINFORMATICS》 *
XINGYI LI等: "Network-based methods for predicting essential genes or proteins: a survey", 《BRIEFINGS IN BIOINFORMATICS》 *
胡建星等: "人工智能算法在全新药物结构设计中的应用进展", 《电子学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023226351A1 (zh) * 2022-05-27 2023-11-30 中南大学 一种基于药效团模型的小分子生成方法、设备及介质
CN116312855A (zh) * 2023-02-28 2023-06-23 杭州生奥信息技术有限公司 先导化合物活性优化方法
CN116312855B (zh) * 2023-02-28 2023-09-08 杭州生奥信息技术有限公司 先导化合物活性优化方法

Also Published As

Publication number Publication date
WO2023226351A1 (zh) 2023-11-30
CN114913938B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
US20240144092A1 (en) Generative machine learning systems for drug design
CN111090461B (zh) 一种基于机器翻译模型的代码注释生成方法
Nam et al. Linking the neural machine translation and the prediction of organic chemistry reactions
CN114913938B (zh) 一种基于药效团模型的小分子生成方法、设备及介质
Steiner et al. A pipeline for computational historical linguistics
CN109785824A (zh) 一种语音翻译模型的训练方法及装置
CN116417093A (zh) 一种结合Transformer和图神经网络的药物靶标相互作用预测方法
US20210365795A1 (en) Method and apparatus for deriving new drug candidate substance
CN111429977B (zh) 一种新的基于图结构注意力的分子相似性搜索算法
CN115148302A (zh) 一种基于图神经网络与多任务学习的化合物性质预测方法
CN117827886B (zh) 一种基于大语言模型的自然语句转sql语句的方法
CN112151127A (zh) 基于分子语义向量的无监督学习药物虚拟筛选方法和系统
CN113436686A (zh) 基于人工智能的化合物库构建方法、装置、设备及存储介质
CN115756597A (zh) 一种基于多模态代码表示的注释自动生成方法
CN112381280B (zh) 一种基于人工智能的算法预测方法
CN117198427A (zh) 一种分子生成方法、装置、电子设备及存储介质
CN117116383A (zh) 基于预训练微调的药物分子优化方法及装置
Song et al. Sparse coding driven deep decision tree ensembles for nucleus segmentation in digital pathology images
CN116758978A (zh) 基于蛋白质结构的可控属性全新活性小分子设计方法
Cho et al. iupacGPT: IUPAC-based large-scale molecular pre-trained model for property prediction and molecule generation
WO2023148684A1 (en) Local steps in latent space and descriptors-based molecules filtering for conditional molecular generation
CN116524997A (zh) 基于经典-量子混合神经网络实现药物相互作用结果的预测系统
Kassa et al. Artificial intelligence based organic synthesis planning for material and bio-interface discovery
CN116343911A (zh) 基于三维空间生物反应的药物靶标亲和度预测方法及系统
CN114756679A (zh) 基于交谈注意力机制的中文医学文本实体关系联合抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant