CN113488116B - 一种基于强化学习和对接的药物分子智能生成方法 - Google Patents

一种基于强化学习和对接的药物分子智能生成方法 Download PDF

Info

Publication number
CN113488116B
CN113488116B CN202110780433.3A CN202110780433A CN113488116B CN 113488116 B CN113488116 B CN 113488116B CN 202110780433 A CN202110780433 A CN 202110780433A CN 113488116 B CN113488116 B CN 113488116B
Authority
CN
China
Prior art keywords
molecules
molecule
fragments
reinforcement learning
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110780433.3A
Other languages
English (en)
Other versions
CN113488116A (zh
Inventor
魏志强
王茜
刘昊
李阳阳
王卓亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202110780433.3A priority Critical patent/CN113488116B/zh
Priority to JP2022543606A priority patent/JP7387962B2/ja
Priority to PCT/CN2021/107490 priority patent/WO2023279436A1/zh
Publication of CN113488116A publication Critical patent/CN113488116A/zh
Application granted granted Critical
Publication of CN113488116B publication Critical patent/CN113488116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Medicinal Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于强化学习和对接的药物分子智能生成方法,属于药物化学与计算机技术领域,所述方法包括以下步骤:1)构建药物设计的虚拟片断组合库;2)计算片段相似性进行分子片段编码;3)基于强化学习的actor‑critic模型生成并优化分子。本发明方法在先导化合物的基础上,缩小了搜索的化学空间。通过强化学习的actor‑critic模型采用transformer建模,引入分子片段的位置信息,保存了片段在分子中的相对或绝对位置信息,实现并列化训练。另外,奖励机制通过建立单层感知机模型,进一步优化了生成分子的活性。

Description

一种基于强化学习和对接的药物分子智能生成方法
技术领域
本发明涉及药物化学与计算机技术领域,具体涉及一种基于强化学习和对接的药物分子智能生成方法。
背景技术
在药物化学专业中,设计和制造安全有效的化合物是关键。就金钱和时间而言,这是一个漫长、复杂和困难的多参数优化过程。有希望的化合物在临床试验中失败的风险很大(>90%),导致不必要的资源浪费。现在将一种新药推向市场的平均成本远远超过10亿美元,从发现到上市的平均时间为13年。在药物方面,从发现到商业生产的平均时间可能更长,例如高能分子为25年。分子发现的关键第一步是产生一批用于计算研究或合成和表征的候选者。这是一项艰巨的任务,因为可能分子的化学空间是巨大的-潜在的类药物化合物的数量估计在1023到1060之间,而已经合成的所有化合物的数量约为108个数量级。启发式方法,如利平斯基针对药学的“五条规则”,可以帮助缩小可能性的空间,但仍面临着巨大挑战。
随着计算机技术的革命,使用AI进行药物发现逐渐成为一种趋势。传统上,为了实现此目标,已使用各种计算模型的组合,例如定量结构-活性关系(QSAR),分子替代,分子模拟和分子对接。但传统的方法本质上是组合的,往往会导致大多数分子不稳定性或不可合成性。近年来,许多基于深度学习模型来设计类似药物的化合物的生成模型应运而生,例如基于变分自动编码器的分子生成方法,基于生成对抗性网络分子生成方法。但目前的方法在候选化合物的生成速度、有效性和分子活性方面仍有待提高。
发明内容
本发明提供一种基于强化学习和对接的药物分子智能生成方法,该方法基于Actor-critic强化学习模型和对接模拟,用于生成具有最优性质的药物新分子。其中,Actor网络采用双向Transformer Encoder机制和DenseNet网络建模。
为解决上述问题,本发明是通过以下技术方案实现的:
一种基于强化学习和对接的药物分子智能生成方法,其具体包括步骤如下:
步骤1.构建药物设计的虚拟片断组合库;
药物分子虚拟片段组合库通过现有工具包片段化一组分子而构成的,拆分分子时,不将片段分类,所有片段被相同地对待;
步骤2.计算片段相似性进行分子片段编码
利用现有的计算化学相似性的组合方法来测量不同分子片段之间的相似性,通过构建基于相似性的平衡二叉树使所有片段都被编码成二进制字符串,因此,相似的片段获得相似的编码;
步骤3.基于Actor-critic强化学习模型生成并优化分子
(1)基于Actor-critic强化学习模型框架介绍
采用基于Actor-critic强化学习模型来生成并优化分子,通过选择分子的单个片段和该片段表示中的一个bit来进行修改的;然后交换此位中的值,即:如果它是0,则变成1,反之亦然;这允许跟踪应用于分子的改变程度,编码的前导位将保持不变,因此模型只允许在末尾更改位,以迫使模型仅搜索已知化合物附近的分子;
基于Actor-critic强化学习模型起始于片段化的分子状态,即当前状态;Actor提取并检查所有片段,引入不同片段在分子中的位置信息,采用Transformer Encoder机制计算每个分子中不同片段的attention系数,然后通过DenseNet网络输出概率来决定替换哪些片段以及用哪个片段替换;根据新状态满足所有约束的程度,对新状态进行评分,critic随后考察了新状态和当前状态的价值所增加的奖励之间的差异值TD-Error,是给actor的;如果是肯定的,actor的行动将得到加强,如果是否定的,行动将被阻止;然后,当前状态被新状态替换,并且该过程重复给定的次数;
(2)强化学习模型奖励机制的最优化
设计针对分子本身固有属性信息以及分子计算活性信息两种特性优化的分子,强化学习模型的奖励机制部分通过构建感知机模型实现奖励结果预测,感知机模型包括训练与预测两个阶段;训练过程中,数据集包括两部分来源,一是数据集的正样本来自现有文献报道已知有活性的分子,二是数据集的负样本来自同等数量的ZINC库的随机采样,通过将正负样本打乱顺序后依次对接获取的计算活性信息以及现有工具包计算得到的分子固有属性信息作为输入,经过多轮训练使得模型可以学习到活性计算信息及属性信息与是否真正有活性的潜在关联关系;预测过程中,该模型以生成分子的计算活性信息——使用先进且快速的药物对接软件将生成分子与疾病相关的靶点的现有相关PDB文件进行虚拟分子对接得到,以及生成分子的固有属性信息——使用通用软件包计算得到作为输入,预测生成分子是否确实具有真实活性,从而进一步优化了生成分子的活性;强化学习模型中的Actor每产生一个有效的分子就会得到奖励,如果它设法产生符合预测模型预期的分子,就会得到更高的奖励。
进一步,在所述的步骤1在分子拆分时,从一个环原子延伸的所有单键均被破坏,分裂分子时创建片段链列表来记录并存储原始拆分点,便于作为后面分子设计的连接点;如果附接点的总数保持不变,则该方法允许交换具有不同附接点数量的片段;在此过程中使用开源工具包RDKit进行分子裂解;重原子超过12个的碎片将被丢弃,具有4个或更多附着点的碎片也会被丢弃;
进一步,在所述的步骤2中的计算片段间相似性时,在比较“类药物”分子时,具体是使用最大共同子结构Tanimoto-MCS(TMCS)来比较相似性,对于较小的片段,引入改进Levenshtein距离的Damerau-Levenshtein距离,则两个字符串之间的Damerau-Levenshtein距离定义为:
Figure GDA0004000197040000041
两个分子M1和M2之间的TMCS距离定义为:
Figure GDA0004000197040000042
则测量两个分子M1和M2之间的相似性,以及相应的smiles表示S1和S2,即Max(TMCS(M1,M2),DL(S1,S2);
进一步,所述的步骤2中的分子片段编码:这些字符串是通过构建基于片段相似性的平衡二叉树来创建的,随后,该树被用来为每个片段生成二进制字符串,从而在延伸中生成表示分子的二进制字符串;附着点的顺序被视为每个片段的标识符;当组装树时,计算所有片段之间的相似度,然后以贪婪的自下而上的方式形成片段对,其中首先将最相似的两个片段配对,然后重复这一过程,将具有最相似片段的两对连接成一棵有四片叶子的新树;计算出的两个子树之间的相似度被测量为这些树的任意两个片段之间的最大相似度;重复连接过程,直到所有片段都连接到单个树中;
当每个片段都存储在二叉树中时,使用它为所有片段生成编码;从根到存储片段的叶子的路径确定每个片段的编码,对于树中的每个分支,如果向左,则在编码中附加一个1(“1”),如果向右,则会添加一个0(“0”);因此,编码中最右边的字符对应于最接近片段的分支。
本发明与现有技术相比的有益效果:
本发明基于Actor-critic强化学习模型和对接模拟方法,用于生成新的分子。该模型学习如何修饰和改进分子,使其具有所需的性质。
(1)本发明与以前的强化学习方法的不同之处在于,它专注于如何通过转化先导化合物中的片段来产生结构上与现有化合物接近的新化合物,进而缩小搜索的化学空间。
(2)本发明基于Actor-critic强化学习模型,Actor网络采用双向TransformerEncoder机制和DenseNet网络建模,引入不同片段在分子中的位置信息,采用TransformerEncoder机制计算每个分子中不同片段的attention系数,保存片段在分子中的相对或绝对位置信息,实现并列化训练。
(3)强化学习的奖励机制建立单层感知机模型,该模型输入包含两部分信息,即分子相关属性信息和活性信息,该活性信息是使用对接软件将生成分子与疾病相关靶点进行分子对接得到的,进一步优化了生成分子的活性。
(4)本发明方法在候选生成物规模上,针对特定疾病对应的靶点估计可产生200多万个候选生成分子。
(5)本发明方法通过分子对接部分加入1000多个超高维参数,融合分子活性和相关属性信息,可生成优化的80%以上的高质量AI分子。
(6)本发明方法依托大规模超算平台,分子生成速度显著提高。
附图说明
图1为某靶点相关化合物的虚拟分子片段库;
图2为包含某靶点相关化合物所有片段的二叉树子部分;
图3为Actor-critic强化学习模型框架图;
图4为Actor-critic强化学习模型中actor的详细信息;
图5为某靶点的活性化合物分子生成。
具体实施方式
下面通过实施例结合附图来对本发明的技术方案做进一步解释,但本发明的保护范围不受实施例任何形式上的限制。
实施例1
本实施例的主要目标是:针对某靶点的活性化合物生成,基于一组初始的先导化合物,然后通过替换它们的一些片段来改进和优化这些分子,从而产生具有所需性质的某靶点的新活性化合物。本实施例基于Actor-critic强化学习模型和对接模拟方法,用于生成具有最优性质的药物新分子。下面对本实施例的技术方案开展详细描述。
一种基于Actor-critic强化学习模型和对接的药物分子智能生成方法,其具体包括步骤如下:
步骤1.构建药物设计的虚拟片断组合库。
药物分子虚拟片段组合库通过片段化一组分子而构成的。本实施例的虚拟片段库是由来自药物化学数据库ChEMBL数据库中与某靶点相关的10172个化合物和来自实验室进行分子对接筛选得到的某靶点的175个先导化合物共同构建的,如图1所示。片段化分子的一种常见方法是将它们分为环结构,侧链和连接物等类别。拆分分子时,我们基本上遵循相同的方案,但是我们不将片段分类。因此,所有片段因此被相同地对待。为了使分子断裂,从一个环原子延伸的所有单键均被破坏。分裂分子时创建片段链列表来记录并存储原始拆分点,便于作为后面分子设计的连接点。如果附接点的总数保持不变,则该方法允许交换具有不同附接点数量的片段。在此过程中使用现有化学信息学的开源工具包RDKit进行分子裂解。在这个过程中,重原子超过12个的碎片将被丢弃,具有4个或更多附着点的碎片也会被丢弃。实施这些约束是为了降低复杂性,同时仍然能够生成大量有趣的候选对象。
步骤2.计算片段相似性进行分子片段编码。
步骤2.1计算片段间相似性
在本实施例中,所有片段都被编码为二进制字符串,并且编码的目的是相似的片段应该获得相似的编码。因此必须测量片段之间的相似性。有许多方法可以计算化学相似性。分子指纹是一种直接的二进制编码,其中相似的分子原则上应该给出相似的编码。但是,在比较分子片段及其固有的稀疏表示形式时,我们发现它们对于此目的的用处较小。化学上直观的方法来测量分子之间的相似性是使用最大共同子结构Tanimoto-MCS(TMCS)相似性:
Figure GDA0004000197040000071
这里,mcs(M1,M2)是分子M1和M2的最大公共子结构中的原子数,atoms(M1)和atoms(M2)分别是分子M1和M2中的原子数。
Tanimoto-MCS相似性的一个优点是它直接比较片段的结构,因此不依赖于其他特定的表示。在比较“类药物”分子时,这种方法通常效果很好。但是,对于较小的片段使用Tanimoto-MCS相似性是有缺点的。因此,本发明中引入衡量两个文本字符串之间相似性的常用方法Levenshtein距离。Levenshtein距离被定义为使两个字符串相同所需的最小插入、删除和替换次数。但考虑置换操作对编辑距离的影响,本实施例最终引入改进Levenshtein距离的Damerau-Levenshtein距离,则两个字符串之间的Damerau-Levenshtein距离定义为:
Figure GDA0004000197040000081
作为折衷方案,我们选择测量两个分子M1和M2之间的相似性,以及相应的smiles表示S1和S2,即
Max(TMCS(M1,M2),DL(S1,S2)
步骤2.2分子片段编码
所有片段都被编码成二进制字符串。这些字符串是通过构建基于片段相似性的平衡二叉树来创建的。随后,该树被用来为每个片段生成二进制字符串,从而在延伸中生成表示分子的二进制字符串。附着点的顺序被视为每个片段的标识符。当组装树时,计算所有片段之间的相似度。然后以贪婪的自下而上的方式形成片段对,其中首先将最相似的两个片段配对。然后重复这一过程,将具有最相似片段的两对连接成一棵有四片叶子的新树。计算出的两个子树之间的相似度被测量为这些树的任意两个片段之间的最大相似度。重复连接过程,直到所有片段都连接到单个树中。
当每个片段都存储在二叉树中时,可以使用它为所有片段生成编码。从根到存储片段的叶子的路径确定每个片段的编码。对于树中的每个分支,如果向左,则在编码中附加一个1(“1”),如果向右,则会添加一个零(“0”),如图2所示;因此,编码中最右边的字符对应于最接近片段的分支。
步骤3.基于Actor-critic强化学习模型生成并优化分子。
步骤3.1基于Actor-critic强化学习模型框架介绍
本发明采用基于Actor-critic强化学习模型来生成并优化分子,优化是通过选择分子的单个片段和该片段表示中的一个bit来进行修改的。然后交换此位中的值。即:如果它是0,则变成1,反之亦然。这允许跟踪应用于分子的改变程度,因为在编码的末尾修改位将代表非常相似的片段的改变,而开始处的改变将代表非常不同类型的片段的改变。编码的前导位将保持不变,因此模型只允许在末尾更改位,以迫使模型仅搜索已知化合物附近的分子。如图3所示。
基于Actor-critic强化学习模型起始于片段化的分子状态,即当前状态S。Actor提取并检查所有片段,采用双向Transformer Encoder机制和DenseNet网络来决定替换哪些片段以及用哪个片段替换,即Actor所采取的行动Ai得到新状态Si。根据新状态满足所有约束的程度,对新状态Si进行评分R。critic随后考察了Si和S的价值所增加的奖励之间的差异值Td-error,是给actor的。如果是肯定的,actor的行动Ai将得到加强,如果是否定的,行动将被阻止。然后,当前状态被新状态替换,并且该过程重复给定的次数。其中,损失函数loss=-log(prob)*td_error
步骤3.2强化学习模型Actor的网络结构
Actor网络采用双向Transformer Encoder机制和DenseNet网络建模,引入不同片段在分子中的位置信息,采用Transformer Encoder机制计算每个分子中不同片段的attention系数,该结构一次读取代表一个分子的编码片段,将前向和后向输出连接起来,并通过将连接的表示通过DenseNet神经网络来计算要改变哪个片段以及改变成什么的概率分布的估计。
因为替换片段的概率取决于分子的前进片段和尾随片段。因此,每个分子被构造成片段序列,将该序列一次性传递给Transformer encoder机制。通过计算每个分子中不同片段的attention系数获取不同片段的重要性。然后,经过前向和后向transformerEncoder输出一个分子的拥有不同片段相关联性的向量化表示;最后,Concatenate的结果经过DenseNet网络做分类,计算要改变哪个片段以及改变成什么的概率分布的估计,如图4所示。
步骤3.3强化学习模型奖励机制的最优化
药物发现中的一项主要挑战是设计针对多种特性优化的分子,这些特性可能不具有很好的相关性。为了表明所提出的方法可以处理这种情况,选择了两类不同的特性,这些特性可以表征分子适合用作药物的可行性。该发明的目的是生成更贴近真实活性分子性质的药物的分子,即在目标的“最佳位置”产生分子。如上所述,所选择的性质包括分子本身固有属性信息(如:MW、clogP和PSA等)以及分子计算活性信息(即分子与特定疾病对应靶点的对接结果信息)。特别值得强调的是,本发明中强化学习模型的奖励机制部分通过构建单层感知机模型实现奖励结果预测。针对该模型包括训练与预测两个阶段。训练过程中,数据集包括两部分来源,一是数据集的正样本来自现有文献报道已知有活性的分子,二是数据集的负样本来自同等数量的ZINC库的随机采样,通过将正负样本打乱顺序后依次对接获取的计算活性信息以及现有工具包计算得到的分子固有属性信息作为输入,经过多轮训练使得模型可以学习到活性计算信息及属性信息与是否真正有活性的潜在关联关系。预测过程中,该模型以生成分子的计算活性信息——使用先进且快速的药物对接软件将生成分子与疾病相关的靶点进行虚拟分子对接得到。该模型使用药物对接软件,比如Ledock,将每一个epoch生成的少于或等于512个分子与某靶点相关的380个不同构象的靶点的现有相关PDB文件进行虚拟分子对接。生成分子的固有属性信息——使用通用软件包RDKit计算得到,将生成分子的计算活性信息和分子本身的固有属性信息共1143个超高维参数作为单层感知机的输入,预测生成分子是否确实具有真实活性,从而进一步优化了生成分子的活性。该强化学习框架中的actor每产生一个有效的分子就会得到奖励,如果它设法产生符合预测模型预期的分子,就会得到更高的奖励。
最终生成的某靶点的活性化合物分子如图5所示。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

Claims (4)

1.一种基于强化学习和对接的药物分子智能生成方法,其特征在于所述方法具体包括步骤如下:
步骤1.构建药物设计的虚拟片断组合库;
药物分子虚拟片段组合库通过现有工具包片段化一组分子而构成的,拆分分子时,不将片段分类,所有片段被相同地对待;
步骤2.计算片段相似性进行分子片段编码
利用现有的计算化学相似性的组合方法来测量不同分子片段之间的相似性,通过构建基于相似性的平衡二叉树使所有片段都被编码成二进制字符串,因此,相似的片段获得相似的编码;
步骤3.基于Actor-critic强化学习模型生成并优化分子
(1)基于Actor-critic强化学习模型框架介绍
采用基于Actor-critic强化学习模型来生成并优化分子,通过选择分子的单个片段和该片段表示中的一个bit来进行修改的;然后交换此位中的值,即:如果它是0,则变成1,反之亦然;这允许跟踪应用于分子的改变程度,编码的前导位将保持不变,因此模型只允许在末尾更改位,以迫使模型仅搜索已知化合物附近的分子;
基于Actor-critic强化学习模型起始于片段化的分子状态,即当前状态;Actor提取并检查所有片段,引入不同片段在分子中的位置信息,采用Transformer Encoder机制计算每个分子中不同片段的attention系数,然后通过DenseNet网络输出概率来决定替换哪些片段以及用哪个片段替换;根据新状态满足所有约束的程度,对新状态进行评分,critic随后考察了新状态和当前状态的价值所增加的奖励之间的差异值TD-Error,是给actor的;如果是肯定的,actor的行动将得到加强,如果是否定的,行动将被阻止;然后,当前状态被新状态替换,并且该过程重复给定的次数;
(2)强化学习模型奖励机制的最优化
设计针对分子本身固有属性信息以及分子计算活性信息两种特性优化的分子,强化学习模型的奖励机制部分通过构建感知机模型实现奖励结果预测,感知机模型包括训练与预测两个阶段;训练过程中,数据集包括两部分来源,一是数据集的正样本来自现有文献报道已知有活性的分子,二是数据集的负样本来自同等数量的ZINC库的随机采样,通过将正负样本打乱顺序后依次对接获取的计算活性信息以及现有工具包计算得到的分子固有属性信息作为输入,经过多轮训练使得模型学习到活性计算信息及属性信息与是否真正有活性的潜在关联关系;预测过程中,该模型使用先进且快速的药物对接软件,将生成分子与疾病相关的靶点的现有相关PDB文件进行虚拟分子对接,得到生成分子的计算活性信息;然后使用通用软件包计算生成分子的固有属性信息,将生成分子的活性信息和固有属性信息作为感知机的输入,预测生成分子是否确实具有真实活性,从而进一步优化了生成分子的生物活性;强化学习模型中的Actor每产生一个有效的分子就会得到奖励,如果它设法产生符合预测模型预期的分子,就会得到更高的奖励。
2.根据权利要求1所述的一种基于强化学习和对接的药物分子智能生成方法,其特征在于所述的步骤1在分子拆分时,从一个环原子延伸的所有单键均被破坏,分裂分子时创建片段链列表来记录并存储原始拆分点,便于作为后面分子设计的连接点;如果附接点的总数保持不变,则该方法允许交换具有不同附接点数量的片段;在此过程中使用开源工具包RDKit进行分子裂解;重原子超过12个的碎片将被丢弃,具有4个或更多附着点的碎片也会被丢弃。
3.根据权利要求1所述的一种基于强化学习和对接的药物分子智能生成方法,其特征在于所述的步骤2中的计算片段间相似性时,在比较“类药物”分子时,具体是使用最大共同子结构Tanimoto-MCS来比较相似性,对于较小的片段,引入改进Levenshtein距离的Damerau-Levenshtein距离,则两个字符串之间的Damerau-Levenshtein距离定义为:
Figure FDA0004000197030000031
两个分子M1和M2之间的TMCS距离定义为:
Figure FDA0004000197030000032
则测量两个分子M1和M2之间的相似性,以及相应的smiles表示S1和S2,即Max(TMCS(M1,M2),DL(S1,S2)),mcs(M1,M2)是分子M1和M2的最大公共子结构中的原子数,atoms(M1)和atoms(M2)分别是分子M1和M2中的原子数。
4.根据权利要求1所述的一种基于强化学习和对接的药物分子智能生成方法,其特征在于所述的步骤2中的分子片段编码:通过构建基于相似性的平衡二叉树使所有片段都被编码成二进制字符串,随后,该树被用来为每个片段生成二进制字符串,从而在延伸中生成表示分子的二进制字符串;附着点的顺序被视为每个片段的标识符;当组装树时,计算所有片段之间的相似度,然后以贪婪的自下而上的方式形成片段对,其中首先将最相似的两个片段配对,然后重复这一过程,将具有最相似片段的两对连接成一棵有四片叶子的新树;计算出的两个子树之间的相似度被测量为这些树的任意两个片段之间的最大相似度;重复连接过程,直到所有片段都连接到单个树中;
当每个片段都存储在二叉树中时,使用它为所有片段生成编码;从根到存储片段的叶子的路径确定每个片段的编码,对于树中的每个分支,如果向左,则在编码中附加一个1,如果向右,则会添加一个0;因此,编码中最右边的字符对应于最接近片段的分支。
CN202110780433.3A 2021-07-09 2021-07-09 一种基于强化学习和对接的药物分子智能生成方法 Active CN113488116B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110780433.3A CN113488116B (zh) 2021-07-09 2021-07-09 一种基于强化学习和对接的药物分子智能生成方法
JP2022543606A JP7387962B2 (ja) 2021-07-09 2021-07-21 強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法
PCT/CN2021/107490 WO2023279436A1 (zh) 2021-07-09 2021-07-21 一种基于强化学习和对接的药物分子智能生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110780433.3A CN113488116B (zh) 2021-07-09 2021-07-09 一种基于强化学习和对接的药物分子智能生成方法

Publications (2)

Publication Number Publication Date
CN113488116A CN113488116A (zh) 2021-10-08
CN113488116B true CN113488116B (zh) 2023-03-10

Family

ID=77938422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110780433.3A Active CN113488116B (zh) 2021-07-09 2021-07-09 一种基于强化学习和对接的药物分子智能生成方法

Country Status (3)

Country Link
JP (1) JP7387962B2 (zh)
CN (1) CN113488116B (zh)
WO (1) WO2023279436A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115762661A (zh) * 2022-11-21 2023-03-07 苏州沃时数字科技有限公司 一种分子设计和结构优化方法、系统、装置及存储介质
CN117831646B (zh) * 2023-11-29 2024-09-03 重庆大学 一种基于分子片段化学空间解构的分子定向智能生成方法
CN117711528A (zh) * 2023-12-25 2024-03-15 石家庄鲜虞数字生物科技有限公司 一种基于分子空间搜索的虚拟筛选方法
CN118412066B (zh) * 2024-05-15 2024-10-18 西南科技大学 一种有机分子虚拟筛选库构建方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019018780A1 (en) * 2017-07-20 2019-01-24 The University Of North Carolina At Chapel Hill NON-TRANSIENT COMPUTER-READABLE METHODS, SYSTEMS, AND MEDIA FOR THE AUTOMATED DESIGN OF MOLECULES HAVING DESIRED PROPERTIES USING ARTIFICIAL INTELLIGENCE
WO2019186196A2 (en) * 2018-03-29 2019-10-03 Benevolentai Technology Limited Reinforcement learning
CN110970099A (zh) * 2019-12-10 2020-04-07 北京大学 一种基于正则化变分自动编码器的药物分子生成方法
CN111508568A (zh) * 2020-04-20 2020-08-07 腾讯科技(深圳)有限公司 分子生成方法、装置及计算机可读存储介质和终端设备
CN111602144A (zh) * 2018-02-09 2020-08-28 渊慧科技有限公司 生成指令序列以控制执行任务的代理的生成神经网络系统
CN112116963A (zh) * 2020-09-24 2020-12-22 深圳智药信息科技有限公司 自动药物设计方法、系统、计算设备及计算机可读存储介质
CN112820361A (zh) * 2019-11-15 2021-05-18 北京大学 一种基于对抗模仿学习的药物分子生成方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220076799A1 (en) * 2019-01-07 2022-03-10 President And Fellows Of Harvard College Machine learning techniques for determining therapeutic agent dosages
EP4008006A1 (en) * 2019-08-02 2022-06-08 Flagship Pioneering Innovations VI, LLC Machine learning guided polypeptide design
US20210057050A1 (en) * 2019-08-23 2021-02-25 Insilico Medicine Ip Limited Workflow for generating compounds with biological activity against a specific biological target
CN110534164A (zh) * 2019-09-26 2019-12-03 广州费米子科技有限责任公司 基于深度学习的药物分子生成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019018780A1 (en) * 2017-07-20 2019-01-24 The University Of North Carolina At Chapel Hill NON-TRANSIENT COMPUTER-READABLE METHODS, SYSTEMS, AND MEDIA FOR THE AUTOMATED DESIGN OF MOLECULES HAVING DESIRED PROPERTIES USING ARTIFICIAL INTELLIGENCE
CN111602144A (zh) * 2018-02-09 2020-08-28 渊慧科技有限公司 生成指令序列以控制执行任务的代理的生成神经网络系统
WO2019186196A2 (en) * 2018-03-29 2019-10-03 Benevolentai Technology Limited Reinforcement learning
CN112136181A (zh) * 2018-03-29 2020-12-25 伯耐沃伦人工智能科技有限公司 使用强化学习的分子设计
CN112820361A (zh) * 2019-11-15 2021-05-18 北京大学 一种基于对抗模仿学习的药物分子生成方法
CN110970099A (zh) * 2019-12-10 2020-04-07 北京大学 一种基于正则化变分自动编码器的药物分子生成方法
CN111508568A (zh) * 2020-04-20 2020-08-07 腾讯科技(深圳)有限公司 分子生成方法、装置及计算机可读存储介质和终端设备
CN112116963A (zh) * 2020-09-24 2020-12-22 深圳智药信息科技有限公司 自动药物设计方法、系统、计算设备及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
机器学习在创新药物研发中的应用进展;周玥等;《医学信息学杂志》;20200825(第08期);全文 *
深度学习在药物设计与发现中的应用;李伟等;《药学学报》;20190409(第05期);全文 *
计算机分子模拟技术及人工智能在药物研发中的应用;刘景陶等;《科技创新与应用》;20180118(第02期);全文 *

Also Published As

Publication number Publication date
JP7387962B2 (ja) 2023-11-29
WO2023279436A1 (zh) 2023-01-12
JP2023531846A (ja) 2023-07-26
CN113488116A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN113488116B (zh) 一种基于强化学习和对接的药物分子智能生成方法
Bradshaw et al. A model to search for synthesizable molecules
Jin et al. Hierarchical generation of molecular graphs using structural motifs
JP7217696B2 (ja) ポリマーの物性予測装置、プログラム、及びポリマーの物性予測方法
CN111090461B (zh) 一种基于机器翻译模型的代码注释生成方法
WO2022108664A1 (en) Automated merge conflict resolution with transformers
CN114585999A (zh) 多语言代码行补全系统
Evans Algorithms and complexity for annotated sequence analysis
BR112020023429A2 (pt) métodos e aparelhos para a previsão multimodal usando um modelo estatístico treinado
EP4315029A1 (en) Semi-supervised translation of source code programs using neural transformers
Mukaidaisi et al. Multi-objective drug design based on graph-fragment molecular representation and deep evolutionary learning
CN115048141A (zh) 一种基于图引导的Transformer模型代码注释自动生成方法
CN112151127A (zh) 基于分子语义向量的无监督学习药物虚拟筛选方法和系统
CN115438709A (zh) 基于代码属性图的代码相似性检测方法
KR102407120B1 (ko) 분자 단편 기반 분자 생성 딥러닝 모델을 이용한 분자 설계 방법 및 분석장치
Bouchard-Côté et al. Improved reconstruction of protolanguage word forms
Roney et al. Generating realistic 3d molecules with an equivariant conditional likelihood model
Zhou et al. Compression of next-generation sequencing quality scores using memetic algorithm
Bouchard-Côté et al. A probabilistic approach to language change
WO2023148684A1 (en) Local steps in latent space and descriptors-based molecules filtering for conditional molecular generation
Engkvist et al. Molecular De Novo Design Through Deep Generative Models
CN115408056A (zh) 一种基于信息检索和神经网络的代码摘要自动生成方法
LU101238B1 (en) Method for consolidating dynamic knowledge organization systems
Nouri et al. From alignment of etymological data to phylogenetic inference via population genetics
Wang et al. Deep reinforcement learning and docking simulations for autonomous molecule generation in de novo drug design

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant