CN112331277B

CN112331277B - 一种基于强化学习的路径可控的药物分子生成方法

Info

Publication number: CN112331277B
Application number: CN202011168563.3A
Authority: CN
Inventors: 李成涛; 柳俊宏
Original assignee: Star Pharmaceutical Technology Beijing Co ltd
Current assignee: Star Pharmaceutical Technology Beijing Co ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2022-06-21
Anticipated expiration: 2040-10-28
Also published as: CN112331277A

Abstract

本发明公开了一种基于强化学习的路径可控的药物分子生成方法，由初始分子R₀,通过Agent寻找最佳反应模版T₀和反应物a₀，再通过environment搜索与最佳反应物相似的反应物集，返回该集合中受益最大的中间反应产物R₁,同时将中间产物加入分子库中，反复循环，直至搜索结束找到最佳反应产物；该方法不仅可结合传统药物生成的经验模版，同时利用强化学习的搜索不断寻找最佳的反应类型，得到最高回报价值的药物分子；还结合传统基于经验搜索、测验的方法和基于深度生成模型两者的优势，不仅能得到有效的药物合成路径，还能扩大搜索空间，生成更多样化的分子结构，能大幅度地降低全新药物分子的研发时间，所得药物分子具有极高的可行性。

Description

一种基于强化学习的路径可控的药物分子生成方法

技术领域

本申请属于药物研发领域，具体涉及人工智能药物研发领域。

背景技术

药物分子的生成是药物研究的重要基础，全新药物分子的生成不仅要求最终生成的分子满足特定的生物化学药性需求，而且需要保证该分子真实生成的可能性。由于分子空间的庞大性及分子间反应类型与反应位点的多样性，分子的生成路径并不唯一，如何找到最高效、最经济的生成方式是药物生成中的重要挑战。传统基于经验筛选、实验测试等的药物研发过程虽然能明确地显示出药物的生成过程，但是研发周期过于缓慢，且生成路径并不一定是最优的。

近几年来，利用深度学习方法进行全新药物分子生成取得显著进展。常用的深度生成模型包括生成对抗网络(GAN)、变分自编码器(VAE)、结合长短记忆网络(LSTM)的图网络模型等。生成网络通过使用药物分子的SMILES(简化分子线性输入规范)序列、Graph表示等可以生成拥有特定药学性质的多样化的药物分子，然而这类方法仅能得到形式上的有效分子，并没有明确的、可解释性的生成路径，不能保证所得分子在实验过程中是否能够真正生成，从而严重限制了其实际情况的适用性。全新药物分子生成不仅需要生存创新的分子，同时需要生成该分子的生成路径。

发明内容

发明目的：利用以往经验反应模版生成可生成的分子，又通过强化搜索功能寻找新型分子，通过多次迭代搜索来生成分子，在保证分子结构和性质多样性的同时也确保了分子的可生成性。

技术方案：一种基于强化学习的路径可控的药物分子生成方法，由初始分子R₀,通过Agent寻找最佳反应模版T₀和反应物a₀，再通过environment搜索与最佳反应物相似的反应物集，返回该集合中受益最大的中间反应产物R₁,同时将中间产物加入分子库中，反复循环，直至搜索结束找到最佳反应产物。具体过程如下：

(1)在分子库中选取一个小分子作为初始状态R₀，并令当前状态Rt＝R₀；

(2)将当前状态R_t通过Agent得到反应模版T_t及对应的反应物a_t，并计算当前反应物a_t的Q值；

(3)在环境中通过k最近邻算法(K-NN)寻找反应库中与a_t相似的k个反应集{a_k}；

(4)R_t按照模版T_t分别与{a_k}中的每一种反应物反应，并将得到的产物通过评价函数，计算长期收益包含历史Q值，返回最大收益所对应的产物R_t+N及对应收益的中间产物；R_t+N是N次反应的对应的产物。

(5)进行多次类似(2)－(4)agent和environment的筛选得到反应模版及对应的反应物，并计算每个中间产物的Q值；

(6)根据(1)－(5)的过程，分析Q值，筛选反应模板及最佳反应物，得到最高收益的分子合成路径。

整个训练过程：该发明使用Double DQN(双层深度Q网络)和Negative Smapling(负采样，一种优化目标函数的方法)策略来学习模型中各网络的参数。

技术效果：本发明创新性地提出了一种基于强化学习的路径可控的药物分子生成方法，该方法不仅可结合传统药物合成的经验模版，同时利用强化学习的搜索不断寻找最佳的反应类型，得到最高回报价值的药物分子。该方法结合传统基于经验搜索、测验的方法和基于深度生成模型两者的优势，不仅能得到有效的药物合成路径，还能扩大搜索空间，生成更多样化的分子结构，同时大幅度地降低全新药物分子的研发时间，且所得药物分子具有极高的可行性。

附图说明

图1是本发明强化学习中Agent、Environment框架；

图2是本发明生成全新分子及其路径的示意图；

图3是本发明分子合成路径示意图。

具体实施方案

为了在生成多样化药物分子的同时，保证分子在实验中合成的可行性，本发明提出一种基于强化学习的路径可控的全新分子生成方法，既利用以往经验反应模版生成可合成的分子，又通过强化搜索功能寻找新型分子。该方法包含Agent和environment两部分。首先从小分子库中选取合适的小分子作为初始状态，然后Agent依据当前状态，选择一个最佳的反应模版及反应物，并计算当前回报值，随即通过environment寻找与最佳反应物相似的k个反应物，通过反应预测及评价函数后，返回收益最大的中间产物及其收益，同时将中间产物收入分子库中，扩充分子库。通过多次迭代搜索来寻找最佳的生成分子及其合成路径。

以小分子间二甲苯生成麻醉药盐酸利多卡因为例，如图3所示：

首先选取初始分子间二甲苯a，经过第一次agent后，得到反应模版“硝化反应”和及对应反应物，再通过与environment中k个相似反应集分别反应后得到收益最高的反应物HNO₃及中间产物b；

类似地，进行第二次agent和environment的筛选得到反应模版“还原反应”和最佳反应物HCl，及反应后获得最高收益的中间产物c；

进行第三次筛选得到反应模版“酰化反应”和最佳反应物ClCH₂COCl，及反应后获得最高收益的中间产物d；

进行第四次筛选得到反应模版“氨基化”和最佳反应物HN(C₂H₅)₂，及反应后获得最高收益的中间产物e；

进行最后一次筛选得到反应模版“成盐”和最佳反应物HCl，及反应后获得最高收益的最终产物h。

以上实施例进一步说明本发明的内容，但不应理解为对本发明的限制。在不背离本发明精神和实质的情况下，对本发明方法、步骤或条件所作的修改或替换，均属于本发明的范围。若未特别指明，实施例中所用的技术手段为本领域技术人员所熟知的常规手段。

Claims

1.一种基于强化学习的路径可控的药物分子生成方法，其特征在于，由初始分子R₀,通过Agent寻找最佳反应模版T₀和反应物a₀，再通过environment搜索与最佳反应物相似的反应物集，返回该集合中受益最大的中间反应产物R₁,同时将中间产物加入分子库中，反复循环，直至搜索结束找到最佳反应产物；具体过程如下：

(3)在环境中通过k最近邻算法寻找反应库中与a_t相似的k个反应集{a_k}；

(4)R_t按照模版T_t分别与{a_k}中的每一种反应物反应，并将得到的产物通过评价函数，计算长期收益包含历史Q值，返回最大收益所对应的产物R_t+1及对应收益的中间产物；R_t+N是N次反应的对应的产物；

(5)进行多次步骤(2)－(4)agent和environment的筛选得到反应模版及对应的反应物，并计算每个中间产物的Q值；

(6)根据(1)－(5)的过程，分析Q值，筛选反应模板及最佳反应物，得到最高收益的分子生成路径。