CN112820361A

CN112820361A - 一种基于对抗模仿学习的药物分子生成方法

Info

Publication number: CN112820361A
Application number: CN201911122108.7A
Authority: CN
Inventors: 吕肖庆; 张晨睿; 黄翊峰; 汤帜
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2021-05-18
Anticipated expiration: 2039-11-15
Also published as: CN112820361B

Abstract

本发明公布了一种基于对抗模仿学习的药物分子生成方法，基于对抗模仿学习与多任务强化学习生成药物分子，包括：构建有效药物分子库；建立改进的药物分子生成模型，包括：设计并实现多任务强化学习模块、设计并实现对抗模仿学习模块；模型预训练；执行药物分子生成流程；生成候选药物分子结果。采用本发明提供的技术方案，可有效促进药物分子生化性质的优化并提升模型训练的稳定性，得到更优的药物分子。

Description

一种基于对抗模仿学习的药物分子生成方法

技术领域

本发明涉及计算机人工智能与新药分子设计的交叉技术领域，尤其涉及一种基于对抗模仿学习的药物分子生成方法，是一种基于对抗模仿学习、深度强化学习和多任务优化的进行新药分子设计的方法，适用于新药发现过程中候选药物分子的设计与生成。

背景技术

新药研发耗资巨大、周期漫长且成功率很低。其中候选药物分子的筛选是前期的关键环节，计算机辅助设计以及最新人工智能技术的引入，已经大幅度提升了分子筛选的效率。但传统的计算机筛选方法大都针对已有的化合物，或基于结构或基于性质等特征对其进行筛选，新一代的新药发现策略则开启了直接设计全新分子的途径。具体是指，针对某种疾病或靶点预设药效等对新分子的期望属性，根据已有相关药物分子的结构，采用计算机模拟生成的计算方法设计全新的分子结构，所依据的原理是“相似的结构很可能具有相同的性质”，进而通过化学合成方法以人工方式合成新分子，并进一步在真实的化学、生物和人体等环境中检测其药效和其他物理化学性质，从而完成新药的开发。该途径可大幅缩短新药研制和临床试验的时间，具有广阔的应用前景。

在上述过程中，通过计算机模拟、生成具备特定生化性质的药物分子是此类方法的关键。然而，现有药物分子生成方法仍面临一些挑战。首先，潜在药物分子的表示空间巨大，而且不连续，搜索药物分子任务本身十分艰巨。有医疗文献显示，化学分子的表示空间范围可达10²³～10⁶⁰。其次，分子结构和分子性质之间的对应关系十分微妙，难以进行准确的量化描述，即使结构十分接近的分子其生化性质也可能完全不同，即，对某些子结构的微小改动都可以导致性质的大幅改变。

现有分子生成方法一般采用SMILES(Simplified molecular input line entryspecification，简化分子线性输入规范)和分子指纹等字符串方式表示分子，并借助自然语言处理的方法来实现生成算法，此类方法的鲁棒性较差，即微小的修改可能导致完全不合理的分子。同时，基于字符串的语法约束会对分子生成产生过多限制，给分子生成的优化过程造成负担。基于图(Graph)表示(节点用于表示原子，边用于表示化学键)的分子生成方法比基于字符串的方法更具可解释性，特别是图神经网络、生成对抗网络和强化学习的强大学习能力受到了越来越多的关注，目前此类方法可分为三种：

(1)基于深度生成模型的分子生成方法：此类方法将连续域内的深度生成模型(如变分自编码器和生成式对抗网络等)扩展到离散的图生成中。例如，GraphVAE将离散图结构生成问题简化，在解码阶段直接生成全连接图，其图矩阵中的元素代表节点之间边存在概率值，从而避免了图生成中的离散优化问题。JT-VAE将分子生成分为两个阶段，第一阶段首先生成分子的树形骨架，第二阶段再将分子骨架中的子结构展开得到最终的分子。后续方法在变分自编码器的基础上增加了额外的判别器网络，通过对抗学习提升所生成分子的类药性。

(2)基于强化学习的分子生成方法：此类方法充分利用可以处理离散优化问题的强化学习算法，实现图结构生成和相应生化性质的优化。具体而言，分子图结构生成过程被建模成一个马尔可夫决策过程，其中动作空间为向当前分子中添加单个的原子或者化学键。生成最终的分子后，其对应的生物和化学性质作为奖励以驱动强化学习中模型的训练。

(3)组合类分子生成方法：此类方法将深度生成模型和强化学习算法相结合，旨在生成具备特定生化性质、贴近真实药物分子分布的新分子。代表性做法是将两个模块的优化目标进行线性组合，实现端到端训练。

尽管基于图的药物分子生成方法取得了显著进展，但仍存在一些技术问题。首先，深度生成模型的训练过程极不稳定，且普遍存在模式坍塌的问题，导致生成大量相同的分子，限制了生成分子的新颖性和特异性，因而无法满足医药领域的实际需求。其次，由于强化学习中的奖励往往在生成最终分子后才可以得到，所以存在奖励延迟和稀疏的问题，严重影响了强化学习策略的调整。此外，在医药和疾病诊断领域，人们往往希望生成的分子同时具备多种较好的生化性质，如易合成、溶解度高及类药性等，其数学本质是分子生成任务的多目标优化问题，而现有的方法仅将多目标进行简单的线性组合，忽视了不同优化目标之间潜在冲突，难以求得最优解，因此也难以设计得到最优的药物分子。

发明内容

本发明提出了一种基于对抗模仿学习与多任务强化学习的药物分子生成方法，基于深度强化学习模型，采用马尔科夫决策过程描述分子生成过程，通过设计竞争(Dueling)结构来实现多任务学习，采用对抗模仿学习用于拟合分子生成，实现密集的实时奖励反馈，解决强化学习奖励函数具有延迟性和稀疏性的问题，能够优化分子生成过程，稳定性高。

多任务强化学习模块：不同于经典的强化学习分子生产模型中对不同生化性质进行线性组合，本发明设计竞争(Dueling)结构来实现多任务学习。具体而言，本发明将强化学习算法Q-learning(动作效用学习策略)中的Q函数(动作效用函数)估计解耦成底层特征的共享和高层Q值估计。这样不仅可以节省计算量，还可以对不同生化性质之间潜在的联系进行建模，而任务特定的Q值估计可以有效减轻不同优化目标之间潜在冲突性造成的影响。

对抗模仿学习模块：针对传统强化学习奖励函数具有延迟性和稀疏性的问题，本发明提出用对抗模仿学习来实现密集的实时奖励反馈。强化学习中的策略网络Agent(代理)作为生成对抗学习中的生成器，此外增设一个判别器网络。不同于常规模仿学习简单的对数据分布进行拟合，本发明将对抗学习用于拟合分子生成策略，即对抗模仿学习。进而可以保证强化学习过程中奖励的实时性和密集性，有效促进分子生化性质的优化并提升模型训练的稳定性。

本发明的技术方案是：

一种基于对抗模仿学习的药物分子生成方法，基于对抗模仿学习与多任务强化学习生成药物分子，所述方法包括以下主要步骤：构建有效药物分子库、搭建药物分子生成的基本模型、设计并实现多任务强化学习模块、设计并实现对抗模仿学习模块、模型预训练、生成流程执行、生成结果的验证与应用。

步骤1，构建有效药物分子库；

通过有针对性地收集现有药物的信息，建立用于算法研制的分子信息库，并标注各种药物对于特定病种的有效性。现有药物分子的信息，包括结构、物理化学属性、药效等。

步骤2，搭建药物分子生成的基本模型DQN网络模型；包括如下操作：

21)建立DQN网络模型中的强化学习系统，称为智能体(Agent)；

搭建药物分子生成过程的基本模型，即深度强化学习模型，以智能体感知环境、作用于环境的过程实现分子生成。

本发明中，深度强化学习模型中的强化学习系统又称为智能体(Agent)，智能体包括状态和动作；通过智能体感知环境状态(当前的分子结构等),并采取动作作用于环境,环境接受该动作后状态发生变化(如，衍生出新的分子结构),同时给出回报奖励或惩罚，再根据强化信号和环境的当前状态再选择下一个动作,选择的原则是:使得到奖励的概率增大，重复上述过程，即得到不断增大且优化的分子。

药物分子生成的基本模型引入了深度学习的强化学习方法，即深度Q网络(Deep QNetwork，简称DQN)，其中，Q为Q学习(Q Learing)方法，即动作效用函数(Action-utilityFunction)，在学习机制上引入了深度学习(卷积神经网络)后，即为DQN方法。

22)采用分子状态空间和动作空间描述分子生成过程；

本方法采用马尔科夫决策过程描述分子生成过程M，表示为：

其中，

代表分子(图结构表示)的状态空间，

表示强化学习动作空间，

表示状态转移概率，即在当前状态下采取特定动作后转移到下一个状态的概率。

表示奖励函数，γ是奖励的衰减系数，即当前获得的奖励会随着生成过程的进行逐渐衰减。

分子状态空间：其中分子状态空间是指分子在生成过程中可能处于的状态，亦可理解为，所有可能的分子图形形态所构成的集合。一个分子的当前状态定义为s_t＝(G_t,N_t)，其中G_t表示t时间步时生成的分子图结构，N_t表示到t时间步为止经历的时间步数。最大时间步数限定为T。

动作空间：是指在每步生成过程中可以对分子进行的操作(a或act)，亦可理解为，所有可对分子实施的操作的集合。动作包括添加原子、删除原子、添加化学键与删除化学键，如图3所示。

其中考虑到化学键的平衡，将氢原子看作是隐式存在的，而在添加原子时则会将相应的氢去掉。此外，对于化学键类型，也仅考虑单键、双键及三键，而不考虑芳香键，因为通过三种基本化学键类型可以实现芳香键的生成。

23)分子生成的基本过程；

如前所述在DQN模型中，分子生成是一个智能体感知环境并采取动作影像环境的迭代过程，具体在每一时刻，发生的事件序列如下：

a)智能体感知t时刻的环境，即当前分子图形(模型初始化时可随机生成)；

b)针对当前的状态和即时回报r(t),本方法细分为在r_e,r_d,智能体选择一执行动作act(t)；

c)当智能体执行选定动作，作用于环境引发变化，即对当前分子进行操作(添加或删除原子、添加或删除化学键)，衍生出新的分子图形；

d)t时刻递进一步，变为t+1时刻，状态s_t转移至下一新的状态s_t+1，记录新分子图形。同时，该过程给出即时回报r(t)，又称为奖赏回报，反馈给智能体；

e)如果新的状态为结束状态,则停止循环，否则转向第b步。

本发明对现有的分子生成DQN模型进行改进，增设了多任务强化学习模块和对抗模仿学习模分别用于多目标优化和及时奖励，建立改进的分子生成DQN模型；

步骤3，设计并实现多任务强化学习模块；

设计一种竞争(Dueling)结构引入多任务强化学习能力，使用Q-learning强化学习改进算法，实现多任务强化学习模块，提高模型的多目标优化能力。

多任务强化学习模块用于实现分子生成过程中进行多目标优化，通过逐步对分子完成相应操作，进而生成一个完整的分子。实现方法是：使用Q-learning强化学习算法作为基础框架,将Q-learning算法中的Q函数估计解耦成底层特征的共享和高层Q值估计，设计竞争(Dueling)结构来实现药物分子生成模型的多任务强化学习，即，用Dueling结构将不同性质的估计函数解耦为共享的特征提取网络和任务特定的值函数网络，采用多个Q值函数网络分别实现不同生化性质的目标值估计，同时通过底层分子特征共享来有效节省计算量。此外，本模块还对不同药物分子的不同生化性质之间潜在的联系进行建模，而任务特定的Q值估计可以有效减轻不同优化目标之间潜在冲突性造成的影响，从而可有效地提升模型的运行效率。

Q-learning是一种高效的强化学习算法，本发明将其应用在分子生成方法中，Q-learning强化学习改进算法包括如下步骤：

31)定义多任务强化学习模块最大化累积奖励，通过奖励函数的梯度提升来实现优化，多任务强化学习模块中的奖励表示如下：

其中，Q^π(s_t,a_t)表示在t时刻下对处于s状态下的分子采取a操作后得的奖励；T表示对药物分子生成模型强化学习过程的最大时间步，E表示期望,r是奖励函数模块,γ是奖励的衰减系数，π是Q-learning中的策略函数。

π′(a|s)＝arg max_aQ^π(s,a) 式3

式3表示一个新的分子生成策略π′(a|s)可以通过最大化Q函数得到，而该新策略优于之前的策略π(a|s)。s是分子当前所处的状态；a是当前对分子所采取的操作；根据策略梯度理论，Q网络可以通过如式4所示的梯度提升来实现优化，而Q值可以通过蒙特卡洛方法或者时序差分法实现估计。

式4中，

表示奖励函数的梯度。

32)将对抗模仿学习作为辅助奖励，从动作序列分布中直接提取策略信息，对每个时间步进行优化；

在此基础上，对抗模仿学习作为一种辅助奖励，旨在从动作序列分布中直接提取策略信息来促进每个时间步的优化。为了实现对抗模仿学习，本发明将上述Q函数Q^π(s_t,a_t)用占用率度量

重写如式5：

式5表示策略经历的状态-动作序列的联合分布。

33)重新定义强化学习的优化目标，采用Dueling结构实现不同性质优化的多任务学习，计算得到多个生化性质对应的Q函数，即Dueling结构中神经网络的参数；

由于占用率度量集合与策略集合之间存在单射关系，可以重新定义强化学习的优化目标如式6：

考虑到多任务学习的情况，为了降低不同生化性质在优化过程中的相互干扰，本发明提出用Dueling结构实现不同性质优化的多任务学习。具体而言，药物分子不同生化性质对应不同的Q函数值，这些Q函数值的计算由两部分组成：任务间共享的Advantage函数A(s_t,a_t)和任务特定的value函数V_o(s_t)，这里下标o表示不同任务。最终，由式7计算得到多个生化性质对应的Q函数：

∑_oQ(s_t,a_t；θ_o,θ_A)＝∑_oV_o(s_t；θ_o,θ_A) 式7

其中，θ_o和θ_A表示Dueling结构中神经网络的参数。

步骤4，设计并实现对抗模仿学习模块；

采用对抗模仿学习来实现密集的实时奖励反馈，将对抗学习用于拟合药物分子的生成策略，从而得到更优的药物分子。

对抗模仿学习模块用于实现及时高效的奖励。本发明使用生成式对抗网络(Generative Adversarial Network,GAN)实现学生策略分布向教师策略分布的逼近的过程，并将该过程中的损失函数值作为奖励反馈给分子生成器。其中，教师策略可以来自于现有药物分子数据集，也可以来自于分子生成器本身在决策过程中产生的历史最优策略——药物分子数据集中的分子拆分得到分子合成序列，或者是分子生成器合成高奖励分子时的序列作为教师策略。教师策略数据保存在策略缓冲区中，随着训练过程进行动态调整。

本发明中，对抗模仿学习实现方法是：将强化学习中的策略网络代理(Agent)作为药物分子生成模型的对抗学习中的生成器，再增设一个判别器网络，将对抗学习用于拟合分子生成策略，即对抗模仿学习。

不同于传统的数据分布拟合方式，本发明采用的对抗模仿学习方法具体通过判别器实现对强化学习中策略分布的拟合，并将拟合评估结果反馈给分子生成器作为密集的实时奖励，据此提升了该强化学习过程中奖励的实时性和密集性。同时在模仿最优分子生成策略的过程中，通过判别器实时的对分子每一步的状态及操作进行评估，得的实时奖励信号，再利用奖励信号训练多任务强化学习模块，这样一来奖励信号可以有效地增进分子生成的稳定性，并提高最终生成分子的合法性、新颖性和特异性。

步骤5，模型预训练；依据有效药物分子库完成模型训练，即预训练，得到训练好的药物分子生成模型。具体实施包括如下操作：

51)将现有的药物分子(已知结构和药效性质的分子)进行拆分，得到相应的分子状态序列，用于药物分子生成模型的预训练。

具体地，对现有的药物分子，可随机去掉一个原子或化学键，记录剩余部分的分子结构，重复上述操作，直到该分子仅剩一个碳原子，至此，把所有记录的中间步骤的分子结构罗列起来，即得到该分子的一个拆分序列。该拆分过程可视为分子生成过程的逆过程。之后，将得到的分子状态序列用于药物分子生成模型的预训练。

52)用分子状态序列中某一刻的分子状态作为药物分子生成模型的强化学习模块的输入，同时将状态序列中的操作作为输出，对强化学习模块进行预训练；

53)将分子状态序列存入Agent策略缓冲区，用于之后的药物分子生成过程；

步骤6，形成具有药效目标的药物分子生成策略，使用训练好的药物分子生成模型执行生成流程，即得到药物候选分子。

在本发明的分子生成模型训练完成之后，即可进行分子的生成。本发明以图4中生成的药分子为例简述整个分子生成过程。

61)首先将分子的状态空间设置为仅有一个碳原子，并将其输入到分子生成模型。

62)分子生成模型，根据当前输入的分子状态做出相应的决策，以图4分子的生成过程为例，模型会在当前分子状态基础之上添加一个氢、氧、碳原子或添加、删除一个化学键。

63)在对分子进行完相应操作之后，该模型会判断是否要继续对分子进行操作，或是结束整个分子生成过程。若是决定继续操作，则跳转至步骤62)，继续根据分子当前状态对分子进行操作。

64)最后分子生成结束，得到如图4的分子。

通过上述步骤，即实现基于对抗模仿学习的药物分子生成。

上述基于对抗模仿学习的药物分子生成方法具体实施时，对生成结果进行验证与应用实施，对所得候选药物分子进行性质检测、可合成性评估，将合格分子输出给下阶段的实体试验，以进一步确认其有效性。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于对抗模仿学习与多任务强化学习的药物分子生成方法，将强化学习算法Q-learning中的Q函数估计解耦成底层特征的共享和高层Q值估计，以竞争(Dueling)结构实现多任务学习；再用对抗模仿学习来实现密集的实时奖励反馈，由此得到更优的药物分子，可有效促进药物分子生化性质的优化并提升模型训练的稳定性。

附图说明

图1为本发明提供的药物分子生成方法的流程框图。

图2为本发明提供的药物分子生成模型示意图；

其中，Q为强化学习模块，act为动作执行模块，即对应到不同生化性质Q函数值估计的Dueling结构子网络；ε表示马尔科夫决策过程中的环境；s_t表示在t时刻的分子状态；

表示策略缓冲区，

表示判别器网络。

图3为本发明具体实施例中的药物分子生成动作示例。

图4为本发明实施例中分子生成过程示意图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

新药研发耗资大、周期长，其关键环节之一是候选药物分子的筛选，人工智能技术的引入可以有效提升筛选效率，但基于筛选的方法限于现有已有化合物，范围有限，新一代方法则侧重全新的分子生成方法。本发明提出基于对抗模仿学习的多任务强化分子生成模型，涉及计算机人工智能和医药分子设计的交叉领域，其的核心思想是将对抗模仿学习和多任务强化学习进行协同训练，以提高学习过程中奖励的实时性，以及分子性质优化的稳定性。

本发明提供一种基于基于对抗模仿学习与多任务强化学习的药物分子生成方法，以分子生成模型为核心，搭建一个面向新药设计的药物分子开发流程。如图1所示，包括构建有效药物分子库、搭建药物分子生成的基本模型、设计并实现多任务强化学习模块、设计并实现对抗模仿学习模块、模型预训练、生成流程执行、生成结果的验证与应用等步骤。

实施例选用常用数据集：Drugbank(http://www.drugbank.ca/drugs)；EMBL-EBI(ChEMBL,ChEBI)(英国)https://www.ebi.ac.uk/chembl/；PubChem(https://pubchem.ncbi.nlm.nih.gov/)、CAS,美国化学文摘服务社(www.cas.org)、Merck Index(英国皇家化学会)https://www.rsc.org；KEGG(SIMCOMP)日.京都，http://www.genome.jp/中的现有药物分子，采用Lipinski规则进行检测得到状态序列：分子的分子量是否小于500，氢键给体(包括羟基、氨基等)的数量不超过5个，氢键受体的数量不超过10个，脂水分配系数的对数值(logP)在-2到5之间，其可旋转键的数量不超过10个等。对于满足要求的分子，将进一步拆分其结构得到状态序列，并将其加入到策略缓冲区中。基于对抗模仿学习与多任务强化学习的药物分子生成方法包括如下步骤：

步骤1构建有效药物分子库

收集现有药物分子的信息，包括结构、物理化学属性、药效等，建立用于算法研制的分子信息库，并标注各种药物对于特定病种的有效性。药物分子的信息具体还可包括：分子所代表化合物的通用名、商品名、来源、文献出处、分子量、分子结构、氢键给体数、氢键受体数、可旋转键数、脂水分配系数、溶解度、pKa、极性表面积、及其在人体内吸收、分布、代谢、排泄和毒性等特征。

步骤2搭建药物分子生成的基本模型

本方法是基于强化学习的一种分子图形生成方法，搭建药物分子生成的基本模型，并针对分子特点提出了对抗模仿学习与多任务强化学习改进方法。以下叙述分子生成模型的基本框架和流程，以及本发明所做的改进。

1)基本模型原理及其形式化描述

本模型所依据的强化学习可看作是一个“试探-评价”的过程。如图2所示，模型中的学习系统(图2.Q区域)，又称为智能体(Agent)可以感知环境状态(当前的分子结构等),并能够采取某一个动作(图2.act环节)作用于环境,环境接受该动作后状态发生变化(如，衍生出新的分子结构),同时给出一个回报奖励或惩罚反馈给强化学习系统(图2r_e,r_d),强化学习系统根据回报奖励或惩罚和环境的当前状态再选择下一个动作,选择的原则是:使得到奖励的概率增大，重复上述过程，得到不断增大且优化的分子。如当智能体(Agent)某次对分子添加碳原子获得了较大的奖励，那么它在选择下个动作的时候更有可能选择添加碳原子。同样如果在添加碳原子后得的了惩罚，那它之后就更倾向于不去添加碳原子。

本方法的基本模型是：引入了深度学习的强化学习方法，即深度Q网络(Deep QNetwork，简称DQN)，其中，Q是业界对动作效用函数(Action-utility Function)简称，相关算法简称为Q学习(Q Learing)方法，在学习机制上引入了深度学习(卷积神经网络)后，即为DQN方法。

具体地，本方法采用马尔科夫决策过程描述分子生成过程M，表示为：

其中，

代表药物分子(图结构表示)的状态空间，

表示强化学习动作空间，如对于甲烷分子(CH4),其状态空间为一个五个节点，四条边的图，其中一个节点代表碳原子，另外四个节点代表氢原子，而四条边则是碳氢键。而对于该甲烷分子，其强化学习动作空间包括可以对甲烷分子进行的操作，即可以去掉一个氢原子。

2)分子生成的基本过程

e)如果新的状态为结束状态,则停止循环，否则转向第b步。

在分子生成DQN模型的基础上，本发明增设了多任务强化学习模块和对抗模仿学习模分别用于多目标优化和及时奖励。

步骤3设计并实现药物分子生成模型的多任务强化学习模块

多任务强化学习模块(如图2中Q区域右边部分)用于解决分子生成中多目标优化问题。传统强化学习分子生成模型将多个生化性质的优化进行简单线性组合，导致不同优化目标之间相互干扰，无法生成综合最优的分子。本模块的作用在于一步一步的对分子完成相应操作，进而生成一个完整的分子。本模块的实现方法是：使用Q-learning强化学习算法作为基础框架,将Q-learning算法中的Q函数估计解耦成底层特征的共享和高层Q值估计，设计竞争(Dueling)结构来实现药物分子生成模型的多任务强化学习，即，用Dueling结构将不同性质的估计函数解耦为共享的特征提取网络和任务特定的值函数网络，采用多个Q值函数网络分别实现不同生化性质的目标值估计，同时通过底层分子特征共享来有效节省计算量。此外，本模块还对不同药物分子的不同生化性质之间潜在的联系进行建模，而任务特定的Q值估计可以有效减轻不同优化目标之间潜在冲突性造成的影响，从而可有效地提升模型的运行效率。

Q-learning是一种高效的强化学习算法，本发明将其应用在分子生成方法中，即要求多任务强化学习模块最大化累积奖励，表示如下：

其中，Q^π(s_t,a_t)表示在t时刻下对处于s状态下的分子采取a操作后得的的奖励；T表示对药物分子生成模型强化学习过程的最大时间步，E表示期望,r是奖励函数模块,γ是奖励的衰减系数，π是Q-learning中的策略函数。

π′(a|s)＝arg max_aQ^π(s,a) 式3

式4中，

表示奖励函数的梯度。

重写如式5：

式5表示策略经历的状态-动作序列的联合分布。由于占用率度量集合与策略集合之间存在单射关系，可以重新定义强化学习的优化目标如式6：

∑_oQ(s_t,a_t；θ_o,θ_A)＝∑_oV_o(s_t；θ_o,θ_A) 式7

其中，θ_o和θ_A表示Dueling结构中神经网络的参数。

步骤4设计并实现对抗模仿学习模块

对抗模仿学习模块(如图2中Q区域下方部分)用于实现及时高效的奖励。本发明使用生成式对抗网络(Generative Adversarial Network,GAN)实现学生策略分布向教师策略分布的逼近的过程，并将该过程中的损失函数值作为奖励反馈给分子生成器。此处，教师策略可以来自于现有药物分子数据集，也可以来自于分子生成器本身在决策过程中产生的历史最优策略——药物分子数据集中的分子拆分得到分子合成序列，或者是分子生成器合成高奖励分子时的序列作为教师策略。教师策略数据保存在策略缓冲区中，随着训练过程进行动态调整。

对抗模仿学习模块用对抗模仿学习来实现密集的实时奖励反馈，以解决如Policy-gradient、DQN以及A2C等现有方法中奖励稀疏和奖励延迟的问题。其具体实现方法是：将强化学习中的策略网络代理(Agent)作为药物分子生成模型的对抗学习中的生成器，再增设一个判别器网络，将对抗学习用于拟合分子生成策略，即对抗模仿学习。不同于传统的数据分布拟合方式，本发明采用的对抗模仿学习方法具体通过判别器实现对强化学习中策略分布的拟合，并将拟合评估结果反馈给分子生成器作为密集的实时奖励，据此提升了该强化学习过程中奖励的实时性和密集性。同时在模仿最优分子生成策略的过程中，通过判别器实时的对分子每一步的状态及操作进行评估，得的实时奖励信号，再利用奖励信号训练多任务强化学习模块，这样一来奖励信号可以有效地增进分子生成的稳定性，并提高最终生成分子的合法性、新颖性和特异性。

步骤5模型预训练，得到训练好的药物分子生成模型；

药物分子生成模型建立后，需利用现有的药物分子数据集进行预训练，如图1所示。具体地，将现有的药物分子(已知结构和药效性质的分子)进行拆分，得到相应的分子状态序列。以某一个具体分子为例，可将其随机去掉一个原子或化学键，记录剩余部分的分子结构，重复上述操作，直到该分子仅剩一个碳原子，至此，把所有记录的中间步骤的分子结构罗列起来，我们就得到了一个该分子的拆分序列。该拆分过程可视为分子生成过程的逆过程，换言之，把整个拆分过程颠倒过来，我们就可得到一个“从一个碳原子到一个药物分子的”生成过程，其中包含了各步骤中的分子片段，合并即称为分子的状态序列。之后，将得到的分子状态序列用于药物分子生成模型的预训练。

考虑到强化学习模块学习的就是根据分子当前的状态选择相应操作。而得到的分子状态序列恰包括了分子状态和采取的相应操作，故此可用分子状态序列中某一刻的分子状态作为强化学习模块的输入，同时将状态序列中的操作作为标准的输出对强化学习模块进行预训练。同时分子状态序列也被存入策略缓冲区，用于之后的药物分子生成过程。

步骤6生成流程执行

根据给定的分子药效或物理化学等其他属性，利用经过训练后的药物分子生成模型，即可形成具有一定目标的药物分子生成策略，执行包括对抗学习和多任务强化学习的生成算法，生成药物候选分子。

步骤7生成结果的验证与应用

1)性质检测，包括：药物分子的生物利用度；

对药物分子生成模型所生成的候选分子，进行性质检测。即根据分子结构计算并预测相应的分子性质，并将所得性质与设计要求做对比。具体地，一般为了得到有效的药物分子，对生成的药物分子的以下性质进行检测，判断药物分子的生物利用度。如选用Lipinski规则检测：分子的分子量是否小于500，氢键给体(包括羟基、氨基等)的数量不超过5个，氢键受体的数量不超过10个，脂水分配系数的对数值(logP)在-2到5之间，其可旋转键的数量不超过10个等。对于满足要求的分子，将进一步拆分其结构得到状态序列，并将其加入到策略缓冲区中，同时将其移交至下一步做可合成性检验。对于尚未达到要求或可能有悖于药物分子规律的分子，将其转入下一轮的生成过程，进行再次迭代，或放弃后开启新一轮的生成过程。

2)可合成性评估

鉴于本模型所生成的分子很可能并不存在于现实世界，因此，为评估后续化学工作者合成该分子的难易程度，需要对其可合成性进行评估。本发明采用逆合成分析法进行分子的可合成性评估。即采用互换、添加官能团以及逆向切断等方法将生成的分子变成若干中间产物或原料。之后再对中间产物重复进行逆合成分析，直到所有中间产物变成简单、易得的分子。

3)为下阶段实体试验输出候选结果

输出本方案所生成的分子，即作为新药的候选分子输出其结构描述。本方案的定位是为辅助新药研发，旨在提高其对候选分子的筛选效率，并不能取代新药研发各项实体试验，包括生化试验、动物试验和各期临床试验等，新药研发机构需要完成后续试验，以得到最终的新药化合物。

计算机辅助分子生成是一个新兴的交叉领域，在医药研发、疾病诊断和材料科学中具有广阔的应用前景。一方面，传统药物分子的研发周期漫长、耗资巨大且很难筛选出有效的分子。虽然计算机辅助设计及人工智能算法极大的提高了分子筛选的效率。但传统的计算机大多依赖已有的化合物、结构、性质进行设计，而新一代的药物设计往往是针对疾病或靶点预设药效等对药分子的期望属性，根据相关已有的药分子结构进行新药分子的设计。而本发明所提出的对抗模仿学习方法可以很好的学习到分子结构与特定药物属性之间难以量化的关系，能以更高的效率生成可满足新药设计需求的候选药物分子，且其鲁棒性、生成分子的新颖性均可获得提升。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于对抗模仿学习的药物分子生成方法，基于对抗模仿学习与多任务强化学习生成药物分子，包括：构建有效药物分子库；建立改进的药物分子生成模型，包括：设计并实现多任务强化学习模块、设计并实现对抗模仿学习模块；模型预训练；执行药物分子生成流程；生成候选药物分子结果；包括如下步骤：

步骤1，收集现有药物分子的信息，构建有效药物分子库；

步骤2，建立改进的药物分子生成模型；执行如下操作：

21)搭建药物分子生成的基本模型DQN网络模型；所述基本模型DQN网络模型为深度强化学习模型，以智能体感知环境、作用于环境的过程实现分子生成；包括如下操作：

211)建立DQN网络模型中的强化学习系统，称为智能体Agent；

212)采用分子状态空间和动作空间描述分子生成过程；

采用马尔科夫决策过程描述分子生成过程M，表示为式1：

其中，

代表分子状态空间，

表示强化学习动作空间，

表示状态转移概率，即在当前状态下采取特定动作后转移到下一个状态的概率；

表示奖励函数，γ是奖励的衰减系数，即当前获得的奖励会随着生成过程的进行逐渐衰减；

分子状态空间

是指分子在生成过程中可能处于的状态，即所有可能的分子图形形态所构成的集合；一个分子的当前状态定义为s_t＝(G_t,N_t)，其中G_t表示t时间步时生成的分子图结构；N_t表示到t时间步为止经历的时间步数；最大时间步数限定为T；

动作空间

是指在每步生成过程中可以对分子进行的操作，即所有可对分子实施的操作的集合；动作包括添加原子、删除原子、添加化学键与删除化学键；

213)建立分子生成的基本过程；在分子生成过程中的每一时刻，发生的事件序列如下：

a)智能体感知t时刻的环境，即当前分子图形；当前分子图形为模型初始化时随机生成；

b)将当前的状态和即时回报r(t),细分为在r_e,r_d,智能体选择一执行动作，记为act(t)；

c)智能体执行选定动作，作用于环境引发变化，即对当前分子进行操作，衍生出新的分子图形；

d)在t+1时刻，状态s_t转移至下一新的状态s_t+1，记录新分子图形；同时，给出即时回报r(t)，又称为奖赏回报，反馈给智能体；

e)如果新的状态为结束状态,则停止循环，否则转向第b步；

对步骤21)中的药物分子生成的基本模型DQN网络模型进行改进，增设多任务强化学习模块和对抗模仿学习模分别用于多目标优化和及时奖励，建立改进的分子生成DQN模型；包括步骤22)和步骤23)：

22)设计并实现多任务强化学习模块；

设计竞争Dueling结构，引入多任务强化学习能力，使用Q-learning强化学习改进算法，建立多任务强化学习模块，用于实现分子生成过程中进行多目标优化，通过逐步对分子完成相应操作，进而生成一个完整的分子；包括如下过程：

将Q-learning强化学习算法中的Q函数估计解耦成底层特征的共享和高层Q值估计；通过设计竞争Dueling结构来实现药物分子生成模型的多任务强化学习；即：用Dueling结构将不同性质的估计函数解耦为共享的特征，提取网络和任务特定的值函数网络，采用多个Q值函数网络分别实现不同生化性质的目标值估计，同时通过底层分子特征共享来有效节省计算量；

对不同药物分子的不同生化性质之间潜在的联系进行建模，通过任务特定的Q值估计有效减轻不同优化目标之间潜在冲突性造成的影响，从而有效地提升模型的运行效率；

23)设计并实现对抗模仿学习模块；

采用对抗模仿学习来实现密集的实时奖励反馈，将对抗学习用于拟合药物分子的生成策略，从而得到更优的药物分子；对抗模仿学习包括如下过程：

将强化学习中的策略网络代理Agent作为药物分子生成模型的对抗学习中的生成器，再增设一个判别器网络，将对抗学习用于拟合分子生成策略，即对抗模仿学习；

通过判别器实现对强化学习中策略分布的拟合，并将拟合评估结果反馈给分子生成器作为密集的实时奖励，提升强化学习过程中奖励的实时性和密集性；

同时在模仿最优分子生成策略的过程中，通过判别器对分子每一步的状态及操作实时进行评估，得到实时奖励信号；

再利用奖励信号训练多任务强化学习模块，通过奖励信号有效地增进分子生成的稳定性，并提高最终生成分子的合法性、新颖性和特异性；

步骤3，模型预训练；利用有效药物分子库完成模型训练，即预训练，得到训练好的药物分子生成模型；包括如下过程：

31)将现有已知结构和药效性质的的药物分子进行拆分，得到相应的分子状态序列，用于药物分子生成模型的预训练；

32)用分子状态序列中某一刻的分子状态作为药物分子生成模型的强化学习模块的输入，同时将状态序列中的操作作为输出，对强化学习模块进行预训练；

33)将分子状态序列存入Agent策略缓冲区，用于之后的药物分子生成过程；

步骤4，形成具有药效目标的药物分子生成策略，使用训练好的药物分子生成模型执行生成流程，即得到药物候选分子；

通过上述步骤，即实现基于对抗模仿学习的药物分子生成。

2.如权利要求1所述基于对抗模仿学习的药物分子生成方法，其特征是，步骤1药物分子的信息包括：药物分子的结构、物理化学属性、药效。

3.如权利要求1所述基于对抗模仿学习的药物分子生成方法，其特征是，步骤22)中，用于分子生成的Q-learning强化学习改进算法包括如下步骤：

221)定义多任务强化学习模块最大化累积奖励，通过奖励函数的梯度提升来实现优化，多任务强化学习模块中的奖励表示如式2：

其中，Q^π(s_t,a_t)表示在t时刻下对处于s状态下的分子采取a操作后得的奖励；T表示对药物分子生成模型强化学习过程的最大时间步，E表示期望,r是奖励函数模块,γ是奖励的衰减系数，π是Q-learning中的策略函数；

π′(a|s)＝arg max_aQ^π(s,a) 式3

式3表示一个新的分子生成策略π′(a|s)可通过最大化Q函数得到，该新策略优于之前的策略π(a|s)；s是分子当前所处的状态；a是当前对分子所采取的操作；

通过式4表示的梯度提升来实现优化Q网络：

式4中，

表示奖励函数的梯度；

222)将对抗模仿学习作为辅助奖励，从动作序列分布中直接提取策略信息，对每个时间步进行优化；包括如下过程：

将上述Q函数Q^π(s_t,a_t)用占用率度量

重写如式5：

式5表示策略经历的状态-动作序列的联合分布；

223)重新定义强化学习的优化目标，采用Dueling结构实现不同性质优化的多任务学习，计算得到多个生化性质对应的Q函数，即Dueling结构中神经网络的参数；包括如下过程：

重新定义强化学习的优化目标如式6：

药物分子不同生化性质对应不同的Q函数值，Q函数值的计算包括：任务间共享的Advantage函数A(s_t,a_t)和任务特定的value函数V_o(s_t)，下标o表示不同任务；

用Dueling结构实现不同性质优化的多任务学习，由式7计算得到多个生化性质对应的Q函数：

∑_oQ(s_t,a_t；θ_o,θ_A)＝∑_oV_o(s_t；θ_o,θ_A) 式7

其中，θ_o和θ_A表示Dueling结构中神经网络的参数。

4.如权利要求3所述基于对抗模仿学习的药物分子生成方法，其特征是，步骤221)中，具体通过蒙特卡洛方法或者时序差分法实现估计Q值。

5.如权利要求4所述基于对抗模仿学习的药物分子生成方法，其特征是，步骤23)所述对抗模仿学习模块具体使用生成式对抗网络GAN实现学生策略分布向教师策略分布的逼近的过程，并将该过程中的损失函数值作为奖励反馈给分子生成器。

6.如权利要求5所述基于对抗模仿学习的药物分子生成方法，其特征是，所述教师策略来自于现有药物分子数据集或分子生成器在决策过程中产生的历史最优策略，即将药物分子数据集中的分子拆分得到分子合成序列，或分子生成器合成高奖励分子时的序列作为教师策略；教师策略数据保存在策略缓冲区中，随着训练过程进行动态调整。

7.如权利要求1所述基于对抗模仿学习的药物分子生成方法，其特征是，步骤31)将现有已知结构和药效性质的的药物分子进行拆分，得到相应的分子状态序列；具体包括如下过程：

对现有的药物分子，随机去掉一个原子或化学键，记录剩余部分的分子结构；

重复上述操作，直到该分子仅剩一个碳原子；

将所有记录的中间步骤的分子结构列一起，即得到该分子的一个拆分序列。

8.如权利要求1所述基于对抗模仿学习的药物分子生成方法，其特征是，步骤4所述分子生成过程具体如下：

41)首先将分子的状态空间设置为仅有一个碳原子，并将其输入到训练好的分子生成模型；

42)根据当前输入的分子状态做出相应的决策，在当前分子状态上进行分子相应操作；

43)判断是否要继续对分子进行操作，或结束整个分子生成过程；

若继续操作，则跳转至步骤42)，继续根据分子当前状态对分子进行操作；

44)最后结束分子生成过程，得到生成的分子。

9.如权利要求1所述基于对抗模仿学习的药物分子生成方法，其特征是，进一步对生成的候选药物分子进行性质检测和可合成性评估，得到合格分子。