CN113838541A

CN113838541A - 设计配体分子的方法和装置

Info

Publication number: CN113838541A
Application number: CN202111154696.XA
Authority: CN
Inventors: 杨雨薇; 欧阳思琦; 周浩; 李磊; 李航
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-12-24
Anticipated expiration: 2041-09-29
Also published as: WO2023055290A3; WO2023055290A2; CN113838541B

Abstract

根据本公开的实施例，提供了一种用于设计配体分子的方法、装置、设备、存储介质和程序产品。在此描述的方法包括：利用编辑模型来编辑第一分子结构，以确定第二分子结构，编辑至少包括从第一分子结构中删除片段或者向第一分子结构添加片段；响应于确定第二分子结构的评价优于第一分子结构，基于编辑来训练编辑模型，评价至少指示第二分子结构与目标分子之间的结合性；以及利用经训练的编辑模型并基于第二分子结构，确定针对目标分子的配体分子的目标结构。根据本公开的实施例，能够基于自监督的方法来有效地构建配体分子，从而提高了方法的普适性。

Description

设计配体分子的方法和装置

技术领域

本公开的各实现方式涉及计算机领域，更具体地，涉及设计配体分子的方法、装置、设备和计算机存储介质。

背景技术

在药物发现中，一项重要的工作是寻找能够与目标分子(例如，靶向蛋白质分子)有效结合的药物小分子(也称为配体分子，Ligand)。近年来，随着计算机技术的发展，诸如机器学习技术等计算机辅助技术被逐渐被应用于药物分子发现的过程中。

传统的计算机辅助技术通常依赖于实验活性数据，然而这样实验数据通常是难以获取的，尤其是对于新的靶向蛋白而言。

发明内容

在本公开的第一方面，提供了一种用于设计配体分子的方法。该方法包括：利用编辑模型来编辑第一分子结构，以确定第二分子结构，编辑至少包括从第一分子结构中删除片段或者向第一分子结构添加片段；响应于确定第二分子结构的评价优于第一分子结构，基于编辑来训练编辑模型，评价至少指示第二分子结构与目标分子之间的结合性；以及利用经训练的编辑模型并基于第二分子结构，确定针对目标分子的配体分子的目标结构。

在一些实施例中，编辑模型包括操作预测模型，并且利用编辑模型编辑第一分子结构包括：基于第一分子结构，确定第一分子结构中的一组可编辑键的一组第一特征表示；利用操作预测模型并基于一组第一特征表示，从一组可编辑键中确定待被编辑的目标键并确定待应用于目标键的编辑操作；以及基于所确定的编辑操作，编辑第一分子结构。

在一些实施例中，编辑第一分子结构包括向第一分子结构添加片段，包括：从片段库中选择目标片段，其中片段库包括多个三维片段；以及将目标片段添加到第一分子结构。

在一些实施例中，多个三维片段是基于破坏一组药物分子中的可编辑键而被构造的。

在一些实施例中，编辑模型包括片段筛选模型，并且从片段库中选择目标片段包括：基于第一分子结构，确定第一分子结构中的待编辑的目标键的第二特征表示；利用片段筛选模型并基于第二特征表示，从片段库中确定目标片段。

在一些实施例中，将目标片段添加到第一分子结构包括：确定目标片段中添加到第一分子结构的添加键；以及基于添加键，将目标片段添加到第一分子结构。

在一些实施例中，编辑模型包括键选择模型，并且确定目标片段中添加到第一分子结构的添加键包括：确定目标片段中可用于添加到第一分子结构的一组候选键的一组第三特征表示；基于第一分子结构和第三特征表示，确定第四特征表示；以及利用键选择模型并基于第四特征表示，从一组候选键中确定添加键。

在一些实施例中，基于添加键将目标片段添加到第一分子结构包括：确定第一分子结构中与待编辑的目标键相关联的第一对原子；确定目标片段中与添加键相关联的第二对原子；基于第一对原子和第二对原子，确定用于添加目标片段的双面角；以及基于所确定的双面角，将目标片段添加到第一分子结构。

在一些实施例中，编辑模型包括角预测模型，并且确定用于添加目标片段的双面角包括：基于第一分子结构和目标片段，确定与第一对原子和第二对原子相关联的第五特征表示；以及利用角预测模型并基于第五特征表示，确定用于添加目标片段的双面角。

在一些实施例中，编辑第一分子结构包括从第一分子结构删除片段，包括：确定第一分子结构中待被删除的键；以及从第一分子结构中删除与待被删除的键关联的片段。

在一些实施例中，确定针对目标分子的配体分子的目标结构包括：利用经训练的编辑模型处理第二分子结构，以确定第三分子结构；以及基于第三分子结构，确定配体分子的目标结构。

在一些实施例中，第一分子结构是对初始的分子结构应用了第一数目的编辑操作而被生成，并且确定针对目标分子的配体分子的目标结构包括：递增第一数目以确定第二数目；以及如果第二数目达到预定阈值，将第二分子结构确定为目标结构。

在一些实施例中，方法还包括：响应于确定第二分子结构的评价差于或等于第一分子结构，基于评价确定第二分子结构被用于确定配体分子的目标结构的概率。

在一些实施例中，第一分子结构是对初始的分子结构应用了第一数目的编辑操作而被生成，并且概率还基于第一数目。

在一些实施例中，评价为第一评价，基于编辑来训练编辑模型包括：基于优化目标，来训练编辑模型，优化目标是基于第一评价与第一分子结构的第二评价之间的差异而被确定。

在一些实施例中，编辑模型包括第一图模型，并且利用编辑模型编辑第一分子结构包括：基于第一分子结构，生成第一图，第一图中的第一组节点对应于第一分子结构中的一组原子，第一图中的第一组边对应于第一分子结构中的一组键；利用第一图模型处理第一图，以确定与一组原子对应的一组原子级特征；以及基于一组原子级特征，编辑第一分子结构。

在一些实施例中，编辑模型还包括第二图模型，并且基于一组原子级特征编辑第一分子结构包括：基于一组原子级特征，确定与第一分子结构中的一组片段对应的第一组节点特征和与一组片段之间的一组键对应的第一组边特征；基于第一组节点特征和第一组边特征，构建第二图；利用第二图模型处理第二图，以确定与一组片段对应的一组片段级节点特征；以及基于一组片段级节点特征和一组原子级特征中的至少一项，编辑第一分子结构。

在一些实施例中，基于一组片段级特征和一组原子级特征中的至少一项来编辑第一分子结构包括：基于一组片段级节点特征，确定与一组片段之间的一组键对应的一组片段级边特征；以及基于一组片段级节点特征、一组原子级特征和一组片段级边特征中的至少一项，编辑第一分子结构。

在一些实施例中，评价还基于：第二分子结构的类药性QED；或者第二分子结构的可合成性。

在本公开的第二方面中，提供了一种用于设计配体分子的装置。该装置包括:编辑模块，被配置为利用编辑模型编辑第一分子结构，以确定第二分子结构，编辑至少包括从第一分子结构中删除片段或者向第一分子结构添加片段；训练模块，被配置为响应于确定第二分子结构的评价优于第一分子结构，基于编辑来训练编辑模型，评价至少指示第二分子结构与目标分子之间的结合性，其中编辑模块还被配置为利用经训练的编辑模型并基于第二分子结构，确定针对目标分子的配体分子的目标结构。

在一些实施例中，编辑模型包括操作预测模型，并且编辑模块还被配置为：基于第一分子结构，确定第一分子结构中的一组可编辑键的一组第一特征表示；利用操作预测模型并基于一组第一特征表示，从一组可编辑键中确定待被编辑的目标键并确定待应用于目标键的编辑操作；以及基于所确定的编辑操作，编辑第一分子结构。

在一些实施例中，编辑模块还被配置为：从片段库中选择目标片段，其中片段库包括多个三维片段；以及将目标片段添加到第一分子结构。

在一些实施例中，编辑模型包括片段筛选模型，并且编辑模块还被配置为：基于第一分子结构，确定第一分子结构中的待编辑的目标键的第二特征表示；利用片段筛选模型并基于第二特征表示，从片段库中确定目标片段。

在一些实施例中，编辑模块还被配置为：确定目标片段中添加到第一分子结构的添加键；以及基于添加键，将目标片段添加到第一分子结构。

在一些实施例中，编辑模型包括键选择模型，并且编辑模块还被配置为：确定目标片段中可用于添加到第一分子结构的一组候选键的一组第三特征表示；基于第一分子结构和第三特征表示，确定第四特征表示；以及利用键选择模型并基于第四特征表示，从一组候选键中确定添加键。

在一些实施例中，编辑模块还被配置为：确定第一分子结构中与待编辑的目标键相关联的第一对原子；确定目标片段中与添加键相关联的第二对原子；基于第一对原子和第二对原子，确定用于添加目标片段的双面角；以及基于所确定的双面角，将目标片段添加到第一分子结构。

在一些实施例中，编辑模型包括角预测模型，并且编辑模块还被配置为：基于第一分子结构和目标片段，确定与第一对原子和第二对原子相关联的第五特征表示；以及利用角预测模型并基于第五特征表示，确定用于添加目标片段的双面角。

在一些实施例中，编辑模块还被配置为从第一分子结构删除片段，包括：确定第一分子结构中待被删除的键；以及从第一分子结构中删除与待被删除的键关联的片段。

在一些实施例中，编辑模块还被配置为：利用经训练的编辑模型处理第二分子结构，以确定第三分子结构；以及基于第三分子结构，确定配体分子的目标结构。

在一些实施例中，第一分子结构是对初始的分子结构应用了第一数目的编辑操作而被生成，并且编辑模块还被配置为：递增第一数目以确定第二数目；以及如果第二数目达到预定阈值，将第二分子结构确定为目标结构。

在一些实施例中，训练模块还被配置为：响应于确定第二分子结构的评价差于或等于第一分子结构，基于评价确定第二分子结构被用于确定配体分子的目标结构的概率。

在一些实施例中，评价为第一评价，并且训练模块还被配置为：基于优化目标，来训练编辑模型，优化目标是基于第一评价与第一分子结构的第二评价之间的差异而被确定。

在一些实施例中，编辑模型包括第一图模型，并且编辑模块还被配置为：基于第一分子结构，生成第一图，第一图中的第一组节点对应于第一分子结构中的一组原子，第一图中的第一组边对应于第一分子结构中的一组键；利用第一图模型处理第一图，以确定与一组原子对应的一组原子级特征；以及基于一组原子级特征，编辑第一分子结构。

在一些实施例中，编辑模型还包括第二图模型，并且编辑模块还被配置为：基于一组原子级特征，确定与第一分子结构中的一组片段对应的第一组节点特征和与一组片段之间的一组键对应的第一组边特征；基于第一组节点特征和第一组边特征，构建第二图；利用第二图模型处理第二图，以确定与一组片段对应的一组片段级节点特征；以及基于一组片段级节点特征和一组原子级特征中的至少一项，编辑第一分子结构。

在一些实施例中，编辑模块还被配置为：基于一组片段级节点特征，确定与一组片段之间的一组键对应的一组片段级边特征；以及基于一组片段级节点特征、一组原子级特征和一组片段级边特征中的至少一项，编辑第一分子结构。

在本公开的第三方面，提供了一种电子设备，包括：存储器和处理器；其中存储器用于存储一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据本公开的第一方面的方法。

在本公开的第四方面，提供了一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行实现根据本公开的第一方面的方法。

在本公开的第五方面，提供了一种计算机程序产品，其包括一条或多条计算机指令，其中一条或多条计算机指令被处理器执行实现根据本公开的第一方面的方法。

根据本公开的各种实施例，能够基于自监督的方法来有效地构建配体分子，从而提高了方法的普适性。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了能够实施本公开的一些实施例的计算设备的示意性框图；

图2示出了根据本公开的一些实施例的设计模块的示意性框图；

图3示出了根据本公开的一些实施例的片段构建模块的示意性框图；

图4示出了根据本公开的一些实施例的编辑模块的示意性框图；

图5示出了根据本公开的一些实施例的特征提取模块的示意性框图；以及

图6示出了根据本公开的一些实施例的用于设计配体分子的示例方法的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上讨论的，随着计算机技术的发展，诸如机器学习技术等计算机辅助技术被逐渐被应用于药物分子发现的过程中。传统的计算机辅助技术通常依赖于实验活性数据，然而这样实验数据通常是难以获取的，尤其是对于新的靶向蛋白而言。这导致传统的计算机辅助药物发现(Computer Aided Drug Discovery)的适应范围有限。

根据本公开的实现，提供了一种用于设计配体分子的方案。在该方案中，可以利用编辑模型来编辑第一分子结构，以确定第二分子结构，其中编辑至少包括从第一分子结构中删除片段或者向第一分子结构添加片段。进一步地，响应于确定第二分子结构的评价优于第一分子结构，则基于该编辑来训练编辑模型，其中评价至少指示第二分子结构与目标分子之间的结合性。进一步地，可以利用经训练的编辑模型并基于第二分子结构，确定针对目标分子的配体分子的目标结构。

通过利用编辑模型来预测片段之间的关系，并基于获得更优评价的编辑来训练编辑模型，本公开的实施例能够基于自监督的方法来有效地构建配体分子，从而提高了方法的普适性。

以下参考附图来说明本公开的基本原理和若干示例实现。

示例设备

图1示出了可以用来实施本公开的实施例的示例设备100的示意性框图。应当理解，图1所示出的设备100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，设备100可以被实现为各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任何类型的移动终端、固定终端或便携式终端，包括移动手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，设备100能够支持任何类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。

设备100通常包括多个计算机存储介质。这样的介质可以是设备100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括一个或多个设计模块125，这些程序模块被配置为执行本文所描述的各种实现的功能。设计模块125可以由处理单元110访问和运行，以实现相应功能。存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，其能够用于存储信息和/或数据并且可以在设备100内被访问。

设备100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如数据库145、其他存储设备、服务器、显示设备等，与一个或多个使得用户与设备100交互的设备进行通信，或者与使得设备100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备、相机等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。

在一些实现中，如图1所示，设备100例如可以通过输入设备150接收与目标分子170(例如，靶向蛋白质分子)对应的标识。例如，用户可以通过输入设备150输入PDB文件，以指示对应的目标分子172。

在一些实现中，设计模块125可以利用编辑模型来迭代地编辑分子结构，以确定最终的配体分子180的目标结构。关于确定配体分子180的目标结构的过程将在下文详细介绍。

配体分子设计

首先参考图2，图2示出了根据本公开的一些实施例的设计模块125的框图。如图2所示，设计模块125包括用于实现根据本公开的一些实施例的示例设计配体分子的过程的多个模块。如图2所示，设计模块125包括编辑模块230和训练模块240。

在一些实施例中，编辑模块230可以编辑第一分子结构220。具体地，编辑可以包括从第一分子结构220中删除一个分段，这样的编辑也被称为“删除编辑操作”。备选地，编辑也可以包括向第一分子结构220添加一个新的分段，这样的编辑也被称为“添加编辑操作”。

对于“删除编辑操作”，编辑模块230可以确定第一分子结构220中待被删除的键，并相应地从第一分子结构中删除与该待被删除的键相关联的片段。示例性，编辑模块230可以从第一分子结构中删除与待删除的键相关联的基团，并相应地补充一个氢原子，以构建新的分子结构。

对于“添加编辑操作”，编辑模块230可以确定第一分子结构220中待编辑的键，并相应地从片段库260中选择一个片段以附加值第一分子结构220。在“添加编辑操作”过程中，第一分子结构220中与待编辑的键关联的氢原子和所选择的片段对应的氢原子可以被相应地删除，以构建新的分子结构。

在一些实施例中，片段库260可以包括多个片段270。如图2所示，这样的片段270可以是三维的结构片段。在一些实施例中，多个片段270可以是例如基于实验知识所确定的。备选地，多个片段270也可以是根据已有的药物分子而被构建的。关于片段库260的构建过程将在下文参考图3详细描述。

在一些实施例中，第一分子结构220例如可以是由初始的分子结构(例如，图2中所示的甲烷分子CH₄)经过至少一次如上文所讨论的编辑过程而获得的。备选地，第一分子结构220也可以是初始的分子结构，其例如可以由编辑模块230随机地选择，或者由编辑模块230根据输入而确定。

如图2所示，编辑模块230可以利用所部署的编辑模型来编辑第一分子结构220以获得第二分子结构250。编辑模型例如可以是基于机器学习模型而被实现。关于编辑模块230和编辑模型的具体细节将在下文参考图4和图5详细描述。

如图2所示，设计模块240还可以包括训练模块240。在一些实施例中，训练模块240可以确定针对第二分子结构250的评价(为了方便描述，也称为第一评价)。例如，训练模块240可以基于第二分子结构250与目标分子170之间的结合性来确定第一评价。附加地，训练模块240还可以基于诸如类药性QED和/或可合成性来确定第一评价。

进一步地，训练模块240可以将第二分子结构250的第一评价与第一分子结构220的第二评价进行比较。应当理解，训练模块240可以基于类似的过程来确定关于第一分子结构的第二评价。如果确定第一评价优于第二评价，则训练模块240可以利用编辑模块230所执行的编辑操作来训练编辑模块230中所部署的编辑模型。

在一些实施例中，编辑模块230可以利用经训练的编辑模型并基于第二分子结构250来迭代地执行编辑，直至确定针对目标分子170的配体分子的目标结构。

在一些实施例中，编辑模块230例如可以在对初始的分子结构210执行了预定次数的编辑后便终止迭代，并将最终输出的分子结构确定作为配体分子的目标结构。

在一些实施例中，编辑模块230也可以基于每次迭代编辑后的分子结构的评价的变化程度来确定是否收敛。例如，如果预定次数迭代后评价的变化小于预定阈值，则编辑模块230可以确定已经收敛，并将最终输出的分子结构确定作为配体分子的目标结构。

关于自监督训练的详细过程将在下文详细介绍。

片段构建

如上文所讨论的，片段库260中可以包括多个片段270。在一些实施例中，多个片段270例如可以是基于实验知识所确定的。例如，一些已知的药物分子片段。

在一些实施例中，片段库260中的片段270还可以根据已知的药物分子来构建。图3示出了根据本公开的一些实施例的片段构建模块300的示意性框图。应当理解，片段构建模块300可以由部署了设计模块125的计算设备100或者不同的计算设备来实施。

如图3所示，片段构建模块300可以包括拆分模块320，其被配置对已知的一个或多个药物分子310中的结构进行拆分。在一些实施例中，拆分模块320可以识别药物分子310的二维结构中的单键。进一步地，拆分模块320可以通过破坏药物分子310的二维结构中的单键，以将药物分子310拆分更为多个二维片段330。如图3所示，对于每个拆分的单键，拆分模块320可以相应地添加一个氢原子，以保持电荷平衡。

在一些实施例中，片段构建模块300还可以包括生成模块340，其被配置为基于经拆分的多个二维片段330来生成对应的三维片段270。示例性地，生成模块340可以利用诸如RDKit等工具来基于二维片段330来生成对应的三维片段270。在一些实施例中，一个二维片段330可能对应于多个构型，生成模块340可以将对应的多个构型都添加到片段库260。由此，可以使得所添加的片段总是刚性(rigid)的。

在一些实施例中，生成模块340还可以将拆分模块320所破坏的键标记为可编辑的键，以用于编辑模块230中的编辑过程。

通过将药物分子中导致结构可选择的单键破坏，片段构建模块300可以保证所生成的三维片段270都是刚性的。由此，在添加编辑操作中，本公开的实施例只需要确定两个结构组合的双面角(dihedral angle)，从而有效地简化了分子结构生成问题。

此外，通过利用包括多个三维片段的片段库来构建药物分子，本公开的实施例能够直接构建配体分子的三维结构。与传统的二维结构生成方法相比，本公开的实施例能够进一步考虑不同三维结构之间的影响。此外，通过直接生成三维分子结构，本公开的实施例能够使得其更加直观且便于理解。

分子结构编辑

如参考图2所讨论的，编辑模块230被配置为利用所部署的编辑模型来编辑第一分子结构220。图4示出了根据本公开的一些实施例的编辑模块的230示意性框图。

如图4所示，编辑模块230包括特征提取模块410-1，其被配置为基于第一分子结构220来生成片段级特征415。在一些实施例中，特征提取模块410-1可以包括双层MPNN(Message Passing Neural Network，消息传递神经网络)，其可以用于生成第一分子结构220的原子级特征和片段级特征。示例性地，特征提取模块410-1的处理过程可以表示为：

h^node，o^node，o^edge＝HierMPNN(x_skel) (1)

其中，HierMPNN()表示特征提取模块410-1的运算，h^node表示原子级特征(也称为原子级节点特征)，o^node表示片段级节点特征，o^edge表示片段级边特征，x_skel表示第一分子结构220。

在一些实施例中，原子级节点特征h^node可以对应于第一分子结构220中的每个原子，片段级节点特征o^node可以对应于第一分子结构220中的每个片段，片段级边特征o^edge可以对应于第一分子结构220中片段之间的键。关于特征提取模块410-1的实现细节将在下文参考图5详细描述。

如图4所示，编辑模块230包括操作预测模型420，其被配置为基于第一分子结构220中的一组可编辑键的一组特征表示(也称为一组第一特征表示)来从一组可编辑键中确定待被编辑的目标键，并且确定待被应用于目标键的编辑操作。

示例性地，操作预测模型420的处理过程可以表示为：

其中，MLP₁()表示操作预测模型420的运算，V_a表示第一分子结构220中能够执行添加编辑操作的可编辑键的集合，V_d表示第一分子结构220中能够执行删除编辑操作的可编辑键的集合。p_add(x_skel)表示对第一分子结构220执行添加编辑操作的概率，p_delete(x_skel)表示对第一分子结构220执行删除编辑操作的概率。

在一些实施例中，操作预测模型420可以基于所确定的概率p_add(x_skel)和p_delete(x_skel)来采样确定待被编辑的目标键425和应用于目标键425的编辑操作。如果确定编辑操作为删除编辑操作，则编辑模块230可以从第一分子结构220中相应地删除与目标键425相关联的片段，从而获得第二分子结构250。

备选地，如果确定应用于目标键425的编辑操作为添加编辑操作，则编辑模块230可以进一步利用片段筛选模型430来确定待被添加到第一分子结构220的片段。

如图4所示，片段筛选模型430可以获取与所确定的目标键425所对应的片段级边特征(也称为第二特征表示)，并基于第二特征表示来确定片段库260中的目标片段435。

示例性地，片段筛选模型430的处理过程可以表示为：

其中，r表示目标键425，

表示目标键425的片段级边特征，MLP₂()表示片段筛选模型430的运算，p_fragment(x_skel，r)表示片段库260中的各片段被选择用于添加到目标键425的概率，其中每个维度的概率分别对应于片段库260中的一个片段。如图4所示，片段筛选模型430例如基于所确定的概率p_fragment(x_skel，r)而从片段库260采样得到目标片段435。

进一步地，编辑模块230还包括特征提取模块410-2，其被配置为获取目标片段430的特征表示440。特征提取模块410-2与特征提取模块410-1具有相同的结构，其被配置为生成目标片段430的原子级特征和片段级特征。

示例性地，第二特征提取模块410-2的处理过程可以表示为：

h^frag-node，o^frag-node，o^frag-edge＝HierMPNN(x_frag) (5)

其中，HierMPNN()表示特征提取模块410-2的运算，h^frag-node表示原子级特征，o^frag-node表示片段级节点特征，o^frag-edge表示片段级边特征，x_frag表示目标片段435。

在一些实施例中，原子级节点特征h^frag-node可以对应于目标片段435中的每个原子，片段级节点特征o^frag-node可以对应于目标片段435中的每个子片段，片段级边特征o^frag ^-edge可以对应于目标片段435中子片段之间的键。此处，目标片段435中的子片段表示基于目标片段435中的可编辑键而被拆封得到的一个或多个子片段。

在一些实施例中，编辑模块230还包括键选择模型445，其被配置为获取目标片段中可用于附加到第一分子结构220的一组候选键的一组特征表示(为了方便描述，称为一组第三特征表示)。进一步地，键选择模型445还可以基于第一分子结构220和第三特征表示来确定第四特征表示。

具体地，键选择模型445可以基于第一分子结构220的片段级节点表示o^node来计算节点均值特征：

其中，MeanPool()表示均值池化运算。

进一步地，键选择模型445可以级联第三特征表示和节点均值特征来确定第四特征表示

其中b表示候选键的编号。

示例性地，键选择模型445可以进一步基于第四特征表示来从一组候选键中确定添加键，其处理过程可以表示为：

其中MLP₃()表示键选择模型445的计算过程，

表示目标片段435中候选键的数目，p_attach(x_skel，r，x_frag)表示各候选键被选择作为添加键的概率。

在一些实施例中，基于所确定的概率p_attach(x_skel，r，x_frag)，键选择模型445可以从目标片段435的一组候选键中确定用于执行添加编辑操作的添加键450。

进一步地，如图4所示，编辑模块230还包括角预测模型465，其被配置为确定第一分子结构220中与待编辑的目标键425相关联的第一对原子，和目标片段中与添加键450相关联的第二对原子。进一步地，角预测模型465可以基于第一对原子和第二对原子确定用于将目标片段435添加到第一分子结构220的双面角。

在一些实施例中，角预测模型465可以获取第一分子结构220的第一原子级特征表示455(即，h^node)和目标片段435的第二原子级特征表示460(即，h^frag-node)。进一步地，角预测模型465可以基于第一原子级特征表示455确定与目标键425相关联的一对原子u_skel和w_skel所对应的特征表示(也称为第五特征表示)，并基于第二原子级特征表示460确定与添加键450相关联的一对原子u_frag和w_frag的特征表示。

进一步地，角预测模型465可以基于四个原子的特征表示的级联来确定第一分子结构220和目标片段435的双面角，其处理过程可以表示为：

p_angle(x_skel，r，xf_rag，a)＝Softmax(MLP₄(h^angle)) (9)

其中，a表示所确定的添加键450，p_angle(x_skel，r，x_frag，a)表示相应的角度或角度范围(例如，10个角度范围，每个范围36度)被选择作为双面角的概率，MLP₄()表示角预测模型465的运算过程。

在一些实施例中，基于所确定的概率p_angle(x_skel，r，x_frag，a)，键选择模型445可以从预定的角度或角度范围采样确定用于执行添加编辑操作的双面角470。

在确定了第一分子结构220中待编辑的目标键425、用于添加到第一分子结构220的目标片段435、目标片段435中的添加键450和第一分子结构220和目标片段435的双面角470后，编辑模块230可以相应地生成第二分子结构250。

特征提取

以下将参考图5来详细描述如图4中所讨论的特征提取模块410-1和410-2(单独或统一称为特征提取模块410)的具体实现。图5示出了根据本公开的一些实施例的特征提取模块410的示意性框图。

如图5所示，特征提取模块410包括图模型520(也称为第一图模型520)，其被配置为获取图510(也称为第一图510)。第一图510可以基于待处理的分子结构而被相应地生成，其例如可以表示为：x＝(g，f^node，f^edge)，其中g表示第一图510的拓扑关系；f^node为第一图510中的节点，其表示分子结构中各原子的特征；f^edge为第一图510中的边，其表示分子结构中的键的特征。

进一步地，第一图模型520可以基于输入的第一图510来确定对应的原子级特征530。示例性地，第一图模型520可以是MPNN，其处理过程可以表示为：

其中，

表示节点的原子级特征，其对应于分子结构中的一个原子。

应当理解，上文参考图4所讨论的第一分子结构220的原子级特征h^node和目标片段435的原子特征h^frag-node可以基于公式(10)而被相应地生成。

如图5所示，特征提取模块410还包括图构建模块540，其被配置为基于原子级特征530来构建第二图550。具体地，图构建模块540可以基于分子结构中各片段中全部原子的原子级特征530来确定第二图550中各节点的节点特征(也称为第一组节点特征)：

其中，V_i表示分子结构中一个片段(或子片段)中的原子的集合。

进一步地，图构建模块540可以基于与一组片段对应的一组节点特征来构建与一组片段之间的一组键对应的一组边特征(预测成为第一组边特征)：

其中A₁和b₁可以是预先配置的静态参数、可配置的超参或者可以是待训练的模型参数。

进一步地，图构建模块540可以基于第一组节点特征和第一组边特征来构建第二图550，其例如可以表示为(g′，z^node，z^edge)。

如图5所示，特征提取模块410还包括图模型560(也称为第二图模型560)，其被配置为基于输入的第二图550来确定对应的片段级节点特征570。示例性地，第二图模型560可以是MPNN，其处理过程可以表示为：

其中，

表示片段级节点特征，其对应于分子结构中的一个片段(或子片段)。

应当理解，上文参考图4所讨论的第一分子结构220的片段节点级特征o^node和目标片段435的片段级节点特征o^frag-node可以基于公式(13)而被相应地生成。

如图5所示，特征提取模块410还包括边特征确定模块580，其被配置为基于片段级节点特征570来确定与一组片段(或子片段)之间的键对应的片段级边特征590：

其中A₂和b₂可以是预先配置的静态参数、可配置的超参或者可以是待训练的模型参数。

应当理解，上文参考图4所讨论的第一分子结构220的片段级边特征o^edge和目标片段435的片段级边特征O^frag-edge可以基于公式(13)而被相应地生成。

自监督训练

在一些实施例中，如上文参考图2所讨论的，训练模块240可以基于应用与第一分子结构220的编辑操作来自监督地训练编辑模型。

如上文所讨论的，第一分子结构220中待编辑的目标键425、用于添加到第一分子结构220的目标片段435、目标片段435中的添加键450和第一分子结构220和目标片段435的双面角470均是基于概率而被采样的。

在一些实施例中，设计模块125例如可以并行地执行多次采样，以基于第一分子结构220获得多个候选分子结构。在一些实施例中，训练模块240可以确定针对每个候选分子结构的评价。如上文所讨论的，该评价例如可以基于：候选分子结构与目标分子170之间的结合性、候选分子结构的类药性QED(Quantitative Estimate of Drug-likeness)和/或候选分子结构的可合成性。

示例性地，训练模块240可以基于以下来确定每个候选分子结构的评价：

f(x)＝binding energy(x)+w₁log QED(x)+w₂log SAscore(x) (15)

其中，x表示候选分子结构，binding energy(x)表示候选分子结构与目标分子170的结合能，QED(x)表示候选分子结构的类药性得分，SAscore(x)表示候选分子结构的可合成性得分。此外，w₁和w₂为权重系数，其可以是预先配置的静态参数、可配置的超参或者可以是待训练的模型参数。

在一些实施例中，设计模块125可以比较候选分子结构的评价与第一分子结构220的评价，并确定候选分子结构是否可以作为进一步编辑的基础结构。

在一些实施例中，如果候选分子结构的评价优于第一分子结构220的评价，则设计模块125可以确定该候选分子结构可以作为下一次编辑的基础结构。

在一些实施例中，如果候选分子结构的评价差于或等于第一分子结构的评价，则设计模块125可以确定该候选分子结构被选择作为下次编辑的基础结构的概率：

其中f(x′)表示候选分子结构的评价，f(x)表示第一分子结构220的评价，T表示温度系数，其例如可以基于候选分子结构从初始的分子结构210所应用的编辑操作的次数而被确定。

基于这样的方式，一些导致评价降低的编辑操作也可以被随机地保留，从而提高了药物分子生成的多样性。

在一些实施例中，对于评价优于第一分子结构220的候选分子结构，训练模块240可以进一步基于与生成候选分子结构所对应的编辑操作来训练编辑模型。

在一些实施例中，训练编辑模型可以基于加权最大似然估计(WMLE)，其训练的优化目标例如可以被确定为：

其中，D表示获的更优评价的候选分子结构与第一分子结构220所构建的全部结构对(x，x′)，λ(x′，x)是与候选分子结构与第一分子结构220的评价差异正相关的单调函数。

通过使用WMLE，本公开的实施例能够极大地减少梯度下降的偏差。此外，通过自监督训练的方式，本公开的实施例能够摆脱对于实验数据的依赖性，从而提高了药物设计方法的普适性。

示例过程

图6示出了根据本公开一些实现的用于设计配体分子的方法600的流程图。方法600可以由计算设备100来实现，例如可以被实现在计算设备600的存储器620中的设计模块125处。

如图6所示，在框610，计算设备100利用编辑模型来编辑第一分子结构，以确定第二分子结构，其中编辑至少包括从第一分子结构中删除片段或者向第一分子结构添加片段。

在框620，响应于确定第二分子结构的评价优于第一分子结构，计算设备100基于编辑来训练编辑模型，其中评价至少指示第二分子结构与目标分子之间的结合性。

在框630，计算设备100利用经训练的编辑模型并基于第二分子结构，确定针对目标分子的配体分子的目标结构。

以下列出了本公开的一些示例实现方式。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于设计配体分子的方法，包括：

利用编辑模型来编辑第一分子结构，以确定第二分子结构，所述编辑至少包括从所述第一分子结构中删除片段或者向所述第一分子结构添加片段；

响应于确定所述第二分子结构的评价优于所述第一分子结构，基于所述编辑来训练所述编辑模型，所述评价至少指示所述第二分子结构与目标分子之间的结合性；以及

利用经训练的所述编辑模型并基于所述第二分子结构，确定针对目标分子的配体分子的目标结构。

2.根据权利要求1所述的方法，其中编辑模型包括操作预测模型，并且其中利用编辑模型编辑第一分子结构包括：

基于所述第一分子结构，确定所述第一分子结构中的一组可编辑键的一组第一特征表示；

利用所述操作预测模型并基于所述一组第一特征表示，从一组可编辑键中确定待被编辑的目标键并确定待应用于所述目标键的编辑操作；以及

基于所确定的所述编辑操作，编辑所述第一分子结构。

3.根据权利要求1所述的方法，其中编辑所述第一分子结构包括所述第一分子结构添加片段，包括：

从片段库中选择目标片段，其中所述片段库包括多个三维片段；以及

将所述目标片段添加到所述第一分子结构。

4.根据权利要求3所述的方法，其中所述多个三维片段是基于破坏一组药物分子中的单键而被构造的。

5.根据权利要求3所述的方法，其中所述编辑模型包括片段筛选模型，并且从片段库中选择目标片段包括：

基于所述第一分子结构，确定所述第一分子结构中的待编辑的目标键的第二特征表示；以及

利用所述片段筛选模型并基于所述第二特征表示，从所述片段库中确定所述目标片段。

6.根据权利要求3所述的方法，其中将所述目标片段添加到所述第一分子结构包括：

确定所述目标片段中添加到所述第一分子结构的添加键；以及

基于所述添加键，将所述目标片段添加到所述第一分子结构。

7.根据权利要求6所述的方法，其中所述编辑模型包括键选择模型，并且其中确定所述目标片段中添加到所述第一分子结构的添加键包括：

确定所述目标片段中可用于添加到所述第一分子结构的一组候选键的一组第三特征表示；

基于所述第一分子结构和所述第三特征表示，确定第四特征表示；以及

利用键选择模型并基于所述第四特征表示，从所述一组候选键中确定所述添加键。

8.根据权利要求6所述的方法，其中基于所述添加键将所述目标片段添加到所述第一分子结构包括：

确定所述第一分子结构中与待编辑的目标键相关联的第一对原子；

确定所述目标片段中与所述添加键相关联的第二对原子；

基于所述第一对原子和所述第二对原子，确定用于添加所述目标片段的双面角；以及

基于所确定的所述双面角，将所述目标片段添加到所述第一分子结构。

9.根据权利要求8所述的方法，其中所述编辑模型包括角预测模型，并且确定用于添加所述目标片段的双面角包括：

基于所述第一分子结构和所述目标片段，确定与第一对原子和所述第二对原子相关联的第五特征表示；以及

利用所述角预测模型并基于所述第五特征表示，确定用于添加所述目标片段的所述双面角。

10.根据权利要求1所述的方法，其中编辑所述第一分子结构包括从所述第一分子结构删除片段，包括：

确定所述第一分子结构中待被删除的键；以及

从所述第一分子结构中删除与所述待被删除的键关联的所述片段。

11.根据权利要求1所述的方法，其中确定针对目标分子的配体分子的目标结构包括：

利用经训练的所述编辑模型处理所述第二分子结构，以确定第三分子结构；以及

基于所述第三分子结构，确定所述配体分子的所述目标结构。

12.根据权利要求1所述的方法，其中所述第一分子结构是对初始的分子结构应用了第一数目的编辑操作而被生成，并且确定针对目标分子的配体分子的目标结构包括：

递增所述第一数目以确定第二数目；以及

如果第二数目达到预定阈值，将所述第二分子结构确定为所述目标结构。

13.根据权利要求1所述的方法，还包括：

响应于确定所述第二分子结构的评价差于或等于所述第一分子结构，基于所述评价确定所述第二分子结构被用于确定所述配体分子的所述目标结构的概率。

14.根据权利要求13所述的方法，其中所述第一分子结构是对初始的分子结构应用了第一数目的编辑操作而被生成，并且所述概率还基于所述第一数目。

15.根据权利要求1所述的方法，其中所述评价为第一评价，基于所述编辑来训练所述编辑模型包括：

基于优化目标来训练所述编辑模型，所述优化目标是基于所述第一评价与所述第一分子结构的第二评价之间的差异而被确定。

16.根据权利要求1所述的方法，其中所述编辑模型包括第一图模型，并且其中利用编辑模型编辑所述第一分子结构包括：

基于所述第一分子结构，生成第一图，所述第一图中的第一组节点对应于所述第一分子结构中的一组原子，所述第一图中的第一组边对应于所述第一分子结构中的一组键；

利用所述第一图模型处理所述第一图，以确定与所述一组原子对应的一组原子级特征；以及

基于所述一组原子级特征，编辑所述第一分子结构。

17.根据权利要求16所述的方法，其中所述编辑模型还包括第二图模型，并且基于所述一组原子级特征编辑所述第一分子结构包括：

基于所述一组原子级特征，确定与所述第一分子结构中的一组片段对应的第一组节点特征和与所述一组片段之间的一组键对应的第一组边特征；

基于所述第一组节点特征和所述第一组边特征，构建第二图；

利用所述第二图模型处理所述第二图，以确定与所述一组片段对应的一组片段级节点特征；以及

基于所述一组片段级节点特征和所述一组原子级特征中的至少一项，编辑所述第一分子结构。

18.根据权利要求17所述的方法，其中基于所述一组片段级特征和所述一组原子级特征中的至少一项来编辑所述第一分子结构包括：

基于所述一组片段级节点特征，确定与所述一组片段之间的一组键对应的一组片段级边特征；以及

基于所述一组片段级节点特征、所述一组原子级特征和所述一组片段级边特征中的至少一项，编辑所述第一分子结构。

19.根据权利要求1所述的方法，其中所述评价还基于：

所述第二分子结构的类药性QED；或者

所述第二分子结构的可合成性。

20.一种用于设计配体分子的装置，包括：

编辑模块，被配置为利用编辑模型来编辑第一分子结构，以确定第二分子结构，所述编辑至少包括从所述第一分子结构中删除片段或者向所述第一分子结构添加片段；以及

训练模块，被配置为响应于确定所述第二分子结构的评价优于所述第一分子结构，基于所述编辑来训练所述编辑模型，所述评价至少指示所述第二分子结构与目标分子之间的结合性，

其中所述编辑模块还被配置为利用经训练的所述编辑模型并基于所述第二分子结构，确定针对目标分子的配体分子的目标结构。

21.一种电子设备，包括：

存储器和处理器；

其中所述存储器用于存储一条或多条计算机指令，其中所述一条或多条计算机指令被所述处理器执行以实现根据权利要求1至19中任一项所述的方法。

22.一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至19中任一项所述的方法。

23.一种计算机程序产品，包括一条或多条计算机指令，其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至19中任一项所述的方法。