CN111816265B

CN111816265B - 一种分子生成方法和计算设备

Info

Publication number: CN111816265B
Application number: CN202010621991.0A
Authority: CN
Inventors: 张琳; 范方达; 李远鹏; 赖力鹏; 温书豪; 马健
Original assignee: Beijing Jingtai Technology Co ltd
Current assignee: Beijing Jingtai Technology Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2024-04-05
Anticipated expiration: 2040-06-30
Also published as: CN111816265A

Abstract

本发明公开了一种分子生成方法，在计算设备中执行，计算设备中存储有分子片段库，该片段库中的分子片段具有节点向量，该方法包括：生成一个多维向量作为一个生成分子的树向量，树向量代表该生成分子的联结树，联结树的节点为由生成分子拆分出的多个分子片段，相邻的分子片段用边连接；从作为全零向量的空节点开始，采用预设的解码模型依次判断每个当前节点之后是否需要新增下一节点，并在需要新增时，基于树向量和当前节点向量从分子片段库中选取下一节点所对应的分子片段，从而得到联结树；以及确定联结树中相邻分子片段之间的连接方式，并采用该连接方式对相邻分子片段进行连接，得到生成分子。本发明还一并公开了用于执行该方法的计算设备。

Description

一种分子生成方法和计算设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种分子序列的生成方法、装置和计算设备。

背景技术

众所周知，药物研发是一个漫长的过程，存在着研发周期长，研发成果率低，研发费用高的困境。而随着计算机技术的更新以及大数据技术的发展，人工智能正在各行各业中发挥巨大的应用价值，在制药行业也受到了广泛的关注。药物发现的关键挑战是找到具有所需化学性质的靶分子。当前，这项任务需要专业化学家和药理学家多年的开发和探索。而对于分子量在500Da以内的类药小分子，其种类估计达到10的30至60次方，只靠人类的认知很难广泛探索，因此需要借助计算机来帮助人类寻找新的分子。

发明内容

鉴于上述问题，本发明提出了一种分子生成方法和计算设备，以力图解决或者至少解决上面存在的问题。

根据本发明的一个方面，提供了一种分子生成方法，适于在计算设备中执行，该计算设备中存储有分子片段库，该分子片段库包括从多个已知分子中拆分出的多个分子片段，每个分子片段具有向量表示，该方法包括步骤：生成一个多维向量作为一个生成分子的树向量，该树向量适于代表该生成分子的联结树，该联结树的节点为由生成分子拆分出的多个分子片段，相邻的分子片段用边连接；从作为全零向量的空节点开始，采用预设的解码模型依次判断每个当前节点之后是否需要新增下一节点，并在需要新增时从分子片段库中选取下一节点所对应的分子片段，从而得到所述联结树；以及确定联结树中相邻分子片段之间的连接方式，并采用该连接方式对相邻分子片段进行连接，得到所述生成分子。

可选地，在根据本发明的分子生成方法中，生成一个多维向量作为树向量的步骤包括：根据预设的树向量维度和分布特点随机生成一个对应维度的向量作为所述生成分子的树向量。

可选地，在根据本发明的分子生成方法中，生成一个多维向量作为树向量的步骤包括：接收用户的输入分子，将该输入分子拆分为多个分子片段；将其中一个分子片段作为根节点，并根据各分子片段之间的连接关系生成输入分子的联结树；采用预设的编码模型对输入分子的联结树进行编码，得到对应的树向量；对输入分子的树向量叠加微小扰动后，得到生成分子的树向量。

可选地，在根据本发明的分子生成方法中，编码模型的输入为第一组合向量、输出为从当前节点指向下一节点的出链边向量，第一组合向量包括当前节点向量和指向当前节点的入链边向量，当前节点的入链边向量为上一节点的出链边向量。

可选地，在根据本发明的分子生成方法中，采用预设的编码模型对所述输入分子的联结树进行编码的步骤包括；从该联结树的叶子节点开始，基于编码模型向根节点方向依次计算每个节点的出链边向量，以得到根节点的入链边向量；以及将根节点向量和根节点的入链边向量进行拼接，并经过全连接层降维后，得到输入分子的树向量。

可选地，在根据本发明的分子生成方法中，若根节点有多个入链边向量，则将根节点向量和根节点的入链边向量进行拼接的步骤包括：将该多个入链边向量进行求和之后，与根节点向量进行拼接。

可选地，在根据本发明的分子生成方法中，解码模型的输入为第二组合向量、输出为当前节点之后是否新增子节点，第二组合向量包括当前节点向量、指向当前节点的入链边向量之和、以及生成分子的树向量；其中，初始的当前节点为空节点，其当前节点向量和指向当前节点的入链边向量均为全零向量。

可选地，在根据本发明的分子生成方法中，从分子片段库中选取下一节点所对应的分子片段的步骤包括：基于当前节点向量和指向当前节点的入链边向量，采用编码模型得到当前节点的出链边向量；将生成分子的树向量和当前节点的出链边向量进行拼接，并经过全连接层降维后，计算每个降维后的向量与所述分子片段库中的节点向量的相似度；将相似度最高的片段作为下一节点所对应的分子片段，从而得到生成分子的联结树。

可选地，在根据本发明的分子生成方法中，确定联结树中相邻分子片段之间的连接方式，并采用该连接方式对相邻分子片段进行连接的步骤包括：对生成分子的联结树中的每个节点，将当前节点和相邻节点的连接方式进行遍历组合，得到多个组合片段；计算生成分子的图向量或输入分子的编码向量与每个组合片段的编码向量之间的相似度；基于相似度至少得到每两个相邻节点之间的最佳连接方式，并至少基于该最佳连接方式对分子片段进行连接，得到所述生成分子。

可选地，在根据本发明的分子生成方法中，还包括组合片段的编码向量或输入分子的编码向量的生成步骤：将每个原子作为一个节点、将相邻原子之间的键作为边，基于原子性质和键性质对组合片段或输入分子进行编码。

可选地，在根据本发明的分子生成方法中，对已知分子或输入分子进行分子片段的拆分步骤包括：将单独的环结构拆分为一个分子片段；以及将公共原子数大于2的并环结构拆分为一个分子片段；以及将非环键及该非环键两端的非氢原子拆分为一个分子片段。

可选地，在根据本发明的分子生成方法中，共有同一非氢原子的分子片段为相邻的分子片段，对已知分子或输入分子进行分子片段的拆分步骤还包括：若相邻的分子片段数目大于2，则新增一个单节点的分子片段，该新增的分子片段分别与该多个相邻的分子片段相邻。

可选地，在根据本发明的分子生成方法中，输入分子的原子按照一定规则进行编号，所述输入分子的根节点为零号原子所在分子片段。

可选地，在根据本发明的分子生成方法中，零号原子为输入分子的简化分子输入线性规范表示SMILES的第一个原子。

可选地，在根据本发明的分子生成方法中，编码模型为循环神经网络模型，解码模型包括循环神经网络模型、全连接层和分类函数。

根据本发明的另一方面，提供一种计算设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，该一个或多个程序被处理器执行时实现如上所述的分子生成方法的步骤。

根据本发明的又一方面，提供一种存储一个或多个程序的可读存储介质，该一个或多个程序包括指令，所述指令当由计算设备执行时实现如上所述的分子生成方法的步骤。

根据本发明的技术方案，基于图和联结树的生成方式，首先将分子拆分成多个片段构建成分子片段库，每个分子均可以用一个向量表示，每个向量都可以表示为联结树。因此，生成一个新向量，对新向量进行编码得到树，对树进行解析即可得到一个新分子。其中，生成的该向量可参考现有活性分子的向量表示进行生成。或者直接输入某活性分子，对该分子进行分子片段拆分得到联结树，将该联结树表示为向量后，叠加一个微小扰动，则得到所生成的新向量。采用该方式可得到与现有活性分子比较近似的其他分子，这些分子的活性很大概率也会比较好，从而为后续的药物研发提供研究思路。

而且，在对新向量的树解析为新分子时，还可以使用图神经网络模型对整个输入分子进行编码、以及对联结树中各节点与其相邻节点连接得到的组合片段进行编码。之后，通过对比组合片段编码和输入分子编码，即可得到树中各节点片段之间的连接方式，进而从树得到完整分子。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的结构框图；

图2示出了根据本发明一个实施例的从分子中拆分分子片段的示意图；

图3示出了根据本发明一个实施例的分子片段库的示意图；

图4示出了根据本发明一个实施例的分子生成方法400的流程图；

图5示出了根据本发明一个实施例的分子及其对应的联结树的示意图；

图6示出了根据本发明一个实施例的联结树中各边向量的计算方向图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是根据本发明一个实施例的计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。程序数据124包括指令，在根据本发明的计算设备100中，程序数据124包含用于执行分子生成方法400的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中，计算设备100被配置为执行分子生成方法400。

另外，计算设备100中还可以存储分子片段库，分子片段库里包括多个分子片段，这些分子片段通过对一些已知分子进行拆分得到。当然，分子片段库也可以存储在与该计算设备通信连接的数据存储装置中，这样计算设备通过访问该数据存储装置，查询和调用该分子片段库。

根据一个实施例，在进行分子拆分时，将单独的环结构拆分为一个分子片段，将公共原子数大于2的并环结构拆分为一个分子片段，将非环键及该非环键两端的非氢原子拆分为一个分子片段。

分子中的结构划分为环和非环两种情况。每一个环是一个节点，每一个非环键以及其两端原子构成一个节点。每一个原子根据其周围不同的键可以被包含在不同的节点里，包含相同原子的节点则相邻，用边连接。因为键的信息保存在节点里面，边只代表两个节点之间的连接关系，因此键的具体形式(如单键或者双键)不会对边造成影响。

根据另一个实施例，在拆分分子片段时，可自动根据非氢原子的价位，通过加氢方式，达到非氢原子的饱和价位。比如，分子中为CH₂-CH₂，生成的分子片段为CH₃-CH₃。当然，也可以不进行价位补齐，而直接保留原分子中的分子片段结构，本发明对此不作限制。

而且，共有同一非氢原子的分子片段为相邻的分子片段，因此，若相邻的分子片段数目大于2，则新增一个单节点的分子片段，该新增的分子片段分别与该多个相邻的分子片段相邻。单节点是指只含一个非氢原子，其可以为碳基节点、氮基节点、氧基节点等，当然不限于此。优选地，该单节点为相邻的分子片段所含有的共有同一非氢原子。

这里，由于边只能代表两个节点之间的连接关系，所以当有多个节点(比如a、b、c)相邻时，需要增加一个单原子节点(d)与其分别连接，形成ad，bd，cd三个两两相连的边。图2为从某分子拆分出的各分子片段的示例，该分子用圆圈标注的碳周围有三个节点C＝O、CN、CC相邻(都包含同一个碳)，所以增加了一个单节点CH4，代表新增的单原子C形成的节点。

本发明将一个分子拆分成非环键和环得到多个片段成为树中节点，这些片段按照其在分子中的连接方式相互建立边，最后形成联结树，用来表示分子。将训练集中所有已知分子转化为联结树以后，所有树的节点对应片段smiles可以最终组成一个分子片段库。图3为分子片段库中的一部分分子片段示例。这样，所有训练集分子都可以由这些片段拼接组成，基于分子片段库可生成一些新分子。

进一步地，每个分子片段都具有对应的向量表示，可采用任意一种或多种分子指纹和分子描述符，来生成对应的节点向量。根据一个实施例，采用摩根分子指纹加上非氢原子的原子个数作为分子片段的描述符，作为分子片段的向量表示，来节点表示的唯一性和可扩展性。摩根分子指纹和原子个数都可以通过Rdkit得到，其中摩根分子指纹使用Rdkit.Chem.AllChem.GetMorganFingerprintAsBitVect得到，其本身就是向量。原子个数通过mol.GetNumAtoms()得到，可以转成二进制然后变成10维的向量。比如说非氢原子个数为5时，其对应二进制表示为101，则对应向量为[0,0,0,0,0,0,0,1,0,1]。然后，将其与摩根分子指纹向量拼接在一起就得到片段的最终向量表示。

此外，计算设备100中还可以训练编码模型和解码模型。在训练过程中，首先将分子拆分成多个片段构建成联结树，训练编码模型对树进行编码，得到树向量。然后再训练解码模型对该树向量进行解码，得到编码之前的树。

也就是，编码模型的目的是把一个将树变成可以进入神经网络进行计算的向量，而解码模型的目的是对向量进行解码得到编码之前的树，即：树A-->编码-->向量-->解码-->树B。分子树的编码是“树A-->编码-->向量”的过程；而解码的目的是希望解码之后的树B与树A相同。基于该训练目标，以树A为标签，可对解码模型进行训练。这两种模型的详细内容将在后文介绍。基于此，就可以对一个生成的新向量进行解码，得到解码树。对该解码树进行解析，即可得到所生成的新分子。

图4示出了根据本发明一个实施例的该分子生成方法400的流程图。方法400在计算设备(如计算设备100)中执行，以便生成一个新分子。如图4所示，该方法始于步骤S410。

在步骤S410中，生成一个多维向量作为一个生成分子的树向量，该树向量适于代表该生成分子的联结树，该联结树的节点为由生成分子拆分出的多个分子片段，相邻的分子片段用边连接。

在一种实现方式中，生成多维向量的步骤包括：根据预设的树向量维度和分布特点随机生成一个对应维度的向量作为该生成分子的树向量。其中，预设的树向量维度可以为320维，当然不限于此。预设树向量服从高斯分布。本领域技术人员可以根据先验知识生成一个该320维的向量作为树向量。这里，可模仿现有已知分子的向量数值来生成新向量。

在另一种实现方式中，生成多维向量的步骤包括：

第一步，接收用户的输入分子，将该输入分子拆分为多个分子片段。这里，输入分子的拆分方式和前文中的已知分子相同，将单独的环结构拆分为一个分子片段，将公共原子数大于2的并环结构拆分为一个分子片段，将非环键及该非环键两端的非氢原子拆分为一个分子片段。而且，若相邻的分子片段数目大于2，则新增一个单节点的分子片段，该新增的分子片段分别与该多个相邻的分子片段相邻。

第二步，将其中一个分子片段作为根节点，并根据各分子片段之间的连接关系生成输入分子的联结树。这里，输入分子的原子按照一定规则进行编号，输入分子的根节点为零号原子所在分子片段。零号原子为输入分子的简化分子输入线性规范表示SMILES的第一个原子。

也就是，优先寻找输入分子的零号原子，并以该零号原子所在片段节点为根节点，根据相邻节点之间的连接方式，逐节点的拼接得到联结树。

确定根节点之后，即可从该根节点开始对各原子进行编号，以确定相邻节点之间连接关系。图5的左边为某分子的结构图和原子编号图，右边为生成的联结树。如图5中所示，以C＝O(0,1号原子)为根节点，则其相邻节点为新增单原子节点CH4(1号原子)，CH4又与CN(1、2号原子)以及CC(1、4号原子)两个节点相邻。然后，CN与NO(2、3号原子)相邻，CC与苯环相邻。最后苯环与CI相邻(7、8号原子)。

第三步，采用预设的编码模型对输入分子的联结树进行编码，得到对应的树向量。

具体而言，从该联结树的叶子节点开始，基于编码模型向根节点方向依次计算每个节点的出链边向量，以得到根节点的入链边向量。之后，将根节点向量和根节点的入链边向量进行拼接，并经过全连接层降维后，得到输入分子的树向量。若根节点有多个入链边向量，则先将该多个入链边向量进行求和之后，再将求和后的向量与根节点向量进行拼接。

其中，编码模型的输入为第一组合向量、输出为从当前节点指向下一节点的出链边向量。第一组合向量包括当前节点向量和指向当前节点的入链边向量，当前节点的入链边向量为上一节点的出链边向量。这里可预先定义节点之间的箭头出入方向，统一按照一个箭头方向计算出入边的向量。如图中的叶子节点为NH₂-OH，向着根节点方向，叶子节点的出链边向量为箭头所示方向的边1，该边1同时为下一节点CH₃-NH₂的入链边向量。

为了保证每次计算边向量的时候，所有由其他节点(不包含下一节点)指向该节点的边向量都已经计算完成，本发明按一定顺序来计算边向量。设定初始的当前节点为叶子节点，该当前节点向量即为该叶子节点向量，指向该叶子节点的入链边向量为全零向量。结合该叶子节点的节点向量可得到边1向量，已知边1向量和下一节点的节点向量，则可得到边2向量。以此类推，按照深度不断向上推进以计算得到其他边向量。

边4为根节点的入链边向量，计算边4时，输入的是节点CH₄的节点向量以及边2和边3两个边向量。之后，将根节点向量和边4向量进行拼接，并经过全连接层降维后，得到输入分子的树向量。这里，全连接层降维可将一个多维向量(如640维向量)降维为320维向量，当然也可以降维为其他维度，本发明对此不作限制。这里，每一个边向量(比如A->B)包含着A节点信息，以及由其他节点(不包含B节点)指向A节点的边信息，而指向A节点的边向量，同样包含着对应一些节点信息和边信息。以此类推，根节点向量和指向根节点的边向量一起就可以完整编码整个树的信息。

应当理解的是，已知编码模型的输入和输出，本领域技术人员可以根据需要从多个已知分子的联结树中生成编码模型的训练集，并根据该训练集来训练该编码模型。该模型的结构和参数，本领域技术人员可以根据局需要自行设定，本发明对此不作限制。

根据一个实施例，该编码模型为循环神经网络模型RNN，该网络模拟信息传递的过程，即收集好从其他节点的相关信息，然后传递给下一节点。而在信息传递遍历分子之后，根节点的所有相邻节点都有信息传递给根节点，根节点进行信息汇总才能表达整个分子。循环神经网络可以是GRU(Gated Recurrent Unit)，LSTM(Long Short-Term Memory，长短期记忆网络)，Stack RNN(堆栈循环神经网络)，其中Stack RNN可进行多层叠加。

第四步，对输入分子的树向量叠加微小扰动后，得到生成分子的树向量。这里，假设输入分子对应的树向量为[x₁，x₂，……，x_n]，则可对其中一个或多个数值叠加一定范围内的扰动，得到多种叠加方式的组合，每个组合都对应一个新的树向量，也就对应一个新分子。由于训练时设定树向量服从正态分布，因此这里的扰动一般也可使用正态分布进行。

步骤S410的两种实现方式中，第一种通过直接生成向量的方式，得到一个新向量。第二种对输入分子解析为联结树，得到该联结树的树向量后叠加多种微小扰动方式，得到多个新向量。

随后，在步骤S420中，从作为全零向量的空节点开始，采用预设的解码模型依次判断每个当前节点之后是否需要新增下一节点，并在需要新增时从分子片段库中选取下一节点所对应的分子片段，从而得到联结树。

步骤S420的目的是将步骤S410中的新向量解码为一个解码树，通过深度优先的方法一步步解码得到编码之前的树。解码预测包括树的形状预测和树的节点预测。

根据一个实施例，树的形状预测首先训练一个解码模型，解码模型的输入为第二组合向量、输出为当前节点之后是否新增子节点。第二组合向量包括当前节点向量、指向当前节点的入链边向量之和、以及生成分子的树向量。初始的当前节点为空节点，其当前节点向量和入链边向量均为全零向量。若指向当前节点的入链边向量有多个，每个边向量维度相同则可以进行求和。

已知解码模型的输入和输出，本领域技术人员可以根据需要从多个已知分子的联结树中生成编码模型的训练集，并根据该训练集来训练该解码模型。该模型的结构和参数，本领域技术人员可以根据局需要自行设定，本发明对此不作限制。

根据一个实施例，解码模型包括循环神经网络模型、全连接层和分类函数，该分类函数例如为Sigmoid函数。Sigmoid函数是一个值域在0～1的函数，可以认为该函数输出大于0.5时，代表预测树的深度应该增加，需要增加子节点。训练时，可以作为一个二分类问题，即输出1时代表树的深度应该增加，输出0时代表不应该增加。

本发明首先将当前节点向量、指向当前节点的边向量之和、以及步骤S410中生成的新向量进行拼接，然后将该拼接向量经过一个全连接层、再通过Sigmoid函数得到预测树的深度增加的概率，用来判断是否增加子节点。若需要增加子节点，则需要预测该子节点对应的片段，也就是要进行树的节点预测。

根据另一个实施例，树的节点预测，也就是当在需要新增子节点时，从分子片段库中选取下一节点所对应的分子片段的步骤包括：

第一步，基于当前节点向量和指向当前节点的入链边向量，采用编码模型得到当前节点的出链边向量。如前文所述，初始的当前节点为空节点，其当前节点向量和入链边向量均为全零向量。

第二步，将生成分子的树向量和当前节点的出链边向量进行拼接，并经过全连接层降维后，计算每个降维后的向量与分子片段库中的节点向量的相似度。该生成分子的树向量即为步骤S410中所生成的新向量。树向量和出链边向量可能均为320维，因此将拼接后的640维向量降维为320维向量，与分子片段库中的节点向量计算相似度。空节点之后一般需要新增节点，该新增的节点即为一个分子结构中的根节点片段。

第三步，将相似度最高的片段作为下一节点所对应的分子片段，从而得到生成分子的联结树。训练阶段，选择相似度最高的片段可以看作训练一个分类模型，使用交叉熵计算损失函数。向量相似度的计算方法有很多，本发明对此不作限制，例如可使用点乘的方法来表示两个向量的相似度。

对于每个节点，都确定一次该节点之后是否需要新增节点，并当需要新增时，确定该新增节点所对应的分子片段，直到判断某一节点之后不用再新增节点，该节点即为根节点此时就将一个步骤S410中生成的新向量转换为了步骤S420中的联结树。

随后，在步骤S430中，确定联结树中相邻分子片段之间的连接方式，并采用该连接方式对相邻分子片段进行连接，得到生成分子。

具体地，首先，对生成分子的联结树中的每个节点，将当前节点和相邻节点的连接方式进行遍历组合，得到多个组合片段。比如，苯基相连的两个节点，有邻位、对位、间位三种连接方式，每种连接方式对应一个组合片段。每个组合片段都具有对应的编码向量。

之后，计算生成分子的图向量或输入分子的编码向量与每个组合片段的编码向量之间的相似度。

这里引入图向量的概念，图向量可以通过输入分子编码得到或者根据预设的图向量维度和分布特点随机生成。输入分子的图向量生成方式和每个组合片段的编码向量的生成方式一致，都采用同一个图神经网络模型生成，因此所生成的这些向量维度相同。

如果生成分子的树向量是直接生成的，则根据预设的图向量维度和分布特点生成对应的图向量。如果新向量是通过输入分子叠加微小扰动后生成的，则可以直接计算该输入分子的编码向量和组合片段的编码向量，并计算这两种编码向量的相似度。应当理解的是，存在多种图神经网络算法，本发明不受限于具体的形式，所有能将一个分子表示为一个图向量的算法，均在本发明的保护范围之内。

根据一个实施例，图神经网络模型采用MPNN(Message passing neural network)算法，该算法将每个原子作为一个节点、将相邻原子之间的键作为边，基于原子性质和键性质对组合片段或输入分子进行编码，得到对应的编码向量。

MPNN是图神经网络的一种，模型包括信息传递阶段和读出阶段。信息传递阶段就是传播阶段，会运行T次，是以信息传递函数和端点更新函数为定义的，读出阶段会使用读出函数来对整个图计算特征向量。一个分子可以看成原子和键组成的图，其中原子为节点，键为边。每一个原子都可以根据原子的性质，如原子类型、带电荷数等进行向量化表示。每一个键可以根据键的类型、是否在环里等进行向量化表示。由于本发明使用有向的MPNN，所以相邻原子c和d之间的边向量有cd和dc两种，其中cd这一边向量由原子向量c和两原子之间的键向量m拼接而成[c,m]，而dc这一边向量由原子向量d和两原子之间的键向量m拼接而成[d,m]。

信息传递阶段不断更新所有边的信息，迭代T次，每次迭代的更新方法是将每个边向量更新为与其指向同一原子的边向量之和，然后过一个全连接层加RELU激活函数进行非线性变换，从而得到新的边向量。这样，对于每个原子，原子信息加上它周围的边信息就是该原子的完整信息，方法是将原子信息向量和其周围的边信息向量之和进行拼接。最后读出阶段，将所有原子的完整信息进行求和，就得到整个分子的向量表示。

第三步，基于相似度至少得到每两个相邻节点之间的最佳连接方式，并基于该最佳连接方式对分子片段进行连接，得到生成分子。

这里，按照树的结构、深度优先的顺序，循环预测各个节点与其相邻节点的连接方式，最后得到完整的分子。本发明将输入分子和组合片段进行相同的MPNN编码处理，一方面对整个输入分子进行编码，一方面对联结树中各节点与其相邻节点连接得到的组合片段进行编码。通过对比组合片段编码以及输入分子编码(均为图向量编码)，得到树中各节点片段之间的连接方式，进而从树得到完整分子。

在一种实现方式中，只选取相似度最高的作为相邻节点之间的最佳连接方式，并基于该最佳连接方式对相邻节点进行连接。在另一种实现方式中，基于相似度的降序排序，依次确定每种连接方式，并在该连接方式基础上继续判定与下一节点的连接方式，得到多个分子连接的分支方向。在这个过程中可能某些分支无法继续再向下连接，或者某些分支的相似度分支过低。本发明从中选取整体连接方式最优的分子作为所生成的新分子，并在该连接方式基础上继续判定与下一节点的连接方式，从而避免了在这个过程中可能某些分支无法继续再向下连接，导致联结树无法完成完整连接的情况。

需要说明的是，每种微小扰动都生成了一个新向量，每个新向量对应一个新联结树，每个联结树中选取一个最优连接方式生成新分子，因此每个微小扰动之后都选取了一个新分子。

根据本发明的技术方案，基于图和联结树的生成方式，首先将输入分子拆分成多个片段构建成联结树，对树进行编码后叠加微小扰动，得到多个新向量。或者，可以根据树向量维度随机生成一个新向量，同时还可以模仿现有已知分子的向量随机生成一个新向量。之后，将该新向量解码为新树。同时，使用MPNN对整个输入分子进行编码，以及对联结树中各节点与其相邻节点连接得到的组合片段进行编码，通过对比组合片段与输入分子的编码向量，得到树中各节点片段之间的连接方式，进而从树得到完整分子。

本发明提出了一种基于图和联结树的分子生成方式，能够得到与输入分子比较相近的新分子，若该输入分子为成药性较好的分子，则该新分子的成药性很大概率也会很好，为药物研发提供研究基础，加快药物研发进程。而在模仿向量生成时，因为参考分子的成药性好，模仿向量同样基于该参考分子生成，相应解析后的分子也会具有较好的性能。该方法预测结果准确、计算高效快速，且预测方案成效性好。

A9、如A1-A8中任一项所述的方法，其中，所述确定所述联结树中相邻分子片段之间的连接方式，并采用该连接方式对相邻分子片段进行连接的步骤包括：对所述生成分子的联结树中的每个节点，将当前节点和相邻节点的连接方式进行遍历组合，得到多个组合片段；计算所述生成分子的图向量或输入分子的编码向量与每个组合片段的编码向量之间的相似度；基于所述相似度至少得到每两个相邻节点之间的最佳连接方式，基于该最佳连接方式对分子片段进行连接，得到所述生成分子。

A10、如A9所述的方法，其中，还包括所述组合片段的编码向量或输入分子的编码向量的生成步骤：将每个原子作为一个节点、将相邻原子之间的键作为边，基于原子性质和键性质对所述组合片段或输入分子进行编码。

A11、如A1-A10中任一项所述的方法，其中，对已知分子或输入分子进行分子片段的拆分步骤包括：将单独的环结构拆分为一个分子片段；将公共原子数大于2的并环结构拆分为一个分子片段；以及将非环键及该非环键两端的非氢原子拆分为一个分子片段。

A12、如A1-A11中任一项所述的方法，其中，共有同一非氢原子的分子片段为相邻的分子片段，对已知分子或输入分子进行分子片段的拆分步骤还包括：若相邻的分子片段数目大于2，则新增一个单节点的分子片段，该新增的分子片段分别与该多个相邻的分子片段相邻。

A13、如A3所述的方法，其中，所述输入分子的原子按照一定规则进行编号，所述输入分子的根节点为零号原子所在分子片段。A14、如A13所述的方法，其中，所述零号原子为输入分子的简化分子输入线性规范表示SMILES的第一个原子。A15、如A3所述的方法，其中，所述编码模型为循环神经网络模型，所述解码模型包括循环神经网络模型、全连接层和分类函数。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的分子生成方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种分子生成方法，适于在计算设备中执行，所述计算设备中存储有分子片段库，所述分子片段库包括从多个已知分子中拆分出的多个分子片段，每个分子片段具有向量表示，所述方法包括步骤：

生成一个多维向量作为一个生成分子的树向量，所述树向量适于代表该生成分子的联结树，所述联结树的节点为由所述生成分子拆分出的多个分子片段，相邻的分子片段用边连接；

从作为全零向量的空节点开始，采用预设的解码模型依次判断每个当前节点之后是否需要新增下一节点，并在需要新增时从分子片段库中选取下一节点所对应的分子片段，从而得到所述联结树，所述解码模型的输入为第二组合向量、输出为当前节点之后是否新增子节点，所述第二组合向量包括当前节点向量、指向当前节点的入链边向量之和、以及所述生成分子的树向量，其中，初始的当前节点为空节点，其当前节点向量和指向当前节点的入链边向量均为全零向量；以及

确定所述联结树中相邻分子片段之间的连接方式，并采用该连接方式对相邻分子片段进行连接，得到所述生成分子。

2.如权利要求1所述的方法，其中，所述生成一个多维向量作为一个生成分子的树向量的步骤包括：

根据预设的树向量维度和分布特点随机生成一个对应维度的向量作为所述生成分子的树向量。

3.如权利要求1所述的方法，其中，所述生成一个多维向量作为一个生成分子的树向量的步骤包括：

接收用户的输入分子，将该输入分子拆分为多个分子片段；

将其中一个分子片段作为根节点，并根据各分子片段之间的连接关系生成所述输入分子的联结树；

采用预设的编码模型对所述输入分子的联结树进行编码，得到对应的树向量，所述编码模型的输入为第一组合向量、输出为从当前节点指向下一节点的出链边向量，所述第一组合向量包括当前节点向量和指向当前节点的入链边向量，所述当前节点的入链边向量为上一节点的出链边向量；

对所述输入分子的树向量叠加微小扰动后，得到所述生成分子的树向量。

4.如权利要求3所述的方法，其中，所述采用预设的编码模型对所述输入分子的联结树进行编码的步骤包括；

从该联结树的叶子节点开始，基于所述编码模型向根节点方向依次计算每个节点的出链边向量，以得到所述根节点的入链边向量；以及

将根节点向量和所述根节点的入链边向量进行拼接，并经过全连接层降维后，得到所述输入分子的树向量。

5.如权利要求4所述的方法，其中，若所述根节点有多个入链边向量，则所述将根节点向量和所述根节点的入链边向量进行拼接的步骤包括：

将该多个入链边向量进行求和之后，与所述根节点向量进行拼接。

6.如权利要求3所述的方法，其中，所述从分子片段库中选取下一节点所对应的分子片段的步骤包括：

基于当前节点向量和指向当前节点的入链边向量，采用所述编码模型得到当前节点的出链边向量；

将所述生成分子的树向量和当前节点的出链边向量进行拼接，并经过全连接层降维后，计算每个降维后的向量与所述分子片段库中的节点向量的相似度；

将相似度最高的片段作为下一节点所对应的分子片段，从而得到所述生成分子的联结树。

7.如权利要求1-6中任一项所述的方法，其中，所述确定所述联结树中相邻分子片段之间的连接方式，并采用该连接方式对相邻分子片段进行连接的步骤包括：

对所述生成分子的联结树中的每个节点，将当前节点和相邻节点的连接方式进行遍历组合，得到多个组合片段；

计算所述生成分子的图向量或输入分子的编码向量与每个组合片段的编码向量之间的相似度；

基于所述相似度至少得到每两个相邻节点之间的最佳连接方式，基于该最佳连接方式对分子片段进行连接，得到所述生成分子。

8.如权利要求7所述的方法，其中，还包括所述组合片段的编码向量或输入分子的编码向量的生成步骤：

将每个原子作为一个节点、将相邻原子之间的键作为边，基于原子性质和键性质对所述组合片段或输入分子进行编码。

9.如权利要求1-6中任一项所述的方法，其中，对已知分子或输入分子进行分子片段的拆分步骤包括：

将单独的环结构拆分为一个分子片段；以及

将公共原子数大于2的并环结构拆分为一个分子片段；以及

将非环键及该非环键两端的非氢原子拆分为一个分子片段。

10.如权利要求1-6中任一项所述的方法，其中，共有同一非氢原子的分子片段为相邻的分子片段，对已知分子或输入分子进行分子片段的拆分步骤还包括：

若相邻的分子片段数目大于2，则新增一个单节点的分子片段，该新增的分子片段分别与该多个相邻的分子片段相邻。

11.如权利要求3所述的方法，其中，所述输入分子的原子按照一定规则进行编号，所述输入分子的根节点为零号原子所在分子片段。

12.如权利要求11所述的方法，其中，所述零号原子为输入分子的简化分子输入线性规范表示SMILES的第一个原子。

13.如权利要求3所述的方法，其中，所述编码模型为循环神经网络模型，所述解码模型包括循环神经网络模型、全连接层和分类函数。

14.一种计算设备，包括：

存储器；

一个或多个处理器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-13所述方法中的任一方法的指令。

15.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-13所述的方法中的任一方法。