CN111370074A

CN111370074A - 一种分子序列的生成方法、装置和计算设备

Info

Publication number: CN111370074A
Application number: CN202010124314.8A
Authority: CN
Inventors: 范方达; 李远鹏; 赖力鹏; 温书豪; 马健
Original assignee: Beijing Jingpai Technology Co ltd
Current assignee: Beijing Jingpai Technology Co ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-07-03
Anticipated expiration: 2040-02-27
Also published as: CN111370074B

Abstract

本发明公开了一种分子序列的生成方法，在计算设备中执行，包括：构建用于生成局部序列的搜索树，初始的局部序列为位于根节点上的空字符；从当前局部序列延伸多个分支，采用当前分子生成模型在每个分支上生成一个完整分子，并计算每个分子得分；选取得分最高的分子序列，若该分子得分大于当前目标得分，则将该分子作为新目标分子，将该分子得分作为新目标得分；确定当前局部序列在新目标分子中的下一字符，以添加该下一字符，以得到新局部序列；将新局部序列设置为当前局部序列，并循环执行上述各步骤，直至没有新目标分子生成、且搜索树的局部序列与最终的目标分子相同为止。本发明还一并公开了对应的分子序列的生成装置和计算设备。

Description

一种分子序列的生成方法、装置和计算设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种分子序列的生成方法、装置和计算设备。

背景技术

众所周知，药物研发是一个漫长的过程，存在着研发周期长，研发成果率低，研发费用高的困境。而随着计算机技术的更新以及大数据技术的发展，人工智能正在各行各业中发挥巨大的应用价值，在制药行业也受到了广泛的关注。在药物的早期设计阶段，针对某个疾病相关的蛋白质靶点，寻找具有优良活性、成药属性及可合成的小分子是一个关键工作。而对于分子量在500Da以内的类药小分子，其种类估计达到10的30至60次方，远远超过现有实体或虚拟分子库能够储存和检索的数量。因此如何从可能探索的众多分子中，快速采样到具有某类特征的分子，从而帮助药物的早期设计，就成为了药物研发工作的重中之重。

发明内容

鉴于上述问题，本发明提出了一种分子序列的生成方法、装置和计算设备，以力图解决或者至少解决上面存在的问题。

根据本发明的一个方面，提供了一种分子序列的生成方法，适于在计算设备中执行，包括：步骤1：构建用于生成局部序列的搜索树，初始的局部序列为位于根节点上的空字符，并将该初始的局部序列设置为当前局部序列；步骤2：从当前局部序列延伸多个分支，采用当前存储的分子生成模型在每个分支上生成一个完整的分子序列，并计算每个分子序列的得分；步骤3：选取得分最高的分子序列，若该分子得分大于当前目标得分，则将该分子序列作为新目标分子，将该分子得分作为新目标得分；步骤4：确定当前局部序列在新目标分子中的下一字符，并在当前局部序列后添加该下一字符，以得到新局部序列；步骤5：将新局部序列设置为当前局部序列，并循环执行上述步骤2-步骤4，直至没有新目标分子生成、且搜索树的局部序列与最终的目标分子相同为止。

可选地，在根据本发明的生成方法中，还包括步骤6：获取搜索树生成的多个目标分子，并从每个目标分子的起始字符开始提取多个局部序列，分别构成多个第一训练样本，对应的第一样本标签为该局部序列的下一字符；以及步骤7：基于第一训练样本对当前存储的分子生成模型进行训练，并将该当前存储的分子生成模型更新为训练后的分子生成模型。

可选地，在根据本发明的生成方法中，在步骤6之前，还包括步骤：构建多棵具有不同抽样温度的搜索树，对每棵搜索树都执行步骤1-5，以分别得到每棵搜索树在对应抽样温度下的目标分子。

可选地，在根据本发明的生成方法中，还包括步骤8：基于每次更新后的分子生成模型，循环执行步骤1-7来构建搜索树、生成目标分子、生成训练样本来训练模型，直至训练后的分子生成模型生成的分子序列得分达到终止条件为止。

可选地，在根据本发明的生成方法中，步骤3还包括：若该分子得分小于等于当前目标分子，则保持原目标分子和原目标得分不变。

可选地，在根据本发明的生成方法中，分子生成模型为基于深度神经网络的模型，包括：输入层，为全连接层，用于接收用户输入的由一个或多个字符构成的局部序列，该字符共m种；循环层，包括三层门控循环单元和一层堆栈层；以及策略网络层，为全连接层，用于基于循环层的状态计算该局部序列的下一字符的概率分布，并输出多个完整分子。

可选地，在根据本发明的生成方法中，循环层为堆栈式增强循环网络。

可选地，在根据本发明的生成方法中，分子生成模型还包括：价值网络层，为全连接层，用于输出每个完整分子的得分，其输出维度为p维，代表有p种得分。

可选地，在根据本发明的生成方法中，步骤7还包括：将计算得到的每个分子序列的得分作为第二样本标签，对包含价值网络层的分子生成模型进行训练，得到训练后的分子生成模型。

可选地，在根据本发明的生成方法中，分子序列的得分包括蛋白质与该分子序列的结合能得分、该分子序列与原研药分子的相似性得分、分子活性得分中的至少一种。

可选地，在根据本发明的生成方法中，分子序列采用简化分子输入线性规范表示，对应的分子字符为该简化分子输入线性规范表示中的字符。

可选地，在根据本发明的生成方法中，还包括分子生成模型的初始生成步骤：获取多个已知的化学分子，从每个化学分子的起始字符开始提取多个局部序列，分别构成多个第三训练样本，对应的第三样本标签为该局部序列的下一字符；基于第三训练样本对初始的循环神经网络模型进行训练，得到初始的分子生成模型。

可选地，在根据本发明的生成方法中，还包括采用训练好的分子生成模型来生成分子序列的步骤：接收用户的分子生成指令，该分子生成指令包括由一个或多个字符构成的局部序列；基于训练好的分子生成模型，从策略网络层中输出多个包含该局部序列的完整分子，并从价值网络层中输出每个完整分子的预测得分；选取预测得分排名靠前的完整分子推荐给用户。

可选地，在根据本发明的生成方法中，选取预测得分排名靠前的完整分子推荐给用户的步骤包括：选取预测得分排名靠前的完整分子，采用评价器计算该些完整分子的实际得分，并选取实际得分排名靠前的完整分子推荐给用户。

根据本发明的另一个方面，提供了一种分子序列的生成装置，适于驻留在计算设备中，包括：搜索树构建模块，适于构建用于生成局部序列的搜索树，初始的局部序列为位于根节点上的空字符，将该初始的局部序列设置为当前局部序列；分子生成模块，适于从当前局部序列延伸多个分支，采用当前存储的分子生成模型在每个分支上生成一个完整的分子序列，并计算每个分子序列的得分；分子选取模块，适于选取得分最高的分子序列，若该分子得分大于当前目标得分，则将该分子序列作为新目标分子，将该分子得分作为新目标得分；序列更新模块，适于确定当前局部序列在新目标分子中的下一字符，并在当前局部序列后添加该下一字符，以得到新局部序列；第一迭代模块，适于对于新局部序列，循环执行分子生成模块、分子选取模块和序列更新模块执行的操作，直至没有新目标分子生成、且搜索树的局部序列与最终的目标分子相同为止。

可选地，在根据本发明的生成装置中，还包括：样本生成模块，适于获取搜索树生成的多个目标分子，并从每个目标分子的起始字符开始提取多个局部序列，分别构成多个第一训练样本，对应的第一样本标签为该局部序列的下一字符；以及模型训练模块，适于基于第一训练样本对当前存储的分子生成模型进行训练，并将该当前存储的分子生成模型更新为训练后的分子生成模型。

可选地，在根据本发明的生成装置中，还包括第二迭代模块，适于：构建多棵具有不同抽样温度的搜索树，对每棵搜索树都执行搜索树构建模块、分子生成模块、分子选取模块、序列更新模块和第一迭代模块执行的操作，以分别得到每棵搜索树在对应抽样温度下的目标分子。

可选地，在根据本发明的生成装置中，还包括第三迭代模块，适于：基于每次更新后的分子生成模型，循环执行搜索树构建模块、分子生成模块、分子选取模块、序列更新模块、第一迭代模块、样本生成模块和模型训练模块执行的操作，直至训练后的分子生成模型生成的分子序列得分达到终止条件为止。

根据本发明的又一方面，提供一种计算设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，该一个或多个程序被处理器执行时实现如上所述的分子序列的生成方法的步骤。

根据本发明的又一方面，提供一种存储一个或多个程序的可读存储介质，该一个或多个程序包括指令，所述指令当由计算设备执行时实现如上所述的分子序列的生成方法的步骤。

根据本发明的技术方案，通过构建搜索树来高效生成目标分子，该树的局部序列为空字符，每一棵搜索树均有多个分支，每个分支均可以基于该树当前的局部序列来生成一个完整分子，并给出该完整分子的评价得分，如结合能得分、活性得分等。如果某分子的得分高于目标分子，则更新该目标分子和目标得分，并在当前局部序列后加入其在目标分子中的下一字符，得到新局部序列。对新局部序列同样采取上述操作，以最终生成多个目标分子。这些目标分子的得分较高，因此通过这种方法能得到一些活性更好性能更好的虚拟分子。

而且，本发明可以构建多棵搜索树来生成更多的目标分子，并用这些目标分子中的局部序列和下一字符来训练分子生成模型。训练后的分子生成模型能再次应用到搜索树中的完整分子生成中，以生成另一批得分更高的目标分子，从而可基于这些新生成的目标分子来再次训练模型。如此循环迭代后可得到充分训练的分子生成模型，采用该模型能自动得到性能好得分高的分子序列，这些分子序列将为药物研发中设计高效分子提供研究思路。

另外，本发明在分子生成模型中加入了策略网络，可有效减轻评价器的计算成本，且可提高对循环层状态的利用效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的结构框图；

图2示出了根据本发明一个实施例的分子序列的生成方法200的流程图；

图3示出了根据本发明一个实施例的采用搜索树生成目标分子的示意图；

图4示出了根据本发明另一个实施例的分子序列的生成方法400的流程图；

图5示出了根据本发明一个实施例的分子生成模型的结构示意图；

图6示出了根据本发明又一个实施例的分子序列的生成方法600的流程图；

图7示出了根据本发明一个实施例的分子序列的生成装置700的结构图；

图8示出了根据本发明另一个实施例的分子序列的生成装置800的结构图；以及

图9示出了根据本发明又一个实施例的分子序列的生成装置900的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是根据本发明一个实施例的计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。程序数据124包括指令，在根据本发明的计算设备100中，程序数据124包含用于执行分子序列的生成方法200、400和/或600的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中，计算设备100被配置为执行分子序列的生成方法200、400和/或600。

图2示出了根据本发明一个实施例的分子序列的生成方法200的流程图。方法200在计算设备中执行，如在计算设备100中执行，以便生成多个评分较高的分子序列。该计算设备当前存储有分子生成模型，该模型能够基于一段局部序列来生成多个包含该局部序列的完整分子。如图2所示，该方法始于步骤S210。

在步骤S210中，构建用于生成局部序列的搜索树，初始的局部序列为位于根节点上的空字符，并将初始的局部序列设置为当前局部序列。

其中，搜索树可以为蒙特卡洛树，该树的根节点代表局部序列的起始符，该起始符为一个空字符。搜索树包括多个目标节点，每个目标节点代表一个分子字符，且每个目标节点与其在搜索树上的前N个目标节点的分子字符构成一个对应局部序列，目标节点能够生成一个包含相应局部序列的目标分子。这里，考虑到以简化分子输入线性规范(SMILES，，Simplified molecular input line entry specification)为代表的序列作为一类常见的分子表示，以其简洁性而非常适用于循环神经网络。因此，本发明的分子序列均采用简化分子输入线性规范表示，对应的分子字符为该简化分子输入线性规范表示中的字符。分子字符可以有m种字符，如“C”、“N”、“O”、“＝”、“c”等。

随后，在步骤S220中，从当前局部序列延伸多个分支，采用当前存储的分子生成模型在每个分支上生成一个完整的分子序列，并计算每个分子序列的得分。

当前局部序列为根节点上的字符序列时，也就是从该根节点出发延伸多个分支，每个分支都基于计算设备当前存储的分子生成模型来生成一个完整的分子序列。当然，在后续计算过程中，位于根节点上的局部序列会不断扩展，加入其它字符。根节点为一个目标节点，根节点之后会有多个目标节点，每个目标节点上会添加上一个字符，这样每个目标节点与其之前的目标节点构成一个局部序列。如图3中的搜索树算法过程，目标节点有根节点、“N”字符所在的节点、“C”字符所在的节点，“1”字符所在的节点等。对应的局部序列由空字符变成为“N”序列，又继而扩展为“NC”序列、以及“NC1”序列。对于每一个新生的局部序列，都会基于该当前生成的局部序列来延伸分支并生成分子。

分子序列的得分可以有p种，其可以是目前对分子任意一项或多项性能要求的得分，例如其可以包括蛋白质与该分子序列的结合能得分、该分子序列与原研药分子的相似性得分、分子活性得分中的至少一种。当该得分只有一种时，则只计算该一种得分；当该得分有多种时，则可以综合考虑该多种性能的整体得分。分子序列的得分可以通过评价器计算，如通过分子对接软件来计算蛋白子与分子序列的结合能。

随后，在步骤S230中，选取得分最高的分子序列，若该分子得分大于当前目标得分，则将该分子序列作为新目标分子，将该分子得分作为新目标得分。当然，若该分子得分小于等于当前目标分子，则保持原目标分子和原目标得分不变。

例如，图3中在第一组分支中，“NCCC(C)C”分子得分最高、且高于初始得分为负无穷的目标分子，因此将目标分子更新为该分子，得到新目标分子和新目标得分。在第二组分支中，局部序列为“N”，生成的分子中“NC1CCCC1”得分最高、且高于当前得分为4的目标得分，因此再次更新目标分子和目标得分。而当局部序列为“NC”时，其生成的分子的得分均未超过当前为6的目标得分，因此仍然保持第二组分支中的目标分子和目标得分。

随后，在步骤S240中，确定当前局部序列在新目标分子中的下一字符，并在当前局部序列后添加该下一字符，以得到新局部序列。

随后，在步骤S250中，对于新局部序列，将新局部序列设置为当前局部序列，并循环执行上述步骤S220-S240的操作，直至没有新目标分子生成、且搜索树的局部序列与最终的目标分子相同为止。具体地，在步骤S250中，判断搜索树是否达到终止条件(也就是没有新目标分子生成、且搜索树的局部序列与最终的目标分子相同)，若是，则结束分子生成过程；反之，则更新当前局部序列，并进入步骤S220中，以重新开始执行步骤S220-S240。

这里，在第一次循环迭代时，根节点上的局序列为空字符，由该空字符生成的新目标分子为“NCCC(C)C”，该空字符在该新目标分子的下一字符为“N”，因此在当前局部序列中加入“N”字符来得到新局部序列。之后，在第二次循环迭代时，由该新局部序列生成的新目标分子为“NCCC(C)C”，“N”之后的下一字符为“C”，因此，加入该下一字符后得到“NC”的新局部序列。

同理，在第三次循环迭代中，“NC”的局部序列生成的新目标分子为“NCC1CCCC1”，因此更新后得到“NC1”的新局部序列。而在第四次循环迭代时，由于该新局部序列生成的分子没有更新为新目标分子，因此仍然采用第三次循环迭代时的目标分子，因此更新后得到“NC1C”的新局部序列”，该新局部序列对应的新目标分子为“NC1CC(＝O)C1”，因此可得到“NC1CC”的新局部序列。以此类推，可以继续得到其他新目标分子和新局部序列，当没有新目标分子生成、且整个搜索树的局部序列与该最终的目标分子相同时，完成整棵搜索树的分子搜索工作。

在以上算法中，每一步都是基于历史得分最高的目标分子来更新局部序列，根据结构相似分子具有相似功能(得分)的理论，该算法在限定生成/预测数量(每棵树探索的分子数量＝分支数*序列长度)的前提下，能够有效地在得分较高的分子化学空间周围进行探索。

目标分子生成之后，可以利用这些高得分的目标分子来训练分子生成模型。图4示出了根据本发明另一个实施例的分子序列的生成方法400的流程图，该方法在计算设备中执行，如在计算设备100中执行，以便生成多个评分较高的分子序列。

如图4所示，方法400包括步骤S410-S480，其中，步骤410-S450与S410-S450相同，这里不再展开赘述。

在步骤S460中，获取搜索树生成的多个目标分子，并从每个目标分子的起始字符开始提取多个局部序列，分别构成多个第一训练样本，对应的第一样本标签为该局部序列的下一字符。

应当理解的是，对于每个目标分子，从起始字符开始可以提取出多个局部序列，每个局部序列均可以作为一个训练样本。

而且，根据本发明的一个实施例，在步骤S460之前，还可以包括步骤：构建多棵具有不同抽样温度的搜索树，对每棵搜索树都执行步骤S410-S450，以分别得到每棵搜索树在对应抽样温度下的目标分子。这里参考模拟退火的思路，不同温度下分子的稳定性也不相同，相应生成的分子序列也不相同。本发明构建多棵搜索树后，将搜索策略得到的少量的目标分子结合迁移学习进行扩展，使得模型可以生成大量不同抽样温度下的得分较高的目标分子，从这些搜索树的目标分子中可对应提取多个第一训练样本。

这里，主要是考虑到基于蒙特卡洛树的序列搜索提供的目标分子得分较高但数量有限，因此本发明构建多棵树进行并行探索，并改变生成策略(如概率抽样的温度分布)使目标分子具备较高的多样性。结合已有的序列神经网络模型的迁移学习能力，即在模型通过输入分子序列训练时，固定输入网络和隐层循环网络的参数，而仅改变输出网络(即根据循环神经网络的状态预测下一个字符的概率值)的参数，从而学习到输入分子的序列特征而进行定向的生成。

具体的，在神经网络模型的输出层，输出为预测每个字符的对数概率记为向量x，未设置温度的字符抽样的概率分布是softmax(x)，但在迁移学习过程中，本发明额外加入一个全局温度t，根据概率分布softmax(x/t)进行抽样。

随后，在步骤S470中，基于第一训练样本对当前存储的分子生成模型进行训练，并将该当前存储的分子生成模型更新为训练后的分子生成模型。

进一步地，在步骤S470之后，还可以包括步骤S480：基于每次更新后的分子生成模型，循环执行步骤S410-S470来构建搜索树、生成目标分子、生成训练样本来训练模型，直至训练后的模型达到收敛条件为止。具体地，在步骤S480中，判断训练后的分子生成模型是否达到终止条件，若是，则结束模型训练；反之，则进入步骤S410，重新开始执行步骤S410-S470，直到模型达到收敛条件。

这里的收敛条件可以是模型生成的分子序列的得分整体收敛到较高水平，即本次模型生成的分子得分与上轮模型生成的分子得分的误差值在预定范围内，或两次模型的权值变化已经很小。作为优选地，收敛条件可以是模型在搜索树的每个分支上生成的分子得分整体收敛到较高水平，即两次模型在搜索树中生成的分子，分值差别不大。或者，收敛条件也可以是验证集的样本在前后两次模型中生成的分子分值相差不大。

分子生成模型作为一种基于深度神经网络的模型，其模型的结构和参数，本领域技术人员可以根据需要自行设定，本发明对此不作限制。根据一个实施例，分子生成模型包括输入层、循环层和输出层，输出层包括策略网络层。其中，输入层为全连接层，用于接收用户输入的由一个或多个字符构成的局部序列，这些字符共m种。循环层可以为堆栈式增强循环网络(Stack Augmented RNN)，其包括三层门控循环单元(GRU)和一层堆栈层。策略网络层为全连接层，用于基于循环层的状态计算该局部序列的下一字符的概率分布，并输出多个完整分子。

此外，考虑到评价器对分子的计算成本较高(如计算蛋白质与目标分子对接的结合能)，因此较难使用评价器对所有生成分子逐一过滤。而价值网络非常有助于充分利用训练过程中的分子序列与得分信息进行训练，而在生成阶段以较低的成本进行快速评估和初步筛选。因此，本发明的分子生成模型的输出层还可以设置价值网络层，其为全连接层，用于输出每个完整分子的得分，其输出维度为p维，代表有p种得分。

基于此，方法400还可以将计算得到的每个分子序列的得分作为第二样本标签，对包含该价值网络层的分子生成模型进行训练，得到训练后的分子生成模型。这样可以利用步骤S420中计算的完整分子的实际评价得分作为标签来训练该价值网络，从而避免额外的训练对计算资源占用。

图5示出了根据本发明一个实施例的分子生成模型的结构图，其中输入层即Encoder层；循环层即Stack Augmented RNN层，由三层GRU和Stack层构成。输出层包括交互层(Interactor层)、策略网络层(Decoder)和价值网络层(Valuer层)，其中从策略网络层层中可得到所预测的每一个局部序列的下一字符的概率分布，从价值网络层中可得到每一个局部序列的得分评估。对于单目标优化p＝1；对于多目标优化，p为目标得分的种类。每层网络结构均有一个维度参数(a，b)，其中a代表每层的输入维度，b代表每层的输出维度。例如，输入层的输入维度为m维，输出维度为128维；第一个GRU层的输入维度为384，输出维度为512；第二和第三个GRU层的输入/输出维度均为512；堆栈控制层(Stack control)的输入和输出维度分别为5112和4*5；堆栈输入层(Stack input)的输入和输出维度分别为640和128；堆栈层(Stack layer)的输入和输出维度分别为4*32和10；等等。

这里，模型输入的字符长度不限，但循环神经网络每一步只读取1个字符，通过每次读一个的方式来依次读完局部序列，然后再生成下一字符，生成该下一字符后再读取该字符，并再生成下一字符，以此类推，直至生成最终的完整分子序列。

应当理解的是，在第一轮基于搜索树来生成目标分子时，其所用的模型为初始的分子生成模型。生成目标分子之后才对该初始的分子生成模型进行训练，以得到第一次训练后的分子生成模型。之后基于该第一次训练后的分子生成模型再次生成目标分子，以进行模型训练后得到第二次训练的分子生成模型。

基于此，方法400还包括分子生成模型的初始生成步骤：获取多个已知的化学分子，从每个化学分子的起始字符开始提取多个局部序列，分别构成多个第三训练样本，对应的第三样本标签为该局部序列的下一字符；基于第三训练样本对初始的循环神经网络模型进行训练，得到初始的分子生成模型。其中，已知的化学分子可从目前任意公开数据库中获取，本发明对此不作限制。作为优选地，可以选择一些性能活性能量的化学分子来进行模型生成。

分子生成模型训练好之后，即可用该模型来生成分子序列。图6示出了根据本发明另一个实施例的分子序列的生成方法，该方法在计算设备中执行，如在计算设备100中执行，以便基于用户的输入序列，生成多个评分较高的分子序列。

如图6所示，方法600始于步骤S610。在步骤S610中，接收用户的分子生成指令，该分子生成指令包括由一个或多个分子字符构成的局部序列。

随后，在步骤S620中，基于训练好的分子生成模型，从策略网络层中输出多个包含该局部序列的完整分子，并从价值网络层中输出每个完整分子的预测得分。

随后，在步骤S630中，选取预测得分排名靠前的完整分子推荐给用户。具体地，选取预测得分排名靠前的完整分子，采用评价器计算该些完整分子的实际得分，并选取实际得分排名靠前的完整分子推荐给用户。

这里，按照策略网络生成完整分子后，同时输出价值网络来给出该序列的评估得分，并在筛选时按照该得分进行初步筛选(比如前10％的分子)，再放入评价器中进行打分和进一步筛选，可有效减轻评价器的计算成本。由于循环神经网络的主要计算集中在循环层，而输出层的计算量较少，因此价值网络可提高对循环层状态的利用。

图7示出了根据本发明一个实施例的分子序列的生成装置700的结构框图，该装置可以驻留在计算设备中，如驻留在计算设备100中。如图7所示，装置700包括搜索树构建模块710、分子生成模块720、分子选取模块730、序列更新模块740和第一迭代模块750。

搜索树构建模块710构建用于生成局部序列的搜索树，初始的局部序列为位于根节点上的空字符，并将该初始的局部序列设置为当前局部序列。搜索树构建模块710可以进行与上面在步骤S210中描述的处理相对应的处理，这里不再展开赘述。

分子生成模块720从当前局部序列延伸多个分支，采用计算设备当前存储的分子生成模型在每个分支上生成一个完整的分子序列，并计算每个分子序列的得分。分子生成模块720可以进行与上面在步骤S220中描述的处理相对应的处理，这里不再展开赘述。

分子选取模块730选取得分最高的分子序列，若该分子得分大于当前目标得分，则将该分子序列作为新目标分子，将该分子得分作为新目标得分。若该分子得分小于等于当前目标分子，则保持原目标分子和原目标得分不变。其中，初始的目标得分为负无穷。分子选取模块730可以进行与上面在步骤S230中描述的处理相对应的处理，这里不再展开赘述。

序列更新模块740确定当前局部序列在新目标分子中的下一字符，并在当前局部序列后添加该下一字符，以得到新局部序列。序列更新模块740可以进行与上面在步骤S240中描述的处理相对应的处理，这里不再展开赘述。

第一迭代模块750对于新局部序列，将新局部序列设置为当前局部序列，并循环执行分子生成模块720、分子选取模块730和序列更新模块740执行的操作，直至没有新目标分子生成、且搜索树的局部序列与最终的目标分子相同为止。第一迭代模块750可以进行与上面在步骤S250中描述的处理相对应的处理，这里不再展开赘述。

图8示出了根据本发明另一个实施例的分子序列的生成装置800的结构框图，该装置可以驻留在计算设备中，如驻留在计算设备800中。如图8所示，装置800包括搜索树构建模块810、分子生成模块820、分子选取模块830、序列更新模块840、第一迭代模块850、样本生成模块860和模型训练模块870。其中，搜索树构建模块810、分子生成模块820、分子选取模块830、序列更新模块840、第一迭代模块850与装置700中的搜索树构建模块710、分子生成模块720、分子选取模块730、序列更新模块740和第一迭代模块750处理的逻辑相同，这里不再展开赘述。

样本生成模块860获取搜索树生成的多个目标分子，并从每个目标分子的起始字符开始提取多个局部序列，分别构成多个第一训练样本，对应的第一样本标签为该局部序列的下一字符。样本生成模块860可以进行与上面在步骤S460中描述的处理相对应的处理，这里不再展开赘述。

模型训练模块870基于第一训练样本对当前存储的分子生成模型进行训练，并将该当前存储的分子生成模型更新为训练后的分子生成模型。根据一个实施例，模型训练模块870将计算得到的每个分子序列的得分作为第二样本标签，对包含价值网络层的分子生成模型进行训练，得到训练后的分子生成模型。模型训练模块870可以进行与上面在步骤S470中描述的处理相对应的处理，这里不再展开赘述。

根据一个实施例，装置800还可以包括第二迭代模块和第三迭代模块(图中均未示出)。其中，第二迭代模块构建多棵具有不同抽样温度的搜索树，对每棵搜索树都执行搜索树构建模块810、分子生成模块820、分子选取模块830、序列更新模块840和第一迭代模块850执行的操作，以分别得到每棵搜索树在对应抽样温度下的目标分子。

第三迭代模块基于每次更新后的分子生成模型，循环执行搜索树构建模块810、分子生成模块820、分子选取模块830、序列更新模块840、第一迭代模块850、样本生成模块860和模型训练模块870执行的操作，直至训练后的分子生成模型达到条件为止，例如训练后的模型生成的分子序列得分收敛到较高水平。

根据另一个实施例，装置800还可以包括模型生成模块，适于获取多个已知的化学分子，从每个化学分子的起始字符开始提取多个局部序列，分别构成多个第三训练样本，对应的第三样本标签为该局部序列的下一字符；基于第三训练样本对初始的循环神经网络模型进行训练，得到初始的分子生成模型。

图9示出了根据本发明又一个实施例的分子序列的生成装置900的结构框图，该装置可以驻留在计算设备中，如驻留在计算设备900中。如图9所示，装置900包括指令接收模块910、分子输出模块920和分子推荐模块930。

指令接收模块910接收用户的分子生成指令，该分子生成指令包括由一个或多个分子字符构成的局部序列。指令接收模块910可以进行与上面在步骤S610中描述的处理相对应的处理，这里不再展开赘述。

分子输出模块920分子基于训练好的分子生成模型，从策略网络层中输出多个包含该局部序列的完整分子，并从价值网络层中输出每个完整分子的预测得分。分子输出模块920可以进行与上面在步骤S620中描述的处理相对应的处理，这里不再展开赘述。

分子推荐模块930选取预测得分排名靠前的完整分子推荐给用户。具体地，分子推荐模块930选取预测得分排名靠前的完整分子，采用评价器计算该些完整分子的实际得分，并选取实际得分排名靠前的完整分子推荐给用户。分子推荐模块930可以进行与上面在步骤S630中描述的处理相对应的处理，这里不再展开赘述。

根据本发明的技术方案，基于一个预训练的循环神经网络来生成序列(如SMILES)的分子生成模型。通过构建一组搜索树来生成多个得分较高的目标分子，基于该目标分子及其得分来训练分子生成模型，通过该模型能为用户输出得分较高的分子序列，为药物研发提供研究基础。而且，本发明在分子生成模型中加入的策略网络可有效减轻评价器的计算成本，且可提高对循环层状态的利用效率。

A8、如A6所述的方法，其中，所述分子生成模型还包括：价值网络层，为全连接层，用于输出每个完整分子的得分，其输出维度为p维，代表有p种得分。A9、如A8所述的方法，所述步骤7还包括：将计算得到的每个分子序列的得分作为第二样本标签，对包含所述价值网络层的分子生成模型进行训练，得到训练后的分子生成模型。A10、如A9所述的方法，其中，所述分子序列的得分包括蛋白质与该分子序列的结合能得分、该分子序列与原研药分子的相似性得分、分子活性得分中的至少一种。A11、如A1-A10中任一项所述的方法，其中，所述分子序列采用简化分子输入线性规范表示，对应的分子字符为该简化分子输入线性规范表示中的字符。

A12、如A1-A11中任一项所述的方法，还包括所述分子生成模型的初始生成步骤：获取多个已知的化学分子，从每个化学分子的起始字符开始提取多个局部序列，分别构成多个第三训练样本，对应的第三样本标签为该局部序列的下一字符；基于所述第三训练样本对初始的循环神经网络模型进行训练，得到初始的分子生成模型。A13、如A1-A12中任一项所述的方法，还包括采用训练好的分子生成模型来生成分子的步骤：接收用户的分子生成指令，该分子生成指令包括由一个或多个字符构成的局部序列；基于训练好的分子生成模型，从所述策略网络层中输出多个包含该局部序列的完整分子，并从所述价值网络层中输出每个完整分子的预测得分；选取预测得分排名靠前的完整分子推荐给用户。A14、如A13所述的方法，其中，所述选取预测得分排名靠前的完整分子推荐给用户的步骤包括：选取预测得分排名靠前的完整分子，采用评价器计算该些完整分子的实际得分，并选取实际得分排名靠前的完整分子推荐给用户。

B16、如B15所述的装置，还包括：样本生成模块，适于获取所述搜索树生成的多个目标分子，并从每个目标分子的起始字符开始提取多个局部序列，分别构成多个第一训练样本，对应的第一样本标签为该局部序列的下一字符；以及模型训练模块，适于基于所述第一训练样本对所述当前存储的分子生成模型进行训练，并将该当存储前的分子生成模型更新为训练后的分子生成模型。B17、如B15所述的装置，还包括第二迭代模块，适于：构建多棵具有不同抽样温度的搜索树，对每棵搜索树都执行所述搜索树构建模块、分子生成模块、分子选取模块、序列更新模块和第一迭代模块执行的操作，以分别得到每棵搜索树在对应抽样温度下的目标分子。B18、如B15-B17中任一项所述的装置，还包括第三迭代模块，适于：基于每次更新后的分子生成模型，循环执行所述搜索树构建模块、分子生成模块、分子选取模块、序列更新模块、第一迭代模块、样本生成模块和模型训练模块执行的操作，直至训练后的分子生成模型生成的分子序列得分达到终止条件为止。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的分子序列的生成方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种分子序列的生成方法，适于在计算设备中执行，包括：

步骤1：构建用于生成局部序列的搜索树，初始的局部序列为位于根节点上的空字符，并将所述初始的局部序列设置为当前局部序列；

步骤2：从当前局部序列延伸多个分支，采用当前存储的分子生成模型在每个分支上生成一个完整的分子序列，并计算每个分子序列的得分；

步骤3：选取得分最高的分子序列，若该分子得分大于当前目标得分，则将该分子序列作为新目标分子，将该分子得分作为新目标得分；

步骤4：确定当前局部序列在新目标分子中的下一字符，并在当前局部序列后添加该下一字符，以得到新局部序列；

步骤5：将所述新局部序列设置为当前局部序列，并循环执行上述步骤2-步骤4，直至没有新目标分子生成、且搜索树的局部序列与最终的目标分子相同为止。

2.如权利要求1所述的方法，还包括：

步骤6：获取所述搜索树生成的多个目标分子，并从每个目标分子的起始字符开始提取多个局部序列，分别构成多个第一训练样本，对应的第一样本标签为该局部序列的下一字符；以及

步骤7：基于所述第一训练样本对所述当前存储的分子生成模型进行训练，并将所述当前存储的分子生成模型更新为训练后的分子生成模型。

3.如权利要求2所述的方法，其中，在步骤6之前，还包括步骤：

构建多棵具有不同抽样温度的搜索树，对每棵搜索树都执行步骤1-5，以分别得到每棵搜索树在对应抽样温度下的目标分子。

4.如权利要求1-3中任一项所述的方法，还包括：

步骤8：基于每次更新后的分子生成模型，循环执行步骤1-7来构建搜索树、生成目标分子、生成训练样本来训练模型，直至训练后的分子生成模型生成的分子序列得分达到终止条件为止。

5.如权利要求1-4中任一项所述的方法，其中，所述步骤3还包括：

若该分子得分小于等于当前目标分子，则保持原目标分子和原目标得分不变。

6.如权利要求1-5中任一项所述的方法，其中，所述分子生成模型为基于深度神经网络的模型，包括：

输入层，为全连接层，用于接收用户输入的由一个或多个字符构成的局部序列，所述字符共m种；

循环层，包括三层门控循环单元和一层堆栈层；以及

策略网络层，为全连接层，用于基于循环层的状态计算该局部序列的下一字符的概率分布，并输出多个完整分子。

7.如权利要求6所述的方法，其中，所述循环层为堆栈式增强循环网络。

8.一种分子序列的生成装置，适于驻留在计算设备中，包括：

搜索树构建模块，适于构建用于生成局部序列的搜索树，初始的局部序列为位于根节点上的空字符，将所述初始的局部序列设置为当前局部序列；

分子生成模块，适于从当前局部序列延伸多个分支，当前存储的分子生成模型在每个分支上生成一个完整的分子序列，并计算每个分子序列的得分；

分子选取模块，适于选取得分最高的分子序列，若该分子得分大于当前目标得分，则将该分子序列作为新目标分子，将该分子得分作为新目标得分；

序列更新模块，适于确定当前局部序列在新目标分子中的下一字符，并在当前局部序列后添加该下一字符，以得到新局部序列；

第一迭代模块，适于将所述新局部序列设置为当前局部序列，循环执行所述分子生成模块、分子选取模块和序列更新模块执行的操作，直至没有新目标分子生成、且搜索树的局部序列与最终的目标分子相同为止。

9.一种计算设备，包括：

存储器；

一个或多个处理器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-7所述方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-7所述的方法中的任一方法。