CN113436686B

CN113436686B - 基于人工智能的化合物库构建方法、装置、设备及存储介质

Info

Publication number: CN113436686B
Application number: CN202110696118.2A
Authority: CN
Inventors: 张徐俊; 廖奔犇; 张胜誉; 侯廷军
Original assignee: Zhejiang University ZJU; Tencent Technology Shenzhen Co Ltd
Current assignee: Zhejiang University ZJU; Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2024-02-27
Anticipated expiration: 2041-06-23
Also published as: US20240055071A1; WO2022267752A1; CN113436686A

Abstract

本申请提供了一种基于人工智能的化合物库构建方法、装置、电子设备及计算机可读存储介质；涉及人工智能技术；方法包括：获取针对靶蛋白的活性化合物；基于活性化合物的属性性质进行化合物生成处理，得到具有属性性质的第一候选化合物；将活性化合物与靶蛋白进行分子对接处理，得到活性化合物的多个分子构象分别对应的分子对接信息；基于多个分子构象分别对应的分子对接信息，对多个分子构象进行筛选处理，将筛选得到的分子构象作为活性化合物对应的第二候选化合物；基于第一候选化合物以及第二候选化合物，构建针对靶蛋白的化合物库。通过本申请，能够消除化合物库的隐藏偏差。

Description

基于人工智能的化合物库构建方法、装置、设备及存储介质

技术领域

本申请涉及智慧医学技术，尤其涉及一种基于人工智能的化合物库构建方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

虚拟筛选是通过人工智能技术对化合物数据库针对特定靶点的结合亲和力进行预测，从而进行化合物筛选，以获得针对特定靶点的先导化合物，与生物实验相比，虚拟筛选具有成本低、效率高的优点。其中，虚拟筛选中的打分函数的构建与评测均离不开化合物数据集。

但是，相关技术中的化合物数据集存在隐藏偏差，从而导致虚拟筛选也存在预测偏差，无法进行高效化合物筛选。

发明内容

本申请实施例提供一种基于人工智能的化合物库构建方法、装置、电子设备及计算机可读存储介质，能够消除化合物库的隐藏偏差，以提高虚拟筛选的准确性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的化合物库构建方法，包括：

获取针对靶蛋白的活性化合物；

基于所述活性化合物的属性性质进行化合物生成处理，得到具有所述属性性质的第一候选化合物；

将所述活性化合物与所述靶蛋白进行分子对接处理，得到所述活性化合物的多个分子构象分别对应的分子对接信息；

基于所述多个分子构象分别对应的分子对接信息，对所述多个分子构象进行筛选处理，将筛选得到的分子构象作为所述活性化合物对应的第二候选化合物；

基于所述第一候选化合物以及所述第二候选化合物，构建针对所述靶蛋白的化合物库。

上述技术方案中，所述将所述活性化合物与所述靶蛋白进行分子对接处理，得到所述活性化合物的多个分子构象分别对应的分子对接信息，包括：

基于所述靶蛋白进行分子动力学模拟处理，得到所述靶蛋白的结合口袋；

对所述靶蛋白进行结构调整处理，得到调整后的所述靶蛋白；

将调整后的所述靶蛋白对接至所述靶蛋白的结合口袋，得到所述活性化合物的多个分子构象分别对应的分子对接信息。

上述技术方案中，所述对所述靶蛋白进行结构调整处理，得到调整后的所述靶蛋白，包括：

对所述靶蛋白中的侧链以及环结构进行修复处理，得到修复后的所述靶蛋白；

对修复后的所述靶蛋白的键级以及形式电荷进行调节处理，得到调节后的所述靶蛋白；

基于调整后的所述靶蛋白的氢原子的方向进行力场优化处理，得到调整后的所述靶蛋白。

本申请实施例提供一种基于人工智能的化合物库构建装置，包括：

获取模块，用于获取针对靶蛋白的活性化合物；

生成模块，用于基于所述活性化合物的属性性质进行化合物生成处理，得到具有所述属性性质的第一候选化合物；

对接模块，用于将所述活性化合物与所述靶蛋白进行分子对接处理，得到所述活性化合物的多个分子构象分别对应的分子对接信息；基于所述多个分子构象分别对应的分子对接信息，对所述多个分子构象进行筛选处理，将筛选得到的分子构象作为所述活性化合物对应的第二候选化合物；

构建模块，用于基于所述第一候选化合物以及所述第二候选化合物，构建针对所述靶蛋白的化合物库。

上述技术方案中，所述生成模块还用于对所述活性化合物的属性性质进行编码处理，得到所述属性性质的状态向量；

基于所述属性性质的状态向量进行条件生成处理，得到具有所述属性性质的第一候选化合物。

上述技术方案中，所述化合物生成处理是通过生成模型实现的，所述生成模型包括多个第一全连接层以及多个第二全连接层；所述状态向量包括隐藏状态以及细胞状态；所述生成模块还用于通过所述第一全连接层对所述活性化合物的属性性质进行编码处理，得到所述第一全连接层对应的所述属性性质的隐藏状态；

通过所述第二全连接层对所述活性化合物的属性性质进行编码处理，得到所述第二全连接层对应的所述属性性质的细胞状态。

上述技术方案中，所述生成模块还用于通过所述第一全连接层执行以下处理：

对所述活性化合物的属性性质进行向量转化处理，得到所述属性性质的转化向量；

对所述属性性质的转化向量进行映射处理，得到所述第一全连接层对应的所述属性性质的隐藏状态。

上述技术方案中，所述生成模型包括多个级联的记忆层；所述生成模块还用于通过所述多个级联的记忆层对所述属性性质的状态向量进行级联的解码处理，生成与所述属性性质对应的元素向量；

基于生成的所述元素向量的顺序，对所述元素向量对应的元素进行组合处理，得到具有所述属性性质的第一候选化合物。

上述技术方案中，所述生成模块还用于通过所述多个级联的记忆层执行以下处理：

对所述属性性质的状态向量以及起始向量进行级联的解码处理，生成与所述属性性质对应的第1个元素向量；

基于所述属性性质的状态向量以及第i个元素向量进行级联的解码处理，生成与所述属性性质对应的第i+1个元素向量；

其中，i为递增的自然数且取值范围为1<i<N，N为与所述属性性质对应的元素向量的数量。

上述技术方案中，所述生成模块还用于通过所述多个级联的记忆层中的第一个记忆层，对所述第一个记忆层对应的所述属性性质的状态向量以及起始向量进行解码处理；

将所述第一个记忆层的解码结果输出到后续级联的记忆层，通过所述后续级联的记忆层继续进行解码处理和解码结果输出，直至输出到最后一个记忆层，并

将所述最后一个记忆层输出的解码结果进行映射处理，得到与所述属性性质对应的第1个元素向量。

上述技术方案中，所述生成模块还用于通过所述多个级联的记忆层中的第j个记忆层，对所述第j个记忆层对应的所述属性性质的状态向量、以及第j-1个记忆层输出的解码结果进行解码处理，得到所述第j个记忆层的解码结果；

将所述第j个记忆层的解码结果输出至第j+1个记忆层的解码结果；

其中，j为递增的自然数且取值范围为1<j<M，M为所述记忆层的数量。

上述技术方案中，所述生成模块还用于对所述第j个记忆层对应的所述属性性质的细胞状态、所述属性性质的隐藏状态以及第j-1个记忆层输出的解码结果进行基于遗忘门的遗忘处理，得到所述第j个记忆层的遗忘向量；

对所述第j个记忆层的遗忘向量、所述属性性质的隐藏状态以及所述第j-1个记忆层输出的解码结果进行基于更新门的记忆更新处理，得到所述第j个记忆层对应的更新后的所述细胞状态；

对所述属性性质的隐藏状态、所述第j-1个记忆层输出的解码结果以及更新后的所述细胞状态进行映射处理，将得到的映射后的所述隐藏状态作为所述第j个记忆层的解码结果。

上述技术方案中，所述生成模块还用于通过所述多个级联的记忆层中的第一个记忆层，对所述第一个记忆层对应的更新后的所述细胞状态、所述第一个记忆层对应的映射后的所述隐藏状态以及第i个元素向量进行解码处理；

将所述最后一个记忆层输出的解码结果进行映射处理，得到与所述属性性质对应的第i+1个元素向量。

上述技术方案中，所述对接模块还用于基于所述靶蛋白进行分子动力学模拟处理，得到所述靶蛋白的结合口袋；

上述技术方案中，所述获取模块还用于对所述活性化合物进行格式转换处理，得到所述活性化合物的转换格式；

基于所述活性化合物的转换格式，构建所述活性化合物的三维构象；

基于所述活性化合物的三维构象，确定能够加氢原子的位置；

在所述能够加氢原子的位置加上氢原子，得到所述活性化合物的分子构象。

上述技术方案中，所述构建模块还用于对所述第一候选化合物的分子指纹进行映射处理，得到所述第一候选化合物的二维向量；

基于所述第一候选化合物的二维向量，对所述第一候选化合物进行网格过滤处理，得到过滤后的所述第一候选化合物；

基于所述第二候选化合物以及过滤后的所述第一候选化合物，构建针对所述靶蛋白的化合物库。

上述技术方案中，所述构建模块还用于基于所述第一候选化合物的二维向量，构建具有多个网格的二维化学空间；

将所述第一候选化合物映射至所述二维化学空间；

基于每个所述网格的容纳空间，对所述二维化学空间中的所述第一候选化合物进行过滤处理，得到过滤后的所述第一候选化合物。

本申请实施例提供一种用于化合物库构建的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于人工智能的化合物库构建方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的基于人工智能的化合物库构建方法。

本申请实施例具有以下有益效果：

通过模型生成具有属性性质的第一候选化合物，可以缓解化合物库的域偏差，并通过分子对接筛选出活性化合物对应的第二候选化合物，结合第一候选化合物以及第二候选化合物，构建针对靶蛋白的化合物库，以缓解因果偏差，从而基于无偏差的化合物库，以便后续高效自动地筛选出有价值的化合物。

附图说明

图1是本申请实施例提供的医药系统的应用场景示意图；

图2是本申请实施例提供的用于化合物库构建的电子设备的结构示意图；

图3A-图3B是本申请实施例提供的基于人工智能的化合物库构建方法的流程示意图；

图4是本申请实施例提供的生成模型的结构示意图；

图5是本申请实施例提供的网格过滤的示意图；

图6是本申请实施例提供的生成模型的结构示意图；

图7是本申请实施例提供的网格过滤的示意图；

图8是本申请实施例提供的数据集物理化学性质分布图；

图9A是本申请实施例提供的APCB和LIT-PCBA在网格过滤前的化学结构空间的示意图；

图9B是本申请实施例提供的APCB和LIT-PCBA在网格过滤后的化学结构空间的示意图；

图10是本申请实施例提供的用不同格点数过滤后的数据集训练得到的模型表现的对比示意图；

图11A是本申请实施例提供的针对靶点(ALDH1、MAPK1)的AD集、P CB集的对接得分的分布示意图；

图11B是本申请实施例提供的诱饵与其靶点(ALDH1、MAPK1)的“种子”活性配体之间拓扑结构相似性(AD集、PCB集)的分布示意图；

图11C是本申请实施例提供的针对靶点(ALDH1、MAPK1)的APCB_9W集的对接得分的分布示意图；

图11D是本申请实施例提供的诱饵与其靶点(ALDH1、MAPK1)的“种子”活性配体之间拓扑结构相似性(APCB_9W集)的分布示意图；

图11E是本申请实施例提供的分别在PCB集和APCB数据集上训练的以E CFP为特征的XGBoost模型的性能示意图；

图11F是本申请实施例提供的分别从在AD集和APCBD上训练的以Glide打分函数的能量项为特征的XGBoost模型的性能示意图；

图12A是本申请实施例提供的分别在LIT-PCBA和APCB数据集上训练的IGN的交叉评估性能示意图；

图12B是本申请实施例提供的IGN在具有不同分布的测试集上的性能示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)分子线性输入规范(SMILES，Simplified Molecular Input Line EntrySpecification)：一种用美国信息交换标准代码(ASCII，American Standard Co de forInformation Interchange)字符串明确描述分子结构的规范。SMILES表达式可以用一串字符来描述一个三维化学结构，例如，环己烷(C6H12)的S MILES表达式为C1CCCCC1，即C1CCCCC1表示为环己烷。

2)分子构象：分子的原子或基团在三维空间排列的无数特定的形象。

3)分子对接(docking)：分子在蛋白口袋中进行几何匹配和能量匹配的过程。通常包括两个阶段，即构象搜索及打分函数评价。构象搜索是指通过改变分子的三维空间坐标、原子间的二面角等方式改变分子的构象；打分函数评价是使用打分函数来预测特定的蛋白配体结合构象之间的结合亲和力。

4)打分函数：一类用于预测蛋白与配体之间结合亲和力的数学模型。打分函数可分为基于力场的打分函数、基于经验的打分函数及基于知识的打分函数。由于人工智能技术的兴起，基于AI的打分函数取得了较大的进展，打分函数的训练旨在通过学习数据集中正负样本的结合模式(相互作用)的差异来准确预测蛋白与配体之间的结合亲和力。

打分函数的构建与评测均离不开数据集，数据集包含靶蛋白文件(PDB格式)、已知的与靶标结合的活性分子(SMILES、SDF、MOL2格式)、诱饵分子、已知的与靶标结合亲和力低的非活性分子(SMILES、SDF、MOL2格式)。

5)属性性质：化合物的物理化学性质，例如，分子量(MW，Molecular weight)、氢键受体(HBA，Hydrogen Bond Acceptor)数量、氢键供体(HBD，Hydrogen Bond Donor)数量、可旋转键(RB，Rotatable Bond)数量、脂水分配系数(LogP)、特定官能团的数量等。

6)诱饵分子(decoy)：由于药物靶点众多及实验成本的限制，数据库中的分子不可能含有针对所有靶点的亲和力数据，因此研究人员基于一定的假设将符合假设的分子认定为针对特定靶点的非活性分子，这些假定的非活性分子即为decoys。

7)同源建模(Homology Modeling)：蛋白质的三维结构是理解其生物和生理学功能以及基于靶点结构进行药物设计的重要信息。同源建模是一种从蛋白质的氨基酸序列出发，以实验解析的同源蛋白质的三维结构为模板，构建出蛋白质三维结构的方法。在药物设计中，小分子和蛋白质结合发挥调控蛋白质功能的空腔称为结合口袋。

9)隐藏偏差(hidden bias)：起源于数据集的不合理的构成，表现在当这些含有隐藏偏差的数据集被用于打分函数训练及测试时造成打分函数模型泛化性能极差，在数据集上的表现偏离真实表现。隐藏偏差包括人工富集(artificia l enrichment)、相似物偏差(analogue bias)、域偏差(domain bias)、非因果偏差(noncausal bias)、假阴性偏差(false negative bias)等。

人工富集是指数据集中正负样本(有机化合物分子)的物理化学性质分布差异较大，使得打分函数仅通过物理化学性质的数据就可很好的把活性分子和非活性分子区分开来。在这样的数据集上训练得到的打分函数虽然表现出很好的预测性能，但是不具备良好的泛化能力，即当打分函数被用于真实场景下的预测时，无法正确的给出蛋白与配体之间的结合亲和力。

相似物偏差是指数据集中包含了过多结构相似的化合物从而导致模型的测试表现偏高。

域偏差是指数据集中包含的化合物种类过少，虽然打分函数从这部分化合物学习到了如何根据部分蛋白配体相互作用模式来正确区分活性和非活性化合物，但是打分函数的可用域十分狭窄，只能对数据集中所包含的化合物种类的分子的结合亲和力进行精确的预测。

非因果偏差是指模型在训练时学习到了数据集的某种分布从而达到了较好的预测精度，但是并没有从蛋白配体结合的生物学机制进行学习。因此，学习到非因果偏差的打分函数不能很好的泛化到其他数据集上，即在别的数据集上不能正确的预测其结合亲和力。

10)扩展连通性指纹(ECFP，Extended Connectivity Fingerprints)：一种分子指纹，为每个原子分配的唯一识别符，该标识符会经过几轮迭代。ECFP分子指纹是一种环形指纹(Circular Fingerprints)，其定义需要设定半径n(即迭代次数)，然后计算每个原子环境的识别符。n＝1时，称为ECFP2；n＝2时，称为ECFP4，以此类推。例如，为每个原子分配一个6维的标识符(分别为是否是氢键受体、氢键供体、是否带正电荷、负电荷、是否含有芳香性、卤素)，经过几轮迭代后得到含有药效团信息的功能指纹(FCFP，Functional class Fingerprint)。

近年来，由于人工智能技术的蓬勃发展，科研人员把人工智能算法引入到打分函数的构建当中，并希望能够提高打分函数的精度。基于AI的打分函数的构建和测评离不开数据集，然而现有技术中的数据集是为传统的打分函数的构建与测评所设计的，具有隐藏偏差以及不可扩展的问题。

相关技术中，存在三种数据集，即基于真实实验数据的数据集、基于deco ys的数据集、基于生成模型的数据集。

其中，基于真实实验数据的数据集为基于现有的大型分子、蛋白数据库得到的分子数量有限的数据集，例如基于真实实验数据的数据集可以是PDBbind、Maximum UnbiasedValidation(MUV)以及LIT-PCBA等；与基于真实实验数据的数据集不同，基于decoys的数据集中的decoys是基于特定假设从数据库中收集得到的，其数据的扩展性更高，但是decoys不包含实验数据，不一定是真正的非活性分子，例如基于decoys的数据集可以是Directoryof Useful Decoy s(DUD)Directory of Useful Decoys、Enhanced(DUD-E)、demandingevalu ation kits for objective in silico screening(DEKOIS)；除了从已有数据集收集分子外，还可以尝试通过生成分子的方法来创造数据集，基于生成模型的数据集并不常见，例如已知的生成数据集有Virtual Decoy Sets(VDS)、DeepCoy等，基于生成模型的数据集有较好的可扩展性和可定制性，但是数据集缺少实验数据，引入假阴性偏差。

然而，相关技术中的数据集存在以下问题：在基于decoys的数据集中，存在人工富集的偏差以及非因果偏差；基于真实实验数据的数据集虽然进行了无偏化处理，但是这些数据集会出现正负样本数量极不平衡、可扩展性低、化学结构单一所导致的域偏差等问题；基于生成模型的数据集容易输出与训练集中的标签分子结构相似的分子，使得生成的分子有偏向性，覆盖的化学空间不够大。

为了解决上述问题，本申请实施例提供了一种基于人工智能的化合物库构建方法、装置、电子设备及计算机可读存储介质，能够消除化合物库的偏差，以提高虚拟筛选的准确性。

本申请实施例所提供的基于人工智能的化合物库构建方法，可以由终端/服务器独自实现；也可以由终端和服务器协同实现，例如终端独自承担下文所述的基于人工智能的化合物库构建方法，或者，终端向服务器发送针对化合物库的构建请求(包括靶蛋白信息)，服务器根据接收的该针对化合物库的构建请求执行基于人工智能的化合物库构建方法，通过模型生成具有靶蛋白的属性性质的第一候选化合物，并通过分子对接获得活性化合物对应的第二候选化合物，结合第一候选化合物以及第二候选化合物，构建针对靶蛋白的化合物库，从而研发人员可以根据构建的化合物库快速地进行后续的分子研究、分析等。

本申请实施例提供的用于化合物库构建的电子设备可以是各种类型的终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器；终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

以服务器为例，例如可以是部署在云端的服务器集群，向用户开放人工智能云服务(AI as a Service，AIaaS)，AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务，这种服务模式类似于一个AI主题商城，所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。

例如，其中的一种人工智能云服务可以为化合物库构建服务，即云端的服务器封装有本申请实施例提供的化合物库构建的程序。用户通过终端(运行有客户端，例如药物筛查客户端等)调用云服务中的化合物库构建服务，以使部署在云端的服务器调用封装的化合物库构建的程序，通过模型生成具有靶蛋白的属性性质的第一候选化合物，并通过分子对接获得活性化合物对应的第二候选化合物，结合第一候选化合物以及第二候选化合物，构建针对靶蛋白的化合物库，后续基于化合物库响应针对化合物库的构建请求，并根据构建的化合物库快速地进行后续的分子研究、分析等。

参见图1，图1是本申请实施例提供的医药系统10的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

终端200(运行有客户端，例如药物筛查客户端等)可以被用来获取针对化合物库的构建请求(包括靶蛋白信息)，例如，研发人员通过终端200的输入界面输入靶蛋白(例如GPCR)，则自动生成针对化合物库的构建请求。

在一些实施例中，终端中运行的客户端中可以植入有化合物库构建插件，用以在客户端本地实现基于人工智能的化合物库构建方法。例如，终端200获取针对化合物库的构建请求后，调用化合物库构建插件，以实现基于人工智能的化合物库构建方法，通过模型生成具有靶蛋白的属性性质的第一候选化合物，并通过分子对接获得活性化合物对应的第二候选化合物，结合第一候选化合物以及第二候选化合物，构建针对靶蛋白的化合物库，后续基于化合物库响应针对化合物库的构建请求。

在一些实施例中，终端200获取针对化合物库的构建请求后，调用服务器100的化合物库构建接口(可以提供为云服务的形式，即化合物库构建服务)，服务器100，通过模型生成具有靶蛋白的属性性质的第一候选化合物，并通过分子对接获得活性化合物对应的第二候选化合物，结合第一候选化合物以及第二候选化合物，构建针对靶蛋白的化合物库，后续基于化合物库响应针对化合物库的构建请求，例如，对于药物筛查应用，研发人员通过药物筛查客户端的输入界面输入靶蛋白，并自动生成针对化合物库的构建请求，并调用服务器100的化合物库构建接口，通过模型生成具有靶蛋白的属性性质的第一候选化合物，并通过分子对接获得活性化合物对应的第二候选化合物，结合第一候选化合物以及第二候选化合物，构建针对靶蛋白的化合物库，通过针对靶蛋白的化合物库训练神经网络模型，以实现虚拟筛选功能，筛选出与靶蛋白结合亲和力高的化合物，以便后续研发人员可以快速地从与靶蛋白结合亲和力高的化合物中获取有积极作用的药物分子。

下面说明本申请实施例提供的用于化合物库构建的电子设备的结构，参见图2，图2是本申请实施例提供的用于化合物库构建的电子设备500的结构示意图，以电子设备500是服务器为例说明，图2所示的用于化合物库构建的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520。电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Onl y Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access M emory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

在一些实施例中，本申请实施例提供的化合物库构建装置可以采用软件方式实现，例如，可以是上文所述的终端中的化合物库构建插件，可以是上文所述的服务器中化合物库构建服务。当然，不局限于此，本申请实施例提供的化合物库构建装置可以提供为各种软件实施例，包括应用程序、软件、软件模块、脚本或代码在内的各种形式。

图2示出了存储在存储器550中的化合物库构建装置555，其可以是程序和插件等形式的软件，例如化合物库构建插件，并包括一系列的模块，包括获取模块5551、生成模块5552、对接模块5553以及构建模块5554；其中，获取模块5551、生成模块5552、对接模块5553以及构建模块5554用于实现本申请实施例提供的化合物库构建功能。

如前所述，本申请实施例提供的基于人工智能的化合物库构建方法可以由各种类型的电子设备实施。参见图3A，图3A是本申请实施例提供的基于人工智能的化合物库构建方法的流程示意图，结合图3A示出的步骤进行说明。

在下面步骤中，靶蛋白表示具有研究价值的蛋白质，例如对某疾病有作用或影响的蛋白质。属性性质包括化合物的物理性质、化学性质，即物理化学性质，例如，分子量、氢键受体数量、氢键供体数量、可旋转键数量、脂水分配系数、特定官能团的数量等性质。

在下面步骤中，细胞状态用于模拟生成模型中神经元细胞的记忆状态(即属性性质的历史迭代信息)，隐藏状态表征属性性质的上下文信息。

在步骤101中，获取针对靶蛋白的活性化合物。

作为获取靶蛋白的示例，用户通过终端的输入界面输入靶蛋白，并基于靶蛋白自动生成针对化合物库的构建请求，并发送至服务器，服务器解析针对化合物库的构建请求，得到靶蛋白。基于靶蛋白查询已有的活性分子库，从活性分子库中查询到针对靶蛋白的活性化合物。

在步骤102中，基于活性化合物的属性性质进行化合物生成处理，得到具有属性性质的第一候选化合物。

例如，化合物生成是指按照预期属性生成新的分子结构或修正过的分子结构。相关技术中的化合物生成主要根据已有的分子片段在特定蛋白口袋中进行拼接或生长得到预期的分子。而随着深度学习的兴起，基于深度学习的生成模型可通过级联非线性特征变换在训练样本上形成了抽象的表征学习(如分子表征)，能够有效提取任意输入-输出关系的基本特征，进而高效的生成预期分子，例如生成模型可以是循环神经网络(RNN，Recurrent neural network)、变分自编码器(VAE，Variational Auto Encoder)以及对抗生成网络(GAN，Generat ive Adversarial Network)等。

作为示例，获取活性化合物的属性性质，即分子量、氢键受体数量、氢键供体数量、可旋转键数量、脂水分配系数、特定官能团的数量，将属性性质输入至生成模型(例如条件循环神经网络(CRNN，Conditional Recurrent Neural Networks))，通过生成模型进行化合物生成处理，得到具有相同属性性质、不同结构的非活性化合物(即第一候选化合物)。由于生成模型采用了较大的数据集进行训练，生成模型生成的分子所覆盖的化学空间更广阔(结构多样性更多)，降低了第一候选化合物所构成的数据集的域偏差，此外，由于生成模型是无监督模型，所以生成模型只需要训练一次而且数据集是可扩展的。

在一些实施例中，基于活性化合物的属性性质进行化合物生成处理，得到具有属性性质的第一候选化合物，包括：对活性化合物的属性性质进行编码处理，得到属性性质的状态向量；基于属性性质的状态向量进行条件生成处理，得到具有属性性质的第一候选化合物。

例如，生成模型包括多个第一全连接层以及多个第二全连接层；状态向量包括隐藏状态以及细胞状态；对活性化合物的属性性质进行编码处理，得到属性性质的状态向量，包括：通过第一全连接层对活性化合物的属性性质进行编码处理，得到第一全连接层对应的属性性质的隐藏状态；通过第二全连接层对活性化合物的属性性质进行编码处理，得到第二全连接层对应的属性性质的细胞状态。

如图4所示，生成模型包括3个第一全连接层(即全连接层1、全连接层2、全连接层3)、3个第二全连接层(即全连接层4、全连接层5、全连接层6)，其中，每个全连接层的模型参数不相同。通过全连接层1对活性化合物的属性性质进行编码处理，得到全连接层1对应的属性性质的隐藏状态，通过全连接层2对活性化合物的属性性质进行编码处理，得到全连接层2对应的属性性质的隐藏状态，通过全连接层3对活性化合物的属性性质进行编码处理，得到全连接层3对应的属性性质的隐藏状态，通过全连接层4对活性化合物的属性性质进行编码处理，得到全连接层4对应的属性性质的细胞状态，通过全连接层5对活性化合物的属性性质进行编码处理，得到全连接层5对应的属性性质的细胞状态，通过全连接层6对活性化合物的属性性质进行编码处理，得到全连接层6对应的属性性质的细胞状态。

在一些实施例中，通过第一全连接层对活性化合物的属性性质进行编码处理，得到第一全连接层对应的属性性质的隐藏状态，包括：通过第一全连接层执行以下处理：对活性化合物的属性性质进行第一向量转化处理，得到属性性质的第一转化向量；对属性性质的第一转化向量进行映射处理，得到第一全连接层对应的属性性质的隐藏状态。

例如，通过向量编码方式(例如独热编码、文本转换器等)对活性化合物的属性性质进行向量转化处理，得到属性性质的第一转化向量，然后通过激活函数(例如Sigmoid函数、Tanh函数、ReLU函数等)对属性性质的第一转化向量进行映射处理，得到第一全连接层对应的属性性质的隐藏状态。

在一些实施例中，通过第二全连接层对活性化合物的属性性质进行编码处理，得到第二全连接层对应的属性性质的细胞状态，包括：通过第二全连接层执行以下处理：对活性化合物的属性性质进行向量转化处理，得到属性性质的第二转化向量；对属性性质的第二转化向量进行映射处理，得到第二全连接层对应的属性性质的细胞状态。

例如，通过向量编码方式(例如独热编码、文本转换器等)对活性化合物的属性性质进行向量转化处理，得到属性性质的第二转化向量，然后通过激活函数(例如Sigmoid函数、Tanh函数、ReLU函数等)对属性性质的第二转化向量进行映射处理，得到第二全连接层对应的属性性质的细胞状态。

在一些实施例中，生成模型包括多个级联的记忆层；基于属性性质的状态向量进行条件生成处理，得到具有属性性质的第一候选化合物，包括：通过多个级联的记忆层对属性性质的状态向量进行级联的解码处理，生成与属性性质对应的元素向量；基于生成的元素向量的顺序，对元素向量对应的元素进行组合处理，得到具有属性性质的第一候选化合物。

如图4所示，生成模型包括3个级联的记忆层(即长短期记忆层(LSTM，Long short-term memory))，即记忆层1、记忆层2以及记忆层3，通过记忆层1、记忆层2以及记忆层3结合各自对应的属性性质的状态向量(包括细胞状态以及隐藏状态)进行多轮级联的解码处理，生成与属性性质对应的多个元素向量，最后，基于生成的元素向量的顺序，对元素向量对应的元素进行组合处理，以得到具有属性性质的第一候选化合物，例如第一个元素为“C”、第二个元素为“C”、……、最后一个元素为“H”，则最后生成的候选化合物为“CCC(＝O)O…H”。

在一些实施例中，通过多个级联的记忆层对属性性质的状态向量进行级联的解码处理，生成与属性性质对应的元素向量，包括：通过多个级联的记忆层执行以下处理：对属性性质的状态向量以及起始向量进行级联的解码处理，生成与属性性质对应的第1个元素向量；基于属性性质的状态向量以及第i个元素向量进行级联的解码处理，生成与属性性质对应的第i+1个元素向量；其中，i为递增的自然数且取值范围为1<i<N，N为与属性性质对应的元素向量的数量。

例如，生成第1个元素向量的过程如下所示：通过多个级联的记忆层中的第一个记忆层，对第一个记忆层对应的属性性质的状态向量以及起始向量进行解码处理；将第一个记忆层的解码结果输出到后续级联的记忆层，通过后续级联的记忆层继续进行解码处理和解码结果输出，直至输出到最后一个记忆层，并将最后一个记忆层输出的解码结果进行映射处理，得到与属性性质对应的第1个元素向量。

在一些实施例中，通过后续级联的记忆层继续进行解码处理和解码结果输出，包括：通过多个级联的记忆层中的第j个记忆层，对第j个记忆层对应的属性性质的状态向量、以及第j-1个记忆层输出的解码结果进行解码处理，得到第j个记忆层的解码结果；将第j个记忆层的解码结果输出至第j+1个记忆层的解码结果；其中，j为递增的自然数且取值范围为1<j<M，M为记忆层的数量。

如图4所示，记忆层1对从全连接层输入到记忆层1的状态向量以及起始符“^”进行解码处理，得到记忆层1的解码结果(记忆层1对应的新的状态向量)，将记忆层1的解码结果输出到记忆层2，通过记忆层2对从全连接层输入到记忆层2的属性性质的状态向量以及记忆层1输出的解码结果进行解码处理，得到记忆层2的解码结果(记忆层2对应的新的状态向量)，将记忆层2的解码结果输出到记忆层3，通过记忆层3对从全连接层输入到记忆层3的属性性质的状态向量以及记忆层2输出的解码结果进行解码处理，得到记忆层3的解码结果(记忆层3对应的新的状态向量)，将记忆层3输出的解码结果进行映射处理，得到与属性性质对应的1个候选元素向量的概率分布，将概率分布中最大概率所对应的候选元素向量作为与属性性质对应的第1个元素向量。

在一些实施例中，对第j个记忆层对应的属性性质的状态向量、以及第j-1个记忆层输出的解码结果进行解码处理，得到第j个记忆层的解码结果，包括：对第j个记忆层对应的属性性质的细胞状态、属性性质的隐藏状态以及第j-1个记忆层输出的解码结果进行基于遗忘门的遗忘处理，得到第j个记忆层的遗忘向量；对第j个记忆层的遗忘向量、属性性质的隐藏状态以及第j-1个记忆层输出的解码结果进行基于更新门的记忆更新处理，得到第j个记忆层对应的更新后的细胞状态；对属性性质的隐藏状态、第j-1个记忆层输出的解码结果以及更新后的细胞状态进行映射处理，将得到的映射后的隐藏状态作为第j个记忆层的解码结果。

例如，记忆层用细胞状态(cell state)来模拟神经元细胞的记忆状态，并且为神经元细胞设计了三个门控(包括遗忘门、更新门以及输出门)来控制神经元细胞，例如针对第j个记忆层，基于遗忘门的遗忘处理过程如公式(1)-(2)所示：

τ_forget＝Sigmoid(W_f[H^t-1,X^t]+b_f) (1)

其中，H^t-1表示第j个记忆层对应的属性性质的隐藏状态，X^t表示第j-1个记忆层输出的解码结果，C^t-1表示第j个记忆层对应的属性性质的细胞状态，表示第j个记忆层的遗忘向量，W_f表示遗忘门的可学习参数，b_f表示遗忘门的偏置参数。

针对第j个记忆层，基于更新门的记忆更新处理过程如公式(3)-(5)所示：

τ_update＝Sigmoid(W_u[H^t-1,X^t]+b_u) (3)

其中，W_u、W_c表示更新门的可学习参数，b_u、b_c表示更新门的偏置，C^t表示第j个记忆层对应的更新后的细胞状态，用于进行下一个元素生成时作为第j个记忆层对应的属性性质的细胞状态。

针对第j个记忆层，基于输出门的映射处理过程如公式(6)-(7)所示：

τ_output＝Sigmoid(W_o[H^t-1,X^t]+b_o) (6)

H^t＝Tanh(C^t)×τ_output (7)

其中，W_o表示输出门的可学习参数，b_o表示输出门的偏置，H^t表示第j个记忆层对应的映射后的隐藏状态，用于进行下一个元素生成时作为第j个记忆层对应的属性性质的隐藏状态。

在一些实施例中，基于属性性质的状态向量以及第i个元素向量进行级联的解码处理，生成与属性性质对应的第i+1个元素向量，包括：通过多个级联的记忆层中的第一个记忆层，对第一个记忆层对应的更新后的细胞状态、第一个记忆层对应的映射后的隐藏状态以及第i个元素向量进行解码处理；将第一个记忆层的解码结果输出到后续级联的记忆层，通过后续级联的记忆层继续进行解码处理和解码结果输出，直至输出到最后一个记忆层，并将最后一个记忆层输出的解码结果进行映射处理，得到与属性性质对应的第i+1个元素向量。

例如，当生成第1个元素向量后，将第1个元素向量输入至第一个记忆层，并迭代上述级联的解码处理，通过第一个记忆层对第一个记忆层对应的更新后的细胞状态(即在生成第i个元素向量时，第一个记忆层所更新的细胞状态)、第一个记忆层对应的映射后的隐藏状态(即在生成第i个元素向量时，第一个记忆层所映射的隐藏状态)以及第i个元素向量进行解码处理，得到第一个记忆层的解码结果，将第一个记忆层的解码结果输出到后续级联的记忆层，通过多个级联的记忆层中的第j个记忆层，对第j个记忆层对应的属性性质的状态向量(包括第j个记忆层对应的更新后的细胞状态以及第j个记忆层对应的映射后的细胞状态)、以及第j-1个记忆层输出的解码结果进行解码处理，得到第j个记忆层的解码结果；将第j个记忆层的解码结果输出至第j+1个记忆层的解码结果；其中，j为递增的自然数且取值范围为1<j<M，M为记忆层的数量，直至输出到最后一个记忆层，并将最后一个记忆层输出的解码结果进行映射处理，得到与属性性质对应的第i+1个元素向量。

在步骤103中，将活性化合物与靶蛋白进行分子对接处理，得到活性化合物的多个分子构象分别对应的分子对接信息。

例如，将活性化合物与靶蛋白进行分子对接处理，得到每个分子构象的分子对接得分(即分子对接信息)，后续基于分子构象的分子对接得分进行筛选，以获得第二候选化合物，最后基于第一候选化合物以及第二候选化合物，构建针对靶蛋白的化合物库，从而缓解因果偏差。

在一些实施例中，将活性化合物与靶蛋白进行分子对接处理，得到活性化合物的多个分子构象分别对应的分子对接信息，包括：基于靶蛋白进行分子动力学模拟处理，得到靶蛋白的结合口袋；对靶蛋白进行结构调整处理，得到调整后的靶蛋白；将调整后的靶蛋白对接至靶蛋白的结合口袋，得到活性化合物的多个分子构象分别对应的分子对接信息。

例如，对靶蛋白进行结构调整处理，得到调整后的靶蛋白，使用FTMap方法(一种分子对接方法)，将分子构象对接到靶蛋白的结合口袋，以获得分子构象的分子对接得分。

在一些实施例中，对靶蛋白进行结构调整处理，得到调整后的靶蛋白，包括：对靶蛋白中的侧链以及环结构进行修复处理，得到修复后的靶蛋白；对修复后的靶蛋白的键级以及形式电荷进行调节处理，得到调节后的靶蛋白；基于调整后的靶蛋白的氢原子的方向进行力场优化处理，得到调整后的靶蛋白。

例如，结构调整处理过程如下所示：(1)通过删除靶蛋白中氢并重新添加氢，与近端硫形成必要的键，填充靶蛋白缺失的侧链和缺失的环结构来修复靶蛋白结构；(2)调整靶蛋白中的键级和形式电荷；(3)通过调整靶蛋白中氢原子的方向使得氢键网络更稳定，并对整个分子结构进行了力场优化。

在一些实施例中，在分子对接的过程中获取活性化合物的多个分子构象的过程如下所示：对活性化合物进行格式转换处理，得到活性化合物的转换格式；基于活性化合物的转换格式，构建活性化合物的三维构象；基于活性化合物的三维构象，确定能够加氢原子的位置；在能够加氢原子的位置加上氢原子，得到活性化合物的分子构象。

例如，将活性化合物从SMILES格式转化为PDB、MOL2、PDBQT、SDF formats等格式，然后通过分子设计应用(例如)结合活性化合物的转换格式模拟出活性化合物的三维构象，并基于活性化合物的三维构象，确定活性化合物中可加氢原子的位置(呈碱性的位置)，在加氢原子的位置上加上氢原子，从而得到活性化合物的分子构象。

在步骤104中，基于多个分子构象分别对应的分子对接信息，对多个分子构象进行筛选处理，将筛选得到的分子构象作为活性化合物对应的第二候选化合物。

例如，在获得每个分子构象的分子对接信息后，当分子构象的分子对接信息小于得分阈值(例如-4)时，将该分子构象作为活性化合物对应的第二候选化合物；或者，在获得每个分子构象的分子对接信息后，基于每个分子构象的分子对接信息，对多个分子构象进行升序排序，将升序排序结果中排序在前的部分分子构象作为活性化合物对应的第二候选化合物。

在步骤105中，基于第一候选化合物以及第二候选化合物，构建针对靶蛋白的化合物库。

例如，在获得第一候选化合物以及第二候选化合物后，结合第一候选化合物以及第二候选化合物，构建针对靶蛋白的化合物库，通过两种方式获得的候选化合物以缓解因果偏差。

参见图3B，图3B是本申请实施例提供的基于人工智能的化合物库构建方法的一个可选的流程示意图，图3B示出图3A中的步骤105可以通过步骤1051-步骤1053实现：在步骤1051中，对第一候选化合物的分子指纹进行映射处理，得到第一候选化合物的二维向量；在步骤1052中，基于第一候选化合物的二维向量，对第一候选化合物进行网格过滤处理，得到过滤后的第一候选化合物；在步骤1053中，基于第二候选化合物以及过滤后的第一候选化合物，构建针对靶蛋白的化合物库。

例如，网格过滤处理过程如下所示：基于第一候选化合物的二维向量，构建具有多个网格的二维化学空间；将第一候选化合物映射至二维化学空间；基于每个网格的容纳空间，对二维化学空间中的第一候选化合物进行过滤处理，得到过滤后的第一候选化合物。

如图5所示，采用格点过滤来删除第一候选化合物中结构相似性高的化合物。首先计算出生成的每个第一候选化合物的分子指纹。然后，将分子指纹非线性映射到二维向量，以可视化化学空间中的所有第一候选化合物的分布。基于二维向量，对于每个维度，都计算出最小值和最大值，并基于最小值和最大值将向量划分为多个间隔，每一维中的间隔在整个二维化学空间中形成多个网格，生成的多个第一候选化合物映射至二维化学空间中的网格中，当每个网格的容纳空间为1时，每个网格保留一个第一候选化合物，以舍弃网格中拓扑结构相似的化合物。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

相关技术中的数据集存在以下问题：在基于decoys的数据集中，DUD数据集中有42％的活性分子带有净电荷，而只有15％的decoys带有净电荷，这一物理化学性质分布的差异会导致机器学习算法很容易根据净电荷来对活性化合物与非活性化合物进行分类，从而造成人工富集的偏差。DUDE和DEKOIS数据集的活性分子与decoys分别是根据其拓扑结构的差异和药效团信息的差异所定义的，这样单一的差异会导致机器学习算法根据其结构的相似性和药效团相似性对化合物进行分类，造成非因果偏差。

LIT-PCBA、MUV等基于真实实验数据的数据集虽然进行了无偏化处理，使得活性分子和decoys在化学结构和药效团信息上并没有那么明显的差异，但是这些数据集会出现正负样本数量极不平衡、可扩展性低、化学结构单一所导致的域偏差等问题。

基于生成模型的数据集是一个具有潜力的数据集构建方向，但现有基于生成模型的数据集仍有一些问题。VDS的生成算法依赖于片段数据库，需要通过生成分子后筛选的方式构建数据集，成功率和效率都不高。而作为深度学习时代的数据集生成方法，DeepCoy可以大概率根据输入分子生成物理化学性质相似但是结构不相似的分子，然而，DeepCoy需要根据数据集的不同而构建训练集并重新进行训练，比较耗费计算资源。此外，DeepCoy固定了训练时输入的分子对，当进行采样时，给模型输入同样的分子，模型容易输出与训练集中的标签分子结构相似的分子，使得生成的分子有偏向性，覆盖的化学空间不够大。

为了解决上述问题，本申请实施例提出了一种基于人工智能的化合物库构建方法(APCB)。通过在大数据集上训练条件循环神经网络来构建生成模型(C RNN)，CRNN可以大概率生成与结构不相似且物理化学性质相似的化合物。由于CRNN采用了较大的数据集进行训练，CRNN生成的分子所覆盖的化学空间更广阔(结构多样性更多)，降低了数据集的域偏差，此外，由于CRNN是无监督生成模型，只需要训练一次而且数据集是可扩展的。除了基于物理化学性质匹配的decoys以外，还引入了低得分的活性分子的构象作为decoys。通过混合两种类型的decoys，引入了两种非因果偏差来互相抵消对机器学习算法的影响，从而强迫机器学习算法从数据集中学习蛋白配体相互作用模式。此外，通过计算分子指纹，把分子指纹降维到2维，并进行网格过滤从而消除数据集的相似物偏差的方法。

通过本申请实施例构建无隐藏偏差、可扩展的数据集，基于无隐藏偏差、可扩展的数据集构建和测评基于AI的打分函数，以通过构建好的打分函数进行准确的虚拟筛选。

本申请实施例根据已有的针对特定靶点(靶蛋白)的活性化合物，使用C RNN生成物理化学性质匹配的decoys，并使用对接软件生成得分较低的decoy s构象。根据已有的活性化合物数量以及合适的正负样本比例确定所需的decoy s的目标数量，计算数据集的扩展连通性指纹(ECFP，Extended Connectivity Fingerprints)，通过非线性降维算法(例如T-SNE算法)降维至2维，通过调整网格数量进行网格过滤得到目标数量的decoys，最后合并活性化合物与deco ys组成数据集，并进一步划分成训练集、验证集和测试集用于AI建模。其中，通过调整生成的decoys的数量来调整正负样本比例，定制化的构建相应的基准(benchmark)用于验证及比较AI打分函数的性能。

下面具体介绍本申请实施例的生成模型：

本申请实施例的生成模型为条件循环神经网络，实际使用时也可以采用其他条件生成模型，例如条件变分自编码器(Conditional Variational Auto Encod er，CVAE)。以CRNN为例，其网络构架如图6所示，构建模型采用的数据集为ChEMBL2516，按照9：1的比例划分训练集(1347173个分子)和测试集(149679个分子)。

其中，生成模型(以CRNN为例)训练过程如下所示：

(1)建立分子词表(‘$^Brc1(-23[nH])45C＝NOso#FlS67+89％0’)，以“^”作为起始标识(start token)，“$”作为结束标识(end token)，“？”作为未知标识(unknown token)，在化合物SMILES开头加上起始标识“^”作为输入序列，在化合物SMILES的结尾加上结束标识$作为目标序列，并把所有化合物序列用未知标识填充至128个字符。

以CCC(＝O)O为例，输入序列为“^CCC(＝O)O？？…？”，目标序列为“C CC(＝O)O$？？…？”，所有序列长度均为128。

(2)计算每个化合物的六种物理化学性质(MW，HBA，HBD，RB，Lo gP，HAL)。把物理化学性质作为CRNN的输入，分别通过6层采用ReLU激活函数的256维的全连接层(例如长短期记忆(LSTM，Long short-term memo ry)层)后得到隐变量作为长短期记忆层的初始状态向量(包括细胞状态(cel l state)以及隐藏状态(hidden state))。

(3)把输入序列进行独热编码，并将编码后的向量按序列顺序输入LST M层，经过3层LSTM层后按顺序输出向量。将输出向量输入一层激活函数为softmax的全连接层，最终得到序列长度*词表维度的元素向量。

在这个生成模型的训练过程中，CRNN的输入和输出对应的字符(即元素)应该是错位的。以CCC(＝O)O为例，输入序列的第一个字符起始标识“^”作为输入，输出应为目标序列的第一个字符“C”；输入序列的第二个字符“C”作为输入，输出应为目标序列的第二个字符“C”。以此类推，输入序列的最后一个有效字符“O”作为输入，输出为目标序列的最后一个有效字符为结束标识“$”。

本申请实施例采用导师驱动(teacher forcing)方法，在计算第t个输出的字符时，采用第t-1个真实字符而非CRNN预测的字符作为输入。以CCC(＝O)O为例，在CRNN的完整的训练过程中，LSTM首先接收到输入序列的启动标识“^”，经过运算后输出其预测的下一个字符为“O”(预测错误的字符，正确预测的字符应为“C”)，如果不使用导师驱动方法，则训练时将“O”作为LS TM的输入，这样会对后续的序列预测引入误差；如果使用导师驱动方法，则把正确的“C”作为LSTM的输入，帮助模型更快收敛。

(4)把目标序列进行独热编码得到目标向量(ground truth)，基于CRNN输出的向量和目标向量的交叉熵损失函数计算CRNN的损失，采用优化器(例如Adam)进行梯度下降更新参数。训练过程中，批大小(batch size)为128，训练轮数(epoch)为100，学习速率(learning rate)在前50轮为10^-3，后50轮均匀减少至10^-6。

通过上述训练完成生成模型训练后，应用生成模型生成化合物，以构建数据库，其中，生成模型的应用过程如下所示：

(1)计算索引分子的物理化学性质并作为CRNN的输入，CRNN会根据输入的物理化学性质计算得到对应的状态向量(hidden state以及cell state)并传递给LSTM层。

(2)LSTM层则接收状态向量以及起始标识“^”，输出下一位字符并更新状态向量直至输出的字符为结束标识“$”。

其中，LSTM层用细胞状态来模拟神经元细胞的记忆状态，并且为神经元细胞设计了三个门控(遗忘门、更新门以及输出门)来控制神经元细胞。LST M层接收上一字符生成时的细胞状态C^t-1、隐藏状态H^t-1(hidden state)以及当前LSTM层的输入X^t，通过遗忘门(forget gate)选择遗忘掉部分历史记忆(对历史细胞状态C^t-1进行遗忘)，其遗忘门的计算过程如下所示：τ_forget＝Sigmoid(W_f[H^t-1,X^t]+b_f)、

通过更新门(update gate)对短期记忆进行更新(基于历史隐藏状态H^t-1和当前LSTM层输入X^t计算更新短期记忆)，其更新门的计算过程如下所示：τ_update＝Sigmoid(W_u[H^t-1,X^t]+b_u)、

通过输出门综合历史记忆和短期记忆输出当前细胞的隐藏变量H^t，其输出门的计算过程如下所示：τ_output＝Sigmoid(W_o[H^t-1,X^t]+b_o)、H^t＝Tanh(C^t)×τ_output。

其中，当前LSTM层基于状态向量(H^t-1、C^t-1)以及X^t，输出下一位字符，并更新状态向量为H^t、C^t，迭代上述计算过程，直至输出的字符为结束标识“$”。

(3)模型输出的元素向量在词表取最大值并对词表进行位置索引获得对应的元素，从而得到生成的分子SMILES。

下面具体介绍本申请实施例的分子对接过程：

通过分子设计软件中的Glide模块实现生成低得分构象。首先使用的Protein Prepare Wizard(蛋白质准备面板)制备靶蛋白的PDB文件，其处理过程如下所示：

(1)去除环境中不必要的水分；

(2)通过删除氢并重新添加氢，与近端硫形成必要的键，填充缺失的侧链和缺失的环来修复靶蛋白结构；

(3)调整键级和形式电荷；

(4)PROPKA负责计算PH为7.0的蛋白残基的质子化态，并通过Epik产生非蛋白原子的电离态；

(5)通过调整氢原子的方向使得氢键网络更稳定，并对整个靶蛋白结构进行了力场优化。

同样，使用的LigPrep校正氢，为每个活性化合物生成合适的构象。

制备靶蛋白和配体后，提取原始靶蛋白PDB文件中的共晶配体，并将其用于定位结合位点，生成Glide对接所需的网格文件。将所有经过准备的活性化合物对接至靶蛋白口袋(搜索分子的构象并用打分函数进行打分)，并为每种活性化合物保留200个构象。观察正负样本的得分并选择合适的对接得分(如-4)作为阈值用于进一步过滤构象，当某活性化合物的构象的对接得分小于阈值时，则保留该活性化合物的构象。

下面具体介绍本申请实施例的网格过滤过程：

要消除相似物偏差，关键是选择均匀分布在结构化学空间上的化合物(即使用CRNN生成物理化学性质匹配的decoys，即PCB)。在这里，采用网格过滤来删除结构相似性高的化合物。

如图7所示，首先计算出化合物的ECFP。然后，采用T-SNE算法，将2048维的ECFP非线性映射到二维矢量，以可视化化学空间中的化合物分布。基于二维矢量，对于每个维度，都计算了最小值和最大值，并设置了固定的步长，以将向量划分为不同的间隔。每一维中的间隔在整个二维化学空间中形成了多个网格，为每个网格保留一个化合物，舍弃拓扑结构相似的化合物。其中，间隔步长是一个超参数，可以根据需求进行调整，图7中的PCB_25表示用25个网格过滤得到的PCB数据集。

为了验证本申请实施例所构建的数据集无隐藏偏差，本申请实施例作为以下验证试验：

本申请实施例采用LIT-PCBA作为对照基于以下两个原因：(1)LIT-PCBA是为机器学习和虚拟筛选设计的无偏数据集，这也是最终的目标；(2)LIT-PC BA中的化合物均有实验数据，避免了decoys引入假阴性的可能性。

首先基于LIT-PCBA的活性化合物(靶点：ALDH1和MAPK1)生成了A PCB数据集，然后对各种隐藏偏差进行了验证，包括人工富集、相似物偏差、域偏差和非因果偏差。在验证过程中采用的机器学习模型包括了XGBoost模型以及图神经网络模型(IGN)。结果显示本申请实施例所构建的数据集的人工富集、相似物偏差、非因果偏差与无隐藏偏差的LIT-PCBA水平相当，而域偏差比LIT-PCBA更低，而且本申请实施例所构建的数据集的可扩展性和可定制性均优于LIT-PCBA。

关于人工富集验证如下所示：

对于ALDH1和MAPK1，本申请实施例使用CRNN根据活性化合物生成d ecoys，并根据decoys的物理化学性质对其进行了进一步过滤，以去除人工富集。

如图8所示，APCB和LIT-PCBA中的decoys(非活性化合物)的分布与活性化合物的分布相似。更具体地说，在MW和LogP方面，APCB的decoys显示出与活性成分几乎相同的分布；在HBD和HAL方面，与LIT-PCBA的de coys相比，APCB与活性成分的分布更接近；在RB和HBA方面，LIT-PCBA的表现优于APCB。实际上，可以提高物理化学性质筛选的标准来进一步减少人工富集，且由于CRNN可以连续生成化合物，不必担心化合物数量问题，这是基于真实数据和基于decoys的数据集所不能做到的。

关于相似物偏差及域偏差验证如下所示：

为了探索由APCB数据集中存在的结构相似导致的相似物偏差，本申请实施例采用不同网格数量进行网格过滤生成不同大小的APCB数据集。

默认的APCB数据集由50个decoys构象和每个活性化合物有50个与物理化学性质匹配的decoys，总的正负样本比例为1：100。此外，将原始APCB数据集分别传递到网格数分别为90000和1000000的网格过滤中，从而得到APC B_9W数据集和APCB_100W数据集。选择90000的网格数是为了使APCB和LIT-PCBA的数据大小相似，而选择1000000的网格数进行网格过滤是为了得到配体数量更多的数据集以利于深度学习训练。

计算数据集中分子的2维的TSNE向量并在二维平面上进行了可视化得到了图9A-图9B，图9A显示了APCB和LIT-PCBA在网格过滤前的化学结构空间，图9B显示APCB和LIT-PCBA在网格过滤后的化学结构空间，其中每个点代表一个有机小分子，点与点之间的距离越近表示结构越相似。在网格过滤之前，化合物在化学空间中分布不均匀，并且存在大量具有相似结构的配体堆叠在一起。网格过滤之后，图9B中APCB的配体均匀分布，而且比LIT-PCBA的配体覆盖更大的化学空间，这表明APCB与LIT-PCBA相比具有较小的域偏差。

计算了APCB和LIT-PCBA两个数据集的内部多样性(内部多样性越接近1，表明数据集分子的结构多样性越好)，APCB的内部多样性(ALDH1:0.894，MAPK1:0.878)高于LIT-PCBA(ALDH1:0.868，MAPK1:0.868)，说明APCB与LIT-PCBA相比，确实有更高的结构多样性，所以引入的域偏差更少。

为了进一步验证网格过滤和网格数量的影响，在这些数据集上训练了IGN模型，并在LIT-PCBA测试集上进行了测试，模型表现如图10所示，对于ALDH1和MAPK1，在网格过滤后的数据集(APCB_9W和APCB_100W)上训练得到的模型在LIT-PCBA测试集上进行测试，其性能优于在有偏数据集(APCBD)上训练的模型，在一定范围内，随着数据集大小增加，模型性能也会提高。但是，模型的性能不会随着数据大小的增长而不断提高，因为越来越多的数据将不可避免地引入相似物偏差和域偏差。

关于非因果偏差验证如下所示：

在相关技术中的数据集(例如DUDE和DEKOIS)中，由于基于单一假设收集了decoys，因此引入了单一非因果偏差。因此，在APCB中，引入了两种非因果偏差，包括对接得分和拓扑结构(摩根指纹)使其相互抵消，以迫使模型从数据集中学习活性蛋白配体结合模式以及非活性蛋白配体结合模式。APCB数据集可以分解成一个从活性化合物生成的decoys构象所构成的子集(AD，Active as Decoys)和一个从CRNN生成的物理化学性质匹配的decoys所构成的子集(PCB，Physic Chemical-Based)，其中，AD包含从活性配体生成的decoys构象，PCB包含从CRNN生成的物理化学性质匹配的decoys。

如图11A所示，AD数据集中的decoys和活性分子的对接分数差异很大，机器学习算法很容易通过还原对接得分来区分正负样本。这样训练得到的模型虽然在AD集上取得了很好的表现，但是只是通过还原对接得分而不是通过学习蛋白配体之间的相互作用模式来预测蛋白配体结合强度。这样的模型在真实的应用场景下不能取得很好的表现，因此认为模型从AD数据集中学习到了非因果偏差。

同理，如果只是在PCB数据集上进行训练，如图11B所示由于PCB数据集中正负样本的结构相似性很低，模型也只会学习到根据结构相似性来进行活性预测，即学习到PCB数据集中的非因果偏差。

为了避免模型学习到非因果偏差，本申请实施例把AD数据集和PCB数据集合并到一起形成了APCB数据集，如图11C-图11D所示，当把两种数据集合到一起后，正负样本间的结构相似性和对接分数的差异的明显的界线被消除了，机器学习模型无法单纯地根据对接分数或者正负样本的结构不相似性进行精确分类，从而避免了模型学习到由对接分数和结构相似性造成的非因果偏差。

为了进一步验证，本申请实施例训练了一个具有从Glide SP SF分解而来的能量项的作为输入的XGBoost模型，一个以ECFP为输入的XGBoost模型。当使用ECFP指纹作为描述符时，如图11E所示，XGBoost模型在PCB上能够很好的把活性分子和非活性分子区分开，而在其他数据集上却表现不佳。

同样，如图11F所示，以能量项作为输入的XGBoost模型在AD子集上的所展示的性能远优于其他模型，但其泛化性能很差。

上述两种模型(XGB-能量项，XGB-ECFP指纹)在由AD子集和PCB子集形成的APCB数据集上进行训练时，性能都会下降，表明通过混合两种非因果偏差增加了模型学习难度，减少了非因果偏差。

基于APCB训练得到的模型在真实场景下的表现测试如下所述：

在隐藏偏差验证之后，验证在真实场景中APCB数据集所训练的模型的性能。因此，本申请实施例分别在LIT-PCBA和APCBD上构建了IGN模型，并在每个测试集上测试了这些模型。因此，模型在来自与训练集相同来源的测试集(own-test)和另一个来源的测试集(cross-test)上进行测试。

如图12A所示，当测试方式相同时(均为cross-test或均为own-test)，APCB训练得到的模型和LIT-PCBA训练得到的模型在四个指标上表现出相似的分布，表明在APCB数据集上训练的模型与在LIT-PCBA数据集上训练的模型相比，具有相似的性能(预测准确性和筛选能力)。

另外，从召回的角度来看，在APCBD上训练的模型(ALDH1为0.600，MAPK1为0.195)优于在LIT-PCBA上训练的模型(ALDH1为0.368，MAPK1为0.117)，表明基于APCB训练得到的模型可以从化合物库中找到比在LIT-PCBA上训练的模型更多的活性配体，这在虚拟筛选的实践中非常重要。

为了进一步验证在APCB数据集上训练的模型的泛化能力，除了LIT-PCBA和APCBD模型之外，在与DUDE构建方法相似的PCB数据集上训练模型。这些模型在同源测试集(本测试)和真实世界的测试集(即LIT-PCBA的经过实验验证的测试集)上进行了测试。好的泛化能力是指一个模型在本测试集上表现出良好的性能并在真实的额外测试集上取得有相当的性能。

为了进一步验证数据集分布是否影响模型性能，做了100次有放回抽样(bootstrap)来扰乱LIT-PCBA测试集的分布并绘制如图12B所示的模型性能的分布图。如图12B所示，模型学习的内容和模型性能与数据集的分布有关。考虑到LIT-PCBA是由PubChemBioAssay构建的，配体有限，LIT-PCBA的数据分布可能不是构建具有更强泛化能力的MLSF的最佳分布。相反，具有可调数据集分布的数据大小可扩展的APCBD更有希望被用于构建具有泛化能力的MLSF。

至此已经结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的基于人工智能的化合物库构建方法。本申请实施例还提供化合物库构建装置，实际应用中，化合物库构建装置中的各功能模块可以由电子设备(如终端设备、服务器或服务器集群)的硬件资源，如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)、存储器协同实现。图2示出了存储在存储器550中的化合物库构建装置555，其可以是程序和插件等形式的软件，例如，软件C/C++、Java等编程语言设计的软件模块、C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块、应用程序接口、插件、云服务等实现方式。

其中，化合物库构建装置555包括一系列的模块，包括获取模块5551、生成模块5552、对接模块5553以及构建模块5554。下面继续说明本申请实施例提供的化合物库构建装置555中各个模块配合实现化合物库构建方案。

获取模块5551，用于获取针对靶蛋白的活性化合物；生成模块5552，用于基于所述活性化合物的属性性质进行化合物生成处理，得到具有所述属性性质的第一候选化合物；对接模块5553，用于将所述活性化合物与所述靶蛋白进行分子对接处理，得到所述活性化合物的多个分子构象分别对应的分子对接信息；基于所述多个分子构象分别对应的分子对接信息，对所述多个分子构象进行筛选处理，将筛选得到的分子构象作为所述活性化合物对应的第二候选化合物；构建模块5554，用于基于所述第一候选化合物以及所述第二候选化合物，构建针对所述靶蛋白的化合物库。

在一些实施例中，所述生成模块5552还用于对所述活性化合物的属性性质进行编码处理，得到所述属性性质的状态向量；基于所述属性性质的状态向量进行条件生成处理，得到具有所述属性性质的第一候选化合物。

在一些实施例中，所述化合物生成处理是通过生成模型实现的，所述生成模型包括多个第一全连接层以及多个第二全连接层；所述状态向量包括隐藏状态以及细胞状态；所述生成模块5552还用于通过所述第一全连接层对所述活性化合物的属性性质进行编码处理，得到所述第一全连接层对应的所述属性性质的隐藏状态；通过所述第二全连接层对所述活性化合物的属性性质进行编码处理，得到所述第二全连接层对应的所述属性性质的细胞状态。

在一些实施例中，所述生成模块5552还用于通过所述第一全连接层执行以下处理：对所述活性化合物的属性性质进行向量转化处理，得到所述属性性质的转化向量；对所述属性性质的转化向量进行映射处理，得到所述第一全连接层对应的所述属性性质的隐藏状态。

在一些实施例中，所述生成模型包括多个级联的记忆层；所述生成模块5552还用于通过所述多个级联的记忆层对所述属性性质的状态向量进行级联的解码处理，生成与所述属性性质对应的元素向量；基于生成的所述元素向量的顺序，对所述元素向量对应的元素进行组合处理，得到具有所述属性性质的第一候选化合物。

在一些实施例中，所述生成模块5552还用于通过所述多个级联的记忆层执行以下处理：对所述属性性质的状态向量以及起始向量进行级联的解码处理，生成与所述属性性质对应的第1个元素向量；基于所述属性性质的状态向量以及第i个元素向量进行级联的解码处理，生成与所述属性性质对应的第i+1个元素向量；其中，i为递增的自然数且取值范围为1<i<N，N为与所述属性性质对应的元素向量的数量。

在一些实施例中，所述生成模块5552还用于通过所述多个级联的记忆层中的第一个记忆层，对所述第一个记忆层对应的所述属性性质的状态向量以及起始向量进行解码处理；将所述第一个记忆层的解码结果输出到后续级联的记忆层，通过所述后续级联的记忆层继续进行解码处理和解码结果输出，直至输出到最后一个记忆层，并将所述最后一个记忆层输出的解码结果进行映射处理，得到与所述属性性质对应的第1个元素向量。

在一些实施例中，所述生成模块5552还用于通过所述多个级联的记忆层中的第j个记忆层，对所述第j个记忆层对应的所述属性性质的状态向量、以及第j-1个记忆层输出的解码结果进行解码处理，得到所述第j个记忆层的解码结果；将所述第j个记忆层的解码结果输出至第j+1个记忆层的解码结果；其中，j为递增的自然数且取值范围为1<j<M，M为所述记忆层的数量。

在一些实施例中，所述生成模块5552还用于对所述第j个记忆层对应的所述属性性质的细胞状态、所述属性性质的隐藏状态以及第j-1个记忆层输出的解码结果进行基于遗忘门的遗忘处理，得到所述第j个记忆层的遗忘向量；对所述第j个记忆层的遗忘向量、所述属性性质的隐藏状态以及所述第j-1个记忆层输出的解码结果进行基于更新门的记忆更新处理，得到所述第j个记忆层对应的更新后的所述细胞状态；对所述属性性质的隐藏状态、所述第j-1个记忆层输出的解码结果以及更新后的所述细胞状态进行映射处理，将得到的映射后的所述隐藏状态作为所述第j个记忆层的解码结果。

在一些实施例中，所述生成模块5552还用于通过所述多个级联的记忆层中的第一个记忆层，对所述第一个记忆层对应的更新后的所述细胞状态、所述第一个记忆层对应的映射后的所述隐藏状态以及第i个元素向量进行解码处理；将所述第一个记忆层的解码结果输出到后续级联的记忆层，通过所述后续级联的记忆层继续进行解码处理和解码结果输出，直至输出到最后一个记忆层，并将所述最后一个记忆层输出的解码结果进行映射处理，得到与所述属性性质对应的第i+1个元素向量。

在一些实施例中，所述对接模块5553还用于基于所述靶蛋白进行分子动力学模拟处理，得到所述靶蛋白的结合口袋；对所述靶蛋白进行结构调整处理，得到调整后的所述靶蛋白；将调整后的所述靶蛋白对接至所述靶蛋白的结合口袋，得到所述活性化合物的多个分子构象分别对应的分子对接信息。

在一些实施例中，所述构建模块5554还用于对所述第一候选化合物的分子指纹进行映射处理，得到所述第一候选化合物的二维向量；基于所述第一候选化合物的二维向量，对所述第一候选化合物进行网格过滤处理，得到过滤后的所述第一候选化合物；基于所述第二候选化合物以及过滤后的所述第一候选化合物，构建针对所述靶蛋白的化合物库。

在一些实施例中，所述构建模块5554还用于基于所述第一候选化合物的二维向量，构建具有多个网格的二维化学空间；将所述第一候选化合物映射至所述二维化学空间；基于每个所述网格的容纳空间，对所述二维化学空间中的所述第一候选化合物进行过滤处理，得到过滤后的所述第一候选化合物。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的基于人工智能的化合物库构建方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的基于人工智能的化合物库构建方法，例如，如图3A-图3B示出的基于人工智能的化合物库构建方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的化合物库构建方法，其特征在于，所述方法包括：

获取针对靶蛋白的活性化合物；

对所述第一候选化合物的分子指纹进行映射处理，得到所述第一候选化合物的二维向量；

基于所述第一候选化合物的二维向量，构建具有多个网格的二维化学空间；

将所述第一候选化合物映射至所述二维化学空间；

基于每个所述网格的容纳空间，对所述二维化学空间中的所述第一候选化合物进行过滤处理，得到过滤后的所述第一候选化合物；

2.根据权利要求1所述的方法，其特征在于，所述基于所述活性化合物的属性性质进行化合物生成处理，得到具有所述属性性质的第一候选化合物，包括：

对所述活性化合物的属性性质进行编码处理，得到所述属性性质的状态向量；

3.根据权利要求2所述的方法，其特征在于，

所述化合物生成处理是通过生成模型实现的，所述生成模型包括多个第一全连接层以及多个第二全连接层；

所述状态向量包括隐藏状态以及细胞状态；

所述对所述活性化合物的属性性质进行编码处理，得到所述属性性质的状态向量，包括：

通过所述第一全连接层对所述活性化合物的属性性质进行编码处理，得到所述第一全连接层对应的所述属性性质的隐藏状态；

4.根据权利要求3所述的方法，其特征在于，所述通过所述第一全连接层对所述活性化合物的属性性质进行编码处理，得到所述第一全连接层对应的所述属性性质的隐藏状态，包括：

通过所述第一全连接层执行以下处理：

5.根据权利要求3所述的方法，其特征在于，

所述生成模型包括多个级联的记忆层；

所述基于所述属性性质的状态向量进行条件生成处理，得到具有所述属性性质的第一候选化合物，包括：

通过所述多个级联的记忆层对所述属性性质的状态向量进行级联的解码处理，生成与所述属性性质对应的元素向量；

6.根据权利要求5所述的方法，其特征在于，所述通过所述多个级联的记忆层对所述属性性质的状态向量进行级联的解码处理，生成与所述属性性质对应的元素向量，包括：

通过所述多个级联的记忆层执行以下处理：

7.根据权利要求6所述的方法，其特征在于，所述对所述属性性质的状态向量以及起始向量进行级联的解码处理，生成与所述属性性质对应的第1个元素向量，包括：

通过所述多个级联的记忆层中的第一个记忆层，对所述第一个记忆层对应的所述属性性质的状态向量以及起始向量进行解码处理；

8.根据权利要求7所述的方法，其特征在于，所述通过所述后续级联的记忆层继续进行解码处理和解码结果输出，包括：

通过所述多个级联的记忆层中的第j个记忆层，对所述第j个记忆层对应的所述属性性质的状态向量、以及第j-1个记忆层输出的解码结果进行解码处理，得到所述第j个记忆层的解码结果；

9.根据权利要求8所述的方法，其特征在于，所述对所述第j个记忆层对应的所述属性性质的状态向量、以及第j-1个记忆层输出的解码结果进行解码处理，得到所述第j个记忆层的解码结果，包括：

对所述第j个记忆层对应的所述属性性质的细胞状态、所述属性性质的隐藏状态以及第j-1个记忆层输出的解码结果进行基于遗忘门的遗忘处理，得到所述第j个记忆层的遗忘向量；

10.根据权利要求9所述的方法，其特征在于，所述基于所述属性性质的状态向量以及第i个元素向量进行级联的解码处理，生成与所述属性性质对应的第i+1个元素向量，包括：

通过所述多个级联的记忆层中的第一个记忆层，对所述第一个记忆层对应的更新后的所述细胞状态、所述第一个记忆层对应的映射后的所述隐藏状态以及第i个元素向量进行解码处理；

11.一种基于人工智能的化合物库构建装置，其特征在于，所述装置包括：

获取模块，用于获取针对靶蛋白的活性化合物；

构建模块，用于对所述第一候选化合物的分子指纹进行映射处理，得到所述第一候选化合物的二维向量；基于所述第一候选化合物的二维向量，构建具有多个网格的二维化学空间；将所述第一候选化合物映射至所述二维化学空间；基于每个所述网格的容纳空间，对所述二维化学空间中的所述第一候选化合物进行过滤处理，得到过滤后的所述第一候选化合物；基于所述第二候选化合物以及过滤后的所述第一候选化合物，构建针对所述靶蛋白的化合物库。

12.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10任一项所述的基于人工智能的化合物库构建方法。

13.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时实现权利要求1至10任一项所述的基于人工智能的化合物库构建方法。