CN115631787B

CN115631787B - 一种基于3d蛋白质结构卷积神经网络的虚拟筛选系统

Info

Publication number: CN115631787B
Application number: CN202211652606.4A
Authority: CN
Inventors: 潘艳丽; 刘洋; 潘福璐; 王琳; 张晶; 张一鸣
Original assignee: Institute Of Information On Traditional Chinese Medicine Cacms
Current assignee: Institute Of Information On Traditional Chinese Medicine Cacms
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2023-03-21
Anticipated expiration: 2042-12-22
Also published as: CN115631787A

Abstract

本发明提供了一种基于3D蛋白质结构卷积神经网络的虚拟筛选系统和方法，该系统包括内容库、训练设备、执行设备和用户设备；训练设备包括数据预处理模块、数据库和训练模块；执行设备包括AI模型、预测模块和I/O接口；数据预处理模块用于处理从内容库读取的原始数据；训练模块用于对AI模型进行训练，使得训练后的AI练模型能够有效地预测小分子药物对所对应靶点的亲和力；执行设备通过I/O接口与用户设备进行数据交互，接收用户设备发送的待预测的小分子和蛋白质信息；执行预测模块使用训练好的AI模型对小分子和蛋白质信息进行处理，输出预测的小分子的生物活性结果，并通过I/O接口将结果发送至用户设备。

Description

一种基于3D蛋白质结构卷积神经网络的虚拟筛选系统

技术领域

本发明涉及小分子活性筛选领域，尤其涉及基于深度学习技术小分子活性预测方向，具体涉及一种基于3D蛋白质结构卷积神经网络的虚拟筛选系统和方法。

背景技术

在小分子活性筛选领域，传统上使用高通量筛选实验检测小分子药物和靶点之间的生物活性，实验检测的方法存在着成本高昂、耗费时间等问题。因此，使用机器学习或深度学习模型来预测小分子药物和靶点之间的生物活性是一种重要的替代方法。

虚拟筛选，也称计算机筛选，即在进行生物活性筛选之前，利用计算机上的分子对接软件模拟目标靶点与候选药物之间的相互作用，计算两者之间的活性值大小，以降低实际筛选化合物数目，同时提高先导化合物发现效率。其中，虚拟筛选可以分为两类，即基于受体的虚拟筛选和基于配体的虚拟筛选。基于配体的虚拟筛选受到实验条件的限制，部分配体的样本数量比较少。

到目前为止，已经开发了多种计算模型来预测小分子药物和靶点之间的生物活性，包括机器学习和深度学习的方法。

在现有技术中，预测药物和靶点之间生物活性的模型，主要以蛋白质序列和小分子SMILES码作为原始数据。虽然蛋白质的3D结构的折叠方式由蛋白质序列决定，即特定的蛋白质序列对应了特定的蛋白质3D结构，但在现有的小分子生物活性预测模型中，所使用提取蛋白质特征的部分大多都十分简单，且有标签的生物活性数据集中，蛋白质序列数据数量非常少。因此，现有的小分子生物活性预测模型无法根据蛋白质序列来推理出蛋白质的3D空间结构信息。而小分子和蛋白质的作用是发生在三维空间中，且发生作用与其三维结构有非常大的关系。因此现有的技术对小分子和蛋白质之间生物活性的预测能力有限。

发明内容

为了解决上述技术问题，本发明的一方面涉及一种通过小分子的图结构数据和蛋白质的3D结构数据解析小分子和蛋白质的空间结构信息、有较强的小分子和蛋白质活性预测能力的基于图和3D蛋白质结构卷积神经网络的小分子药物虚拟筛选系统。

本发明的一方面涉及一种基于图和3D蛋白质结构卷积神经网络的小分子药物虚拟筛选系统，包括内容库、训练设备、执行设备和用户设备，所述的内容库中存储有原始数据；所述的训练设备包括数据预处理模块、数据库和训练模块；所述的执行设备包括AI模型、预测模块和I/O接口；其中所述的数据预处理模块用于处理从内容库读取的原始数据，并将处理后的数据作为训练数据存储至数据库中；所述的训练模块用于基于数据库中存储的训练数据，对AI模型进行训练，使得训练后的AI练模型能够有效地预测小分子药物对所对应靶点的亲和力；所述的执行设备通过所述的I/O接口与用户设备进行数据交互，接收用户设备发送的待预测的小分子和蛋白质信息；所述的执行预测模块使用训练好的AI模型对所述的小分子和蛋白质信息进行处理，输出预测的小分子的生物活性结果，并通过I/O接口将结果发送至用户设备。

优选地，所述的待预测的小分子和蛋白质信息包括小分子结构式和蛋白质的三维结构。

优选地，所述的训练模块训练得到的小分子亲和力预测模型能够应用到不同的系统设备中。

优选地，所述的原始数据包括药物和对应靶点的信息，所述信息包括小分子药物的SMILES码和分子结构数据，蛋白质的3D结构数据，及小分子和靶点发生作用所需要的生物活性值；所述的数据预处理模块用于使用编程的方法整理初始数据，清除无法打开或损坏的数据；将初始数据中的数据按照小分子-靶点-生物活性的格式整理，得到训练数据。

优选地，所述的数据预处理模块还用于使用RDKit打开小分子药物的SMILES码，依次获取每个原子对象，对每个原子进行编码作为图的节点信息；依次获取每个化学键对象，对每个化学键进行编码作为图的边信息。

优选地，所述的数据预处理模块还用于通过蛋白质的3D结构文件将蛋白质的3D结构转换为表征3D结构的蛋白质多图的形式，其中所述的蛋白质3D结构文件包含了蛋白质中每个原子的坐标和原子之间的连接方式，所述的蛋白质多图为

，其中N∈Rⁿ ^×3，为图的节点，由蛋白质中的原子3维坐标表示，n为蛋白质中原子个数； F∈R^n×t，为相关特征，n为原子个数，t为特征数；A∈R^n×n和B∈R^n×n，为两个不同的邻接矩阵，用于表示蛋白质中原子的连接方式，邻接矩阵中A_ij=1表示原子i和j之间存在共价键，A_ij=0则相反；B_ij=1表示原子i和j之间存在氢键等弱作用力，B_ij=0则相反。

优选地，所述的数据预处理模块还包括训练数据预处理模块和预测数据预处理模块；所述的训练数据预处理模块用于训练数据的格式化和训练数据的划分，所述训练数据的格式化包括读取初始蛋白质的3D信息，小分子的SMILES或分子结构信息，将蛋白质的3D结构信息转化为

的多图形式，并保存为numpy或pytorch可读取的二进制文件，将小分子的SMILES或分子结构信息转化为图数据结构并保存为numpy或pytorch可读取的二进制文件，所述图数据结构为分子中的原子为图的节点，分子中的化学键为图的边，将小分子和所对应靶点蛋白的活性值与小分子图二进制文件地址及蛋白质多图二进制文件地址进行对应保存为csv文件，所述csv文件包含三列，第一列为小分子图二进制文件地址，第二列为蛋白质多图二进制文件地址，第三列为小分子和所对应靶点的活性值；所述训练数据的划分为将数据集按照所输入的比例将训练数据随机划分为三份，分别为训练集、测试集和验证集；所述的预测数据预处理模块用于读取初始蛋白质的3D信息，小分子的SMILES或分子结构信息，将蛋白质的3D结构信息转化为

的多图形式，并保存为numpy或pytorch可读取的二进制文件，将小分子的SMILES或分子结构信息转化为图数据结构并保存为numpy或pytorch可读取的二进制文件，所述图数据结构为分子中的原子为图的节点，分子中的化学键为图的边。

优选地，所述的训练模块包括：训练超参数设置模块和训练结果测试模块，所述的训练超参数设置模块用于对图神经网络的选择，训练所需的损失函数选择，学习率设置，优化器设置，训练样本批次量设置以及训练迭代次数设置；所述的训练结果测试模块用于计算训练结果评价指标，所述评价指标为MSE和CI：

(10)

(11)

(12)

其中，P_i、P_j为预测活性值，Y_i为真实活性值，n为样本的数量，Z为归一化常数，其值等于Y_i>Y_j的样本量。

进一步地，所述的预测模块用于采用基于图和3D蛋白质卷积神经网络的小分子和靶点的生物活性预测方法，根据已知活性的小分子药物和靶点训练活性预测模型，预测未知活性的小分子药物的生物活性。

本发明的另一方面涉及一种基于图和3D蛋白质结构卷积神经网络的小分子药物虚拟筛选方法，包括以下步骤：

（1）训练数据集的准备与预处理；

（2）小分子药物数据的预处理及分子图的特征表示方法；

（3）3D蛋白质结构的数据预处理；

（4）图神经网络对小分子图的特征提取；

（5）3D蛋白质结构卷积神经网络对蛋白质数据的特征提取；

（6）基于图和3D蛋白质结构卷积神经网络的小分子药物活性预测。

优选地，所述步骤（1）包括：

获取所需要的初始数据；其中，所述的初始数据包括药物和对应靶点的信息，所述信息包括小分子药物的SMILES码和分子结构数据，蛋白质的3D结构数据，及小分子和靶点发生作用所需要的生物活性值；使用编程的方法整理初始数据，清除无法打开或损坏的数据；

将初始数据中的数据按照小分子-靶点-生物活性的格式整理，得到训练数据。

进一步优选地，所述步骤（2）进一步包括：

使用RDKit（一种开源化学信息Python库）打开小分子药物的SMILES码，依次获取每个原子对象，对每个原子进行编码作为图的节点信息；依次获取每个化学键对象，对每个化学键进行编码作为图的边信息。

打开SMILES码的方法有RDKit库或直接使用python读取，RDKit作为化学信息库能够对小分子进行解析，获取小分子的SMILES码中原子和化学键的对象。

进一步优选地，所述步骤（3）进一步包括：

通过蛋白质的3D结构文件将蛋白质的3D结构转换为表征3D结构的蛋白质多图的形式，其中所述的蛋白质3D结构文件包含了蛋白质中每个原子的坐标和原子之间的连接方式，所述蛋白质多图为

，其中N∈R^n×3，为图的节点，由蛋白质中的原子3维坐标表示，n为蛋白质中原子个数；F∈R^n×t，为相关特征，n为原子个数，t为特征数；A∈R^n×n和B∈R^n×n，为两个不同的邻接矩阵，用于表示蛋白质中原子的连接方式，邻接矩阵中A_ij=1表示原子i和j之间存在共价键，A_ij=0则相反；B_ij=1表示原子i和j之间存在氢键等弱作用力，B_ij=0则相反。

进一步地，所述步骤（4）进一步包括：

针对小分子图，利用图神经网络的方法提取小分子图的特征，所述的图神经网络包括图卷积神经网络、图注意力神经网络、图同构神经网络和图卷积-注意力神经网络。

所述的图卷积神经网络使用了三个连续的图卷积神经网络层，每个图卷积神经网络层由一个非线性激活函数激活，最后一个图卷积神经网络层之后添加了一个全局最大池化层，使图卷积神经网络适用于学习整个图的向量表示任务。

其中图卷积神经网络层的定义如下：

（1）

其中 Z∈R^N×F为卷积特征矩阵，A为图邻接矩阵，D为图的对角度矩阵，Θ∈R^N×C为可训练的参数矩阵。

所述图注意力神经网络使用两个图注意力神经网络层，每个图注意力神经网络层由非线性激活函数激活，最后一个图注意力神经网络层之后添加一个全局最大池化层，使图注意力神经网络层用于学习整个图的向量表示任务。

所述的图注意力神经网络层包括小分子图的节点作为输入，使用加权矩阵W∈R^F ^’×F对每个节点进行线性变换，其中F和

分别为节点的输入和输出特征维度。在图中的输入节点i处，i与其一阶邻居之间的注意力系数计算如下：

（2）

的值表示节点j对节点i的重要性。权重系数通过使用soft-max函数归一化处理后，计算该层的输出为：

(3)

其中

为非线性激活函数，

为归一化后的注意力权重因子。

所述图同构神经网络包括五层图同构神经网络层，每个图同构神经网络层后添加一个归一化层，最后接一个全局最大的池化层用于聚合图的表示向量。

所述的同构神经网络层由多层感知器（MLP）更新节点，其计算方式如下：

(4)

其中

是可学习参数或固定标量。

所述图卷积-注意力神经网络包括一个图卷积层和一个图注意力层，每个图卷积层和每个图注意力层由非线性激活函数激活，最后一层接一个全局最大池化层和全局平均池化层。

进一步地，所述步骤（5）包括：

针对蛋白质多图（上述步骤（3）所构建的蛋白质多图）进行内-外距离的表示，针对蛋白质多图的内-外卷积和层级式的蛋白质池化。

所述针对蛋白质多图进行内-外距离的表示包括蛋白质多图内距离的表示和蛋白质多图外距离的表示。曲面微分几何将内属性定义为等距映射下（即保持曲面上曲线长度的变形下）不变的属性；另外将外属性定义为曲面在欧几里得空间的嵌入。类似地，针对蛋白质多图，我们定义了其内在几何特性为保持沿着图的路径长度的变形下不变的特性，即保持蛋白质连接性的变形；将其外在属性定义为依赖于蛋白质嵌入欧几里得空间的属性，即依赖于3D蛋白质构象。相对应地，我们定义了蛋白质多图的两个内在距离和一个外在距离。第一内在距离即为两个原子之间沿着图邻接矩阵A的最短路径，该距离为蛋白质原子之间固有的距离，表示了蛋白质的一级结构；第二内在距离即为两个原子之间沿着图邻接矩阵B的最短路径，该距离表示了蛋白质的二级结构；外在距离为原子之间的欧式距离，由欧氏空间中蛋白质的构象决定，可以表示蛋白质的三级和四级结构。

所述针对蛋白质多图的内-外卷积包括，一种基于三维蛋白质结构卷积。首先，我们将原子的邻域定义为欧几里得距离小于m_e的所有原子。此外，我们将卷积核定义为单个多层感知器（MLP），该感知器将上述的蛋白质多图的三个距离（一个外部距离和两个内部距离）作为输入，并输出所有内核的值。其中卷积算子定义如下：

(5)

其中，N（x）是欧几里得距离d<

的原子,

是原子x_i的输入特征

是上述映射R³→R的核，

是原子x和原子x_i之间的欧几里得距离，

和

是两个内在距离，m_e、m₁和m₂是允许的最大距离。

所述蛋白质池化包括氨基酸池化，α碳原子的池化和蛋白质主干部分的池化。

所述的氨基酸池化使用共价键作为边生成每个氨基酸的独立图，并应用谱聚类将节点数减少一半。由于蛋白质由20种氨基酸构成，因此这些氨基酸独立图的邻接矩阵会在整个蛋白质中重复使用。根据氨基酸池化矩阵，我们将蛋白质池化矩阵表示为P∈R^n×m, 其中n是蛋白质中输入原子的数量，m是简化蛋白质中生成簇的数量。如果原子i被聚合在簇 j中，则该矩阵定义为P_ij=1，反之为P_ij＝0。通过P我们可以使用以下公式创建一个简化的蛋白质图

，公式如下所示：

(6)

(7)

(8)

(9)

其中D∈R^n×m是一个对角线矩阵，

。所得的

和

可能不是二值邻接矩阵，即对角值为非零或者有的值大于1。因此我们规定对角值为0并将边值规定为1。并使用稀疏矩阵进行表示和计算减少内存。

所述的α碳原子池化包括，将蛋白质图简化为主干表示，将相同氨基酸的所有节点聚类到单个节点。我们将池化矩阵表示为P，若节点i属于氨基酸j，P_ij=1，反之为P_ij＝0。同样地，我们使用上述方程(6)-(9)计算，

被定义为每个氨基酸的α-碳位置，因为它们更好地代表主链和二级结构。

所述的主干池化包括蛋白质链中每两个氨基酸信息的聚合，有效地减少了一半的氨基酸数量。同样地，我们定义了P，并使用公式（6）-（9）来计算

，对于蛋白质中的每条链，若i/2 = j，则P_ij=1；反之P_ij=0。

进一步地，所述步骤（6）进一步包括：

对步骤（4）使用图神经网络提取的小分子特征和步骤（5）3D蛋白质结构卷积神经网络提取的蛋白质数据的特征进行整合，使用回归的方法对特征向量处理并且预测小分子和对应靶点蛋白的生物活性。所述整合方法包括对小分子特征和蛋白质特征使用全连接层进行线性变换，统一小分子和蛋白质的特征维度，然后将小分子特征和蛋白质特征拼接成一个特征向量，所述特征向量包括了小分子特征和蛋白质特征。所述使用回归的方法对特征向量进行生物活性预测包括使用3层全连接神经网络处理特征向量，在每层全连接神经网络后接入ReLu激活函数，在最后一层神经网络后输出活性值。

本发明的另外一方面涉及一种基于图和3D蛋白质结构卷积神经网络的小分子药物虚拟筛选装置。

本发明提供了一种基于图和3D蛋白质结构卷积神经网络的小分子药物虚拟筛选装置，包括：

（1）基于小分子和蛋白质数据预处理模块，用于药物和靶点原始数据的特征预处理；

（2）基于图和3D蛋白质卷积神经网络的模型预训练与微调模块，用于训练应用于具体任务的预测小分子生物活性的AI模型；

（3）小分子化合物及对应靶点的活性预测模块，用于预测小分子和其对应靶点的生物活性。

优选地，所述的基于小分子和蛋白质数据预处理模块包括：训练数据预处理模块和预测数据预处理模块。所述的训练数据预处理模块用于训练数据的格式化和训练数据的划分，所述训练数据的格式化包括读取初始蛋白质的3D信息，小分子的SMILES或分子结构信息，将蛋白质的3D结构信息转化为

的多图形式，并保存为numpy或pytorch可读取的二进制文件，将小分子的SMILES或分子结构信息转化为图数据结构并保存为numpy或pytorch可读取的二进制文件，所述图数据结构为分子中的原子为图的节点，分子中的化学键为图的边，将小分子和所对应靶点蛋白的活性值与小分子图二进制文件地址及蛋白质多图二进制文件地址进行对应保存为csv文件，所述csv文件包含三列，第一列为小分子图二进制文件地址，第二列为蛋白质多图二进制文件地址，第三列为小分子和所对应靶点的活性值；所述训练数据的划分为将数据集按照所输入的比例（默认比例为8：1：1）将训练数据随机划分为三份，分别为训练集、测试集和验证集。所述预测数据预处理模块用于读取初始蛋白质的3D信息，小分子的SMILES或分子结构信息，将蛋白质的3D结构信息转化为

进一步地，所述的基于图和3D蛋白质卷积神经网络的模型预训练与微调模块包括：训练超参数设置模块和训练结果测试模块。所述训练超参数设置模块包括对图神经网络的选择，训练所需的损失函数选择，学习率设置，优化器设置，训练样本批次量设置，训练迭代次数设置；所述训练结果测试模块用于计算训练结果评价指标，所述评价指标为MSE和CI：

(10）

(11)

（12）

进一步地，所述的小分子化合物及对应靶点的活性预测模块用于采用基于图和3D蛋白质卷积神经网络的小分子和靶点的生物活性预测方法，根据已知活性的小分子药物和靶点训练活性预测模型，预测未知活性的小分子药物的生物活性。

本申请还提出了一种执行设备，其包括：处理器和存储器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序以实现前面所述的方法。

本发明的有益效果：

蛋白质的3D结构决定了蛋白质的功能，小分子和蛋白质的作用发生在三维空间中，通常来说，小分子和蛋白质作用主要由弱作用力及空间位阻决定，所述弱作用力包括氢键，Π-Π作用，亲水-疏水作用，范德华力等作用。所述弱作用力和空间位阻由蛋白质的3D结构决定，即能否将蛋白质的活性位点暴露与小分子接触。

在现有技术中，预测药物和靶点之间生物活性的模型，主要以蛋白质序列和小分子SMILES码作为原始数据。虽然蛋白质的3D结构的折叠方式由蛋白质序列决定，即特定的蛋白质序列对应了特定的蛋白质3D结构，但在现有小分子生物活性预测模型中，所使用提取蛋白质特征的部分大多都十分简单，且有标签的生物活性数据集中，蛋白质序列数据数量非常少。因此，现有的小分子生物活性预测模型无法根据蛋白质序列来推理出蛋白质的3D空间结构信息。因此现有的技术对小分子和蛋白质之间生物活性的预测能力有限。

本发明使用了基于图和3D蛋白质卷积神经网络的方法预测小分子和靶点之间的生物活性进行小分子药物的虚拟筛选。该方法使用蛋白质的3D结构数据，有效地提取到蛋白质的空间结构特征和化学结构特征，能够更加准确地预测出小分子和靶点蛋白间的生物活性。

附图说明

为了更清楚地说明本发明技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请适用的实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1：本发明涉及的一种系统架构示意图；

图2：实施例1涉及的基于图和3D蛋白质结构卷积神经网络模型数据预处理和训练示意图；

图3：实施例1涉及的基于图和3D蛋白质结构卷积神经网络模型示意图；

图4：实施例1涉及的基于3D蛋白质结构卷积神经网络分支示意图；

图5：实施例2涉及的小分子生物活性预测的方法流程示意图；

图6：实施例2涉及的靶点蛋白AAK1的3D结构示意图；

图7：实施例3涉及的一种基于图和蛋白质3D结构卷积神经网络的虚拟筛选装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的基于图和预训练蛋白质语言模型的小分子药物虚拟筛选方法进行描述。

在一些实施例中，本申请一个实施例的系统架构如图1所示。

图1为本申请的一个实施例涉及的一种系统架构示意图，该系统包括内容库101、训练设备102、数据预处理模块103、数据库104、训练模块105、执行设备106、AI模型107、预测模块108、I/O接口109和用户设备110。

训练设备102可以为服务器。

其中数据预处理模块103用于处理从内容库101读取的原始数据，并将处理后的数据存储至数据库104中。训练模块105用于基于数据库104中存储的训练数据对AI模型进行训练，使得训练后的AI练模型可以有效地预测小分子药物对所对应靶点的亲和力。训练模块105得到的小分子亲和力预测模型可以应用到不同的系统设备中。

另外，参考图1，执行设备106配置有I/O接口109与外部设备进行数据交互。比如，通过I/O接口接收用户设备110发送的待预测的小分子和蛋白质信息，例如小分子结构式和蛋白质的三维结构。执行预测模块108使用训练好的AI模型107对小分子和蛋白质信息进行处理，输出预测的小分子的生物活性结果，并通过I/O接口将结果发送至用户设备110。

执行设备106可以为服务器。

示例性的，服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备。该服务器可以是独立的测试服务器，也可以是多个测试服务器所组成的测试服务器集群。

本实施例中，执行设备106通过网络与用户设备110连接。所述网络可以是企业内部网 (Intranet)、互联网 (Internet)、全球移动通讯系统 (Global System of Mobilecommunication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、WiFi、通话网络等无线或有线网络。

需要说明的是，图1仅是本申请的一个实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。在一些实施例中，上述训练设备102与执行设备106可以为同一个设备。用户设备110可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)或其他具有安装浏览器功能的终端设备。

优选地，所述的原始数据包括药物和对应靶点的信息，所述信息包括小分子药物的SMILES码和分子结构数据，蛋白质的3D结构数据，及小分子和靶点发生作用所需要的生物活性值；所述的数据预处理模块103用于使用编程的方法整理初始数据，清除无法打开或损坏的数据；将初始数据中的数据按照小分子-靶点-生物活性的格式整理，得到训练数据。

优选地，所述的数据预处理模块103还用于使用RDKit打开小分子药物的SMILES码，依次获取每个原子对象，对每个原子进行编码作为图的节点信息；依次获取每个化学键对象，对每个化学键进行编码作为图的边信息。

优选地，所述的数据预处理模块103还用于通过蛋白质的3D结构文件将蛋白质的3D结构转换为表征3D结构的蛋白质多图的形式，其中所述的蛋白质3D结构文件包含了蛋白质中每个原子的坐标和原子之间的连接方式，所述的蛋白质多图为

优选地，所述的数据预处理模块103还包括训练数据预处理模块和预测数据预处理模块；所述的训练数据预处理模块用于训练数据的格式化和训练数据的划分，所述训练数据的格式化包括读取初始蛋白质的3D信息，小分子的SMILES或分子结构信息，将蛋白质的3D结构信息转化为

优选地，所述的训练模块105包括：训练超参数设置模块和训练结果测试模块，所述的训练超参数设置模块用于对图神经网络的选择，训练所需的损失函数选择，学习率设置，优化器设置，训练样本批次量设置以及训练迭代次数设置；所述的训练结果测试模块用于计算训练结果评价指标，所述评价指标为MSE和CI：

(10)

(11)

(12)

进一步地，所述的预测模块108用于采用基于图和3D蛋白质卷积神经网络的小分子和靶点的生物活性预测方法，根据已知活性的小分子药物和靶点训练活性预测模型，预测未知活性的小分子药物的生物活性。

下面通过一些实施例对本申请的技术方案进行详细说明。下面这几个实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本申请的一个实施例（实施例1）提供的基于图和3D蛋白质结构卷积神经网络模型数据预处理和训练的实施例，如图2所示，包括：初始数据集制作S201，用于从网络数据库中初步地寻找训练数据；数据预处理S202，主要用于对初始数据处理以用于对模型的训练；AI模型搭建S203，主要通过构建AI模型代码用于将训练数据流入AI模型；AI模型的训练与测试S204，主要通过训练数据对AI模型的参数进行调整，用于训练出能够准确预测小分子生物活性的参数。

所述初始数据集制作S201具体包括：

首先将收集到的小分子药物SMILES码与对应靶点蛋白3D结构文件地址及活性标签写入CSV文件中，CSV文件共有3列，第一列为SMILES码，第二列为靶点蛋白质3D结构文件地址，第三列为活性标签。

按照6:3:1的比例将数据集划分为训练集、验证集和测试集，数据集制作完成。

所述数据集预处理S202具体包括：

（1）将小分子化合物SMILES码转化为图

优选地使用RDKit（一种开源化学信息Python库）打开SMILES码，依次获取每个原子对象，分别对每个原子的元素名称（44维）、原子连接数（11维）、连接氢原子（11维）数、化合价（11维）及芳香性（1维）编码为one-hot向量，并将上述的4个one-hot向量拼接成78维的向量，该向量将作为图的节点信息；依次获取每个化学键对象，取化学键所连接两个原子的索引值，并保存在二维数组中，该二维数组即为图的边信息。

（2）对蛋白质3D结构文件转换为蛋白质多图数据

优选地，使用蛋白质的3D结构文件将蛋白质的3D结构转换为表征3D结构的多图形式方法，包括：其中所述的蛋白质3D结构文件包含了蛋白质中每个原子的坐标和原子之间的连接方式，所述多图为

，其中N∈R^n×3，为图的节点，由蛋白质中的原子3维坐标表示，n为蛋白质中原子个数；F∈R^n×t，为相关特征，n为原子个数，t为特征数；A∈R^n×n和B∈R^n×n，为两个不同的邻接矩阵用于表示蛋白质中原子的连接方式，A_ij=1表示原子i和j之间存在共价键，A_ij=0则相反；B_ij=1表示原子i和j之间存在氢键等弱作用力，B_ij=0则相反。

进一步地，通过所述的使用蛋白质的3D结构文件将蛋白质的3D结构转化为表征3D结构的多图形式的方法对原始数据中的蛋白质3D结构文件进行转换，并将转换的结构保存为python可读取的二进制文件。

所述AI模型的搭建S203具体包括：

基于图和3D蛋白质结构卷积神经网络模型，如图3所示，所述模型包括小分子图神经网络分支，主要用于提取和解析小分子图数据特征；基于3D蛋白质结构卷积神经网络分支，主要用于提取和解析蛋白质的3D结构数据特征；预测小分子药物和靶点蛋白之间生物活性的回归头，主要用于小分子的生物活性预测。

优选地，所述处理小分子的图神经网络分支，包括：

所述的图卷积神经网络包括使用了三个连续的图卷积层，每个层由一个非线性激活函数激活，最后一个图卷积神经网络层之后添加了一个全局最大的池化层，使图卷积神经网络适用于学习整个图的向量表示任务。其中图卷积层定义如下：

所述图注意力神经网络包括使用两个图注意力网络层，每层由非线性激活函数激活，最后一个图注意力神经网络层之后添加一个全局最大的池化层，使图注意力网络层用于学习整个图的向量表示任务。所述的图注意力网络层包括小分子图的节点作为输入，使用加权矩阵W∈R^F’×F对每个节点进行线性变换，其中F和

的值表示节点j对节点i的重要性，a为邻接矩阵，W为需训练参数。权重系数通过使用soft-max函数归一化处理后，计算该层的输出为：

其中

为非线性激活函数，

为归一化后的注意力权重因子。

所述图同构神经网络包括五层图同构神经网络层，每个图同构神经网络层后添加一个归一化层，最后接一个全局最大的池化层用于聚合图的表示向量。所述的同构神经网络层由多层感知器（MLP）更新节点，其计算方式如下：

其中

是可学习参数或固定标量。

所述图卷积-注意力神经包括一个图卷积层和一个图注意力层，每层后由非线性激活函数激活，最后一层接一个全局最大池化层和全局平均池化层。

进一步地，基于3D蛋白质结构卷积神经网络分支，包括：

针对蛋白质多图进行内-外距离的表示，针对蛋白质多图的内-外卷积和层级式的蛋白质池化。

所述针对蛋白质多图内-外距离的表示包括蛋白质多图内距离的表示和蛋白质多图外距离的表示。曲面微分几何将内属性定义为等距映射下（即保持曲面上曲线长度的变形下）不变的属性；另外将外属性定义为曲面在欧几里得空间的嵌入。类似地，针对蛋白多图，我们定义了其内在几何特性为保持沿着图的路径长度的变形下不变的特性，即保持蛋白质连接性的变形；将其外在属性定义为依赖于蛋白质嵌入欧几里得空间的属性，即依赖于3D蛋白质构象。相对应地，我们定义了蛋白质多图的两个内在距离和一个外在距离。第一内在距离即为两个原子之间沿着图邻接矩阵A的最短路径，该距离为蛋白质原子之间固有的距离，表示了蛋白质的一级结构；第二内在距离即为两个原子之间沿着图邻接矩阵B的最短路径，该距离表示了蛋白质的二级结构；外在距离为原子之间的欧式距离，由欧氏空间中蛋白质的构象决定，可以表示蛋白质的三级和四级结构。

所述针对蛋白质多图的内-外卷积包括一种基于三维蛋白质结构卷积。首先，我们将原子的邻域定义为欧几里得距离小于m_e的所有原子。此外，我们将卷积核定义为单个多层感知器（MLP），该感知器将上述的蛋白质多图的三个距离（一个外部距离和两个内部距离）作为输入，并输出所有内核的值。其中卷积算子定义如下：

其中，N（x）是欧几里得距离d<

的原子,

是原子x_i的输入特征

是上述映射R³→R的核，

是原子x和原子x_i之间的欧几里得距离，

和

是两个内在距离，m_e、m₁和m₂是允许的最大距离。

，蛋白质图

构建公式如下所示：

其中D∈R^n×m是一个对角线矩阵，

。所得的

和

所述的α碳原子池化包括将蛋白质图简化为主干表示，将相同氨基酸的所有节点聚类到单个节点。我们将池化矩阵表示为P，若节点i属于氨基酸j，P_ij=1，反之为P_ij＝0。同样地，我们使用上述蛋白质图

构建公式计算

，

所述的主干池化包括蛋白质链中每两个氨基酸信息的聚合，有效地减少了一半的氨基酸数量。同样地，我们定义了P，并使用蛋白质图

构建公式来计算

，对于蛋白质中的每条链，若i/2 = j，则P_ij=1；反之P_ij=0。

根据上述蛋白质多图内-外距离表示、蛋白质多图的内-外卷积和蛋白质池化方法，构建基于3D蛋白质结构卷积神经网络分支，如图4所示，所述构建的基于3D蛋白质结构卷积神经网络分支包括10个蛋白质内-外卷积层、5个池化层和1个全连接层，其中每2个卷积层后跟随1个池化层，最后一层为全连接层。

进一步地，所述预测小分子药物和靶点蛋白之间生物活性的回归头，包括：

将所述处理小分子的图神经网络分支所提取和解析的数据特征和所述基于3D蛋白质结构卷积神经网络分支所提取和解析的数据特征整合拼接，得到由小分子图的特征和蛋白质结构特征组合的特征向量。使用3层全连接神经网络，对特征向量进行回归处理，回归结果即为小分子药物和靶点蛋白之间生物活性的预测值。

进一步地，模型的训练与测试S204，包括：

（1）模型的训练与测试

用数据集中的训练集和测试集对步骤S203中所述的模型进行训练和测试，若训练后的模型收敛，存储训练后的模型。使用验证集对存储后的模型进行验证,验证指标主要有平均误差（MSE）和一致性指数（CI）：

在公式中，P为预测值，Y为真值，n为样本数量。一致性指数CI是衡量两个预测值的大小是否更真值一致的指标，P_i和P_j是两个样本的预测值，Y_i和Y_j是两个样本的真值。

若模型验证结果的误差值小于基线模型的误差，保存模型。将收集到未知生物活性的小分子药物数据和靶点蛋白数据进行数据预处理后放入验证后的模型进行生物活性预测。

前面对数据的预处理和模型的训练进行了描述，第二方面对其应用进行描述。图5显示根据本申请一实施例（实施例2）对小分子生物活性预测的方法流程示意图，下面参考图5对该方法进行描述。所述小分子生物活性预测的实施例包括数据预处理S301和模型预测S302。

示例性的，以预测小分子化合物11409972（CID为11409972）和靶点AAK1为例来具体介绍。

所述数据预处理S301包括：

获取需要预测的小分子的SMILES码和靶点蛋白质的3D结构信息，如图6所示。（小分子化合物11409972的SMILES为CC1=CC2=C(N1)C=CC(=C2F)OC3=NC=NN4C3=C(C(=C4)OCC(C)O)C，靶点蛋白AAK1的3D结构文件下载地址：https://swissmodel.expasy.org/repository/6268c8a2e35c16d778c3a0a9.pdb）。

对化合物11409972的SMILES码和靶点AAK1的3D结构进行预处理处理。使用RDKit（一种开源化学信息Python库）加载化合物11409972的SMILES码，依次获取每个原子对象，分别对每个原子的元素名称（44维）、原子连接数（11维）、连接氢原子（11维）数、化合价（11维）及芳香性（1维）编码为one-hot向量，并将上述的4个向量拼接成78维的向量，该向量将作为图的节点信息；依次获取每个化学键对象，取化学键所连接两个原子的索引值，并保存在二维数组中，该二维数组即为图的边信息，保存图的节点和边为二进制文件。

使用蛋白质的3D结构文件将蛋白质的3D结构转换为表征3D结构的多图形式方法，包括：其中所述的蛋白质3D结构文件包含了蛋白质中每个原子的坐标和原子之间的连接方式，所述多图为

，其中N∈R^n×3，为图的节点，由蛋白质中的原子3维坐标表示，n为蛋白质中原子个数；F∈R^n×t，为相关特征，n为原子个数，t为特征数；A∈R^n×n和B∈R^n×n，为两个不同的邻接矩阵用于表示蛋白质中原子的连接方式，A_ij=1表示原子i和j之家存在共价键，A_ij=0则相反；B_ij=1表示原子i和j之间存在氢键等弱作用力，B_ij=0则相反。

进一步地，通过所述的使用蛋白质的3D结构文件将蛋白质的3D结构转化为表征3D结构的多图形式的方法对原始数据中的蛋白质3D结构文件进行转换，并将转换的结构保存文python可读取的二进制文件。

所述模型预测S302包括：

将小分子预处理后的二进制文件和蛋白质3D结构预处理的二进制文件载入训练好的AI模型。经模型加载预测后得到化合物11409972和靶点AAK1的活性值Ki为100000nM。

如前所述，本申请实施例提供的基于图和3D蛋白质结构卷积神经网络的虚拟筛选方法和装置，能够直接对小分子和蛋白质的结构信息进行特征学习和特征提取，从而能够预测出小分子的生物活性。

参考图7，第三方面，本申请的实施例3提出了一种基于图和蛋白质3D结构卷积神经网络的虚拟筛选装置，其包括：

数据预处理模块401，用于基于起始小分子结构和蛋白质的三维结构，构建起始小分子拓扑图G和蛋白质多图MG，其中，所述起始小分子拓扑图G采用所述起始小分子的原子节点，所述起始小分子拓扑图G采用化学键作为边；所述蛋白质多图MG采用蛋白质3维结构的原子3维坐标和原子相关特征作为节点；所述的蛋白质多图MG多图采用原子间的化学键和氢键等弱作用力作为边。

训练模块与微调模块402，用于将所述起始拓扑图G输入至模型，对所述模型进行训练，以便获得用于对所述基于图和3D蛋白质结构卷积神经网络模型。

小分子生物活性预测模块403，用于对所述小分子生物活性进行预测。

第四方面，本申请的实施例提出了一种执行设备，其包括：处理器和存储器；

所述存储器，用于存储计算机程序；

本领域技术人员能够理解，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，各装置可以对应于执行本申请实施例的方法中的相应主体，并且各装置中的各个模块的前述和其它操作和/或功能分别为了实现上述各个方法中的相应流程，为了简洁，在此不再赘述。

Claims

1.一种基于图和3D蛋白质结构卷积神经网络的小分子药物虚拟筛选系统，其特征在于，包括内容库、训练设备、执行设备和用户设备，所述的内容库中存储有原始数据，所述的原始数据包括药物和对应靶点的信息，所述信息包括小分子药物的SMILES码和分子结构数据、蛋白质的3D结构数据、小分子和靶点发生作用所需要的生物活性值；所述的训练设备包括数据预处理模块、数据库和训练模块；所述的执行设备包括AI模型、预测模块和I/O接口；其中所述的数据预处理模块用于处理从内容库读取的原始数据，并将处理后的数据作为训练数据存储至数据库中；所述的数据预处理模块还用于使用编程的方法整理原始数据，清除无法打开或损坏的数据；将原始数据中的数据按照小分子-靶点-生物活性的格式整理，得到训练数据；所述的数据预处理模块还用于使用RDKit库打开小分子药物的SMILES码，依次获取每个原子对象，对每个原子进行编码作为图的节点信息；依次获取每个化学键对象，对每个化学键进行编码作为图的边信息，将小分子的SMILES码转换为图的数据结构得到小分子图；所述的数据预处理模块还用于通过蛋白质的3D结构文件将蛋白质的3D结构转换为表征3D结构的蛋白质多图的形式，其中所述的蛋白质3D结构文件包含蛋白质中每个原子的坐标和原子之间的连接方式，所述蛋白质多图为G=(N，F，A，B)；其中N∈R^n×3，为图的节点，由蛋白质中的原子三维坐标表示，n为蛋白质中原子个数；F∈R^n×t，为相关特征，t为特征数；A∈R^n×n和B∈R^n×n，为两个不同的邻接矩阵，用于表示蛋白质中原子的连接方式，邻接矩阵中A_ij=1表示原子i和j之间存在共价键，A_ij=0则相反；B_ij=1表示原子i和j之间存在氢键弱作用力，B_ij=0则相反；所述的训练模块用于基于数据库中存储的训练数据，对AI模型进行训练，使得训练后的AI模型能够预测小分子药物对所对应靶点的亲和力；所述AI模型的搭建包括利用图神经网络的方法提取小分子图的特征，所述的图神经网络包括图卷积神经网络、图注意力神经网络、图同构神经网络和图卷积-注意力神经网络；利用3D蛋白质结构卷积神经网络对蛋白质数据的特征进行提取，针对蛋白质多图进行内-外距离的表示，针对蛋白质多图的内-外卷积和层级式进行蛋白质池化；所述针对蛋白质多图进行内-外距离的表示包括蛋白质多图内距离的表示和蛋白质多图外距离的表示，定义蛋白质多图包括两个内在距离和一个外在距离；第一内在距离为两个原子之间沿着图邻接矩阵A的最短路径，该距离为蛋白质原子之间固有的距离，表示蛋白质的一级结构；第二内在距离为两个原子之间沿着图邻接矩阵B的最短路径，该距离表示蛋白质的二级结构；外在距离为原子之间的欧式距离，由欧氏空间中蛋白质的构象决定，表示蛋白质的三级和四级结构；所述蛋白质池化包括氨基酸池化、α碳原子的池化和蛋白质主干部分的池化；所述的氨基酸池化使用共价键作为边生成每个氨基酸的独立图，并应用谱聚类将节点数减少一半；根据氨基酸池化矩阵，将蛋白质池化矩阵表示为P∈R^n×m, 其中n是蛋白质中原子个数，m是简化蛋白质中生成簇的数量；如果原子i被聚合在簇 j中，则该矩阵定义为P_ij=1，反之为P_ij＝0；对提取的小分子图的特征和提取的蛋白质数据的特征进行整合，使用回归的方法对特征向量处理并且预测小分子和对应靶点蛋白的生物活性；所述整合包括对小分子图的特征和蛋白质数据的特征使用全连接层进行线性变换，统一小分子和蛋白质的特征维度，将小分子图的特征和蛋白质数据的特征拼接成一个特征向量，所述特征向量包括了小分子图的特征和蛋白质数据的特征；所述使用回归的方法对特征向量处理并且预测小分子和对应靶点蛋白的生物活性包括使用3层全连接神经网络处理特征向量，在每层全连接神经网络后接入ReLu激活函数，在最后一层神经网络后输出生物活性值；所述的执行设备通过所述的I/O接口与用户设备进行数据交互，接收用户设备发送的待预测的小分子和蛋白质信息；所述的预测模块使用训练好的AI模型对所述的小分子和蛋白质信息进行处理，输出预测的小分子的生物活性结果，并通过I/O接口将结果发送至用户设备。