CN110232954A

CN110232954A - 基于迁移学习的分子对接方法和系统

Info

Publication number: CN110232954A
Application number: CN201910505743.7A
Authority: CN
Inventors: 常珊; 陆旭峰; 刘明; 孔韧; 刘斌
Original assignee: Jiangsu University of Technology
Current assignee: Pmr Changzhou Biotechnology Co ltd
Priority date: 2019-05-10
Filing date: 2019-06-12
Publication date: 2019-09-13
Anticipated expiration: 2039-06-12
Also published as: CN110232954B

Abstract

本发明提供了一种基于迁移学习的分子对接方法和系统，所述方法包括：获取多个对接样本的3维空间坐标、范德华半径和原子类型；根据对接样本的原子类型划分通道数，并根据3维空间坐标及范德华半径计算每个格点上对应的值，得到多通道3维网格数据；将所述多通道3维网格数据输入到网络架构中，输出每个对接样本的分值，并根据分值对对接样本进行归类，以此训练出对接模型，其中，对于第一次训练出来的对接模型用于不同家族的迁移学习上，针对多个对接样本不同的家族训练出不同的对接模型。本发明能够根据对接样本自动训练出一个对接模型，使其能够准确地完成分子对接，并且能够使其符合样本不同的家族的实际应用场景，并提高分子对接的准确率。

Description

基于迁移学习的分子对接方法和系统

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于迁移学习的分子对接方法和一种基于迁移学习的分子对接系统。

背景技术

目前分子对接技术领域主要存在两大难点，一个是计算效率，一个是打分函数。

随着GPU通用计算的研究，计算效率问题得到了一定的缓解，但是评判对接的好坏的打分问题仍待解决。传统的打分策略主要有基于知识的评价函数、基于经验的评价函数、以及基于分子力场的评价函数，但是这些打分策略都有自身的缺陷，一般很难有效的根据对接样本自动学习，从而给出一个正确的对接情况。此外，对于不同样本对接的实际场景，还存在对接的准确率较低的情况。

发明内容

本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此，本发明的一个目的在于提出一种基于迁移学习的分子对接方法，能够根据对接样本自动训练出一个对接模型，使其能够准确地完成分子对接，并且针对样本不同的家族分别训练出不同的对接模型，使其符合样本不同的家族的实际应用场景，并提高分子对接的准确率。

本发明的第二个目的在于提出一种基于迁移学习的分子对接系统。

为达到上述目的，本发明第一方面实施例提出了一种基于迁移学习的分子对接方法，包括：获取多个对接样本的3维空间坐标、范德华半径和原子类型；根据对接样本的原子类型划分通道数，并根据3维空间坐标及范德华半径计算每个格点上对应的值，得到多通道3维网格数据；将所述多通道3维网格数据输入到网络架构中，输出每个对接样本的分值，并根据分值对对接样本进行归类，以此训练出对接模型，其中，对于第一次训练出来的对接模型用于不同家族的迁移学习上，针对多个对接样本不同的家族训练出不同的对接模型。

根据本发明实施例的基于迁移学习的分子对接方法，通过获取的对接样本的原子类型划分通道数，并根据3维空间坐标及范德华半径计算每个格点上对应的值，得到多通道3维网格数据，然后将多通道3维网格数据输入到网络架构中，获得每个对接样本的分值，最后根据分值对对接样本进行归类，以此训练出对接模型，其中，对于第一次训练出来的对接模型用于不同家族的迁移学习上，针对多个对接样本不同的家族训练出不同的对接模型，由此，能够根据对接样本自动训练出一个对接模型，使其能够准确地完成分子对接，并且针对样本不同的家族分别训练出不同的对接模型，使其符合样本不同的家族的实际应用场景，并提高分子对接的准确率。

另外，根据本发明上述实施例提出的基于迁移学习的分子对接方法还可以具有如下附加的技术特征：

进一步地，所述网络架构包括数据输入层、特征提取层和评分器。

进一步地，所述特征提取层包括多个池化层、多个卷积层、多个多卷积模块、多个多路复合卷积模块和全连接层。

进一步地，所述数据输入层连接到池化层，所述评分器连接到全连接层。

进一步地，所述多路复合卷积模块包括3层，每层包括一个归一化层、一个3x3x3卷积操作层和一个线性单元层。

进一步地，所述评分器还生成反馈信号，用于在训练期间对一个或多个所述池化层、多卷积模块、多路复合卷积模块和全连接层施加监督信号，从而通过将所述监督信号反向传输到串接的多卷积模块和池化层，或者串接的多卷积模块、池化层和多路复合卷积模块，调整深度特征提取层中的神经权重。

根据本发明的一个实施例，其中，针对家族数目不同的情况，采用不同的迁移学习参数，以及调整不同的特征提取层。

进一步地，所述迁移学习参数包括学习率、学习率递减幅度和训练次数。

进一步地，所述调整不同的特征提取层包括：在家族数目稀少的样本中，通过调整少量的卷积层，以防过度迁移。

为达到上述目的，本发明第一方面实施例提出了一种基于迁移学习的分子对接系统，包括1个CPU(Central Processing Unit，中央处理器)和至少1个GPU(GraphicsProcessing Unit，图形处理器)，以及至少一个由CPU或GPU处理的程序，所述程序被执行时实现本发明第一方面提出的基于迁移学习的分子对接方法。

根据本发明实施例的基于迁移学习的分子对接系统，能够根据对接样本自动训练出一个对接模型，使其能够准确地完成分子对接，并且针对样本不同的家族分别训练出不同的对接模型，使其符合样本不同的家族的实际应用场景，并提高分子对接的准确率。

附图说明

图1为本发明实施例的基于迁移学习的分子对接方法的流程图；

图2为本发明一个实施例的表征对接样本的示意图；

图3为本发明一个实施例的网络构架的方框图；

图4为本发明一个实施例的深度特征提取层结构示意图；

图5为本发明一个实施例的多卷积模块的示意图；

图6为本发明一个实施例的多路复合卷积模块的结构示意图；

图7为本发明一个实施例的多路复合卷积模块的具体操作步骤流程图；

图8为本发明一个实施例的多路复合卷积模块的示意图；

图9为本发明一个实施例的多路复合卷积层的处理示意流程图；

图10为本发明一个实施例的迁移学习的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例的基于迁移学习的分子对接方法的流程图。

如图1所示，本发明实施例的基于迁移学习的分子对接方法，包括以下步骤：

S1，获取多个对接样本的3维空间坐标、范德华半径和原子类型。

S2，根据对接样本的原子类型划分通道数，并根据3维空间坐标及范德华半径计算每个格点上对应的值，得到多通道3维网格数据。

在本发明的一个实施例中，可根据对接样本的原子类型划分通道数，例如，如图2所示，可划分为类型通道0、类型通道1……类型通道33共34个类型通道，并根据3维空间坐标及范德华半径计算每个格点上对应的值，得到图示3维网格数据。

S3，将多通道3维网格数据输入到网络架构中，输出每个对接样本的分值，并根据分值对对接样本进行归类，以此训练出对接模型。

在本发明的一个实施例中，如图3所示，网络架构包括数据输入层10、特征提取层20和评分器30。其中，特征提取层20包括多个池化层、多个卷积层、多个多卷积模块、多个多路复合卷积模块和全连接层，可被配置或者被训练为从多个3维网格数据提取识别特征。数据输入层10连接到池化层，具体地数据输入层10的输出直接连接至一个池化层和一个卷积层，主要用于数据量的缩减；评分器30与特征提取层20相串联，并且根据提取的特征判断对接样本的对接情况，并反馈给特征提取层20，用于在训练期间对一个或多个池化层、多卷积模块、多路复合卷积模块和全连接层施加监督信号，从而调整深度特征提取层中的神经权重。

在本发明的一个具体实施例中，如图4所示，深度特征提取层包括交替的多个多卷积模块、多个多路复合卷积模块、1x1x1卷积层、2x2x2池化层和全连接层，其中，多路复合卷积模块串联在多卷积模块之后，主要用于将每个卷积模块的输出进行堆叠，并且深度特征提取层最后连接至少一个全连接层。其中，首个多卷积模块从输入的3维网格数据提取局部特征，且后续的多卷积模块从在前的池化层输出的提取特征中，进一步提取局部特征，每个池化层从各自的多卷积模块接收局部特征，并且降低数据的维度，每个池化层除了连接在数据输出层以外，还用于连接每个多路复合卷积模块，每个多路复合卷积模块输出至一个1x1x1的卷积层以及一个2x2x2的池化层，并且最后一层的输出连接至一个或多个全连接层。

在本发明的一个实施例中，每个多卷积模块包含多个串联的卷积层，图5所示的为四个串联的卷积层的示意图。然而，在本发明中，多卷积模块可包括任意数量的卷积层，例如1个、2个、3个，或者更多。在多卷积模块仅包含一个卷积层的极端情形中，它降级到传统的卷积模块。因此，多卷积模块是传统卷积模块的泛化。

在本发明的一个实施例中，如图6所示，多路复合卷积模块包括3层，一个归一化层、一个3x3x3卷积操作层和一个线性单元层。

在本发明的一个实施例中，如图7所示，多路复合卷积模块具体操作步骤包括：归一化层可用于执行数据归一化，具体包括可对多上一层输出结果数据进行归一化操作和可对归一化后的数据进行平移和缩放；3x3x3卷积操作层可用于执行3x3x3卷积操作；线性单元层可用于激活上一层输出结果。

在本发明的一个实施例中，上述3个操作层可作为一个整体，并重复N次形成一个多卷积模块，及每层包括N个上述操作层，N个上述操作层依次输出N个特征结果，将这N个特征结果堆叠到一起，从而形成了用于输入下一复合卷积层的特征结果。

在本发明的一个实施例中，每个多路复合卷积模块包括一个或多个串联的复合卷积层，图8所示的为4个串联的复合卷积层的示意图。

在本发明的一个实施例中，如图9所示，首个复合卷积层可生成多个第一输出特征图，下一个复合卷积层可生成多个第二输出特征图，后一个复合卷积层可生成多个第三输出特征图，参照图4，其中每个复合卷积层连接一个1x1x1卷积层，通过1x1x1卷积层连接第一、第二和第三特征图，并且对接收的特征图执行1x1x1的卷积操作，压缩特征图数量。

在本发明的一个实施例中，多路复合卷积模块最后一层的输出连接至全连接层，全连接层最后连接至评分器30，根据评分器30获得对应数据样本的分值，并根据分值情况对样本进行归类。

在本发明的一个实施例中，对于第一次训练出来的对接模型用于不同家族的迁移学习上，针对多个对接样本不同的家族训练出不同的对接模型，采用不同的迁移学习参数，以及调整不同的特征提取层。其中，迁移学习参数包括学习率、学习率递减幅度和训练次数，调整不同的特征提取层包括在家族数目稀少的样本中，通过调整少量的卷积层，以防过度迁移。

图10为本发明的一个实施例的迁移学习的结构示意图。如图10所示，迁移学习的学习过程是将知识从源域迁移到目标域。

下面将以DUD-E数据集为例，进一步介绍本发明的实现过程。

在本发明的一个具体实施例中，DUD-E数据集由102个target组成，有大约20000正样本和大约100万个负样本。为了形成训练集，首先通过对接软件来进行采样打分，并选取合适的对接结果样本作为训练集。

然后，根据对接数据集的特征，将受体和配体划分为不同种类型，比如以DUD-E数据集为例，可以将受体划分为：疏水性脂肪族碳、非疏水性脂肪族碳、疏水性芳香碳、非疏水性芳香碳、钙、铁、镁、氮、受体氮、供体受体氮、磷、硫、锌等多种类型，配体划分为：疏水性脂肪族碳、非疏水性脂肪族碳、疏水性芳香碳、非疏水性芳香碳、溴、氯、氟、碘、氮、受体氮、供体受体氮、磷、硫等多种类型。

根据以上原子类型，每次输入数据输入层10的数据有多个个通道，每个通道都是一个3维网格数据块。

为了更快速的运行程序，计算程序还应该能够预先对数据集进行一个处理，将原本的文件格式转换为二进制文件，只保留原始数据的坐标和原子类型。

为了针对数据集的不平衡问题，计算程序还应该能够解决该问题，具体的实施方式是：强制输入数据输入层100的正负样本比例为1:1，比如一次性输入64个样本，则32个为正样本，32个负样本。

为了防止训练模型出现过拟合的现象，除了加入正则化技术外，计算程序还应该包括有对训练样本进行平移和旋转的功能，这样训练的出来的模型在测试集上进行表现时才不会太多的依赖于受体配体对接时的对接位点。

进一步地，参照图3，在数据处理完的情况下，可将得到的每个通道的3维网格数据以数据块的形式输入到数据输入层10，数据输入层10的输出直接连接至一个2x2x2的池化层和3x3x3的卷积层，主要用于数据量的缩减。然后循环的进行多卷积模块和多复合卷积模块提取对接样本的对接位点特征。其中，首个多卷积模块从输入的3维网格数据提取局部特征，且后续的多卷积模块从在前的池化模块输出的提取特征中，进一步提取局部特征，其中，每个池化模块从各自的多卷积模块接收局部特征，并且降低数据的维度。其中多路复合卷积模块最后一层的输出连接至全连接层，全连接层最后连接至评分器30，根据评分器30获得对应数据样本的分值，并根据分值情况对样本进行归类。

评分器30与特征提取层20相串联，并且根据提取的特征判断对接样本的对接情况，并反馈给特征提取层20，用于在训练期间对一个或多个池化模块、多卷积模块、多路复合卷积模块和全连接模块施加监督信号，从而通过将监督信号反向传输到串接的多卷积模块和池化模块，或者串接的多卷积模块、池化模块和多路复合卷积模块，调整深度特征提取层中的神经权重。

在上述所有样本上训练出一个模型后，为了使得训练的模型更加符合实际应用场景并提高准确度，本发明针对不同家族做了不同的迁移学习。

DUD-E数据集的102个target，根据不同的结构类型可以分为以下5个家族，分别对应的家族和所拥有的target数目为：kinase(26targets)、protease(15targets)、nuclear(11targets)、GPCR(5targets)、other(45targets)。

针对不同家族做不同的迁移学习包括采用不同的迁移学习参数，以及调整不同的特征提取模块，原因在于家族样本数目的不同。

以GPCR为例，因为具有较少的targets，因此在迁移学习时不需要调整所有特征提取层的参数，也因此需要更小的学习率，而对于其他家族，需要调整所有参数以及一个较之GPCR家族来说更大的学习率，来得到一个针对该家族分类效果好的模型。

对应上述实施例，本发明提出了一种基于迁移学习的分子对接系统，包括1个CPU和至少1个GPU，以及至少一个由CPU或GPU处理的程序，程序被执行时可实现上述基于迁移学习的分子对接方法。

在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于迁移学习的分子对接方法，其特征在于，包括：

获取多个对接样本的3维空间坐标、范德华半径和原子类型；

根据对接样本的原子类型划分通道数，并根据3维空间坐标及范德华半径计算每个格点上对应的值，得到多通道3维网格数据；

将所述多通道3维网格数据输入到网络架构中，输出每个对接样本的分值，并根据分值对对接样本进行归类，以此训练出对接模型，

其中，对于第一次训练出来的对接模型用于不同家族的迁移学习上，针对多个对接样本不同的家族训练出不同的对接模型。

2.根据权利要求1所述的基于迁移学习的分子对接方法，其特征在于，所述网络架构包括数据输入层、特征提取层和评分器。

3.根据权利要求2所述的基于迁移学习的分子对接方法，其特征在于，所述特征提取层包括多个池化层、多个卷积层、多个多卷积模块、多个多路复合卷积模块和全连接层。

4.根据权利要求3所述的基于迁移学习的分子对接方法，其特征在于，所述数据输入层连接到池化层，所述评分器连接到全连接层。

5.根据权利要求3或4所述的基于迁移学习的分子对接方法，其特征在于，所述多路复合卷积模块包括3层，每层包括一个归一化层、一个3x3x3卷积操作层和一个线性单元层。

6.根据权利要求5所述的基于迁移学习的分子对接方法，其特征在于，所述评分器还生成反馈信号，用于在训练期间对一个或多个所述池化层、多卷积模块、多路复合卷积模块和全连接层施加监督信号，从而通过将所述监督信号反向传输到串接的多卷积模块和池化层，或者串接的多卷积模块、池化层和多路复合卷积模块，调整深度特征提取层中的神经权重。

7.根据权利要求1所述的基于迁移学习的分子对接方法，其特征在于，其中，针对家族数目不同的情况，采用不同的迁移学习参数，以及调整不同的特征提取层。

8.根据权利要求7所述的基于迁移学习的分子对接方法，其特征在于，所述迁移学习参数包括学习率、学习率递减幅度和训练次数。

9.根据权利要求8所述的基于迁移学习的分子对接方法，其特征在于，所述调整不同的特征提取层包括：

在家族数目稀少的样本中，通过调整少量的卷积层，以防过度迁移。

10.一种基于迁移学习的分子对接系统，其特征在于，包括1个CPU和至少1个GPU，以及至少一个由CPU或GPU处理的程序，所述程序被执行时实现根据权利要求1-9中任一项所述的基于迁移学习的分子对接方法。