CN106777986B

CN106777986B - 药物筛选中基于深度哈希的配体分子指纹生成方法

Info

Publication number: CN106777986B
Application number: CN201611178270.7A
Authority: CN
Inventors: 吴建盛; 尹新宇; 胡海峰
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2016-12-19
Filing date: 2016-12-19
Publication date: 2019-05-21
Anticipated expiration: 2036-12-19
Also published as: CN106777986A

Abstract

本发明公开了一种药物筛选中基于深度哈希的配体分子指纹生成方法，首先生成分子结构式图像文件，然后定义配体分子对的配对标记，训练DPSH深度哈希学习模型，最后预测新配体分子的分子指纹。本发明将配体分子结构式转换成图像文件，利用深度哈希算法，优化目标损失函数，自动生成分子指纹。本发明将实现第一个“端到端”的分子指纹生成框架，无需手工提取特征，解决了分子指纹生成方法需要开发者对领域知识有较深了解的难题。本发明从全新的角度提供分子指纹生成的通用框架，为现有分子指纹生成方法的重要补充，将会推动分子指纹在药物筛选中更广泛的应用。

Description

药物筛选中基于深度哈希的配体分子指纹生成方法

技术领域

本发明涉及一种药物筛选中基于深度哈希的配体分子指纹生成设计方法，属于计算机辅助药物设计的技术领域。

背景技术

分子指纹(Molecular Fingerprint)将化学分子表示成“位串”(bit string)，用于刻画化学分子的结构或功能相似性，由于其使用的简便性以及在子结构和相似性搜索中的高效性，在药物发现和虚拟筛选中得到了广泛应用。

目前，已经提出了很多的分子指纹生成方法，不同的方法反映了分子不同方面的信息。分子指纹生成方法主要包括：基于关键子结构的分子指纹生成方法、基于路径的分子指纹生成方法、环形指纹生成方法、药效团指纹生成方法和混合指纹生成方法等。基于关键子结构的分子指纹生成方法根据是否存在给定列表中的子结构将化学分子表示成位串，如MACCS、PubChem等。基于路径的分子指纹生成方法根据分子的拓扑结构，顺着分子化学键的不同路径产生子结构，并哈希产生分子位串，其长度可变，可用于快速子结构搜索，如Daylight指纹和OpenEye树形指纹。环形指纹生成方法利用分子的拓扑结构，考虑每个原子的周边原子和键的信息生成位串，已为广泛应用于分子的整体结构相似性搜索，如Molprint2D、ECFP、FCFP等。药效团指纹生成方法，它与基于关键子结构的指纹相似，但它除了考虑与药效相关的关键子结构，还考虑了这些子结构间的距离因素。混合指纹生成方法同时结合上述多种分子指纹信息，如UNITY 2G同时考虑了关键子结构和子结构连接路径信息。除了上述分子指纹生成方法，最近还有不少全新的方法涌现。例如，LINGO为基于文本的分子指纹工具，PLIF分子指纹生成方法主要考虑蛋白质-配体相互作用信息，包括氢键、离子键等，SIFt分子指纹生成方法主要考虑分子结构间的相互作用信息。

现有的分子指纹生成方法依赖于开发者的手工特征提取，这对开发者提出了很高的要求，开发者需要对领域知识有很深的了解。同时发现分子结构式的可视化显示是了解分子性质最直观的方式，可以将其结构图转化成图像格式，使用成熟的图像处理技术来生成分子指纹。深度哈希将特征自动生成和哈希编码学习通过深度学习框架结合到一起，凭借其强大的特征学习能力和标记监督信息，迅速超越了基于手工设计特征的传统哈希方法。

发明内容

本发明的目的在于解决传统分子指纹技术需要开发者对领域知识有较深了解，技术门槛较高的难题。本发明将分子结构式转换成图像文件，采用DPSH深度哈希算法自动学习分子指纹。本发明从全新的角度设计第一个“端到端”的分子指纹生成框架，开发者无需手工设计特征，模型将自动生成分子指纹。

为达到上述目的，本发明的技术方案为一种药物筛选中基于深度哈希的配体分子指纹生成设计方法，包括如下步骤：

步骤1：生成分子结构式图像文件；

步骤2：定义配体分子对的配对标记；

步骤3：训练DPSH深度哈希学习模型；

步骤4：预测新配体分子的分子指纹。

进一步，步骤1通过现有分子软件读取配体分子SMILES，并调用软件中的构图函数，生成固定尺寸为300*300像素的配体分子结构式图像文件，用于表示配体分子的结构特征。

如果两配体分子与共同的药物靶标作用，则两分子之间的配对标记为1；若两分子分别与不同的药物靶标作用，则两分子之间的配对标记为0，DPSH深度哈希分子指纹生成模型的目的在于：配对标记为1的两个配体分子，通过模型生成的分子指纹尽可能相似；配对标记为0的两分子，其分子指纹之间差距较大。

步骤3将步骤1得到的配体分子结构式图像进行预处理，转换成像素大小为224*224的图像形式，并结合步骤2生成的配对标记，一同输入DPSH深度哈希学习模型，提取配体分子结构深层次的特征，进行配体分子指纹自动编码，更新网络参数。

步骤4中当要预测新的配体分子的哈希指纹时，只需将配体分子的结构式图像输入DPSH深度哈希学习模型处理，就能在输出端得到指定长度的指纹向量。

本发明的有益效果：

1、本发明提出的方法将实现第一个“端到端”、自动的分子指纹生成框架，开发者无需手工设计特征，解决了“开发者需要对领域知识有较深的了解”的难题。

2、本发明从一个全新的角度来生成分子指纹，将捕获不同的分子信息，可作为现有分子指纹生成方法的重要补充，也将推动分子指纹在药物发现和虚拟筛选中更广泛的应用。

附图说明

图1为本发明基于深度哈希的分子指纹生成系统的架构图。

图2为本发明基于深度哈希的分子指纹生成方法流程图。

具体实施方式

下面结合附图和实例对本发明做进一步的说明。

本发明提出的方法只需要输入分子结构式文件，它将被转换成图像文件，利用DPSH深度哈希算法，通过优化目标损失函数来自动生成最优的分子指纹。本发明提出的方法将实现第一个“端到端”的分子指纹生成框架，开发者无需手工设计特征，解决了“开发者需要对领域知识有较深的了解”的难题。本发明从一个全新的角度来提供分子指纹生成的通用框架，可以作为现有的分子指纹生成方法重要的补充，也将推动分子指纹在药物发现和虚拟筛选中更广泛的应用。

本发明主要包含两部分内容：分子的图像文件生成和分子指纹自动生成。

分子的图像文件生成：结构式是用元素符号和短线表示化合物(或单质)分子中原子的排列和结合方式的式子，是一简单描述分子式的方法。本发明通过现有的软件，例如RDkit，将分子结构式转换成图像格式的文件。

分子指纹自动生成：上面得到的图像作为DPSH深度哈希模型的输入，通过优化目标损失函数来生成最优的分子指纹。

方法流程：

步骤1：将配体化学分子式(SMILES格式)输入RDkit工具，转换为300*300像素的图像；

步骤2：定义配体分子对的配对标记(pairwise label)。如果两个配体分子与同一个药物靶标作用，则这两个配体分子的配对标记为1，否则为0；

步骤3：训练DPSH深度哈希学习模型。将配体分子对的两个配体分子的图像文件(由步骤1产生)和配对标记作为DPSH深度哈希模型的输入，训练DPSH深度哈希学习模型，使得相似的配体分子的哈希码(配体标记为1)尽量相似，不同的配体分子的哈希码(配体标记为0)尽量不同；

步骤4：应用训练好的DPSH深度哈希模型，预测新的配体分子的分子指纹。

本发明的具体实施步骤，如图2所示，包括：

1、配体分子图像文件生成

已知与疾病相关、具有特定药效功能的药物靶标和与之作用的配体分子(SMILES格式)。SMILES(Simplified molecular input line entry specification)，简化分子线性输入规范，是一种用字符串明确描述分子结构的规范。SMILES用一串字符来描述一个三维化学结构，SMILES字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。

调用RDkit中的Draw.MolToFile函数，可根据配体分子SMILES产生结构式图像，大小为300*300像素。

2、基于DPSH深度学习模型的配体分子指纹自动生成

2.1、定义属性

如果两配体分子与共同的药物靶标作用，则两配体分子之间的配对标记为1；若两配体分子分别与不同的药物靶标作用，则两配体分子之间的配对标记为0。指纹生成模型的目的在于：配对标记为1的两个配体分子，生成的分子指纹尽可能相似；配对标记为0的两配体分子，其分子指纹之间差距较大。

2.2、建模与训练

在这个步骤中，本发明将特征学习和目标函数学习两部分融合到统一的框架之中。图1为哈希指纹生成的完整模型。模型的特征学习部分采用预训练过的卷积神经网络VGG-F，如图1所示，上下两个卷积神经网络具有相同的结构并且权值共享。这意味着：系统的输入和损失函数的计算是基于成对的配体分子结构式图像。

2.2.1、特征学习部分

将步骤1中得到的分子结构式图像使用Matlab预处理，转换成224*224像素的图像形式，输入卷积神经网络，经过卷积、池化、激活等处理，在全连接层输出固定长度(4096维)的特征向量。

2.2.2、目标函数学习部分

在步骤3中，DPSH深度哈希学习模型提出一个函数将特征学习部分和目标函数部分结合到统一框架。如下所示：

公式(1)中，θ代表神经网络中所有层的参数；表示第i个分子结构式图片输入卷积神经网络产生的向量；W为一个4096*n维的权重矩阵，将全连接层输出的4096维向量转化为长度为n的分子指纹编码；v代表偏移向量。

现已知每个配体分子的指纹编码u_i，以及配体分子对之间的配对标记s_ij，根据步骤2提出的目标：配对标记为1的两个分子通过编码后的指纹之间的汉明距离尽可能小；配对标记为0的两分子编码指纹的汉明距离大。构造如下函数：

其中

Ω_ij是两编码的点乘，即对应位相乘再相加，代表指纹编码之间的汉明距离；σ是一个限制函数，使输出值在0,1范围之间，且单调递增。当两分子配对标记为1时，Ω_ij值较大，σ值较大；两分子配对标记为0时，σ值较小，则1-σ值越大。结果使p(s_ij|U)在两种不同的相似性条件下总能得到较大值。于是DPSH深度哈希学习模型使用的损失函数为：

式中即利用已知的样本分布，找到最大概率导致这种分布的参数值。由于log函数单调递增，因而log p(s_ij|U)会达到最大值，因此添加负号之后，最大化p(s_ij|U)等价于最小化J。

2.2.3、优化损失函数

本发明中DPSH深度学习模型采用mini-batch方法对损失函数(3)进行优化求导，如下所示：

式中对于其他三个参数W，v，使用后向传播(BP)算法，对J求导进行更新。BP算法实质是求取误差函数的最小值，把误差信号按原来传播的通路反向传回，并对每个隐层的各个神经元的权系数进行修改，使得误差信号趋向最小。公式如下：

2.2.4、使用模型进行预测

当特征学习部分和目标函数学习部分参数全部优化结束，基于DPSH深度哈希的分子指纹生成模型便构建完成。预测某一配体分子的哈希指纹，只需要将分子结构式图像输入模型进行处理，输出端就得到指定长度的指纹向量。

本发明提出的方法将实现第一个“端到端”、自动的分子指纹生成框架。大部分传统分子指纹生成方法依赖于开发者的手工特征提取，这意味着，生成准确的分子指纹，需要开发者对分子特征领域的相关信息有很深的了解。本发明使用较为成熟的卷积神经网络技术，提取分子结构内部深层次的特征信息，比手工设计的特征更加全面和准确。因此开发者无需手工设计特征，解决了“开发者需要对领域知识有较深的了解”的难题。

本发明从一个全新的角度即以输入分子结构式图像，来生成分子指纹。这是传统指纹生成方法所不具备，这种方法将捕获更多不同的分子的结构信息，既可作为现有分子指纹生成方法的重要补充，也将推动分子指纹在药物发现和虚拟筛选中更广泛的应用。基于DPSH深度哈希方法生成的指纹，可用于海量分子数据库中的快速近似搜索，大大降低了药物设计前期工作的成本与时间。

Claims

1.一种药物筛选中基于深度哈希的配体分子指纹生成设计方法，其特征在于，所述方法包括如下步骤：

步骤1：生成分子结构式图像文件；

步骤2：定义配体分子对的配对标记，即如果两配体分子与共同的药物靶标作用，则两分子之间的配对标记为1；若两分子分别与不同的药物靶标作用，则两分子之间的配对标记为0，

步骤3：训练DPSH深度哈希学习模型，包括：将配体分子对的两个配体分子的图像文件和配对标记作为DPSH深度哈希模型的输入，提取配体分子对的两个配体分子的图像文件和配对标记作为DPSH深度哈希学习模型，包括：将配体分子对的两个配体分子的图像文件和配对标记作为DPSH深度哈希模型的输入，提取配体分子结构深层次的特征，进行配体分子指纹自动编码，更新网络参数，训练DPSH深度哈希学习模型，使得配对标记为1的两个配体分子，通过模型生成的分子指纹尽可能相似；配对标记为0的两分子，其分子指纹之间差距较大；

步骤4：预测新配体分子的分子指纹。

2.根据权利要求1所述的一种药物筛选中基于深度哈希的配体分子指纹生成设计方法，其特征在于，步骤1通过现有分子软件读取配体分子SMILES，并调用软件中的构图函数，生成固定尺寸为300*300像素的配体分子结构式图像文件，用于表示配体分子的结构特征。

3.根据权利要求1所述的一种药物筛选中基于深度哈希的配体分子指纹生成设计方法，其特征在于，步骤3将步骤1得到的配体分子结构式图像进行预处理，转换成像素大小为224*224的图像形式，并结合步骤2生成的配对标记，一同输入DPSH深度哈希学习模型，提取配体分子结构深层次的特征，进行配体分子指纹自动编码，更新网络参数。

4.根据权利要求1所述的一种药物筛选中基于深度哈希的配体分子指纹生成设计方法，其特征在于，步骤4中当要预测新的配体分子的哈希指纹时，只需将配体分子的结构式图像输入DPSH深度哈希学习模型处理，就能在输出端得到指定长度的指纹向量。