CN107526939B

CN107526939B - 一种快速小分子结构对齐方法

Info

Publication number: CN107526939B
Application number: CN201710519939.2A
Authority: CN
Inventors: 於东军; 胡俊; 刘子; 李阳
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2017-06-30
Filing date: 2017-06-30
Publication date: 2020-10-16
Anticipated expiration: 2037-06-30
Also published as: CN107526939A

Abstract

本发明公开了一种快速小分子结构对齐方法，读取待对齐的两个小分子结构对象，提取所有原子的三维坐标与类型；根据原子类型提取对应的相对原子质量；通过计算所有来自不同小分子的原子对之间的相对原子质量差值，得到初始得分矩阵，使用贪心算法在该初始得分矩阵上求得初始化的对齐信息；在已知的对齐信息下，计算已对齐原子坐标之间的旋转平移矩阵，使用该矩阵叠加两个小分子的三维结构，使得两个小分子在三维空间中尽可能重叠，再通过一个基于三维坐标的打分函数得到一个新的得分矩阵，然后使用贪心算法搜索该得分矩阵得到新的对齐信息，来更新旧的对齐信息；重复上一步直至对齐信息无法更新或达到重复的上限次数，最终的对齐信息就是所求得的解。

Description

一种快速小分子结构对齐方法

技术领域

本发明涉及生物信息学及药物发现领域，具体地说，是一种快速小分子结构对齐方法。

背景技术

小分子在生命活动中是屡见不鲜的，它广泛存在于大量的生命体中。小分子通常作为大分子(如蛋白质)的配体且与大分子之间产生相互作用，这种交互作用通常表现为小分子绑定大分子中的某些特定的位置，使得它们可以共同协作为生命活动提供特定的功能。除此之外，药物往往都是以小分子形式存在的，评价药物小分子之间的相似性对于药物发现有着至关重要的指导作用。因此，想要彻底弄清楚生命活动的过程，尤其是有关小分子与大分子之间的相互作用的细节，以及加快药物发现与设计过程，精确度量两个小分子之间的相似性就显得至关重要。

然而，现有的两个小分子之间相似性度量方法大多是通过计算两个分子的指纹信息之间的Tanimoto Coefficient参数，这种评价方法丢失了大量的结构信息，并不能准确的度量两个小分子之间的相似性。近些年来，基于结构的小分子相似性度量策略受到了广泛关注，如LIGSIFT(Roy,Ambrish,and Jeffrey Skolnick."LIGSIFT:an open-sourcetool for ligand structural alignment and virtual screening."Bioinformatics31.4(2015):539-544.)。但是，它们大多主要依赖分子形状的相似性，丢失了小分子原子之间的对齐信息，使得分子相似性度量并不能很好的反应分子之间化学信息的相似性，从而不能很好的辅助药物设计。

尽管基于指纹信息与形状结构的相似性度量方法可以给出一定精度，但该项研究任务还远远没有结束。

发明内容

为了解决上述已存在的小分子相似性度量方法中由于缺失原子的对齐信息而导致的相似信息的并不精确的缺点，本发明的目的在于提出一种快速小分子结构对齐方法来提供更多的相似性信息。

实现本发明目的所采用的技术方案为：

一种快速小分子结构对齐方法，包括以下步骤：

步骤1：读入两个待对齐的小分子结构对象，分别记作A与B；

步骤2：从上述两个待对齐的小分子对象A与B中提取出所有对应原子的三维坐标信息以及原子类型信息；

步骤3：通过查找元素周期表中原子类型对应的相对原子质量，获得两个小分子(A和B)中所有原子的相对原子质量；

步骤4：由公式(1)求得上述待比较小分子对象A与B之间的基于相对原子质量差值的初始化得分矩阵，记作S_init:

其中，m_i表示小分子A中的第i个原子的相对原子质量，m_j表示小分子B中的第j个原子的相对原子质量，S_init(i,j)表示矩阵S_init中的第i行第j列中的值；

步骤5：使用贪心算法在步骤4中得到的初始化得分矩阵S_init上搜索一个初始化对齐信息，其中矩阵S_init中的任意一行或一列至多只能有一个元素被贪心算法选中，且贪心算法每次都会选择S_init中可选元素中的最大值；

步骤6：根据步骤5中得到的初始化对齐信息，使用Kabsch算法计算已对齐原子坐标之间的旋转平移矩阵，使用该旋转平移矩阵叠加两个小分子A与B的三维结构，使得A与B在三维坐标空间中尽可能的重叠，再通过公式(2)给出的一个基于三维坐标的打分函数得到一个新的得分矩阵S_new，然后使用贪心算法搜索该得分矩阵并得到新的对齐信息，用来更新旧的对齐信息；

其中，d_ij表示小分子A中的第i个原子与小分子B中的第j个原子之间经过旋转平移后的欧式距离，d₀为一个如公式(3)所示的尺度函数，S_new(i,j)表示矩阵S_new中的第i行第j列中的值；

其中，N_min表示小分子A与小分子B原子数目之间的较小值，a、b以及c是三个调节参数；以及

步骤7：使用步骤6更新的对齐信息替换步骤5中的初始化对齐信息，然后重复步骤6，这一过程一直重复直至无法更新对齐信息或达到重复的上限次数，最终的对齐信息即所求得解，且最终被贪心算法选中的对应的元素的总和为该对齐信息的得分，记作s_final，使用公式(4)来评价两个待对齐小分子之间的相似性，记作similar；

其中，N_max表示小分子A与小分子B原子数目之间的较大值。

进一步，在上述步骤6中，矩阵S_new中的任意一行或一列至多只能有一个元素被贪心算法选中，且贪心算法每次都会选择S_new可选元素中的最大值。

进一步，在上述步骤1至步骤7中，所有原子的三维坐标均为三维笛卡尔坐标。

本发明的技术构思为：将小分子结构中的原子作为相似性比较的最小单元，通过比较两两原子之间的相似性，构建小分子之间的得分矩阵，使用贪心算法搜索对应的原子对齐信息，并根据该原子之间的对齐信息，给出两个小分子之间的相似性度量。

本发明的有益效果在于：提高小分子结构相似性度量的准确性,给出了小分子中原子的对齐信息，为药物发现以及小分子功能发现提供了更多的帮助信息。

附图说明

图1为本发明一种快速小分子结构对齐方法的示意图。

具体实施方式

本发明提出的一种快速小分子结构对齐方法不仅可以很大程度的提升小分子之间相似性度量的准确性，而且提供了小分子中原子的对齐信息，该信息可以给药物设计提供了更多的帮助。

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

图1给出了本发明的预测方法系统结构示意图。结合图1所示，根据本发明的实施例，一种快速小分子结构对齐方法，包括了以下步骤：

首先，读取待对齐的两个小分子结构对象，从中提取所有原子的三维坐标与类型；根据原子类型提取对应的相对原子质量；通过计算所有来自不同小分子的原子对之间的相对原子质量差值，得到初始得分矩阵，进而使用贪心算法在该初始得分矩阵上求得初始化的对齐信息；在已知的对齐信息下，计算已对齐原子坐标之间的旋转平移矩阵，使用该矩阵叠加两个小分子的三维结构，使得两个小分子在三维空间中尽可能的重叠，再通过一个基于三维坐标的打分函数得到一个新的得分矩阵，然后使用贪心算法搜索该得分矩阵得到新的对齐信息，来更新旧的对齐信息；重复上一步骤直至对齐信息无法更新或达到重复的上限次数，最终的对齐信息就是所求得的解。

下面将结合附图所示，更加具体地描述前述过程。

步骤1：读入两个待对齐的小分子结构对象，分别记作A与B；

其中，N_max表示小分子A与小分子B原子数目之间的较大值。

综上所述，本方法可以有效的提供小分子的原子对齐信息，使得最终的小分子对齐信息以及相似性度量包含了更多的有用信息。