CN107526939B - 一种快速小分子结构对齐方法 - Google Patents
一种快速小分子结构对齐方法 Download PDFInfo
- Publication number
- CN107526939B CN107526939B CN201710519939.2A CN201710519939A CN107526939B CN 107526939 B CN107526939 B CN 107526939B CN 201710519939 A CN201710519939 A CN 201710519939A CN 107526939 B CN107526939 B CN 107526939B
- Authority
- CN
- China
- Prior art keywords
- matrix
- alignment information
- small molecule
- obtaining
- greedy algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C10/00—Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Chemical & Material Sciences (AREA)
- Image Analysis (AREA)
- Exposure And Positioning Against Photoresist Photosensitive Materials (AREA)
Abstract
本发明公开了一种快速小分子结构对齐方法,读取待对齐的两个小分子结构对象,提取所有原子的三维坐标与类型;根据原子类型提取对应的相对原子质量;通过计算所有来自不同小分子的原子对之间的相对原子质量差值,得到初始得分矩阵,使用贪心算法在该初始得分矩阵上求得初始化的对齐信息;在已知的对齐信息下,计算已对齐原子坐标之间的旋转平移矩阵,使用该矩阵叠加两个小分子的三维结构,使得两个小分子在三维空间中尽可能重叠,再通过一个基于三维坐标的打分函数得到一个新的得分矩阵,然后使用贪心算法搜索该得分矩阵得到新的对齐信息,来更新旧的对齐信息;重复上一步直至对齐信息无法更新或达到重复的上限次数,最终的对齐信息就是所求得的解。
Description
技术领域
本发明涉及生物信息学及药物发现领域,具体地说,是一种快速小分子结构对齐方法。
背景技术
小分子在生命活动中是屡见不鲜的,它广泛存在于大量的生命体中。小分子通常作为大分子(如蛋白质)的配体且与大分子之间产生相互作用,这种交互作用通常表现为小分子绑定大分子中的某些特定的位置,使得它们可以共同协作为生命活动提供特定的功能。除此之外,药物往往都是以小分子形式存在的,评价药物小分子之间的相似性对于药物发现有着至关重要的指导作用。因此,想要彻底弄清楚生命活动的过程,尤其是有关小分子与大分子之间的相互作用的细节,以及加快药物发现与设计过程,精确度量两个小分子之间的相似性就显得至关重要。
然而,现有的两个小分子之间相似性度量方法大多是通过计算两个分子的指纹信息之间的Tanimoto Coefficient参数,这种评价方法丢失了大量的结构信息,并不能准确的度量两个小分子之间的相似性。近些年来,基于结构的小分子相似性度量策略受到了广泛关注,如LIGSIFT(Roy,Ambrish,and Jeffrey Skolnick."LIGSIFT:an open-sourcetool for ligand structural alignment and virtual screening."Bioinformatics31.4(2015):539-544.)。但是,它们大多主要依赖分子形状的相似性,丢失了小分子原子之间的对齐信息,使得分子相似性度量并不能很好的反应分子之间化学信息的相似性,从而不能很好的辅助药物设计。
尽管基于指纹信息与形状结构的相似性度量方法可以给出一定精度,但该项研究任务还远远没有结束。
发明内容
为了解决上述已存在的小分子相似性度量方法中由于缺失原子的对齐信息而导致的相似信息的并不精确的缺点,本发明的目的在于提出一种快速小分子结构对齐方法来提供更多的相似性信息。
实现本发明目的所采用的技术方案为:
一种快速小分子结构对齐方法,包括以下步骤:
步骤1:读入两个待对齐的小分子结构对象,分别记作A与B;
步骤2:从上述两个待对齐的小分子对象A与B中提取出所有对应原子的三维坐标信息以及原子类型信息;
步骤3:通过查找元素周期表中原子类型对应的相对原子质量,获得两个小分子(A和B)中所有原子的相对原子质量;
步骤4:由公式(1)求得上述待比较小分子对象A与B之间的基于相对原子质量差值的初始化得分矩阵,记作Sinit:
其中,mi表示小分子A中的第i个原子的相对原子质量,mj表示小分子B中的第j个原子的相对原子质量,Sinit(i,j)表示矩阵Sinit中的第i行第j列中的值;
步骤5:使用贪心算法在步骤4中得到的初始化得分矩阵Sinit上搜索一个初始化对齐信息,其中矩阵Sinit中的任意一行或一列至多只能有一个元素被贪心算法选中,且贪心算法每次都会选择Sinit中可选元素中的最大值;
步骤6:根据步骤5中得到的初始化对齐信息,使用Kabsch算法计算已对齐原子坐标之间的旋转平移矩阵,使用该旋转平移矩阵叠加两个小分子A与B的三维结构,使得A与B在三维坐标空间中尽可能的重叠,再通过公式(2)给出的一个基于三维坐标的打分函数得到一个新的得分矩阵Snew,然后使用贪心算法搜索该得分矩阵并得到新的对齐信息,用来更新旧的对齐信息;
其中,dij表示小分子A中的第i个原子与小分子B中的第j个原子之间经过旋转平移后的欧式距离,d0为一个如公式(3)所示的尺度函数,Snew(i,j)表示矩阵Snew中的第i行第j列中的值;
其中,Nmin表示小分子A与小分子B原子数目之间的较小值,a、b以及c是三个调节参数;以及
步骤7:使用步骤6更新的对齐信息替换步骤5中的初始化对齐信息,然后重复步骤6,这一过程一直重复直至无法更新对齐信息或达到重复的上限次数,最终的对齐信息即所求得解,且最终被贪心算法选中的对应的元素的总和为该对齐信息的得分,记作sfinal,使用公式(4)来评价两个待对齐小分子之间的相似性,记作similar;
其中,Nmax表示小分子A与小分子B原子数目之间的较大值。
进一步,在上述步骤6中,矩阵Snew中的任意一行或一列至多只能有一个元素被贪心算法选中,且贪心算法每次都会选择Snew可选元素中的最大值。
进一步,在上述步骤1至步骤7中,所有原子的三维坐标均为三维笛卡尔坐标。
本发明的技术构思为:将小分子结构中的原子作为相似性比较的最小单元,通过比较两两原子之间的相似性,构建小分子之间的得分矩阵,使用贪心算法搜索对应的原子对齐信息,并根据该原子之间的对齐信息,给出两个小分子之间的相似性度量。
本发明的有益效果在于:提高小分子结构相似性度量的准确性,给出了小分子中原子的对齐信息,为药物发现以及小分子功能发现提供了更多的帮助信息。
附图说明
图1为本发明一种快速小分子结构对齐方法的示意图。
具体实施方式
本发明提出的一种快速小分子结构对齐方法不仅可以很大程度的提升小分子之间相似性度量的准确性,而且提供了小分子中原子的对齐信息,该信息可以给药物设计提供了更多的帮助。
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
图1给出了本发明的预测方法系统结构示意图。结合图1所示,根据本发明的实施例,一种快速小分子结构对齐方法,包括了以下步骤:
首先,读取待对齐的两个小分子结构对象,从中提取所有原子的三维坐标与类型;根据原子类型提取对应的相对原子质量;通过计算所有来自不同小分子的原子对之间的相对原子质量差值,得到初始得分矩阵,进而使用贪心算法在该初始得分矩阵上求得初始化的对齐信息;在已知的对齐信息下,计算已对齐原子坐标之间的旋转平移矩阵,使用该矩阵叠加两个小分子的三维结构,使得两个小分子在三维空间中尽可能的重叠,再通过一个基于三维坐标的打分函数得到一个新的得分矩阵,然后使用贪心算法搜索该得分矩阵得到新的对齐信息,来更新旧的对齐信息;重复上一步骤直至对齐信息无法更新或达到重复的上限次数,最终的对齐信息就是所求得的解。
下面将结合附图所示,更加具体地描述前述过程。
步骤1:读入两个待对齐的小分子结构对象,分别记作A与B;
步骤2:从上述两个待对齐的小分子对象A与B中提取出所有对应原子的三维坐标信息以及原子类型信息;
步骤3:通过查找元素周期表中原子类型对应的相对原子质量,获得两个小分子(A和B)中所有原子的相对原子质量;
步骤4:由公式(1)求得上述待比较小分子对象A与B之间的基于相对原子质量差值的初始化得分矩阵,记作Sinit:
其中,mi表示小分子A中的第i个原子的相对原子质量,mj表示小分子B中的第j个原子的相对原子质量,Sinit(i,j)表示矩阵Sinit中的第i行第j列中的值;
步骤5:使用贪心算法在步骤4中得到的初始化得分矩阵Sinit上搜索一个初始化对齐信息,其中矩阵Sinit中的任意一行或一列至多只能有一个元素被贪心算法选中,且贪心算法每次都会选择Sinit中可选元素中的最大值;
步骤6:根据步骤5中得到的初始化对齐信息,使用Kabsch算法计算已对齐原子坐标之间的旋转平移矩阵,使用该旋转平移矩阵叠加两个小分子A与B的三维结构,使得A与B在三维坐标空间中尽可能的重叠,再通过公式(2)给出的一个基于三维坐标的打分函数得到一个新的得分矩阵Snew,然后使用贪心算法搜索该得分矩阵并得到新的对齐信息,用来更新旧的对齐信息;
其中,dij表示小分子A中的第i个原子与小分子B中的第j个原子之间经过旋转平移后的欧式距离,d0为一个如公式(3)所示的尺度函数,Snew(i,j)表示矩阵Snew中的第i行第j列中的值;
其中,Nmin表示小分子A与小分子B原子数目之间的较小值,a、b以及c是三个调节参数;以及
步骤7:使用步骤6更新的对齐信息替换步骤5中的初始化对齐信息,然后重复步骤6,这一过程一直重复直至无法更新对齐信息或达到重复的上限次数,最终的对齐信息即所求得解,且最终被贪心算法选中的对应的元素的总和为该对齐信息的得分,记作sfinal,使用公式(4)来评价两个待对齐小分子之间的相似性,记作similar;
其中,Nmax表示小分子A与小分子B原子数目之间的较大值。
综上所述,本方法可以有效的提供小分子的原子对齐信息,使得最终的小分子对齐信息以及相似性度量包含了更多的有用信息。
Claims (3)
1.一种快速小分子结构对齐方法,其特征在于包括以下步骤:
步骤1:读入两个待对齐的小分子结构对象,分别记作A与B;
步骤2:从上述两个待对齐的小分子对象A与B中提取出所有对应原子的三维坐标信息以及原子类型信息;
步骤3:通过查找元素周期表中原子类型对应的相对原子质量,获得两个小分子A和B中所有原子的相对原子质量;
步骤4:由公式(1)求得上述待比较小分子对象A与B之间的基于相对原子质量差值的初始化得分矩阵,记作Sinit:
其中,mi表示小分子A中的第i个原子的相对原子质量,mj表示小分子B中的第j个原子的相对原子质量,Sinit(i,j)表示矩阵Sinit中的第i行第j列中的值;
步骤5:使用贪心算法在步骤4中得到的初始化得分矩阵Sinit上搜索一个初始化对齐信息,其中矩阵Sinit中的任意一行或一列至多只能有一个元素被贪心算法选中,且贪心算法每次都会选择Sinit中可选元素中的最大值;
步骤6:根据步骤5中得到的初始化对齐信息,使用Kabsch算法计算已对齐原子坐标之间的旋转平移矩阵,使用该旋转平移矩阵叠加两个小分子A与B的三维结构,使得A与B在三维坐标空间中尽可能的重叠,再通过公式(2)给出的一个基于三维坐标的打分函数得到一个新的得分矩阵Snew,然后使用贪心算法搜索该得分矩阵并得到新的对齐信息,用来更新旧的对齐信息;
其中,dij表示小分子A中的第i个原子与小分子B中的第j个原子之间经过旋转平移后的欧式距离,d0为一个如公式(3)所示的尺度函数,Snew(i,j)表示矩阵Snew中的第i行第j列中的值;
其中,Nmin表示小分子A与小分子B原子数目之间的较小值,a、b以及c是三个调节参数;以及
步骤7:使用步骤6更新的对齐信息替换步骤5中的初始化对齐信息,然后重复步骤6,这一过程一直重复直至无法更新对齐信息或达到重复的上限次数,最终的对齐信息即所求得解,且最终被贪心算法选中的对应的元素的总和为该对齐信息的得分,记作sfinal,使用公式(4)来评价两个待对齐小分子之间的相似性,记作similar;
其中,Nmax表示小分子A与小分子B原子数目之间的较大值。
2.根据权利要求1所述的快速小分子结构对齐方法,其特征在于:所述步骤6中,矩阵Snew中的任意一行或一列至多只能有一个元素被贪心算法选中,且贪心算法每次都会选择Snew可选元素中的最大值。
3.根据权利要求1所述的快速小分子结构对齐方法,其特征在于:原子的三维坐标均为三维笛卡尔坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710519939.2A CN107526939B (zh) | 2017-06-30 | 2017-06-30 | 一种快速小分子结构对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710519939.2A CN107526939B (zh) | 2017-06-30 | 2017-06-30 | 一种快速小分子结构对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107526939A CN107526939A (zh) | 2017-12-29 |
CN107526939B true CN107526939B (zh) | 2020-10-16 |
Family
ID=60748885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710519939.2A Active CN107526939B (zh) | 2017-06-30 | 2017-06-30 | 一种快速小分子结构对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107526939B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334748A (zh) * | 2018-01-16 | 2018-07-27 | 华中科技大学 | 一种rna结构比对方法 |
CN111402966B (zh) * | 2020-03-06 | 2022-08-19 | 华东师范大学 | 一种基于小分子三维结构描述小分子片段属性的指纹设计方法 |
CN112289371A (zh) * | 2020-09-23 | 2021-01-29 | 北京望石智慧科技有限公司 | 蛋白质与小分子样本生成及结合能、结合构象预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1670754A (zh) * | 2004-07-09 | 2005-09-21 | 清华大学 | 基于平均场退火技术的蛋白质的立体结构比对方法 |
WO2006055680A2 (en) * | 2004-11-18 | 2006-05-26 | California Institute Of Technology | Method for determining three-dimensional protein structure from primary protein sequence |
WO2010005925A9 (en) * | 2008-07-11 | 2010-03-04 | University Of Northern Iowa Research Foundation | Method and system for generating protein sequence alignments |
CN104951669A (zh) * | 2015-06-08 | 2015-09-30 | 浙江工业大学 | 一种用于蛋白质结构预测的距离谱构建方法 |
CN104978498A (zh) * | 2015-04-16 | 2015-10-14 | 上海大学 | 生物分子网络拓扑结构比对的自适应方法 |
CN105229699A (zh) * | 2013-03-28 | 2016-01-06 | 外密景专家公司 | 基于医学图像评估血管网络的计算机实施的方法及其用途 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110257889A1 (en) * | 2010-02-24 | 2011-10-20 | Pacific Biosciences Of California, Inc. | Sequence assembly and consensus sequence determination |
-
2017
- 2017-06-30 CN CN201710519939.2A patent/CN107526939B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1670754A (zh) * | 2004-07-09 | 2005-09-21 | 清华大学 | 基于平均场退火技术的蛋白质的立体结构比对方法 |
WO2006055680A2 (en) * | 2004-11-18 | 2006-05-26 | California Institute Of Technology | Method for determining three-dimensional protein structure from primary protein sequence |
WO2010005925A9 (en) * | 2008-07-11 | 2010-03-04 | University Of Northern Iowa Research Foundation | Method and system for generating protein sequence alignments |
CN105229699A (zh) * | 2013-03-28 | 2016-01-06 | 外密景专家公司 | 基于医学图像评估血管网络的计算机实施的方法及其用途 |
CN104978498A (zh) * | 2015-04-16 | 2015-10-14 | 上海大学 | 生物分子网络拓扑结构比对的自适应方法 |
CN104951669A (zh) * | 2015-06-08 | 2015-09-30 | 浙江工业大学 | 一种用于蛋白质结构预测的距离谱构建方法 |
Non-Patent Citations (2)
Title |
---|
Non-sequential Protein Structure Alignment Based on Variable Length AFPs Using the Maximal Clique;Xingmei Liu 等;《2016 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)》;20170119;全文 * |
基于曲线匹配的蛋白质结构比对方法;周翠岭;《中国优秀硕士学位论文全文数据库 基础科学辑》;20140430;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107526939A (zh) | 2017-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kramer et al. | Leave-cluster-out cross-validation is appropriate for scoring functions derived from diverse protein data sets | |
CN107526939B (zh) | 一种快速小分子结构对齐方法 | |
Birzele et al. | Vorolign—fast structural alignment using Voronoi contacts | |
Hoksza et al. | Efficient RNA pairwise structure comparison by SETTER method | |
Chen et al. | MimoPro: a more efficient Web-based tool for epitope prediction using phage display libraries | |
Zok et al. | MCQ4Structures to compute similarity of molecule structures | |
Gao et al. | TideHunter: efficient and sensitive tandem repeat detection from noisy long-reads using seed-and-chain | |
He et al. | Full-length de novo protein structure determination from cryo-EM maps using deep learning | |
Guyon et al. | Fast protein fragment similarity scoring using a binet–cauchy kernel | |
Fox et al. | Using de novo protein structure predictions to measure the quality of very large multiple sequence alignments | |
Peng et al. | Re-alignment of the unmapped reads with base quality score | |
Marić et al. | Graphmap2-splice-aware RNA-seq mapper for long reads | |
Sun et al. | Epitope prediction based on random peptide library screening: benchmark dataset and prediction tools evaluation | |
CN109346125B (zh) | 一种快速精确的蛋白质绑定口袋结构对齐方法 | |
Sisay et al. | Structural interpretation of activity cliffs revealed by systematic analysis of structure− activity relationships in analog series | |
Kifer et al. | GOSSIP: a method for fast and accurate global alignment of protein structures | |
CN105260626B (zh) | 蛋白质结构空间构象的全信息预测方法 | |
Wang et al. | A local average distance descriptor for flexible protein structure comparison | |
Deorowicz et al. | Kalign-LCS—a more accurate and faster variant of Kalign2 algorithm for the multiple sequence alignment problem | |
Ruano-Rubio et al. | Artifactual phylogenies caused by correlated distribution of substitution rates among sites and lineages: the good, the bad, and the ugly | |
Le et al. | A novel graph-based similarity measure for 2D chemical structures | |
Hu et al. | A novel method for discovering local spatial clusters of genomic regions with functional relationships from DNA contact maps | |
Shibberu et al. | Fast protein structure alignment | |
Muhamad et al. | Reducing the search space and time complexity of needleman-wunsch algorithm (global alignment) and smith-waterman algorithm (local alignment) for dna sequence alignment | |
Wang et al. | Reconstruction of Protein Backbone with the alpha-Carbon Coordinates. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |